Annotation automatique en noms de lieux d'un corpus de récits de vie de migrants Mots clés Informatique, TAL, entité nommée spatiale, nom de lieu, apprentissage automatique Contexte Ce stage s'intègre au projet Matriciel : "Lieux des migrants à travers des récits de vie : perceptions, émotions, mots, cartes". Le Réseau aquitain pour l'histoire et la mémoire de l'immigration (RAHMI) dispose d'un corpus sonore de nombreux récits de vie de migrants arrivés en Aquitaine à des époques différentes. Les récits des Espagnols arrivés au moment de la guerre civile, et ceux des Portugais venus en France pour travailler à partir de la fin des années 50, ont été regroupés en deux corpus. Ces entretiens ont été transcrits et l'objectif est de fournir des outils automatiques pour aider à leur analyse. Dans cette analyse, l'accent est mis sur l'articulation entre le singulier (le récit d'un ou quelques individus) et le commun (un lieu, éventuellement associé à un événement, qui a concerné un ou plusieurs groupes de population), et la mise en évidence d'éventuels régularités dans les corpus et contrastes entre les corpus, dans les lieux, les événements, les conditions d'intégration. Pour cela, un des objectifs du projet Matriciel est de segmenter le texte sous forme d'épisodes. Les résultats seront ensuite restitués dans un format cartographique qui permettra de présenter sous forme synoptique les épisodes dispersés dans les différents récits. L'analyse s'attache au texte des récits de vie pour y identifier les lieux et les perceptions associées. Le lieu est ici compris dans un sens large : le lieu désigné par un toponyme répertorié dans un dictionnaire de toponymes (le plus souvent un nom propre, par exemple France) mais aussi celui désigné par un nom générique, éventuellement précisé par un nom propre et qui permet par exemple d'évoquer les lieux d'arrivée, de transit, d'asile ; le type d'habitation : la maison, l'appartement, le meublé, le garni, etc. ; les noms donnés aux lieux de résidence : le quartier, la cité, etc. La perception associée est, pour le moment, vue comme une polarité (deux valeurs : positive ou négative) qu'il faut attacher à un lieu ou à un segment de texte. Sujet Le sujet du stage est d'avancer dans l'identification automatique des désignations des lieux dans les récits transcrits, ainsi que des sentiments associées à ces lieux. Une première tâche (Brando et al. 2016) dans ce sens a été fondée sur l'apprentissage supervisé à l'aide de l'outil Stanford Named Entity Recognition (approche fondée sur les champs aléatoires conditionnels ou CRF) . Des modèles pour cet outil ont été entrainés à partir de corpus annotés traitant de thématiques diverses. Les résultats ont été mesurés à l'aide des mesures de rappel, précision et F-mesure. L'objectif du stage est d'améliorer ces résultats. Pour cela, deux pistes sont envisagées qui conduiront le stagiaire à implémenter deux types d'expérimentation (il est souhaité que l'ensemble des outils développés au cours de ce stage soit intégré à l'environnement GATE ) : - dans l'identification des lieux : le modèle d'apprentissage pourrait être amélioré grâce à la personnalisation et la meilleure utilisation des différents paramètres de l'apprentissage : étiquettes grammaticales, largeur de la fenêtre d'observation, prise en compte des variantes orthographiques ; - dans l'identification des sentiments : des outils fondés sur la syntaxe ont été conçus pour l'anglais (Andreevskaia & Bergler 2007 ; Ozdemir & Bergler 2015) afin d'identifier automatiquement des termes à prendre en compte pour définir la polarité de segments de textes. Ces outils seront testés et adaptés pour le français. Compétences particulières et formation requise Ce stage s'adresse aux étudiants de master 2 ou de 3ème année d'école d'ingénieurs avec une spécialisation en informatique (avec un intérêt réel pour le TAL) ou en TAL (avec une compréhension approfondie du point de vue informatique des outils de TAL). Lieu du stage Institut national de l'information géographique et forestière 73 avenue de Paris 94165 Saint-Mandé Cedex métro : Saint-Mandé - ligne 1 ou RER A - Vincennes Durée et rémunération durée : 5 à 6 mois début : mars 2017 rémunération : environ 550 euros mensuels Prolongements éventuels Le COGIT propose chaque année des sujets de thèse ainsi que des stages de post-doctorant. Un projet de l'université Concordia à Montréal sur la thématique de la représentation cartographique des récits de vie de migrants a débuté en 2016. Encadrement du stage Catherine Dominguès IGN/DRE/LaSTIG/COGIT, 73 avenue de Paris, 94165 Saint-Mandé Cedex mél : catherine.domingues@ign.fr Carmen Brando EHESS, 190-198 Avenue de France, 75013 Paris mél : carmen.brando@ehess.fr Sabine Bergler Concordia University, 1455 de Maisonneuve Blvd., Montreal, Canada mél : bergler@cse.concordia.ca Pour candidater Le dossier de candidature sera envoyé par mail à Catherine Dominguès. Il devra se composer d'un curriculum vitae et d'une lettre de motivation, accompagnés des relevés de notes des années de M1 et M2 (ou deux dernières années d'école d'ingénieurs) et d'une description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu). Références Andreevskaia A., Bergler S. (2007) CLaC and CLaC-NB: Knowledge-based and corpus-based approaches to sentiment tagging, In: Proceedings of SemEval-2007: 4th International Workshop on Semantic Evaluations at ACL 2007, Prague http://www.aclweb.org/anthology/S/S07/S07-1022.pdf Brando C., Dominguès C., Capeyron M. (2016) Evaluation of NER systems for the recognition of place mentions in French thematic corpora, In: Proceedings of the 10th Workshop on Geographic Information Retrieval (GIR '16). ACM, New York, NY, USA, article 7, 10 pages DOI: 10.1145/3003464.3003471 Ozdemir C., Bergler S. (2015) A Comparative Study of Different Sentiment Lexica for Sentiment Analysis of Tweets. In: Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2015), Hissar, Bulgaria https://www.aclweb.org/anthology/R/R15/R15-1064.pdf