Voici trois sujets de stage de M2 en TAL proposés par le laboratoire Lattice (Langues, Textes, Traitements Informatiques, Cognition, http://www.lattice.cnrs.fr, Montrouge, tout près de Paris) dans le cadre du projet ANR DEMOCRAT (description et modélisation des chaînes de référence : outils pour l'annotation de corpus et le traitement automatique) en collaboration avec les laboratoires LILPA (Strasbourg) et ICAR (Lyon) : 1. Identification automatique de mentions référentielles 2. Analyse en corpus de chaînes de référence 3. Continuité référentielle et saillance : étude et modélisation La durée est de 4 à 6 mois, à partir de février ou mars 2016, et la rémunération au tarif stage de 554 euros mensuels. Merci deme contacter pour plus d'informations et pour candidater (CV + lettre de motivation) : mailto:frederic.landragin@ens.fr Cordialement, Frédéric Landragin. http://www.lattice.cnrs.fr/Frederic-Landragin/ ________________________________________________________________________ 1. Identification automatique de mentions référentielles La reconnaissance des chaînes de coréférences dans les textes, c'est-à-dire des portions de textes qui réfèrent à une même entité, est une tâche importante du TAL. Elle a des incidences sur de nombreuses autres tâches, comme la recherche et l'extraction d'information, le résumé automatique, etc. Cette tâche a fait l'objet de nombreux challenges mais, faute de données de référence en français, ils portaient jusqu'à présent principalement sur des textes en anglais. L'an dernier, la diffusion du corpus ANCOR (ANaphore et Coréférence dans les Corpus ORaux), constituéd'un ensemble de transcriptions du français parlé annotées en coréférences, a permis de lancer des premières expériences sur le français. Elles ont donné lieu à un premier système, CROC (Coreference Resolution for Oral Corpus), entraîné par apprentissage automatique sur ANCOR (Désoyer at al. 2015). Mais ce système est encore rudimentaire : il fait l'hypothèse que les mentions d'entités ont été préalablement reconnues dans les textes et se contente donc de prédire leur regroupement en entités coréférentes. Pour enrichir et améliorer ce système, plusieurs travaux sont envisagés : - reconnaître automatiquement les mentions référentielles, qui coïncident plus ou moins avec les groupes nominaux, - identifier automatiquement les données nécessaires en entrée de CROC, - reprendre les expériences qui ont donné lieu à CROC pour essayer d'améliorer ses performances. La méthodologie employée fera dans tous les cas appel à de l'apprentissage automatique supervisé (méthodes de classification ou d'annotation). Le stage sera co-encadré par Frédéric Landragin, Isabelle Tellier (isabelle.tellier@univ-paris3.fr) et Marco Dinarelli (marco.dinarelli@ens.fr). Compétences requises : - stage de niveau M2 en informatique ou en ingénierie linguistique ou école d'ingénieur, - compétences en informatique : programmation, langage de script, manipulation de corpus, - intérêt pour le traitement automatique des langues, - des compétences en apprentissage automatique seraient un plus. Références : Désoyer A, Landragin F, Tellier I, Lefeuvre A, Antoine J-Y, "Les coréférences à l'oral : une expérience d'apprentissage automatique sur le corpus ANCOR", Traitement Automatique des Langues (TAL) 55(2), http://www.atala.org/-Volume-55-, 2014. Landragin F, Schnedecker C (Eds.) "Les chaînes de référence", Langages 195, numéro de septembre 2014. Lefeuvre A, Antoine J-Y, Schang E, "Le corpus ANCOR_Centre et son outil de requêtage : application à l'étude de l'accord en genre et en nombre dans les coréférences et anaphores en français parlé", Actes 4éme Congrès Mondial de Linguistique Française (CMLF 2014), 2014. ________________________________________________________________________ 2. Analyse en corpus de chaînes de référence Une fois annotées en corpus, les chaînes de référenceconstituent des ensembles de mentions - désignant le même objet ou le même personnage humain - couvrant potentiellement toute la longueur du texte. Elles se distinguent ainsi d'autres objets linguistiques plus locaux : quand on tente de caractériser une chaîne de référence, on doit tenir compte non seulement des types de mentions qu'elle regroupe, mais aussi de sa tendance à être présente dans tout le texte ou seulement dans quelques passages. Une analyse rationnelle des chaînes de références implique donc, en plus des classiques décomptes et calculs de fréquences, des calculs statistiques plus complexes. Le but de ce stage est de mettre en place et de tester une méthodologie d'analyse numérique des chaînes de référence. Plusieurs travaux sont envisagés : - analyser deux corpus déjà annotés en chaînes de référence, - écrire des scripts pour calculer à partir des données annotées un ensemble d'indicateurs numériques (en partant d'une spécification et d'une revue de travaux en statistique textuelle), - annoter un corpus de test et mettre à l'épreuve la méthodologie proposée. Compétences requises : - stage de niveau M2 en informatique ou en ingénierie linguistique ou école d'ingénieur, - compétences en informatique : programmation, langage de script, manipulation de corpus, - intérêt pour le traitement automatique des langues, - des compétences en statistique seraient un plus. Références : Landragin F, "Anaphores et coréférences : analyse assistéepar ordinateur", In: Fossard M, Béguelin M-J, Nouvelles perspectives sur l'anaphore. Points de vue linguistique, psycholinguistique et acquisitionnel, Peter Lang, Berne, 2014. Landragin F, Tanguy N. & Charolles M, "Références aux personnages dans L'occupation des sols : apport de la linguistique outillée", Revue Sciences/Lettres 3, http://rsl.revues.org/816, 2015. ________________________________________________________________________ 3. Continuité référentielle et saillance : étude et modélisation Lorsque plusieurs phrases consécutives d'un texte parlent d'un même référent, par exemple un personnage humain, celui-ci en devient saillant : il occulte l'attention du lecteur, ce qui a pour conséquence d'en faire un candidat idéal à l'interprétation de pronoms tels que "il". Définie ainsi, la notion de saillance est en lien direct avec la continuité référentielle, c'est-à-dire la "domination" d'une chaîne de référence sur l'ensemble des chaînes présentes dans le texte (une chaîne par personnage mentionné). Le but de ce stage est d'explorer ce lien et de proposer un modèle de la saillance tourné vers les références à des humains dans des textes narratifs tels que des nouvelles de Maupassant. Pour ce faire, la méthodologie employée sera celle de la linguistique de corpus. Plusieurs travaux sont envisagés : - expérimenter diverses propositions de schémas d'annotation combinant saillance et chaînes de référence, - annoter un corpus regroupant plusieurs nouvelles de taille comparable, - utiliser des outils d'interrogation de corpus et écrire des scripts pour extraire des annotations réalisées des observations qualitatives et quantitatives. Compétences requises : - stage de niveau M2 en linguistique ou ingénierie linguistique, - compétences en linguistique : (co)référence, linguistique du discours, - des compétences en informatique (manipulation de corpus, langage de script) seraient un plus. Références : Landragin F, Schnedecker C (Eds.) "Les chaînes de référence", Langages 195, numéro de septembre 2014. Boisseau M., Hamm A. (Eds.) "Saillance. La saillance en langue et en discours, Volume 2", Annales Littéraires de l'Université de Franche-Comté n° 940, 2015.