================================================ == A LA CROISEE DE LA COREFERENCE ET DES EXPRESSIONS POLYLEXICALES == ================================================ Proposition de sujet de stage master (ou licence) * Domaines : traitement automatique des langues, linguistique de corpus * Localisation : Université d'Orléans (laboratoire LIFO) et/ou Université de Tours (Campus de Blois, laboratoire LIFAT) * Equipes de recherche : CA (Contraintes et Apprentissage) du LIFO ; BdTln (Bases de Données et Traitement du langage naturel) du LIFAT * Encadrants: * Anaïs LEFEUVRE-HALFTERMEYER, maître de conférences * Agata SAVARY, maître de conférences * Jean-Yves ANTOINE, professeur des universités * Financement : projet ANR PARSEME-FR * Durée : 3-5 mois * Rémunération : 606 ¤ / mois environ (5% du plafond de la sécurité sociale) * Envoi de dossiers : *7 février 2021* ============== Motivation and context Ce stage sera dédié à l'analyse linguistique et traitement automatique des expressions polylexicales (EP), des termes complexes composés de plusieurs mots tels que /blanc d'oeuf/, /mémoire vive/, /prendre une pause/, /prendre le temps/, /tourner sa veste/ ou /prendre le taureau par les cornes/, etc. Les EP présentent des comportements linguistiques irréguliers et notamment la non-compositionnalité sémantique qui signifie que le sens global de l'expression n'est pas déductible de manière régulière à partir des sens des composants et des liens syntaxiques qui les relient. Par exemple /couper l'herbe sous le pied de quelqu'un/ signifie `empêcher quelqu'un de réussir', ce qui a relativement peu de liens explicites avec les sens des mots /couper/, /herbe/, /pied/, etc. Cette propriété signifie donc que les sens les composants d'une EP contribuent peu, voire pas du tout, au sens de l'expression entière. Du fait de ces spécificités, certaines constructions linguistiques qui sont attendues ordinairement avec des expressions sémantiquement compositionnelles peuvent être bloquées ou rares pour des expressions non-compositionnelles telles que les EPs. Dans le cadre de ce stage, nous allons précisément nous intéresser à un type de construction linguistique particulier : la coréférence. La coréférence est un procédé linguistique dans lequel plusieurs éléments d'un discours réfèrent à un élément du discours. Considérons l'énoncé suivant : /Il a retourné sa veste et l'a suspendue dans l'armoire/ Ici le groupe nominal /la veste/ est ce que l'on appelle une mention, c'est à dire un élément qui réfère d'une entité du monde du discours (la veste qui appartient à la personne décrite dans l'énoncé). De même, le pronom /l'/ est lui-même une mention qui réfère à cette même entité du discours. On dit alors que /sa veste/ et/l'/ sont coréférents, c'est-à-dire qu'ils désignent la même entité. Dans l'exemple précédent, la coréférence entre le pronom et sa veste n'est possible que parce que nous ne sommes pas en présence de l'expression polylexicale /retourner sa veste/ 'changer d'opinion'. Si la phrase /il a retourné sa veste/ avait été une EP, la non-compositionnalité de celle-ci aurait empêché de rendre le composant /sa veste/ accessible à une coréférence. C'est ce type de restriction que nous proposons d'étudier au cours de ce stage. Ces restrictions ne sont toutefois pas systématiques. Des travaux linguistiques se sont intéressés aux liens entre la non-compositionnalité sémantique et la coréférence (Nunberg et al. 1994 ; Moon 1998 ; Laporte 2018). Par exemple Nunberg et al. (1994) et Moon (1998) citent des exemples d'ellipses impliquant des pronoms coréférents comme: /I was worried that /*/beans/*/might be *spilled* but _they_ weren't.// // Mr Lawsonwas *swimming with that tide*. Mrs Thatcher is swimming against _it_.// // If there is *_ice_*, Mr Clintonis *breaking* _it_ with a visit to the Canadian capital on February 23rd and 24th./ mais constatent que ce sont des exemples isolés. Laporte (2018) propose même que les restrictions sur les chaînes référentielles soient considérées commes critères définitoires des expressions polylexicales. Par exemple une expression compositionnelle accepterait une coréférence du type: /Kathy avait une _posture fière_. _Cette posture_ a été commentée./ alors qu'une expression non-compositionnelle l'interdirait : /*Kathy était *en mauvaise posture*. _Cette posture_ aurait pu être évitée./ L'hypothèse est donc que les composants individuels d'une expression polylexicale sont rarement susceptibles d'appartenir à des chaînes de coréférences: /Il a *pris le taureau par les cornes*. *_Elles_ étaient pointues./ L'objectif de ce stage est une vérification expérimentale de cette hypothèse sur un corpus. ========= Réalisations attendues Les étapes attendues du stages sont les suivantes: * prise en main des ressources et outils linguistique pour la modélisation et traitement automatique des expressions polylexicales et de la coréférence * corpus PARSEME d'expressions polylexicales verbales (Savary et al. 2018) * corpus PARSEME-FR d'expression polylexicales et entités nommées (Candito et al. à paraître) * corpus ANCOR annoté en coréférences (Muzerelle et al. 2014) * outils d'identification automatique d'expressions polylexicales (Ramisch et al. 2020) * outils d'identification de mentions et de résolution de coréférences (Grobol 2019) * extraction automatique, dans un grand corpus de français, des occurrences d'expressions polylexicales donc composants internes rentreraient potentiellement dans des chaînes de coréférences * analyse d'occurrences extraites * selon le profil du candidat : cette analyse aura pour but soit la caractérisation linguistique des occurrences extraites, soit évolution de l'architecture d'un système de résolution de coréférences pour la prise en compte d'expressions polylexicales ======== Profil attendu des candidats * étudiant en master 2 ou 1 en traitement automatique des langues ou informatique (avec intérêt pour les données langagières), ou éventuellement licence 3 en informatique * bonnes compétences en programmation (e.g. Python) * compétence en analyse de corpus linguistiques ou en développement d'outil de traitement automatique des langues * disponibilité pour des réunions occasionnelles en présentiel à Orléans et Blois ======== Calendrier * Envoi de dossiers : 7 février 2021 * Éventuelles auditions : 10-12 février 2021 * Stage: entre fin février et juillet 2021 ======== Candidatures Les candidatures doivent contenir un CV, une lettre de motivation et un relevé de notes des 2 dernières années d'études. Merci de les adresser à : Agata Savary, Jean-Yves Antoine Anais Halftermeyer ======== Bibliographie * Baldwin, T. and Kim, S. N. (2010) Multiword Expressions, in Nitin Indurkhya and Fred J. Damerau (eds.) Handbook of Natural Language Processing, Second Edition, CRC Press, Boca Raton, USA, pp. 267-292. * Marie Candito, Mathieu Constant, Carlos Ramisch,, Agata Savary, Bruno Guillaume, Yannick Parmentier, Silvio Ricardo Cordeiro (à paraître) A French corpus annotated for multiword expressions and named entities, à paraître dans Journal of Language Modelling. * Mathieu Constant, Gülsen Eryigit, Johanna Monti, Lonneke van der Plas, Carlos Ramisch, Michael Rosner, Amalia Todirascu, Multiword Expression Processing: A Survey, Computational Linguistics, Volume 43, Issue 4. * Loïc Grobol (2019) Neural Coreference Resolution with Limited Lexical Context and Explicit Mention Detection for Oral French. Second Workshop on Computational Models of Reference, Anaphora and Coreference (CRAC19), Jun 2019, Minneapolis, United States. (hal-02151569v2) * Eric Laporte (2018) Choosing features for classifying multiword expressions, in Manfred Saile, Stella Markantonatou (eds.) Multiword expressions: Insights from a multi-lingual perspective, Language Science Press, Berlin, pp. 143--186. * Rosamund Moon (1998): Fixed expressions and idioms in English: A corpus-based approach. Oxford/New York: Clarendon Press. * Muzerelle J., Lefeuvre A., Schang E., Antoine J.-Y., Pelletier A., Maurel D., Eshkol I., Villaneau J. (2014) ANCOR_Centre, a Large Free Spoken French Coreference Corpus: Description of the Resource and Reliability Measures. Proc. LREC'2014, 843-847. Reykjavik, Islande. * Geoffrey Nunberg, Ivan Sag and Thomas Wasow (1994) Idioms, in Language 70: 491-538. * Carlos Ramisch, Agata Savary, Bruno Guillaume, Jakub Waszczuk, Marie Candito, Ashwini Vaidya, Verginica Barbu Mititelu, Archna Bhatia, Uxoa Iñurrieta, Voula Giouli, Tunga Güngör, Menghan Jiang, Timm Lichte, Chaya Liebeskind, Johanna * Monti, Sara Stymne, Abigail Walsh, Renata Ramisch, Hongzhi Xu (2020) Edition 1.2 of the PARSEME Shared Task on Semi-supervised Identification of Verbal Multiword Expressions, in the Proceedings of the Joint Workshop on Multiword Expressions and Electronic Lexicons (MWE-LEX 2020), 13 December 2020, Barcelona, Spain (online). * Agata Savary, Marie Candito, Verginica Barbu Mititelu, Eduard Bejcek, Fabienne Cap, Slavomir Céplö, Silvio Ricardo Cordeiro, Gülsen Eryigit, Voula Giouli, Maarten van Gompel, Yaakov HaCohen-Kerner, Jolanta Kovalevskaite, Simon Krek, Chaya Liebeskind, Johanna Monti, Carla Parra Escartín, Lonneke van der Plas, Behrang QasemiZadeh, Carlos Ramisch, Federico Sangati, Ivelina Stoyanova, Veronika Vincze (2018) PARSEME multilingual corpus of verbal multiword expressions, in Stella Markantonatou, Carlos Ramisch, Agata Savary, Veronika Vincze (Eds.) "Multiword expressions at length and in depth: Extended papers from the MWE 2017 workshop", Language Science Press, Berlin, pp. 87-147.