*Repérage automatique des usages des lexies en corpus, appliqué aux lexies verbales du français* _*Contexte:*_ Le stage se situe dans la problématique de repérage des usages en corpus. Une première approche, linguistique, des usages associe à chaque sens un ou des schémas lexico-syntaxiques, selon différents modèles (par exemple FrameNet) et cherche à les décrire manuellement. Mais cette approche se heurte aux limitations des approches manuelles et notamment le temps prohibitif de développement des ressources. Une autre approche, computationnelle, issue de l'hypothèse distributionnelle (Harris, 1954; Firth,1957), se base sur la répétition des séquences (n-grams avec fenêtre variable) pour extraire les différentes séquences signifiantes, d'une part, et en déduire des regroupements d'emplois en utilisant des métriques diversifiées. Les métriques permettant de classer les répétitions sont nombreuses (Ramish, 2015). A partir de l'hypothèse distributionnelle initiale, les chercheurs ont proposé un certain nombre d'alternatives au simple calcul de séquences répétées, afin de repérer différents phénomènes linguistiques liés au sens des lexies (Turney et Pantel, 2010; Baroni et al., 2010 ; Clark, 2015). Il existe un certain nombre d'outils et de platefomes développant ces calculs (Dissect, SemanticVectors, Word2vec, SketchEngine, R...). _*Sujet du stage:*_ Le stage portera sur la problématique de l'usage et de son repérage automatique sur corpus, en limitant l'étude à une centaine de lexies verbales du français. L'objectif du stage est : - de maîtriser la littérature TAL issue de l'hypothèse distributionnelle; - d'utiliser les outils existants pour effectuer des calculs de n-grams sur gros corpus du français, au niveau des formes, des informations morphosyntaxiques, syntaxiques et d'une combinaison de ces informations; - tester différentes mesures permettant d'affiner le comptage brut ; - aboutir, pour les cent lexies données, à des "usages" ; - de proposer différentes solutions afin d'améliorer l'existant et d'approcher du modèle plus linguistique de schéma syntactico-sémantique. Lieu : LIPN équipe RCLN, CNRS UMR 7130, Université Paris 13 Encadrants: E. Cartier (Univ. Paris 13, LIPN-RCLN) _*Profil du candidat:*_ - Master 2 TAL ou école d'ingénieur en informatique ou TAL - bonnes compétences en programmation et en manipulation d'outils de TAL, notamment numériques (outils de la linguistique de corpus, mesures de similarité...) - bonnes compétences en linguistique générale Durée du stage : 6 mois, à partir de mars 2015 Rémunération réglementaire Les candidatures doivent être envoyées par mail à emmanuel.cartier@lipn.univ-paris13.fr avant le 15 février 2015. Merci d'envoyer un dossier contenant un cv, une lettre de motivation + autre(s) document(s) si jugé pertinent. _*Bibliographie indicative :*_ Baroni, M., and Lenci A. (2010) "Distributional Memory: A General Framework for Corpus-Based Semantics," /Computational Linguistics/, 36-4 (2010), 50 Clark S. (2015) "Vector Space Models of Lexical Meaning", To appear in Wiley-Blackwell /Handbook of Contemporary Semantics - second edition/, edited by Shalom Lappin and Chris Fox Firth, J. R. (1957). A synopsis of linguistic theory 1930-1955. In /Studies in Linguistic Analysis/, pp. 1-32. Blackwell, Oxford. Harris, Z. 1954. Distributional structure. /Word/, 10(2-3):1456-1162. Kilgarriff, A., Rychly, P., Smrz, P., and Tugwell, D. (2004) The Sketch Engine. In: Williams G. and S. Vessier (eds.), /Proceedings of the XI Euralex International Congress/, July 6-10, 2004, Lorient, France, pp. 105-111. Ramisch C. (2015), "Multiword Expressions Acquisition: A Generic and Open Framework", /Theory and Applications of Natural Language Processing/series XIV, Springer, ISBN 978-3-319-09206-5, 230 p., 2015. Turney P. and Pantel P. (2010) "From Frequency to Meaning: Vector Space Models of Semantics". /Journal of Artificial Intelligence Research (JAIR)/, 37(1):141-188. AI Access Foundation.