*Repérage automatique des usages des lexies en corpus, appliqué aux
lexies verbales du français*

_*Contexte:*_

Le stage se situe dans la problématique de repérage des usages en
corpus.  Une première approche, linguistique, des usages associe à
chaque sens un ou des schémas lexico-syntaxiques, selon différents
modèles (par exemple FrameNet) et cherche à les décrire
manuellement. Mais cette approche se heurte aux limitations des
approches manuelles et notamment le temps prohibitif de développement
des ressources. Une autre approche, computationnelle, issue de
l'hypothèse distributionnelle (Harris, 1954; Firth,1957), se base sur la
répétition des séquences (n-grams avec fenêtre variable) pour extraire
les différentes séquences signifiantes, d'une part, et en déduire des
regroupements d'emplois en utilisant des métriques diversifiées. Les
métriques permettant de classer les répétitions sont nombreuses (Ramish,
2015). A partir de l'hypothèse distributionnelle initiale, les
chercheurs ont proposé un certain nombre d'alternatives au simple calcul
de séquences répétées, afin de repérer différents phénomènes
linguistiques liés au sens des lexies (Turney et Pantel, 2010; Baroni et
al., 2010 ; Clark, 2015). Il existe un certain nombre d'outils et de
platefomes développant ces calculs (Dissect, SemanticVectors, Word2vec,
SketchEngine, R...).

_*Sujet du stage:*_

Le stage portera sur la problématique de l'usage et de son repérage
automatique sur corpus, en limitant l'étude à une centaine de lexies
verbales du français.

L'objectif du stage est :

- de maîtriser la littérature TAL issue de l'hypothèse
  distributionnelle;

- d'utiliser les outils existants pour effectuer des calculs de n-grams
  sur gros corpus du français, au niveau des formes, des informations
  morphosyntaxiques, syntaxiques et d'une combinaison de ces
  informations;

- tester différentes mesures permettant d'affiner le comptage brut ;

- aboutir, pour les cent lexies données, à des "usages" ;

- de proposer différentes solutions afin d'améliorer l'existant et
  d'approcher du modèle plus linguistique de schéma
  syntactico-sémantique.


Lieu : LIPN équipe RCLN, CNRS UMR 7130, Université Paris 13

Encadrants: E. Cartier (Univ. Paris 13, LIPN-RCLN)


_*Profil du candidat:*_

- Master 2 TAL ou école d'ingénieur en informatique ou TAL

- bonnes compétences en programmation et en manipulation d'outils de
  TAL, notamment numériques (outils de la linguistique de corpus,
  mesures de similarité...)

- bonnes compétences en linguistique générale

Durée du stage : 6 mois, à partir de mars 2015

Rémunération réglementaire


Les candidatures doivent être envoyées par mail à

emmanuel.cartier@lipn.univ-paris13.fr avant le 15 février 2015.

Merci d'envoyer un dossier contenant un cv, une lettre de motivation +
autre(s) document(s) si jugé pertinent.


_*Bibliographie indicative :*_

Baroni, M., and Lenci A. (2010) "Distributional Memory: A General
Framework for Corpus-Based Semantics," /Computational Linguistics/, 36-4
(2010), 50

Clark S. (2015) "Vector Space Models of Lexical Meaning", To appear in
Wiley-Blackwell /Handbook of Contemporary Semantics - second edition/,
edited by Shalom Lappin and Chris Fox

Firth, J. R. (1957). A synopsis of linguistic theory 1930-1955. In
/Studies in Linguistic Analysis/, pp. 1-32. Blackwell, Oxford.

Harris, Z. 1954. Distributional structure. /Word/, 10(2-3):1456-1162.

Kilgarriff, A., Rychly, P., Smrz, P., and Tugwell, D. (2004) The Sketch
Engine. In: Williams G. and S. Vessier (eds.), /Proceedings of the XI
Euralex International Congress/, July 6-10, 2004, Lorient, France, pp.
105-111.

Ramisch C. (2015), "Multiword Expressions Acquisition: A Generic and
Open Framework", /Theory and Applications of Natural Language
Processing/series XIV, Springer, ISBN 978-3-319-09206-5, 230 p., 2015.

Turney P. and Pantel P. (2010) "From Frequency to Meaning: Vector Space
Models of Semantics". /Journal of Artificial Intelligence Research
(JAIR)/, 37(1):141-188. AI Access Foundation.