Veuillez trouver ci-dessous plusieurs sujets de stages proposés par le
laboratoire LATTICE.
Pour postuler sur un des stages, merci d'envoyer un CV, un relevé de
notes récent (de préférence M1) et une lettre de motivation (quelques
éléments disant pourquoi vous postulez sur un stage donné dans le corps
du mail suffisent) directement aux personnes indiquées comme
contacts. Tous les stages commenceront début 2017 (entre février et
avril 2017) : il est donc conseillé de postuler rapidement et en tout
état de cause avant la fin décembre 2016.
Les stages se dérouleront au laboratoire LATTICE, à Montrouge (à 5 mn à
pied de la station de métro Mairie de Montrouge, sur la ligne 4).
Cordialement,
Thierry Poibeau
-----
- Analyse et suivi de la présidentielle 2017 sur Twitter
Le stage concerne la participation à un projet de suivi de l'actualité
politique, essentiellement à travers le suivi de messages émis sur
Twitter. Le stagiaire sera plus particulièrement en charge de l'analyse
sémantique (en premier lieu à travers les entités nommées) du fil
Twitter (a priori plutôt en français). Les données (tweets) seront
fournies et le travail se concentrera sur les aspects linguistiques et
informatiques. A plus long terme, on s'intéressera aux flux
d'information entre médias sociaux et médias traditionnels.
Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant
les règles en vigueur
Compétences en programmation (scripts) et en TAL nécessaires
Contact : Clément Plancq (clement.plancq@ens.fr) et Isabelle Tellier
(isabelle.tellier@sorbonne-nouvelle.fr)
- Annotation d'un corpus de français médiéval au format « Universal
Dependencies »
Le corpus SRCMF (Syntactic Reference Corpus of Medieval French) est un
corpus arboré en dépendances (Stein & Prevost 2013). Il contient des
phrases annotées en parties du discours et analysées syntaxiquement,
extraites de différents textes en français médiéval datant du 10ème au
13ème siècles. Des expériences d'apprentissage automatique ont commencé
à être menées sur ce corpus pour étudier sa variabilité suivant
différents critères (date d'écriture, domaine, dialecte, forme) : dans
ces expériences, une partie du corpus servait de donnés d'apprentissage
pour un étiqueteur POS et un parser, une autre partie servait de données
de test (Guibon et al. 2014, 2015, 2016). L'objectif de ce stage est
d'abord de transformer ce corpus au format désormais plus standard des «
universal dependencies » (UD : http://universaldependencies.org/
). Les distinctions prises en compte
dans SRCMF sont en général plus fines que celles requises par les UD, la
transformation ne devrait donc pas poser trop de difficultés. Le stage
se poursuivra en reprenant les expériences d'apprentissage automatique
sur ce nouveau format, pour mesurer son impact sur les résultats.
Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant
les règles en vigueur
Compétences en programmation (scripts) et en TAL nécessaires
contact : Isabelle Tellier (isabelle.tellier@sorbonne-nouvelle.fr) et
Sophie Prévost (sophie.prevos@ens.fr)
- Recherche de motifs pour la caractérisation de corpus
Plusieurs outils de recherche de motifs (ou séquences) dans les textes
par des méthodes non ou peu supervisées ont été mis au point ces
dernières années. Leurs résultats sont souvent difficiles à évaluer car
chaque outil fournit des résultats différents et surtout fournit une
quantité de motifs en général extrêmement volumineuse. Le stage
consistera à partir d'un de ces outils d'extraction de motifs, à
l'appliquer à un ensemble de trois corpus différents (romans
sentimentaux vs romans policiers vs romans contemporains classiques)
pour essayer de proposer une méthodologie permettant d'extraire de la
manière la plus automatique possible les caractéristiques des différents
corpus (caractéristiques propres de chaque corpus, traits communs entre
deux corpus, etc.). Le stage vise à faire des propositions allant dans
le sens d'une stylistique appliquée. On pourra aussi, le cas échéant,
s'intéresser à la représentation des données (cartographie du corpus,
modélisation de liens de proximité entre genres textuels ou entre les
différents romans considérés, etc.)
Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant
les règles en vigueur
Compétences en programmation (scripts) et en TAL nécessaires
Intérêt pour la stylistique et la littérature
Contact : Frédérique Mélanie (frederique.melanie@ens.fr) et Thierry
Poibeau (thierry.poibeau@ens.fr)
- Analyse automatique de langues à morphologie riche (komi ou oudmourte)
Le Lattice s'intéresse depuis de nombreuses années aux langues
finno-ougriennes, pour lesquels peu d'outils automatiques sont
disponibles à l'heure actuelle. C'est en particulier le cas de langues
comme le komi ou l'oudmourte (votiak) parlées en Russie. On dispose
actuellement de données relativement volumineuse pour ces langues, de
dictionnaires mais il n'y a pas encore d'analyseurs automatiques (en
particulier de taggeurs), mis à part des outils assez partiels à base de
règles mises au point manuellement. Ces langues posent en outre des
problèmes particuliers dans la mesure où leur morphologie est
particulièrement riche. Le stage vise donc à développer un taggeur pour
une de ces langues (komi ou oudmourte) en reprenant le logiciel SEM
conçu au LATTICE pour l'analyse du français (Dupont et Tellier,
http://apps.lattice.cnrs.fr/sem/).
Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant
les règles en vigueur
Compétences en programmation (scripts) et en TAL nécessaires
Connaissance d'une langue finno-ougrienne, si possible komi ou oudmourte
Contact : Thierry Poibeau (thierry.poibeau@ens.fr)
- Modélisation automatique de l'évolution des langues (et application
aux langues finno-ougriennes)
Le Lattice s'intéresse depuis de nombreuses années aux langues
finno-ougriennes et plus récemment à la modélisation de l'évolution des
langues et des relations entre langues au sein de la famille
finno-ougrienne. Le stage consistera à utiliser des modèles connus, en
particulier le modèle MDL (Minimum Description Length (Grünwald,
2007). On s'inspirera aussi de travaux récents dans le domaine comme
ceux de Nouri et Yangarber ("Modeling language evolution with codes that
utilize context and phonetic features", CoNLL 2016) et ceux du groupe
Bedlan (http://kielievoluutio.uta.fi/doku.php?id=en:start
). Le stage vise à
repartir des travaux mentionnés ci-dessus afin de proposer de nouveaux
modes d'analyse et de visualisation des relations entre ces langues.
Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant
les règles en vigueur
Compétences en programmation (scripts) et en TAL nécessaires
Connaissance d'une langue finno-ougrienne
Contact : Thierry Poibeau (thierry.poibeau@ens.fr) et Benjamin Fagard
(benjamin.fagard@ens.fr)