Veuillez trouver ci-dessous plusieurs sujets de stages proposés par le laboratoire LATTICE. Pour postuler sur un des stages, merci d'envoyer un CV, un relevé de notes récent (de préférence M1) et une lettre de motivation (quelques éléments disant pourquoi vous postulez sur un stage donné dans le corps du mail suffisent) directement aux personnes indiquées comme contacts. Tous les stages commenceront début 2017 (entre février et avril 2017) : il est donc conseillé de postuler rapidement et en tout état de cause avant la fin décembre 2016. Les stages se dérouleront au laboratoire LATTICE, à Montrouge (à 5 mn à pied de la station de métro Mairie de Montrouge, sur la ligne 4). Cordialement, Thierry Poibeau ----- - Analyse et suivi de la présidentielle 2017 sur Twitter Le stage concerne la participation à un projet de suivi de l'actualité politique, essentiellement à travers le suivi de messages émis sur Twitter. Le stagiaire sera plus particulièrement en charge de l'analyse sémantique (en premier lieu à travers les entités nommées) du fil Twitter (a priori plutôt en français). Les données (tweets) seront fournies et le travail se concentrera sur les aspects linguistiques et informatiques. A plus long terme, on s'intéressera aux flux d'information entre médias sociaux et médias traditionnels. Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant les règles en vigueur Compétences en programmation (scripts) et en TAL nécessaires Contact : Clément Plancq (clement.plancq@ens.fr) et Isabelle Tellier (isabelle.tellier@sorbonne-nouvelle.fr) - Annotation d'un corpus de français médiéval au format « Universal Dependencies » Le corpus SRCMF (Syntactic Reference Corpus of Medieval French) est un corpus arboré en dépendances (Stein & Prevost 2013). Il contient des phrases annotées en parties du discours et analysées syntaxiquement, extraites de différents textes en français médiéval datant du 10ème au 13ème siècles. Des expériences d'apprentissage automatique ont commencé à être menées sur ce corpus pour étudier sa variabilité suivant différents critères (date d'écriture, domaine, dialecte, forme) : dans ces expériences, une partie du corpus servait de donnés d'apprentissage pour un étiqueteur POS et un parser, une autre partie servait de données de test (Guibon et al. 2014, 2015, 2016). L'objectif de ce stage est d'abord de transformer ce corpus au format désormais plus standard des « universal dependencies » (UD : http://universaldependencies.org/ ). Les distinctions prises en compte dans SRCMF sont en général plus fines que celles requises par les UD, la transformation ne devrait donc pas poser trop de difficultés. Le stage se poursuivra en reprenant les expériences d'apprentissage automatique sur ce nouveau format, pour mesurer son impact sur les résultats. Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant les règles en vigueur Compétences en programmation (scripts) et en TAL nécessaires contact : Isabelle Tellier (isabelle.tellier@sorbonne-nouvelle.fr) et Sophie Prévost (sophie.prevos@ens.fr) - Recherche de motifs pour la caractérisation de corpus Plusieurs outils de recherche de motifs (ou séquences) dans les textes par des méthodes non ou peu supervisées ont été mis au point ces dernières années. Leurs résultats sont souvent difficiles à évaluer car chaque outil fournit des résultats différents et surtout fournit une quantité de motifs en général extrêmement volumineuse. Le stage consistera à partir d'un de ces outils d'extraction de motifs, à l'appliquer à un ensemble de trois corpus différents (romans sentimentaux vs romans policiers vs romans contemporains classiques) pour essayer de proposer une méthodologie permettant d'extraire de la manière la plus automatique possible les caractéristiques des différents corpus (caractéristiques propres de chaque corpus, traits communs entre deux corpus, etc.). Le stage vise à faire des propositions allant dans le sens d'une stylistique appliquée. On pourra aussi, le cas échéant, s'intéresser à la représentation des données (cartographie du corpus, modélisation de liens de proximité entre genres textuels ou entre les différents romans considérés, etc.) Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant les règles en vigueur Compétences en programmation (scripts) et en TAL nécessaires Intérêt pour la stylistique et la littérature Contact : Frédérique Mélanie (frederique.melanie@ens.fr) et Thierry Poibeau (thierry.poibeau@ens.fr) - Analyse automatique de langues à morphologie riche (komi ou oudmourte) Le Lattice s'intéresse depuis de nombreuses années aux langues finno-ougriennes, pour lesquels peu d'outils automatiques sont disponibles à l'heure actuelle. C'est en particulier le cas de langues comme le komi ou l'oudmourte (votiak) parlées en Russie. On dispose actuellement de données relativement volumineuse pour ces langues, de dictionnaires mais il n'y a pas encore d'analyseurs automatiques (en particulier de taggeurs), mis à part des outils assez partiels à base de règles mises au point manuellement. Ces langues posent en outre des problèmes particuliers dans la mesure où leur morphologie est particulièrement riche. Le stage vise donc à développer un taggeur pour une de ces langues (komi ou oudmourte) en reprenant le logiciel SEM conçu au LATTICE pour l'analyse du français (Dupont et Tellier, http://apps.lattice.cnrs.fr/sem/). Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant les règles en vigueur Compétences en programmation (scripts) et en TAL nécessaires Connaissance d'une langue finno-ougrienne, si possible komi ou oudmourte Contact : Thierry Poibeau (thierry.poibeau@ens.fr) - Modélisation automatique de l'évolution des langues (et application aux langues finno-ougriennes) Le Lattice s'intéresse depuis de nombreuses années aux langues finno-ougriennes et plus récemment à la modélisation de l'évolution des langues et des relations entre langues au sein de la famille finno-ougrienne. Le stage consistera à utiliser des modèles connus, en particulier le modèle MDL (Minimum Description Length (Grünwald, 2007). On s'inspirera aussi de travaux récents dans le domaine comme ceux de Nouri et Yangarber ("Modeling language evolution with codes that utilize context and phonetic features", CoNLL 2016) et ceux du groupe Bedlan (http://kielievoluutio.uta.fi/doku.php?id=en:start ). Le stage vise à repartir des travaux mentionnés ci-dessus afin de proposer de nouveaux modes d'analyse et de visualisation des relations entre ces langues. Stage de 6 mois maximum, de niveau M2, conventionné et indemnisé suivant les règles en vigueur Compétences en programmation (scripts) et en TAL nécessaires Connaissance d'une langue finno-ougrienne Contact : Thierry Poibeau (thierry.poibeau@ens.fr) et Benjamin Fagard (benjamin.fagard@ens.fr)