Stage: annotation syntaxique de Frantext Lieu: ATILF, Nancy Durée: 4 à 6 mois Gratification réglementaire Encadrement: Mathieu Constant, Christophe Benzitoun En collaboration avec l'équipe Ressources de l'ATILF Contexte: Frantext est une base de données textuelles incluant plus de 5000 références (soit près de 300 millions de mots) s'échelonnant du Xe au XXIe siècle (avec une majorité de textes en français moderne). Cette base est hébergée, maintenue et enrichie à l'ATILF. Elle dispose d'un moteur de requêtes qui permet de faire des recherches fines dans ce corpus. Avec l'objectif de permettre d'affiner encore plus ces requêtes, l'ATILF s'est lancé dans une vaste campagne d'annotation linguistique de la base textuelle, en commençant par l'étiquetage morphosyntaxique et la lemmatisation. La prochaine étape est l'annotation syntaxique. L'analyse syntaxique automatique de Frantext fait face à de nombreuses difficultés. Tout d'abord, Frantext n'appartient pas au même domaine/genre que les jeux de données traditionnellement utilisés pour l'entraînement des analyseurs existants, ce qui cause des divergences lexicales et syntaxiques. Par ailleurs, la tokenisation est différente, ce qui est un obstacle important pour prédire la bonne structure syntaxique. Bien que l'on ne considère que les textes en français moderne (à partir de 1850), l'évolution lexicale et syntaxique doit être prise en compte. Enfin, Frantext n'a pas de section déjà annotée et manuellement validée ce qui est problématique pour l'évaluation. L'objectif principal du stage est d'explorer différentes techniques d'adaptation et de combinaison d'analyseurs pour annoter automatiquement Frantext en syntaxe de dépendance, en utilisant des analyseurs existants entraînés principalement sur des corpus journalistiques. Le résultat attendu est une chaîne de traitement permettant de réaliser une analyse syntaxique automatique de qualité. Travail à effectuer Le stage se divisera en plusieurs tâches: - lire les références bibliographiques sur les techniques d'adaptation au domaine - ex. utilisation de représentation abstraite des mots (Seddah et al., 2014) - et sur les techniques de combinaison d'analyseurs - ex. reparsing (Sagae et Lavie 2006), reranking (Charniak et Johnson 2005), tri-learning à la Weiss et al (2015) ; - se familiariser avec des analyseurs en constituants et en dépendances existants, à entraîner sur le French Treebank (Abeille et al. 2003), le Sequoia (Candito et Seddah 2012) et/ou Question Bank (Seddah et Candito 2016) ; - construire et évaluer de manière incrémentale la chaîne de traitement en commençant par les analyseurs de base ; - éventuellement, participer à la campagne d'annotation pour construire rapidement un petit corpus d'évaluation. Profil du candidat - Formation: Master 2 traitement automatique des langues (ou équivalent) en priorité, mais la liste n'est pas fermée ; - Compétences: langages de script (python, perl), développement de chaînes de traitement, connaissance des méthodes d'analyse syntaxique en dépendances (optionnel). Procédure de candidature: Les candidatures doivent être envoyées par mail à Mathieu.Constant@univ-lorraine.fr. Le dossier de candidature contiendra un CV, une lettre de motivation, et, éventuellement, la recommandation d'un enseignant. Date limite de candidature : 15 janvier 2018 (ou jusqu'à ce ce que le poste soit pourvu). Références: Anne Abeillé, Lionel Clément, François Toussenel. Building a Treebank for French, pages 165-187. Springer Netherlands, Dordrecht, 2003. Eugene Charniak, Mark Johnson. Coarse-to-fine n-best parsing and maxent discriminative reranking. In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, ACL '05, pages 173-180, Stroudsburg, PA, USA, 2005. Association for Computational Linguistics. Marie Candito and Djamé Seddah. Le corpus sequoia : annotation syntaxique et exploitation pour l'adaptation d'analyseur par pont lexical (the sequoia corpus : Syntactic annotation and use for a parser lexical domain adaptation method) [in french]. In Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN, pages 321-334, Grenoble, France, June 2012. ATALA/AFCP. Djamé Seddah and Marie Candito. Hard time parsing questions: Building a QuestionBank for French. In Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Paris, France, may 2016. European Language Resources Association (ELRA). Djam Seddah, Marie Candito, and Enrique Henestroza Anguiano. A word clustering approach to domain adaptation: Robust parsing of source and target domains. J. Log. Comput., 24(2):395-411, 2014. Kenji Sagae and Alon Lavie. Parser combination by reparsing. In Proceedings of the Human Language Technology Conference of the NAACL, Companion Volume: Short Papers, NAACL-Short '06, pages 129-132, Stroudsburg, PA, USA, 2006. Association for Computational Linguistics. David Weiss, Chris Alberti, Michael Collins, and Slav Petrov. Structured training for neural network transition-based parsing. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, ACL 2015, July 26-31, 2015, Beijing, China, Volume 1: Long Papers, pages 323-333, 2015.