Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des Contenus) a développé une plate-forme de traitement linguistique, LIMA, récemment mise en ligne avec une licence AGPL, https://github.com/aymara/lima. L'équipe propose un CDD de 2 ans pour développer des outils de constitution de ressources linguistiques à partir de corpus. Le poste est ouvert dès le début septembre 2014. Les traitements linguistiques de base s'appuient sur des ressources linguistiques (typiquement des dictionnaires de la langue, des documents annotés) produites le plus souvent manuellement. Ces ressources sont disponibles pour des langues des pays avancés et économiquement forts (en premier lieu l'anglais, le français, l'allemand, le chinois, le coréen, etc.). Pour les autres langues, dites peu dotées, on ne dispose pas de ces ressources et les produire manuellement est à la fois très coûteux, très long et nécessite l'intervention sur une longue période d'une personne qui maîtrise la grammaire et l'usage de cette langue. L'objectif des travaux est de développer des outils de constitution de ressources linguistiques (jeu d'étiquette morpho-syntaxique, dictionnaires morphologiques) en s'appuyant sur des techniques d'apprentissage non-supervisé ou peu supervisé. La qualité des ressources produites seront évaluées dans des tâches classique de traitements linguistiques (analyse morphologique, désambiguïsation morpho-syntaxique, extraction d'entités nommées) et jusqu'à la recherche d'information. À partir d'un corpus de texte ciblant une langue et un type de texte les outils visés doivent permettre de produire de façon économique le lexique intensionnel décrivant la langue du corpus. On exclut donc les méthodes purement manuelles. On s'appuiera au contraire sur les techniques d'apprentissages telles qu'elles ont été expérimentées dans les dans le cadre des workshops Morpho Challenge ou de programme de recherche de l'IARPA Babel. Le travail du CDD consistera plus particulièrement à : - étudier, implémenter et évaluer des outils de constitution de lexiques à partir de corpus pour produire des dictionnaires morphologique en plusieurs étapes: segmentation basée sur des analyses statistique des graphies des tokens, identification d'un jeu d'étiquette morpho-syntaxiques à partir des contextes d'usage, annotation automatique en mode non supervisé, définition de classes flexionnelles. - étudier et évaluer des techniques de nettoyage des dictionnaires produits; - évaluer les ressources linguistiques produites dans des tâches de base de traitements linguistiques (analyse morphologique, annotation 'POS', extraction d'entités nommées, recherche d'information) sur des langues dotées (français anglais, arabe). Profil recherché: - Connaissance des techniques d'apprentissage (méthode bayésiennes, SVM, CRF, clustering, représentation) - Compétences informatiques : C++, langages de script (perl, python ...) - Compétences ou intérêt pour le traitement automatique des langues La dominante du poste est le développement mais l'ingénieur/docteur recruté sera intégré dans une équipe de recherche. Rémunération selon formation et expérience. Lieu de travail : centre d'intégration NanoInnov (plateau de Saclay, proche de Polytechnique) Durée : 24 mois Les candidatures (CV + lettre de motivation) sont à envoyer à : Olivier Mesnard (olivier.mesnard_AT_cea.fr)