POST-DOCTORAT AU LIMSI-CNRS Nouvelles méthodes pour l'apprentissage de systèmes de reconnaissances d'entités nommées dans un contexte multilingue. Le développement de systèmes de traitement automatique des langues est gêné par l'absence de données annotées dans certaines langues. Une solution possible consiste à transposer les analyses disponibles dans une langue à des textes comparables dans une autre langue. Cela permet d'entraîner de nouveaux systèmes à l'aide de ces nouvelles annotations. Le projet proposé s'intéressera en particulier au cas des entités nommées dans un contexte où l'on dispose d'un corpus « comparable synchrone » (ou « parallèle bruité ») : des dépêches de l'AFP en français, anglais, espagnol (l'allemand, l'arabe et le portugais sont aussi disponibles). L'objectif est de profiter du parallélisme entre dépêches écrites dans plusieurs langues pour aider à la reconnaissance d'entités nommées : - dans une langue pour laquelle on dispose déjà d'un système de reconnaissance d'entités, renforcer la reconnaissance en s'appuyant sur les entités reconnues dans des articles parallèles d'autres langues ; - dans une langue (cible) pour laquelle on ne dispose pas d'un système de reconnaissance d'entités, transposer dans cette langue les analyses faites sur une langue (source) pour laquelle on dispose d'un système, et s'en servir pour entraîner un système dans cette langue (cible). On dispose en outre : - de systèmes de reconnaissance d'entités nommées pour le français, l'anglais et l'espagnol (avec différents niveaux de performance); - de méthodes pour la détection des dépêches en relation de traduction. Ce travail prend place dans le contexte du projet ANR EDyLex, dont l'objectif principal est de traiter les mots inconnus dans des textes (http://sites.google.com/site/projetedylex/). Le travail du candidat porte plus précisément sur les entités nommées, leur détection et leur typage, dans un contexte multilingue. Le travail s'effectuera au LIMSI-CNRS à Orsay (http://www.limsi.fr/) dans le département communication homme-machine. Deux équipes sont concernées par les thématiques du projet : ILES (traitement de la langue écrite et signée) et TLP (traitement de la langue parlée). PROFIL ET POSTE Le candidat devra maîtriser l'apprentissage automatique pour le traitement automatique des langues. Une expérience en reconnaissance d'entités nommées ou en compréhension de l'oral sera appréciée. Une connaissance approfondie d'une ou plusieurs langues du projet au-delà de l'anglais est nécessaire. Le candidat doit avoir soutenu une thèse (à la date de début du contrat) en apprentissage automatique, en traitement automatique des langues ou dans un domaine proche. Le poste est à pourvoir à partir du 1er octobre pour une durée de 12 mois. Le salaire correspond aux grilles CNRS et dépend de l'expérience du candidat (le minimum est de l'ordre de 2000 € net par mois). Envoyer un CV et une lettre de motivation à : Pierre Zweigenbaum et Sophie Rosset en indiquant une liste d'au moins deux référents pouvant recommander le candidat.