Proposition de stage M1 ou M2 au LIMSI-CNRS dans le cadre de l'Action Incitative 'Transfert de connaissances linguistiques d'une langue à l'autre' Responsables du stage : Pierre Zweigenbaum (groupe ILES) Marianna Apidianaki (groupe TLP) Titre : Transfert de rôles sémantiques d'une langue à l'autre Les ressources linguistiques comme les corpus annotés sont actuellement disponibles dans peu de langues, notamment en anglais. Cependant, des ressources de ce type sont requises pour le développement d'outils pour de nombreuses applications du traitement automatique des langues. De ce fait, plusieurs travaux se sont récemment intéressés au transfert automatique de connaissances de langues riches en ressources vers d'autres langues. Le stage proposé rejoint cette problématique. Le transfert de connaissances linguistiques d'une langue à l'autre a généralement lieu au sein de corpus parallèles et se base sur l'alignement des textes. L'idée sur laquelle reposent les méthodes proposées est que si l'on dispose de corpus annotés et de leur traduction dans une autre langue, on peut chercher à transférer les annotations dans cette autre langue. Par ce processus, des ressources sont créées qui permettent d'entraîner des outils d'analyse à différents niveaux dans les nouvelles langues (Yarowsky et Ngai, 2001; Lopez et al. 2002). Ce stage est plus particulièrement centré sur le transfert d'informations de rôles sémantiques de l'anglais vers le français. Les méthodes d'étiquetage de rôles sémantiques nécessitent des connaissances linguistiques importantes ou de grands corpus annotés. En anglais, ces ressources et les outils dérivés existent (Gildea et Jurafsky, 2002; Palmer et al., 2005). Pour le français, des travaux sont en cours pour construire de telles ressources et outils, y compris en exploitant des corpus parallèles (Padó et Pitel, 2007; Van der Plas et al., 2011) afin de bénéficier des outils ou annotations disponibles pour l'anglais. L'objectif de ce stage est de mener une étude sur le processus de transfert de rôles sémantiques de l'anglais vers le français. Plus précisément, nous souhaitons explorer les cas où le transfert ne peut pas être effectué. Cela peut être dû à la structure spécifique aux langues particulières ; à des erreurs d'alignement ; ou à des divergences de traduction observées au sein de corpus parallèles. Les résultats du processus de transfert proposé par Van der Plas et al. (2011) seront analysés en comparaison avec un étiquetage de référence (gold standard) contenant les résultats corrects. Le/la stagiaire aura donc à étudier les cas où l'analyseur ne fournit pas les résultats souhaités, à procéder à une analyse des erreurs, étudier l'impact de ces sources d'erreur sur le transfert et envisager des solutions pouvant améliorer la performance de la méthode. Le corpus qui sera utilisé pour cette étude est la partie anglais-français du corpus Europarl (Koehn, 2005). Profil : le/la stagiaire devra avoir un profil linguistique multilingue et un intérêt pour les problématiques du traitement de la langue. Des compétences en informatique seront appréciées mais ne sont pas indispensables. Durée : 4 mois Date de début : dès disponibilité Niveau : Master 1 ou 2 Lieu : LIMSI-CNRS, Groupe ILES rue John von Neumann, Université Paris Sud 91403 Orsay Cedex Salaire: le/la stagiaire recevra la gratification CNRS standard (de l'ordre de 436 ¤/mois). Contacts : Pierre Zweigenbaum (pz@limsi.fr) Marianna Apidianaki (marianna@limsi.fr)