Proposition de stage M1 ou M2 au LIMSI-CNRS Groupe Traitement du Langage Parlé (http://www.limsi.fr/tlp/) à Orsay Responsable du stage : Marianna Apidianaki (CNRS-LIMSI, groupe TLP) Titre : Acquisition de connaissances sémantiques à partir de corpus parallèles Les corpus parallèles multilingues offrent une solution peu coûteuse à l'acquisition de connaissances sémantiques. Les différentes méthodes proposées dans ce but se basent principalement sur des informations traductionnelles (Dyvik, 1998; Ide et al., 2002; Bannard and Callison-Burch, 2005) éventuellement combinées avec des informations du contexte (Apidianaki, 2008; Bansal et al. 2012). Les connaissances sémantiques acquises par ces méthodes peuvent servir à des fins d'analyse contrastive ou être exploitées dans des applications multilingues, comme la Traduction Automatique. Néanmoins, la nature des connaissances obtenues varie de manière importante et dépend fortement des informations exploitées par la méthode d'analyse sémantique employée, des techniques utilisées et des hypothèses théoriques sous-jacentes. L'objectif de ce stage est d'étudier la sémantique des paraphrases acquises par une méthode basée sur une hypothèse de correspondance sémantique inter-langue, la méthode de paraphrasage par pivot (Callison-Burch, 2008). Des ressources sémantiques construites par cette méthode sont actuellement largement utilisées dans la Traduction Automatique et son évaluation (Zhou et al. 2006; Madnani et al., 2007; Snover et al., 2009; Denkowsky and Lavie, 2010). Nous sommes intéressés à examiner la pertinence des descriptions sémantiques engendrées en expérimentant avec différentes méthodes de clustering sémantique et de représentation des connaissances. Les résultats de l'étude permettront d'identifier les cas nécessitant une analyse plus poussée et d'estimer leur impact dans la Traduction Automatique et son évaluation. Le stage est rémunéré et se déroulera au LIMSI-CNRS (Orsay) dans l'équipe Traitement du Langage Parlé (http://www.limsi.fr/tlp). Profil : - Master 1 ou 2 en Traitement Automatique des Langues ou Informatique - bonnes compétences en programmation - connaissances en apprentissage automatique (clustering) - expérience avec des systèmes de Traduction Automatique serait un plus Durée : 4 mois (plein temps) Date de début : dès disponibilité Lieu : LIMSI-CNRS, Groupe TLP, rue John von Neumann, Université Paris Sud, 91403 Orsay Cedex Rémunération : le/la stagiaire recevra la gratification CNRS standard (environ 400 euros par mois) Contact: Marianna Apidianaki (marianna@limsi.fr)