Proposition de stage Master/Ingénieur : Étude et développement d'un système automatique de question-réponse pour la langue française. Lieu : INRIA Sophia Antipolis Méditerranée Équipe : Wimmics ( http://wimmics.inria.fr ) Durée : 4-6 mois Date limite de candidature : 15 juin 2012 Description du stage: https://wimmics.inria.fr/internship Contacts et envoi des candidatures : Elena Cabrio: elena.cabrio@inria.fr Julien Cojan: julien.cojan@inria.fr Sujet : De nombreux travaux en cours portent sur la conception de systèmes de réponse automatique à des questions posées en langue naturelle, notamment l'anglais. Le système QAKiS [1] développé dans l'équipe répond à des questions de culture générale posées en anglais. Les réponses sont obtenues en interrogeant avec des requêtes SPARQL DBpedia [2], qui est une base de données extraites des pages de Wikipedia. Le système QAKiS génère des requêtes SPARQL à partir de questions posées en anglais puis soumet ces requêtes à DBpedia. Pour cela, il s'appuie sur une base de motifs de phrases qui donnent différentes manières d'exprimer une relation de DBpedia en anglais. Le système compare la question posée aux motifs de la base pour identifier la relation de DBpedia qui permettra d'obtenir une réponse. D'autres outils interviennent ensuite pour identifier le type de réponse attendu et les entités nommées de la question. Le but de ce stage sera de porter ce système au français. En particulier, il faudra expérimenter des méthodes d'extraction de motifs à partir des versions francophones de Wikipédia et DBpedia. Il faudra aussi revoir le traitement linguistique des questions, en intégrant des outils adaptés a la langue française. Un deuxième développement envisagé sera d'améliorer la reconnaissance des entités nommées, en intégrant au système actuel des outils comme DBpedia Spotlight [3], qu'il faudra aussi porter au français. Profil souhaité : Ingénieur / Master. Intérêt pour le Web, notamment le web de données. Intérêt pour le traitement du langage. Programmation : Java, SQL, quelques connaissances sur le Web et le Web Sémantique (standards RDF-S/OWL/SPARQL, consommation de linked data ) et/ou le traitement automatique des langues sont un plus. Bon niveau d'anglais. [1] http://dbpedia.inria.fr/qakis (Cabrio et al., à paraître dans les actes de l'atelier Interacting with Linked Data 2012) [2] http://dbpedia.org [3] http://spotlight.dbpedia.org/ Elena Cabrio Postdoc Researcher, WIMMICS team INRIA Sophia-Antipolis Méditerranée 2004 Route des Lucioles BP93 06902 SOPHIA ANTIPOLIS cedex Tel: +33 (0)4 92 38 77 67 email: elena.cabrio@inria.fr