-------------- Titre : Détection et validation de paraphrases en contexte Date de démarrage : mars/avril 2008 Durée : 4 mois Mots-clés : analyse syntaxique, paraphrases, traitement automatique de la langue, système de questions-réponses Lieu du stage : LIMSI/CNRS, groupe LIR ( 91403 Orsay) Voir aussi : http://www.limsi.fr/Individu/xtannier/fr/Stages/sujet_M2R_paraphrases.html Contexte : Dans le domaine de la recherche d'information, l'un des défis actuels porte sur les systèmes de questions-réponses en domaine ouvert. L'objectif de ces systèmes est de fournir une réponse à une question exprimée en langage naturel en trouvant cette réponse dans un ensemble de documents, ensemble éventuellement très large et pouvant aller jusqu'au Web. La plupart des systèmes de questions-réponses sont à même d'extraire la réponse à une question factuelle lorsqu'elle est explicitement présente dans les textes mais dans le cas contraire, ils ne sont pas capables d'agencer différents morceaux d'information dans le cadre d'un raisonnement pour produire une réponse. Par exemple un raisonnement dans lequel il faut assembler plusieurs extraits d'informations répartis dans plusieurs documents ou dans plusieurs phrases d'un même document. Par exemple, pour répondre à la question "Quel est l'âge de la femme de Tom Cruise ?", il faut tout d'abord identifier la femme de Tom Cruise puis chercher son âge. Le projet CONIQUE a pour objectif de pallier cette insuffisance et s'inscrit en cela dans un courant de recherche actuellement très actif visant à intégrer dans les systèmes de questions-réponses des mécanismes de compréhension de textes s'appuyant sur des inférences. Contrairement à la plupart des travaux allant dans ce sens, le premier axe de notre projet a pour but non pas de constituer ou d'exploiter une base de connaissances a priori permettant de répondre aux questions mais de modéliser l'extraction de ces connaissances à partir de différents textes en fonction des besoins nécessaires à la construction d'un chemin inférentiel entre les éléments trouvés dans les textes et l'information cherchée, telle qu'elle est spécifiée par une question. Thème : Les analyseurs syntaxiques sont des outils de traitement automatique de la langue permettant d'identifier les relations syntaxiques entre les constituants d'une phrase (SUJET, OBJET, etc.). Ils fournissent des sorties dans un format qui leur est propre. Dans le cadre de ce projet, on utilise un analyseur syntaxique pour déterminer si un passage pré-sélectionné par un moteur de recherche répond réellement à la question de l'utilisateur. On cherche notamment à montrer que certaines relations syntaxiques (ou éventuellement sémantiques) présentes dans des passages sont (ou ne sont pas) équivalents aux relations présentes dans la question. Par exemple, la question pourra porter sur le nombre de personnes ayant "perdu la vie" lors d'un événement, tandis que le passage précise que cet événement "a fait X morts". Cet aspect se rapproche de la problématique de la recherche de paraphrases. Travail à réaliser : Le but du stage est d'étudier l'état de l'art en la matière, de réfléchir aux avantages de se situer dans un contexte précis (les passages) plutôt que dans un cadre général (ce que fait la littérature), ainsi que de mettre en place des techniques de validation des paraphrases. Contacts : Xavier Tannier : xavier.tannier@limsi.fr Véronique Moriceau : moriceau@limsi.fr ---------------