Dans le cadre du projet ANR Asfalda, le laboratoire LVIC du CEA LIST étend son moteur de recherche crosslingue AMOSE pour lui donner des capacités d'indexation et de recherche exploitant des informations sémantiques issues d'outils de Semantic Role Labeling. L'objectif premier du stage sera d'évaluer l'impact de l'intégration de la sémantique sur les résultats de recherche. Le second objectif sera d'améliorer le moteur de recherche au vu des premiers résultats d'évaluation. AMOSE est un moteur de recherche crosslingue. Il repose sur l'analyseur linguistique libre Lima [1] qui reconnaît les termes nominaux complexes (Multi Word Expressions ou MWE en anglais). Ces termes complexes repérés dans les documents et les requêtes sont utilisés pour grouper les documents résultats en classes d'équivalence en fonction des termes de la requête qu'ils contiennent. LIMA a récemment été enrichi d'un module effectuant de l'annotation en rôles sémantiques (Semantic Role Labeling) et nous sommes en train de modifier AMOSE pour indexer et utiliser dans la recherche les classes repérées et leurs rôles. Le travail du stagiaire consistera à évaluer la nouvelle version d'AMOSE sur les campagnes d'évaluation classiques (CLEF, TREC) dont le laboratoire possède les données et à rechercher quelles campagnes plus ciblées sur la recherche sémantique pourraient exister et mettre en ouvre AMOSE sur leurs données. Si une telle campagne a lieu durant le stage, le laboratoire y participera. Ces évaluations fourniront des informations permettant de mettre à jour des pistes d'amélioration. Le stagiaire les documentera et en mettra certaines en oeuvre. Le stage, de 4 à 6 mois, s'adresse à des étudiants de Master 2 Recherche en informatique ou informatique linguistique. Une bonne connaissance de Linux et des outils de base de manipulation de corpus (bash, sed, awk, perl, python, etc.) est indispensable ainsi qu'au moins la capacité de comprendre du code C++. Le stage se déroulera à Nano Innov, à Palaiseau, dans les locaux du CEA LIST. Mots clés: recherche d'information, évaluation, C++, Linux, corpus, annotations [1] https://github.com/aymara/lima/wiki Gael de Chalendar CEA LIST Laboratoire Vision et Ingénierie des Contenus (Vision and Content Engineering Laboratory) CEA SACLAY - NANO INNOV BAT. 861 Point courier 173 91191 GIF SUR YVETTE Tél.:+33.1.69.08.01.50 Fax:+33.1.69.08.01.15 Email : Gael.D.O.T.de-Chalendar.A@T.cea.D.O.T.fr