Voici trois sujets de stage de M2 rémunérés proposés par le Laboratoire Vision et Ingénierie des Contenus (CEA Tech, Université Paris Saclay) et portant sur: 1. Évaluation et amélioration d'un moteur de recherche sémantique ; 2. Ajout du support de nouvelles langues à l'analyseur linguistique LIMA ; 3. Évaluation d'analyseurs linguistiques du Chinois. Merci de me contacter pour plus d'informations. Cordialement, Gaël de Chalendar 01.69.08.01.50 gael.de-Chalendar@cea.fr ============================================= 1. Évaluation et amélioration d'un moteur de recherche sémantique Dans le cadre du projet ANR Asfalda, le laboratoire LVIC du CEA LIST a étendu son moteur de recherche crosslingue AMOSE pour lui donner des capacités d'indexation et de recherche exploitant des informations sémantiques issues d'outils de Semantic Role Labeling. L'objectif premier du stage sera d'évaluer l'impact de l'intégration de la sémantique sur les résultats de recherche. Le second objectif sera d'améliorer le moteur de recherche au vu des résultats d'évaluation. AMOSE est un moteur de recherche crosslingue. Il repose sur l'analyseur linguistique libre Lima [1] qui reconnaît les termes nominaux complexes (Multi Word Expressions ou MWE en anglais). Ces termes complexes repérés dans les documents et les requêtes sont utilisés pour grouper les documents résultats en classes d'équivalence en fonction des termes de la requête qu'ils contiennent. LIMA a récemment été enrichi d'un module effectuant de l'annotation en rôles sémantiques (Semantic Role Labeling) et AMOSE a été modifié pour indexer et utiliser dans la recherche les classes repérées et leurs rôles. Le travail du stagiaire consistera à évaluer la nouvelle version d'AMOSE sur les campagnes d'évaluation classiques (CLEF, TREC) dont le laboratoire possède les données et à rechercher quelles campagnes plus ciblées sur la recherche sémantique pourraient exister et mettre en oeuvre AMOSE sur leurs données. Si une telle campagne a lieu durant le stage, le laboratoire y participera. Ces évaluations fourniront des informations permettant de mettre à jour des pistes d'amélioration. Le stagiaire les documentera et en mettra certaines en oeuvre. ============================================= 2. Ajout du support de nouvelles langues à l'analyseur linguistique LIMA Le laboratoire LVIC a développé un analyseur linguistique multilingue nommé LIMA (LIST Multilingual Analyzer) [2]. LIMA a été placé sous licence libre (AGPL) début 2014 [1]. À cette occasion, des ressources linguistiques libres ont été collectées et adaptées pour le français et l'anglais [3]. Mais LIMA supporte bien d'autres langues. Le laboratoire dispose par exemple de ressources propriétaires qu'il n'a pas le droit de redistribuer sous licence libre pour des langues telles que chinois, arabe, allemand, espagnol, italien, etc. L'objectif de ce stage est de collecter et adapter à LIMA des ressources libres pour de nouvelles langues. On commencera par des langues latines, en particulier le portugais (dans ses variantes portugaise et brésilienne), l'espagnol et l'italien. Le travail du stagiaire consistera à : - se familiariser avec LIMA, son fonctionnement, ses ressources linguistiques et leur production ; - rechercher et sélectionner les ressources libres nécessaires pour les langues sélectionnées ; - adapter les ressources choisies et les intégrer au processus de génération de LIMA. Les ressources concernées sont: - automate de tokenisation ; - jeu d'étiquettes grammaticales ; - dictionnaire de lemmes ou full-form ; - dictionnaire - corpus annoté pour l'apprentissage de modèles de désambiguïsation morphosyntaxique ; - règles (grammaire) pour l'analyse syntaxique ; - règles de reconnaissance d'entités nommées. Bien entendu, il ne sera pas possible d'obtenir à l'issue d'un tel stage un ensemble complet de toutes les ressources pour toutes les langues envisagées. L'objectif sera de fournir une base utilisable pouvant être étendue par la suite. ============================================= 3. Évaluation d'analyseur linguistiques du Chinois Le laboratoire LVIC a développé un analyseur linguistique multilingue nommé LIMA (LIST Multilingual Analyzer) [1,2,3]. Son support de la langue chinoise n'a pas été mis à jour depuis de longues années. Depuis, de nouveaux analyseurs ont été développés et ont atteint des niveaux de performance bien plus élevés. Nous désirons évaluer un certains nombre de ces outils, aussi bien du point de vue de leur qualités intrinsèques que de leurs possibilités d'intégration avec LIMA. Le travail du stagiaire consistera à mettre en oeuvre ces outils, les évaluer à différents niveaux (vitesse, qualité de segmentation, désambiguïsation morphosyntaxique, analyse syntaxique, entités nommées, etc.) à l'aide de corpus de référence et enfin à expérimenter leur intégration. LIMA est développé en C++. Certains outils le sont aussi et l'intégration peut alors se faire en adaptant les APIs. D'autres sont en Java ou en Python. Il faudra alors choisir entre une intégration de bas niveau (JNI...) ou en tant que module externe. Les critères de choix sont là la complexité de la mise en oeuvre vs. les performances. ============================================= Références [1] https://github.com/aymara/lima/wiki [2] R. Besanc ̧on, G. de Chalendar, O. Ferret, F. Gara, M. Laib, O. Mesnard, and N. Semmar. 2010. Lima: A multilingual framework for linguistic analysis and linguistic resources development and evaluation. In Proceedings of LREC, Malta. [3] G. de Chalendar. 2014. The LIMA Multilingual Analyzer Made Free : FLOSS Resources Adaptation and Correction. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC-2014), Reykjavik, Iceland, May 26-31, 2014., pages 2932-2937.