Extraction des informations encyclopédiques pour la recherche d'information PROBLEMATIQUE Le Laboratoire LI (Laboratoire d'Informatique de l'Université de Tours) propose un sujet de stage dans le cadre de l'enrichissement de nos ressources pour nos systèmes de reconnaissance d'entités nommées. La reconnaissance d'entités nommées consiste à repérer automatiquement dans des textes des unités linguistiques (noms de personnes / sociétés / organisations, lieux, montants, dates, etc.) qui peuvent être utiles à la recherche d'informations, à l'extraction d'informations pour l'utilisateur ou pour des traitements ultérieurs. Nos systèmes reposent sur l'utilisation des technologies suivantes : - règles symboliques de reconnaissance (transducteurs), - fouille de données et apprentissage automatique, - hybridation des deux précédents. Les résultats obtenus par ces systèmes, dépendent à la fois des algorithmes qu'ils mettent en œuvre et des ressources qu'ils utilisent. Il est donc essentiel d'être en mesure d'enrichir et de mettre à jour nos ressources de manière aussi automatisée que possible. Nous nous appuyons notamment sur des lexiques qui listent des noms propres (personnes, lieux, organisations, etc.). L'apparition d'encyclopédies structurées à large couverture (par ex. Wikipedia) et leur mise à disposition permet d'extraire automatiquement ces données afin de mettre à jour nos lexiques. Le stage que nous proposons porte sur l'automatisation de tels traitements : navigation dans les structures des encyclopédies, sélection et extraction des catégories et entités pertinentes, intégration dans des lexiques, évaluation de l'impact sur les performances de nos systèmes. Les encyclopédies mettent souvent en place des facilités pour les récupérer et les interroger (par exemple les dumps Wikipedia : http://dumps.wikimedia.org/backup-index.html ). Il faut cependant veiller à la pertinence des informations extraites. MISSION La personne recrutée sera chargée de la conception et des développements logiciels, en deux phases : - phase 1 (étude de faisabilité et spécifications) : sélectionner les encyclopédies et les outils appropriés pour leur interrogation, il s'agit de voir comment il sera possible d'automatiser l'extraction d'entités selon les encyclopédies, - phase 2 (conception, prototypage et implémentation) : conception et implémentation d'un prototype modulaire et paramétrable d'extraction, tests, évaluation et étude de l'impact sur les performances de nos systèmes, validation. PROFIL RECHERCHE Formation informatique, de bon niveau académique, compétences en programmation (Java, Python, C++), manipulation de base de données et XML. A l'aise sur toutes plateformes (Windows / Linux). CONDITIONS Dates et durée : dès que possible, pour 3 mois Lieu d'exercice : Blois, antenne universitaire, laboratoire LI, équipe BDTLN Rémunération : 436,05 € par mois (prévue par la règlementation), Possibilité d'extension en CDD d'un / deux mois, selon le travail réalisé et les perspectives DEPOT DE CANDIDATURES Contact : nathalie.friburger@univ-tours.fr , Jean-Yves.Antoine@univ-tours.fr, damien.nouvel@univ-tours.fr Procédure : Merci d'envoyer un CV mentionnant votre formation, vos compétences, vos activités passées