=========================================================== Proposition de stage de Master ou de fin d'études ingénieur =========================================================== Titre : Extraction et caractérisation automatique d'auteurs sur le Web Responsables ------------- Nicolas Labroche (LI, Nicolas.Labroche@univ-tours.fr) Jean-Yves Antoine (LI, Jean-Yves.Antoine@univ-tours.fr) Agata Savary (LI, Agata.Savary@univ-tours.fr) Jean-Christophe Lavocat (Elokenz, jice@elokenz.com) Résumé ------ Dans un contexte où l'information est massivement disponible et de mieux en mieux structurée, l'extraction automatique de données n'a jamais été aussi importante. Faisant écho à de récentes évolutions des moteurs de recherches classiques (Google, Bing), la détection de l'auteur d'une page devient un enjeux stratégique. L'objet de ce stage consiste en la création d'un algorithme d'extraction automatique de l'auteur d'une page web donnée. Les données structurées, linguistiques et hiérarchiques seront utilisées dans un algorithme d'apprentissage automatique pour déterminer si un nom extrait d'une page correspond à son auteur. Le travail réalisé aura deux principaux objectifs : (1) détecter automatiquement les auteurs d'un texte à partir du code source d'une page web (si ils sont mentionnés) et, (2) de les identifier (si possible) grâce à leurs profils sociaux qui pourraient être présents sur la même page. Contexte scientifique ---------------------- Le Laboratoire d'Informatique de l'Université de Tours, et son équipe Base de Données et Traitement du Langage Naturel situé à l'antenne de Blois (41) propose un sujet de stage dans le cadre du projet industriel financé par la société ELOKENZ (représentée en la personne de M. Jean-Christophe LAVOCAT) située à Toulon (83) et adossée à l'Incubateur Public Paca EST et à la structure Toulon Var Technologie (TVT). Travail à réaliser ------------------ Le rendu de ce stage sera constitué d'un algorithme prenant comme entrée une page HTML ou XML et renvoyant en sortie une liste des auteurs détectés dans le texte, avec leur nom et si possible des liens vers des profils sociaux les identifiant. - Phase n°1 - La première phase du projet consiste à prétraiter les ressources pour en faire des documents valides XML et à en extraire les noms propres. Pour ce dernier point, deux méthodes pourront être évaluées et comparées : d'une part, l'utilisation de bibliothèque d'extraction d'entités nommées (comme Balie ou Lingpipe) ou bien utiliser des listes de noms. Pour simplifier le problème, dans un premier temps on pourra ne considérer qu'une seule langue pour la liste de noms, mais l'algorithme proposé devra à terme pouvoir travailler indifféremment avec toute liste de noms fréquents passée en argument. - Phase n°2 - La seconde phase du projet consiste en la création d'un ensemble d'apprentissage suffisamment grand contenant pour un ensemble de ressources la liste des noms y apparaissant et pour chacun, une étiquette indiquant s'il s'agit d'un nom d'auteur ou pas. On pourra créer un second ensemble d'apprentissage avec les informations sociales qui pourraient être présentes dans la page en vue du second objectif. - Phase n°3 - La dernière phase du projet consiste à déterminer un ensemble d'attributs pour décrire chaque nom identifié dans la phase précédente. On pourra s'appuyer sur des travaux précédents dans le domaine et enrichir cela à partir de connaissances linguistiques (pour lesquelles un expert sera disponible). Il faudra ensuite évaluer différents algorithmes d'apprentissage automatique sur la base de cette représentation parmi les arbres de décision, les forêts aléatoires, les SVM, et les réseaux de neurones pour apprendre un modèle. On favorisera en premier lieu une méthode interprétable (comme les arbres de décision) de façon à pouvoir étudier les règles qui définissent le modèle de classification et les confronter à la connaissance que des linguistes pourront apporter au projet. Profil recherché ----------------- La personne recrutée sera en cycle terminal d'études en informatique, de niveau Bac+5 (Master ou Ecole d'ingénieur en Informatique). Un intérêt pour les techniques d'apprentissage et de classification automatiques, voire le Traitement Automatique des Langues est apprécié, sans être un prérequis à recrutement. Dans le cas d'un(e) étudiant(e) en Master Recherche, le sujet de stage pourra être adapté aux attentes de l'étudiant. Rémunération ------------ 508 ¤ par mois. Cette rémunération sera assurée par la société ELOKENZ. Durée du stage et lieu d'exercice --------------------------------- La personne recrutée travaillera au sein du laboratoire LI, dans les locaux de l'antenne universitaire de Blois. Il s'intégrera dans une équipe projet de l'équipe de recherche BDTLN (http://li.univ-tours.fr/equipes/equipe-bdtln-198022.kjsp) composée de Nicols Labroche, Jean-Yves Antoine et Agata Savary. Des points de rendez-vous réguliers avec la société ELOKENZ seront prévus au cours du stage. La durée minimale de stage sera de 5 mois (avril-août 2015). Contact - Dépôts de candidature ------------------------------- Contact : Nicolas Labroche (nicolas.labroche@univ-tours.fr), Jean-Yves Antoine (jean-yves.antoine@univ-tours.fr) Merci de déposer par courrier électronique un CV détaillé de vos activités passées, accompagné d'une lettre de motivation et de vos relevés de notes des deux dernières années d'études.