Stage M1/M2Pro/M2R : Analyse temporelle de pages web d'information. Mots-clés : traitement automatique de la langue, classification, analyse temporelle Durée : 2 à 6 mois Niveau : Master 1 ou Master 2 (professionnel ou recherche), fin d'école d'ingénieur Le contenu et l'ambition du stage pourront être modulés en fonction du niveau d'étude et de la durée du stage du candidat. Contexte L'analyse temporelle de textes d'information a pour but général de mieux localiser dans le temps les événements décrits dans ces textes, et donc d'alimenter de façon plus précise des moteurs de recherche ou des outils d'extraction d'information. Pour cela, la première étape est de détecter correctement les expressions temporelles de ces textes. Ces expressions temporelles peuvent être des dates absolues, c'est-à-dire que l'on peut placer sans ambiguïté sur l'axe des temps (par exemple, le 14 juillet 1789), mais aussi des dates relatives, qui nécessitent une phase de résolution ou de normalisation (par exemple, le 14 juillet dernier, mardi, il y a deux jours ou deux jours avant). On devine que cette normalisation nécessite au minimum de connaître la date à laquelle le document a été écrit. Les techniques d'analyse temporelle des textes ont fortement progressé ces dernières années, mais s'attachent en général au traitement d'articles de journaux sous forme structurée, dans lesquels le contenu et les metadonnées sont clairement identifiés. Dans le cas de pages web, il est beaucoup plus difficile de distinguer les informations pertinentes (date de création, auteurs, titre et texte de l'article...) des données annexes comme les menus, les publicités, les légendes d'images. Des outils de nettoyage de pages existent, mais ils ne sont pas assez précis pour les tâches que nous souhaitons accomplir. Travail à réaliser : Selon le niveau d'étude de la personne choisie, nous pourrons nous intéresser à une ou plusieurs des problématiques suivantes : Extraction de la date de création des pages d'information, et d'autres métadonnées éventuellement pertinentes Améliorations ciblées du nettoyage des pages web issues des sites d'information Utilisation et adaptation des outils d'analyse temporelle sur les pages web nettoyées On utilisera un corpus de plusieurs millions de pages web en français et en anglais. Le stagiaire devra avoir de bonnes compétences en informatique. Des connaissances en traitement automatique de la langue et en apprentissage automatique seront un plus. Durée : 2 à 6 mois Niveau : Master 1 ou Master 2 (professionnel ou recherche) Contacts : Veronique.Moriceau[at]limsi.fr Xavier.Tannier[at]limsi.fr