Proposition de POST-DOC SUIVI DE THEME ET RESUME AUTOMATIQUE MULTI-DOCUMENTS EN ENVIRONNEMENT WEB CONTEXTE L'équipe Représentation des Connaissances et Langue Naturelle (RCLN) du Laboratoire d'Informatique de Paris-Nord (LIPN) développe depuis plusieurs années des techniques de repérage automatique des entités nommées. L'analyse repose essentiellement sur des dictionnaires et des grammaires. L'équipe RCLN souhaite renforcer ses recherches dans ce domaine en ayant davantage recours aux techniques d'apprentissage. On envisage deux types de développements complémentaires aux travaux actuels dans l'équipe : 1) améliorer la reconnaissance des entités en abordant le problème de la désambiguïsation et de la normalisation des entités (regrouper ensemble les formes linguistiques référant à la même personne ; séparer les homonymes) 2) utiliser ces fonctionnalités dans le cadre du résumé automatique (suivi d'événements sur la base d'entités partagées entre plusieurs textes ; détection de nouveauté ; résumé multi-documents) L'objectif pour la validation de ces recherches est la participation à des compétitions nationales ou internationales. La campagne d'évaluation "Web People Search" (http://nlp.uned.es/weps/summary.html, lors de Semeval 2007) a permis de montrer la faisabilité et l'intérêt de ce type de recherche. La tâche vise à désambiguïser dynamiquement des noms personnes dans le cadre d'une recherche sur internet. Comme les noms de personnes sont largement ambigus, une recherche sur un simple nom propre retourne généralement un ensemble de pages concernant des personnes différentes. La tâche vise à regrouper dynamiquement les pages web se rapportant à une même personne. La campagne DUC (Document Understanding Conferences, http://www-nlpir.nist.gov/projects/duc/intro.html) vise l'évaluation des systèmes de résumé multi-documents et la détection de nouveauté (update task, DUC 2007). Elle est donc très pertinente pour le sujet. Les données des campagnes passées permettront de mettre au point le système visé mais l'objectif est de participer directement à une campagne d'évaluation. En conséquence, le travail portera essentiellement sur l'anglais. PROFIL RECHERCHE Le (ou la) candidat(e) devra être titulaire d'un doctorat en informatique ou d'un domaine proche, ayant de préférence de bonnes connaissances en apprentissage artificiel et/ou en traitement automatique des langues. Des compétences en développement d'applications sont souhaitables. Une bonne maîtrise de l'anglais est indispensable. LIEU, DUREE DU CONTRAT ET REMUNERATION Contrat de 12 mois pouvant commencer à compter du 1er novembre (possibilités d'extension au-delà d'un an) Rémunération suivant qualification Le poste est à pourvoir au LIPN (adresse ci-dessous) COMMENT POSTULER ? Envoyer un CV et une lettre de motivation par mail à l'adresse ci-dessous (rubrique contact) avant la fin octobre 2007. CONTACT Thierry Poibeau Laboratoire d'Informatique de Paris-Nord (LIPN) CNRS UMR 7030 et Université Paris 13 99, avenue Jean-Baptiste Clément 93430 Villetaneuse