Choral est un système de résumé automatique mono-document par extraction développé au LVIC, industrialisé et mis à la disposition des 3000 utilisateurs de l'IRSN [1]. Choral repose largement sur l'analyseur linguistique multilingue du laboratoire, LIMA [2]. Actuellement, Choral se contente d'extraire verbatim les phrases du document source qu'il juge les plus pertinentes selon plusieurs critères (sens des mots les plus représentés dans le document, expressions exprimant le point de vue de l'auteur, présence de syntagmes nominaux complexes, ...). Le but du stage sera d'améliorer la lisibilité des textes produits de deux manières: - en exploitant la résolution de coréférences dont LIMA est capable. LIMA sait détecter les référents des pronoms: dans les phrases "Nathan va à la bibliothèque. Il va rendre ses livres.", LIMA sera capable de détecter que "Il" réfère à "Nathan". Or, actuellement, Choral n'exploite pas cette information, pouvant éventuellement n'extraire que la deuxième phrase, ce qui ne permet pas de savoir au lecteur qui est le "Il" en question. Le stagiaire modifiera Choral pour prendre en compte cette information déjà présente dans les résultats de l'analyse linguistique ; - en générant du texte permettant de synthétiser les idées principales situées entre les phrases retenues pour l'extraction. Cette partie part de la constatation qu'une phrase extraite peut perdre son intérêt hors de son contexte, et ce même si les idées qu'elle porte sont très importantes pour le texte. Il s'agira donc de réfléchir à des moyens de regénérer ce qu'il faudra pour rendre ce contexte intelligible. Ce pourra être la génération de mots-clés, le repérage et l'extraction des définitions de ce dont il est question dans l'extrait, etc. Le stage se déroulera de la manière suivante: - prise en main des outils et du code ; - implémentation de l'exploitation des coréférences et évaluation ; - en parallèle, bibliographie orientée sur la deuxième partie (génération...) ; - proposition de solutions pour la deuxième partie ; - implémentation des propositions effectuées. Le stage se déroulera dans les nouveau locaux du LVIC situés à NanoInnov à Palaiseau (près de Polytechnique, Sup'Optique, Thales et Danone). Durée du stage : 6 mois Formation souhaitée : Ingénieur/Master 2 Gael de Chalendar CEA LIST Laboratoire Vision et Ingénierie des Contenus (Vision and Content Engineering Laboratory) CEA SACLAY - NANO INNOV BAT. 861 Point courier 173 91191 GIF SUR YVETTE Tél.:+33.1.69.08.01.50Fax:+33.1.69.08.01.15 Email : Gael.D.O.T.de-Chalendar.A@T.cea.D.O.T.fr