t Contexte global de l'étude et état de l'art (bibliographie) Un enjeu majeur du traitement automatique des langues naturelles consiste à extraire des informations d'un texte (document non-structuré) ou de générer une représentation conceptuelle des documents afin de pouvoir gérer ces informations ou représentations dans des bases de connaissances. Positionnement du sujet vis-à-vis de la stratégie d'entreprise L'accès aux contenus multimédias et leur valorisation (enrichissement, annotation, etc...) est un enjeu important pour Orange qui pourrait nouer des partenariats bénéfiques avec des fournisseurs de contenus audiovisuels. Pour l'accès aux contenus, le traitement des informations textuelles (métadonnées ou données) est un défi important. Pour améliorer les services autour de l'accès aux contenus et pour prendre en compte les informations et les connaissances contenues dans les documents (données non-structurées), le travail prévu par ce post-doctorat est une étape importante afin d'extraire des informations structurées des textes. Description de l'équipe Notre équipe de Traitement Automatique du Langage travaille sur des approches d'extraction d'information des textes (documents non-structurés). Ces documents peuvent faire partie d'un domaine relativement homogène (par exemple documents d'entreprise) ou pas. Nous utilisons des approches statistiques ainsi que des approches à base de règles. Parmi les informations à extraire se trouvent des entités nommées (personnes, lieux, organisations, produits, marques, dates...) connues (dans une base de connaissance comme DBpedia ou GeoNames) et inconnues. En plus nous voulons extraire des relations sémantiques des textes (« qui fait quoi, quand et où »). Objectifs scientifiques - résultats attendus Comme objectif, on cible un démonstrateur de résolution de coréférence pour les documents en langue française, notamment pour les coréférences pronominales. Sachant que les erreurs de résolution se propagent dans les étapes d'analyses suivantes, nous envisageons un outil avec qui privilégier la précision au rappel. La résolution de coréférence est un traitement fondamental, nécessaire pour de nombreuses applications du traitement de la langue, et nous nous intéressons plus particulièrement aux références pronominales et aux différentes formulations autour d'une même entité nommée. Toutes les approches techniques peuvent être envisagées. Nous disposons en interne d'outils de traitement de la langue, de données linguistiques pour la langue française, et de corpus de documents non-structurés sur lesquels les approches pourront être expérimentées et évaluées. Les documents à traiter devront être enrichis par des liens de coréférence (anaphores vers coréférents, antécédents ou suivants), selon des conventions d'annotation à définir. Vous avez soutenu votre thèse en linguistique computationnelle ou informatique avec option traitement naturel du langage et connaissez la problématique des coréférences (en français ou d'autres langues). Une expérience en approches statistiques et à base de règles est un plus Vous avez des connaissances en programmation en java ou C++ Références [1] Pierre Zweigenbaum et al. (2012) : Résolution des coréférences dans des comptes rendus cliniques. Une expérimentation issue du défi i2b2/VA 2011. RFIA 2012 (Reconnaissance des Formes et Intelligence Articielle), Jan 2012, Lyon, France. [2] Lee, Heeyoung et al (2013): Deterministic Coreference Resolution Bases on Entity-Centric, Precision-Ranked Rules. In: Computational Linguistics 39:4. Postuler en ligne sur : https://orange.jobs/jobs/offer.do?do=fiche&id=53860