Orange propose actuellement un post-doctorat intitulé "Méthodes d'analyse sémantique statistique pour l'extraction de connaissances à partir de corpus semi-annotés". Merci de consulter l'offre rédigée ci-après et, le cas échéant de postuler par retour de mail ou sur le site de l'ABG à l'adresse suivante : http://www.intelliagence.fr/Page/Offer/ShowOffer.aspx?OfferId=46980. Romain Laroche ft/nsm/rd/tech/asap/nadia Ingénieur de recherche sur les systèmes de dialogue Research engineer on dialogue systems phone: 01 45 29 62 77 romain.laroche@orange-ftgroup.com ------------------------------------------------------------------------ TITRE : Méthodes d'analyse sémantique statistique pour l'extraction de connaissances à partir de corpus semi-annotés MOTS CLEFS : Analyse sémantique, Apprentissage actif, Interaction Homme-Machine, Dialogue naturel CONTEXTE : Le sujet de post-doctorat se rapporte à la problématique de l'analyse sémantique dans les systèmes dialogue en général. L'analyse sémantique consiste à transformer un énoncé dans une interprétation (catégorie sémantique) pour permettre au système de dialogue de poursuivre ses calculs. L'analyseur sémantique de Disserto s'appuie sur une approche à base de règles. Le traitement s'effectue en deux étapes : étiqueter les mots en « tags », puis appliquer les règles sémantiques appropriées aux tags, de telle manière qu'une combinaison ou association donnée de tags fournisse une interprétation correcte. Ce principe d'analyse sémantique à base de règles d'étiquetage et d'association peut être utilisé dans n'importe quelle langue. Cependant, cette méthode est manuelle et nécessite l'intervention d'un développeur (knowledge engineer). Ce dernier va analyser un corpus de phrases issues d'interactions de différents utilisateurs avec le service de dialogue, afin d'élaborer les règles d'analyse sémantiques les plus pertinentes. Les phrases contenues dans ce type de corpus peuvent être : - non annotées (par exemple lorsqu'elles sont issues des logs d'un service en exploitation) - annotées manuellement par un opérateur : par exemple dans le cas de service mettant en œuvre des fonctions de magicien d'Oz sur la reconnaissance vocale (on parle alors de Reconnaissance Vocal Assistée par Opérateur) ou sur l'analyse sémantique (illustrée dans l'application DissertOz). Le rôle du post-doctorant sera de développer de nouveaux algorithmes et de fournir les outils associés qui permettent de faciliter et d'optimiser le travail du développeur lors de l'élaboration des règles d'analyse sémantique de Disserto. Les travaux du post-doctorant seront menés sur 2 champs : - la sélection automatique des phrases les plus pertinentes à prendre en compte pour la définition des nouvelles règles d'analyse sémantique: phrases avec de nouveaux mots, tags, règles ou interprétations. - l'étude des énoncés conduisant à une interprétation erronée de l'analyseur de manière à identifier des termes communs, à donner des explications de l'erreur et à détecter les énoncés « poubelle » à rejeter (trash). Ce sujet est la suite d'un travail accompli par l'université de Poznan en 2011 et 2012 dans le cadre d'un contrat de recherche externe sous la direction d'Orange. TACHES : Prendre en main les algorithmes développés par l'université de Poznan et les améliorer : - Calcul de score de confiance de la classification de l'analyseur sémantique pour un énoncé donné - Identification de règles d'association liant les formes des énoncés aux erreurs de classification de l'analyseur sémantique - Détection des énoncés poubelle Sur la base de corpus non-annotés de taille gigantesque (plusieurs millions d'énoncés) et de corpus annotés de taille réduite (plusieurs milliers d'énoncés), définir un algorithme d'apprentissage actif permettant : - de repérer les « trous » d'annotation, c'est-à-dire les formes d'énoncés fréquentes du corpus non-annotés qui ne sont pas, ou peu, représenté dans le corpus annoté - de prédire les énoncés les plus pertinents pour être annotés, sur la base du calcul de score de confiance en l'analyseur sémantique - de sélectionner l'ensemble optimal de n énoncés à annoter, en évitant les redondances et en contrôlant que les informations apportées par ces annotations se complètent. Rédiger un rapport d'étude sur les méthodes et algorithmes développés lors de cette étude et sur leur évaluation. NATURE DU FINANCEMENT : CDD France Télécom de 12 mois avec un début envisagé au 01/04/2013