Offre de stage TAL - Ingénieur / M2R Sujet: Détection d'incohérences liées à la pragmatique dans un texte Lieu : Synapse Développement - Toulouse centre Contact : camille.pradel@synapse-fr.com Durée : 6 mois Rémunération conventionnelle + prime sur objectifs --------------- Contexte --------------- La société Synapse Développement est leader sur le marché du logiciel d'analyse de la langue française. Société innovante d'une dizaine de personnes, Synapse travaille pour le grand public et les grands comptes comme Microsoft ou Amazon. Depuis plusieurs années, les activités de R&D de Synapse Développement s'orientent naturellement vers la compréhension du texte écrit. La société est notamment identifiée comme un acteur majeur des systèmes de question-réponse en français et en anglais. Son savoir-faire a récemment été illustré au cours de la campagne d'évaluation Entrance Exams, dans laquelle les systèmes sont soumis au test de compréhension de l'anglais pour l'entrée à l'Université au Japon. Aux deux dernières éditions de la compétition, la Reading Machine de Synapse a occupé la première position, à la fois pour le test original en anglais et pour son adaptation en français (pour laquelle textes et questions ont été traduits à la main) ; elle est la seule à dépasser la moyenne dans les deux langues et est donc admise à l'Université ! Au cours des dernières décennies, les travaux de recherche visaient à surmonter le caractère informel et donc ambigu de la langue naturelle. On peut considérer que ce verrou a désormais sauté, même si, sur le plan pratique, le problème est toujours présent lors de l'implémentation d'un système analysant le langage (la récente banalisation de l'argot, du langage sms, et la multiplication des erreurs dans les écrits n'aident pas à la tâche). Une approche combinant une analyse syntaxique performante, des ressources linguistiques de qualité et des outils statistiques permet donc d'extraire de façon efficace la sémantique de ce texte. Cependant, certains mécanismes cognitifs mis en oeuvre lors de la lecture d'un texte par un humain sont encore mal imités par la machine, ce qui rend la lecture automatique d'un texte moins performante d'un point de vue qualitatif. La principale limite à la compréhension de textes par la machine est maintenant pour nous liée au mode d'expression du locuteur humain, celui-ci ayant tendance à se dispenser de communiquer explicitement des informations qui sont soit déjà connues du destinataire, soit inférables par celui-ci. Il est donc nécessaire pour une machine d'identifier et de mobiliser ces informations implicites. --------------- Objectifs --------------- Dans le cadre du projet DIT (Détection d'Incohérences Textuelles), Synapse veut concevoir, mettre en place et évaluer une méthode de détection des incohérences liées à la pragmatique dans un texte. Dans ce contexte, nous appelons une incohérence liée à la pragmatique une contradiction entre une assertion d'un texte et des informations issues d'une base de connaissance considérées comme vraies (ground truth). Cette base de connaissances sera exprimée selon un formalisme de graphes. Elle peut être : - externe et établie a priori (par exemple DBpedia), - ou construite par Machine Reading, soit sur une grande quantité de textes selon des approches statistiques, structurant alors des connaissances de fonds (background knowledge), soit au fur et à mesure de la lecture du texte, ce qui permettrait d'identifier des contradictions entre plusieurs assertions d'un même texte. --------------- Verrous --------------- Nous identifions deux difficultés majeures dans le travail demandé. La construction d'une base de connaissances de fond uniquement par Machine Reading sur de gros volumes de texte soulève le problème de la gestion de la masse de données et celui de la prise en compte de données contradictoires et leur fusion dans la base de connaissances. Le premier problème est déjà en partie résolu par l'utilisation de la base de données orientée graphe Neo4j, supportant une optimisation verticale. Au niveau pragmatique, le risque tient à la complexité de la tâche cognitivo-linguistique d'élaboration d'un schéma de représentation du texte à des fins de comparaison sémantique. L'analyse du discours se situe à la frontière de plusieurs disciplines, entre autres de la psycholinguistique et de l'intelligence artificielle, et la stratégie et les heuristiques utilisées sont cruciales pour des résultats pertinents. Une approche agile (succession d'itérations intégrant des tests et améliorant progressivement l'ensemble du process développé) permettra de limiter les conséquences de cette difficulté. --------------- Déroulement --------------- Intégré-e à l'équipe R&D, le/la stagiaire portera ces thématiques de recherche en tirant parti des technologies et savoir-faire Synapse. Un découpage prospectif du travail demandé a permis de définir les tâches suivantes : 1. Etat de l'art sur la détection d'incohérences liées à la pragmatique. 2. Contributions scientifiques : a. Identification ou proposition d'un format pivot de représentation d'une base de connaissances. b. Proposition du modèle d'intégration des connaissances issues du Machine Reading vers le format pivot. c. Proposition d'une méthode d'identification de contradictions. 3. Contributions pratiques : a. Export d'une base de connaissances externe type DBpedia vers le format pivot. b. Constitution d'une base de connaissances de fonds par Machine Reading. c. Implémentation du module de détection d'incohérences pragmatiques. d. Tests qualitatifs des résultats sur un corpus restreint annoté. Un article scientifique sera rédigé avec l'équipe R&D et soumis en atelier ou en conférence, selon l'avancement des travaux.