Offre de stage TAL - Ingénieur / M2R
Sujet: Détection d'incohérences liées à la pragmatique dans un texte

Lieu : Synapse Développement - Toulouse centre
Contact : camille.pradel@synapse-fr.com
Durée : 6 mois
Rémunération conventionnelle + prime sur objectifs

---------------
Contexte
---------------

La société Synapse Développement est leader sur le marché du logiciel
d'analyse de la langue française. Société innovante d'une dizaine de
personnes, Synapse travaille pour le grand public et les grands comptes
comme Microsoft ou Amazon.

Depuis plusieurs années, les activités de R&D de Synapse Développement
s'orientent naturellement vers la compréhension du texte écrit. La
société est notamment identifiée comme un acteur majeur des systèmes de
question-réponse en français et en anglais. Son savoir-faire a récemment
été illustré au cours de la campagne d'évaluation Entrance Exams, dans
laquelle les systèmes sont soumis au test de compréhension de l'anglais
pour l'entrée à l'Université au Japon. Aux deux dernières éditions de la
compétition, la Reading Machine de Synapse a occupé la première
position, à la fois pour le test original en anglais et pour son
adaptation en français (pour laquelle textes et questions ont été
traduits à la main) ; elle est la seule à dépasser la moyenne dans les
deux langues et est donc admise à l'Université !

Au cours des dernières décennies, les travaux de recherche visaient à
surmonter le caractère informel et donc ambigu de la langue
naturelle. On peut considérer que ce verrou a désormais sauté, même si,
sur le plan pratique, le problème est toujours présent lors de
l'implémentation d'un système analysant le langage (la récente
banalisation de l'argot, du langage sms, et la multiplication des
erreurs dans les écrits n'aident pas à la tâche).

Une approche combinant une analyse syntaxique performante, des
ressources linguistiques de qualité et des outils statistiques permet
donc d'extraire de façon efficace la sémantique de ce texte. Cependant,
certains mécanismes cognitifs mis en oeuvre lors de la lecture d'un texte
par un humain sont encore mal imités par la machine, ce qui rend la
lecture automatique d'un texte moins performante d'un point de vue
qualitatif.

La principale limite à la compréhension de textes par la machine est
maintenant pour nous liée au mode d'expression du locuteur humain,
celui-ci ayant tendance à se dispenser de communiquer explicitement des
informations qui sont soit déjà connues du destinataire, soit inférables
par celui-ci.  Il est donc nécessaire pour une machine d'identifier et
de mobiliser ces informations implicites.

---------------
Objectifs
---------------

Dans le cadre du projet DIT (Détection d'Incohérences Textuelles),
Synapse veut concevoir, mettre en place et évaluer une méthode de
détection des incohérences liées à la pragmatique dans un texte. Dans ce
contexte, nous appelons une incohérence liée à la pragmatique une
contradiction entre une assertion d'un texte et des informations issues
d'une base de connaissance considérées comme vraies (ground truth).

Cette base de connaissances sera exprimée selon un formalisme de graphes.
Elle peut être :
 - externe et établie a priori (par exemple DBpedia),
 - ou construite par Machine Reading, soit sur une grande quantité de
   textes selon des approches statistiques, structurant alors des
   connaissances de fonds (background knowledge), soit au fur et à
   mesure de la lecture du texte, ce qui permettrait d'identifier des
   contradictions entre plusieurs assertions d'un même texte.

---------------
Verrous
---------------

Nous identifions deux difficultés majeures dans le travail demandé. La
construction d'une base de connaissances de fond uniquement par Machine
Reading sur de gros volumes de texte soulève le problème de la gestion
de la masse de données et celui de la prise en compte de données
contradictoires et leur fusion dans la base de connaissances. Le premier
problème est déjà en partie résolu par l'utilisation de la base de
données orientée graphe Neo4j, supportant une optimisation verticale.

Au niveau pragmatique, le risque tient à la complexité de la tâche
cognitivo-linguistique d'élaboration d'un schéma de représentation du
texte à des fins de comparaison sémantique. L'analyse du discours se
situe à la frontière de plusieurs disciplines, entre autres de la
psycholinguistique et de l'intelligence artificielle, et la stratégie et
les heuristiques utilisées sont cruciales pour des résultats
pertinents. Une approche agile (succession d'itérations intégrant des
tests et améliorant progressivement l'ensemble du process développé)
permettra de limiter les conséquences de cette difficulté.

---------------
Déroulement
---------------

Intégré-e à l'équipe R&D, le/la stagiaire portera ces thématiques de
recherche en tirant parti des technologies et savoir-faire Synapse. Un
découpage prospectif du travail demandé a permis de définir les tâches
suivantes :

1. Etat de l'art sur la détection d'incohérences liées à la pragmatique.
2. Contributions scientifiques :
    a. Identification ou proposition d'un format pivot de représentation
       d'une base de connaissances.
    b. Proposition du modèle d'intégration des connaissances issues du
       Machine Reading vers le format pivot.
    c. Proposition d'une méthode d'identification de contradictions.
3. Contributions pratiques :
    a. Export d'une base de connaissances externe type DBpedia vers le
       format pivot.
    b. Constitution d'une base de connaissances de fonds par Machine
       Reading.
    c. Implémentation du module de détection d'incohérences
       pragmatiques.
    d. Tests qualitatifs des résultats sur un corpus restreint annoté.

Un article scientifique sera rédigé avec l'équipe R&D et soumis en
atelier ou en conférence, selon l'avancement des travaux.