SYNTEX

En travaux
(dernière mise à jour : 11/07/2007)

Résultats de SYNTEX lors de la campagne EASY

Utilisateurs

Description simplifiée de SYNTEX

 


Résultats de Syntex lors de la campagne EASY

 

Précision

Rappel

F mesure

 Corpus

 

r

S-n°2

 

r

S-n°1

 

r

S-n°2

Web

0.80

1

+ 0.11

0.60

1

0

0.69

1

+ 0.12

Médical

0.79

1

+ 0.14

0.63

1

0

0.70

1

+ 0.07

Littéraire

0.80

1

+ 0.12

0.55

3

- 0.07

0.65

1

+ 0.03

Le Monde

0.76

1

+ 0.10

0.58

3

- 0.02

0.66

1

+ 0.04

Parlement

0.75

1

+ 0.11

0.57

2

- 0.02

0.64

1

+ 0.05

Questions

0.77

1

+ 0.09

0.63

1

0

0.70

1

+ 0.05

Mail                  
Oral                  

Tableau 1. Résultats de SYNTEX lors de la campagne EASY (pour les relations), sur 6 corpus (par choix, je n'ai pas traité les corpus Oral et Mail). Précision, rappel et f-mesure, avec le rang de classement de SYNTEX (r) et l’écart avec l’analyseur classé deuxième pour la précision et la f-mesure (S-n°2), et l’écart l’analyseur classé premier pour le rappel (S-n°1).

La campagne EASY d'évaluation des analyseurs syntaxiques du français était une des 8 campagnes d'évaluation des technologies de la langue du projet EVALDA , piloté par l'agence ELDA et financé par le Ministère français en charge de la Recherche dans le cadre du programme Technolangue (décembre 2002 - avril 2006). Les organisateurs de la campagne EASY ont été l'agence ELDA et le laboratoire LIMSI du CNRS. Dans cette campagne, les 15 analyseurs ont participé à la compétition, provenant de 13 participants différents : ERSS, FT R&D, INRIA, LATL, LIC2M, LIRMM, LORIA, LPL, STIM, SYNAPSE, SYSTAL, TAGMATICA, VALORIA et XRCE. Les corpus annotés ont été fournis par 5 partenaires : l'ATILF, le LLF, le DELIC, le STIM et ELDA. La tâche des fournisseurs de corpus a consisté en la collecte du corpus de différents genres de textes et en leur annotation. Les différents corpus sont les suivants : Web, des pages WEB du site ELDA ; Le Monde, des articles du journal Le Monde ; Parlement, des transcriptions de débats parlementaires (Sénat français et Parlement Européen) ; Littérature, des textes littéraires, issus de la base Frantext de l'ATILF ; Mail, des emails ; Médical, des textes médicaux (pathologies et traitements) ; Oral, des transcriptions de parole ; Questions, des questions, issues de la campagne EQUER.

Le protocole d'évaluation EASY supposait que tous les participants adoptent la même segmentation en mots et en énoncés. En concertation avec les participants, les organisateurs ont défini un formalisme et des conventions d'annotation censés permettre d'exprimer l'essentiel d'une annotation syntaxique quelle que soit sont type (de surface ou profonde, complète ou partielle), ceci sans privilégier une approche particulière. Le formalisme d'annotation EASY permet d'annoter des constituants continus et non-récursif, ainsi que des relations syntaxiques. Les relations peuvent associer indifféremment des mots ou des constituants. Dans EASY, il y a 6 types de constituants : nominal, adjectival, prépositionnel, adverbial, verbal et prépositionnel-verbal. Il y a 14 types de relations fonctionnelles : sujet-verbe, auxilliaire-verbe, complément d'objet direct, complément-verbe, modifieur de non, modifieur de verbe, modifieur d'adjectif, modifieur d'adverbe, modifieur de préposition, complémenteur, attribut du sujet/objet, coordination, apposition, juxtaposition. Pour plus de détails, voir (Vilnat et al., 2004) (Paroubek & Robba, 2006) (Paroubek et al., 2007).

Nous n'avons participé qu'à l'évaluation sur les relations, puisque SYNTEX ne fabrique pas de constituants. Par ailleurs, j'avais décidé d'emblée de ne pas fournir de résultats sur les corpus Oral et Mail, pour marquer le fait que SYNTEX n'avait pas été conçu pour traiter des corpus de n'importe quel type, mais qu'il avait été mis au point pour, et été testé sur, des corpus qui respectent les normes syntaxiques de l'écrit standard. L'essentiel du travail a consisté, d'une part, à réaliser les programmes de conversion en amont de l'analyseur, pour prendre en entrée le découpage en mots fourni par les organisateurs, et en aval de l'analyseur, pour rendre les résultats dans le format XML demandé, et, d'autre part, à compléter l'analyseur pour qu'il traite correctement des relations (locales) sur lesquelles j'avais alors peu avancé. L'ensemble de ces tâches a été mené à bien, de main de maître, par Marie-Paule Jacques . Je présente dans les tableaux 2-7 les résultats, pour les relations, de tous les analyseurs sur tous les corpus, en termes de précision, rappel et f mesure. Le tableau 1 rassemble ces résultats pour SYNTEX, sur les 6 corpus qu'il a traités. On constate que SYNTEX est classé premier partout, sauf en rappel sur les corpus Littéraire (3ème), Le Monde (3ème) et Parlement (2ème). Le résultat le plus remarquable est l'écart entre SYNTEX et ses suivants en terme de précision : en moyenne 10 points de précision en plus.

 

p

r

f

P1 0.59   0.51 (3) 0.55 (3)
P2 0.42   0.16   0.23  
P3 -   -   -  
P4 0.55   0.33   0.42  
P5 0.55   0.44   0.49  
P6 0.46   0.41   0.43  
P7 0.61   0.39   0.47  
Sy 0.80 (1) 0.60 (1) 0.69 (1)
P9 0.69 (2) 0.30   0.42  
P10 0.60   0.55 (2) 0.57 (2)
P11 0.67 (3) 0.06   0.11  
P12 0.41   0.29   0.34  
P13 0.27   0.24   0.26  
P14 -   -   -  
P15 0.34   0.32   0.33  

Tableau 2. Résultats EASY (relations) sur le corpus Web

 

  p r f
P1 0.60   0.53   0.56  
P2 0.07   0.04   0.05  
P3 0.64 (3) 0.63 (2) 0.63 (2)
P4 0.28   0.20   0.23  
P5 0.56   0.49   0.52  
P6 -   -   -  
P7 0.65 (2) 0.44   0.53  
Sy 0.79 (1) 0.63 (1) 0.70 (1)
P 9 0.04   0.02   0.03  
P10 0.61   0.59 (3) 0.60 (3)
P11 0.62   0.10   0.17  
P12 0.43   0.33   0.38  
P13 0.36   0.33   0.34  
P14 -   -   -  
P15 0.33   0.28   0.30  

Tableau 3 . Résultats EASY (relations) sur le corpus Médical

 

  p r f
P1 0.61   0.54   0.58  
P2 0.08   0.04   0.05  
P3 0.58   0.62 (1) 0.60 (3)
P4 0.53   0.36   0.43  
P5 0.51   0.41   0.46  
P6 -   -   -  
P7 0.68 (2) 0.43   0.52  
Sy 0.80 (1) 0.55 (3) 0.65 (1)
P9 0.02   0.01   0.02  
P10 0.64 (3) 0.61 (2) 0.62 (2)
P11 0.64   0.09   0.16  
P12 0.39   0.27   0.32  
P13 0.43   0.38   0.40  
P14 -   -   -  
P15 0.38   0.31   0.34  

Tableau 4 . Résultats EASY (relations) sur le corpus Littéraire

 

  p r f
P1 0.57   0.52   0.54  
P2 0.32   0.12   0.17  
P3 0.63 (3) 0.60 (1) 0.62 (2)
P4 0.58   0.32   0.41  
P5 0.56   0.46   0.51  
P6 0.42   0.34   0.38  
P7 0.66 (2) 0.43   0.52  
Sy 0.76 (1) 0.58 (3) 0.66 (1)
P9 -   -   -  
P10 0.61   0.59 (2) 0.60 (3)
P11 0.60   0.07   0.13  
P12 0.41   0.29   0.34  
P13 0.36   0.32   0.34  
P14 -   -   -  
P15 0.34   0.29   0.31  

Tableau 5 . Résultats EASY (relations) sur le corpus Le Monde

  p r f
P1 0.58   0.52   0.55  
P2 0.29   0.11   0.16  
P3 0.59   0.59 (1) 0.59 (2)
P4 0.55   0.32   0.40  
P5 0.53   0.43   0.47  
P6 0.41   0.34   0.37  
P7 0.64 (2) 0.41   0.50  
Sy 0.75 (1) 0.57 (2) 0.64 (1)
P9 -   -   -  
P10 0.58   0.56 (3) 0.57 (3)
P11 0.60 (3) 0.08   0.14  
P12 0.37   0.24   0.29  
P13 0.34   0.31   0.32  
P14 -   -   -  
P15 0.34   0.29   0.31  

Tableau 6 . Résultats EASY (relations) sur le corpus Parlement

  p r f
P1 0.68 (2) 0.62 (2) 0.65 (2)
P2 0.16   0.06   0.09  
P3 0.66   0.61 (3) 0.64 (3)
P4 0.67 (3) 0.56   0.61  
P5 0.45   0.38   0.41  
P6 -   -   -  
P7 0.67   0.43   0.52  
Sy 0.77 (1) 0.63 (1) 0.70 (1)
P9 0.11   0.05   0.07  
P10 0.64   0.61   0.62  
P11 0.61   0.09   0.16  
P12 0.48   0.35   0.40  
P13 0.35   0.31   0.33  
P14 -   -   -  
P15 0.36   0.29   0.32  

Tableau 7 . Résultats EASY (relations) sur le corpus Questions

[Haut]


Utilisateurs

Nathalie Aussenac-Gilles (équipe IC3, IRIT, Toulouse) [Email] (11/07/2007)

Depuis 1995, nous utilisons Syntex dans plusieurs projets de modélisation de connaissances à partir de textes, les modèles construits étant des ressources termino-ontologiques utilisées ensuite dans différents types d'applications.

Kévin Ottens (équipe SMAC, IRIT) [Email] (11/07/2007)

-- projet Dynamo : Syntex est utilisé en amont de DynamO, un système d'agents adaptatifs visant à proposer un noyau d'ontologie à partir de textes par classification et "auto-organisation" des résultats de Syntex.

Axel Reymonet (IRIT, Toulouse) [Email] (10/05/2007)

Syntex est utilisé dans le cadre de la construction à partir de textes d'une ontologie du domaine du diagnostic automobile.

Philippe Langlais, Fabrizio Gotti (RALI, Université de Montréal) [Email] (10/05/2007)

Nous utilisons Syntex dans deux projets. L'un de mémoire de traduction, l'autre de traduction automatique statistique. Dans les deux cas, nous construisons une mémoire de "tree-phrases" à l'aide de Syntex. Un tree-phrase est une unité constituée de dépendances syntaxiques identifiées par Syntex dans un texte en langue source (le Français dans notre cas), ainsi que les mots qui lui sont alignés dans la langue cible (l'Anglais). Nous avons montré dans ces deux projets l'apport positif de Syntex.

http://www.iro.umontreal.ca/~felipe/publis.html
http://www.iro.umontreal.ca/~felipe/

Sylvain Loiseau (MoDyCo, Université Paris 10) [Email] (10/05/2007)

J'ai utilisé Syntex dans une thèse de doctorat intitulée "Sémantique du discours philosophique chez Deleuze : du corpus aux normes" (Paris X-Nanterre, 2006). J'ai utilisé Syntex pour une expérience notamment qui nécessitait une robustesse dans les rattachements propositionnels et la possibilité de parcourir, dans les sorties de l'analyseurs, les arborescences issues de l'analyes en dépendances. Ces deux critères étaient nécessaires pour constituer des "contextes" sur des critères syntaxiques fins. Il s'agissait en effet d'identifier les ensembles de mots partageant une dépendance à une même occurrence de la conjonction "ou", puis de représenter ces cooccurrences "interdéfinissantes" par des connexions dans un graphe, de façon à explorer des constantes sémantiques et des zones d'interdéfinition du corpus.

Jean-Luc Minel (laboratoire MoDyCo, Université Paris 10) [Email] (10/05/2007)

Le laboratoire MoDyCo utilise actuellement le logiciel Syntex dans deux domaines de recherche. D'une part, pour affiner la validité temporelle d'évènements notifiés dans des textes. D'autre part, pour mettre à jour des critères syntaxiques dans des contes étudiés en milieu scolaire.

http://panini.u-paris10.fr/jlm

Stéphane Trébucq (Université Bordeaux 4) [Email] (10/05/2007)

A titre personnel, j'ai utilisé l'outil SYNTEX dans le cadre d'une analyse de textes correspondant à une trentaine d'articles scientifiques spécialisés en gouvernance d'entreprise. La liste des syntagmes nominaux obtenue a permis de mieux saisir la structuration de ces textes, et leur organisation. Cette expérience a permis de mieux comprendre comment les outils d'analyse textuelle peuvent aider à organiser une ingénierie des connaissances, en sciences de gestion.

http://trebucq.u-bordeaux4.fr/

Marianna Apidianaki (Université Paris 7) [Email] (21/05/2007)

Utilisation de Syntex dans le cadre de ma thèse, dirigée par Catherine Fuchs : Extraction de dictionnaires bilingues à partir de corpus alignés dans un système de Mémoire de Traduction.

Antonio Balvet (Université Lille 3) [Email] (21/05/2007)

Utilisation de la base de données des triplets syntaxiques (gouverneur,relation,dépendant) extraits du coprus Le Monde (années 1991-2000) dans le cadre du projet PAI Ontoref (Osnabrück, Lille, Barcelone) : aide à la typologie sémantique des noms prédicatifs.

Patrick Drouin, Marie-Claude L'Homme (Université de Montréal) [Email] (21/05/2007)

Le projet SACOT (Semi-Automatic Construction of Ontologies from Texts) vise à évaluer, à développer et à valider des méthodes de traitement automatique de la langue comme moyen d'identifier les connaissances, exprimées dans les corpus spécialisés par la terminologie, et de représenter ces connaissances dans des ontologies. Les méthodes exploitées reposent sur des techniques d'acquisition automatique de la terminologie, d'identification automatique de relations conceptuelles au sein de corpus et de construction automatique d'ontologies. Syntex a été utilisé dans le cadre de la première phase du projet qui implique l'évaluation de divers outils d'acquisition automatique de la terminologie.

Étude du rôle des adjectifs dans la structuration des terminologies. L’objectif de ce projet est de décrire des adjectifs spécialisés appartenant à différents groupes : adjectifs qualificatifs, dérivés de noms et dérivés de verbes. Le modèle de description tient compte de ce classement des adjectifs, de leurs sens expliqués au moyen de paraphrases et des noms avec lesquels ils se combinent. Dans les cas des adjectifs dérivés, la base sémantique est également mentionnée. Notre étude s’appuie sur des corpus spécialisés. Les adjectifs sont d'abord extraits au moyen de TermoStat (Drouin 2003) et son analysés au moyen de Syntex.

DiCoInfo. Dictionnaire fondamental de l'informatique et de l'Internet. Ce projet vise à décrire les termes fondamentaux du domaine de l’informatique (ex. configurer, programme, ordinateur, numérique). Toutes les descriptions sont faites à partir d’un corpus comptant environ 1 000 000 mots. À partir d’une liste de spécificités lexicales générées au moyen de TermoStat (mis au point dans le laboratoire), les terminographes sélectionnent les entrées en appliquant une série de critéres lexico-sémantiques. Les acceptions sont également distinguées en appliquant des tests lexico-sémantiques (ex. cooccurrence compatible et différentielle, dérivation morphologique, etc.). La forme des entrées s’appuie largement sur les modèles de la Lexicologie explicative et combinatoire (LEC). Chaque terme est accompagné d’une description de sa structure actancielle (ex. AGENT installe PATIENT sur SUPPORT). Syntex est utilisé notamment pour dégager les réalisations linguistiques des actants.

http://olst.ling.umontreal.ca/presentation/

Stefan du Château (MODEME, IAE Lyon 3) [Email] (21/05/2007)

Je prépare une thèse au laboratoire MODEME de l'IAE Lyon 3, codirigée par D. Boulanger et Eunika Mercier-Laurent: Système d’aide à la modélisation des connaissances et de recherche du patrimoine culturel. Un des problème que je souhaite aborder est l'extraction de concepts et de relations à partir de corpus, afin d'alimenter une ontologie de domaine. C'est dans ce cadre que j'ai demandé l'analyse d'un corpus par SYNTEX.

Gaëlle Lortal (U.T.T.-Tech-CICO) [Email] (21/05/2007)

Afin de soutenir le Travail Collaboratif Assisté par Ordinateur, nous avons développé une plateforme d'annotation de documents numériques. Ce collecticiel permet d'ancrer des commentaires à propos d'un document numérique et de créer une classification pour structurer les concepts du domaines et indexer les différents documents et fragments numériques. Cette plateforme contient un moteur pour la création de la classification et l'indexation des documents basé sur l'outil Syntex. Syntex nous permet d'annoter d'une façon robuste des documents appartenant aux Nouvelles Formes de Communication Ecrites (NFCE, Véronis et Guimier de Neef, 2006) et ainsi de structurer une Ressource Termino-Ontologique multi-point de vue à partir des relations de dépendances et des structures syntaxiques identifiées et d'un ensemble de patrons syntaxico-sémantiques déterminés. Syntex nous a permis de gérer une base de documents textuels et leur indexation semi-automatique au fil de l'eau grâce à son encapsulation sur une plateforme ZOPE.

Thierry Poibeau, Cédric Messiant (LIPN, Université Paris 13) [Email] (21/05/2007)

Nous utilisons SYNTEX dans le cadre de la thèse de Cédric Messiant (encadré par Thierry Poibeau) intitulée "Acquisition automatique d'informations linguistiques à partir de corpus". Nous développons un système d'acquisition de cadres de sous-catégorisation de verbes du français. Ce travail se fera sur un très gros corpus qui a été préalablement analysé syntaxiquement par SYNTEX. La méthode d'acquisition sera adaptable à d'autres domaines, à condition de disposer de corpus de taille suffisante. L'objectif à terme est d'obtenir les cadres de sous-catégorisation des verbes les plus courants de la langue française et d'en dériver des classes sémantiques (voir les travaux de Beth Levin (1993)).

Amalia Todirascu (université Marc Bloch de Strasbourg) [Email] (21/05/2007)

Titre du projet Collocations en contexte: extraction et analyse contrastive. Responsable scientifique: Amalia Todirascu. Le projet est financé par l'Agence Universitaire pour la francophonie (http://www.ltt.auf.org/IMG/doc/Collocations_fiche.doc) et implique trois partenaires: l'université Marc Bloch de Strasbourg (EA1339 - Linguistique, Langues et Parole), l'Académie roumaine de Bucarest (le centre d'intelligence artificielle) et IMS Stuttgart. L'objectif de ce projet est de développer un système d'extraction de collocations, paramétrable pour plusieurs langues. Le système applique une methode statistique d'extraction des candidats et un module de filtrage, basé sur des patrons morpho-syntaxiques. Pour définir ces filtres, une étude comparative des propriétés morpho-syntaxiques des collocations en français, allemand, roumain a été réalisée sur des corpus étiquétés et annotés pour les 3 langues, pour extraire les propriétés morpho-syntaxiques des collocations. Syntex a été utilisé pour annoter le corpus AcquisCommunautaire (français).

Agnès Tutin (LIDILEM, université Grenoble 3) [Email] (21/05/2007)

L'outil Syntex (et Upery) développé par Didier Bourigault est utilisé par le LIDILEM dans le cadre d'un travail sur les écrits transdisciplinaires, en particulier dans le cadre du projet ANR Scientext (2007-2010) piloté par le LIDILEM et dans le cadre d'une collaboration avec Patrick Drouin de l'OLST (http://olst.ling.umontreal.ca/).

Une première expérimentation a consisté à explorer comment l'analyse distributionnelle permettait de dégager automatiquement des classes sémantiques des noms transdisciplinaires des écrits scientifiques. Nous testons plusieurs méthodes basées sur des dépendances syntaxiques extraites de Syntex et observons les proximités sémantiques et les classes établies en utilisant la mesure de jaccard . L'hypothèse que certaines relations syntaxiques - en particulier les relations de sous-catégorisation - sont plus appropriées pour établir des classements sémantiques n'apparaît qu'en partie vérifiée. Si les relations de sous-catégorisation génèrent des proximités sémantiques entre les mots de meilleure qualité, cela ne semble pas le cas pour la classification par voisinage. Un prolongement intéressant de ce travail sera d'approfondir les relations syntaxiques mises en jeu en présélectionnant les relations les plus informatives sur le plan sémantique afin de réduire le bruit. D'autres types de regroupements (cliques) seront proposés de façon à prendre en compte la polysémie.

L'outil Syntex a également été utilisé dans un projet visant à identifier automatiquement les collocations transdisciplinaires des écrits scientifiques. L'utilisation de Syntex pour l'extraction des collocations de type V-N a donné de meilleurs résultats que l'emploi de méthodes à base statistique utilisant un simple étiqueteur morpho-syntaxique.

Enfin, nous envisageons d'utiliser Syntex dans le cadre du projet Scientext pour l'identification des marques linguistiques du positionnement et du raisonnement

Claire Nédellec, Robert Bossy, Alain Kotoujansky, Annick Lacombe (INRA, Jouy-en-Josas) [Email] (22/05/2007)

Le système d'information du projet européen Epipagri de mutualisation de brevet en agronomie inclut un outil de classification automatique de brevets et un outil d'interrogation en ligne, tous deux basés sur un thesaurus métier. Dans le cadre de l'acquisition de la terminologie, Syntex a été comparé aux extracteurs de termes de Lingway et à YaTea (LIPN). Diverses expérimentations ont mis en évidence son taux de rappel élevé, critère important pour cette application. L'ergonomie de l'interface de validation des candidats termes a été également un argument critique. La construction d'une terminologie en agronomie est actuellement en cours avec l'aide de Syntex. Cette phase vise à évaluer la qualité de la classification et de l'indexation automatiques de documents représentés à l'aide de la terminologie. Les phases suivantes se concentreront sur des sous-domaines d'application avec des visées opérationnelles.

Olivier Steichen, Chritel Le Bozec, Marie-Christine Jaulent, Jean Charlet (INSERM UMR S872, équipe 20/SPIM, Paris) [Email] (22/05/2007)

Syntex et son module Upery sont utilisés pour la construction d'une ontologie de la prise en charge de l'hypertension. Les candidats termes sont extraits de deux corpus, l'un issu d'observations médicales et l'autre de recommandations pour la pratique clinique. A terme, cette ontologie doit servir à représenter formellement les cas pris en charge dans un service spécialisé, en vue d'une analyse qualitative de la justification des décisions médicales non conformes aux recommandations. Les concepts récurrents identifiés dans les observations médicales en texte libre et les concepts nouveaux identifiés dans les recommandations pour la pratique clinique ont également contribué à actualiser un formulaire de saisie structurée des observations cliniques.

Susanne Salmon-Alt (ATILF) [Email] (28/05/2007)

Recherches menées : modèles d'annotation linguistique et standardisation de ressources ; extraction de cadres de sous-catégorisation

http://www.atilf.fr/perso/salmon-alt/

[Haut]


Description simplifiée de SYNTEX

SYNTEX est un analyseur procédural à cascade. Le terme à cascade signifie qu'il traite chaque séquence en plusieurs passes successives. L'entrée d'une passe est la sortie de la passe précédente. La séquence donnée en entrée à l'analyseur est étiquetée : elle est découpée en mots (token), à chaque mot est associée une catégorie grammaticale (nom, verbe, adjectif…). J'utilise le TREETAGGER . A chaque passe, l'analyseur ajoute des liens syntaxiques, en s'appuyant sur les liens placés lors des passes antérieures. Le terme procédural signifie que les liens syntaxiques sont placés par des heuristiques qui décrivent l'algorithme de parcours de la chaîne des mots étiquetés partiellement analysée entre un mot donné et un gouverneur ou dépendant potentiel. L'analyseur SYNTEX est très proche, dans sa philosophie, de l'analyseur FULCRUM de P. S. Garvin (Garvin, 1967), avec sa méthode par passes et ses mots pivots. L'analyseur est aussi modulaire : chaque type de lien syntaxique (sujet, objet…) est pris en charge par un module dédié. J'illustre de façon simplifiée le fonctionnement de l'analyseur en déroulant pas à pas le traitement de la séquence 1.

En préalable à l'analyse syntaxique, l'étiqueteur morphologique a découpé la séquence en mots et a attribué une étiquette morphosyntaxique à chacun des mots (N : nom, V : verbe, D : déterminant, P : préposition, A : adjectif) (2). Il a reconnu la préposition complexe en direction du.

(1) Marie lance la pelote de laine rouge en direction du chat de Jean.

(2) La (D) fille (N) de (P) Marie (N) lance (V) la (D) pelote (N) de (P) laine (N) rouge (A) en_direction_du (P) chat (N) de (P) Jean (N)

Lors d'une première passe, l'analyseur traite les relations dites " locales ". Il reconnaît par exemple des liens syntaxiques entre un déterminant et son gouverneur, entre une préposition et son dépendant, entre un auxiliaire et son participe passé (3).

Lors d'une deuxième passe, l'analyseur traite les relations dites " non ambiguës ". Il reconnaît dans la séquence 1 le lien Sujet entre le verbe lance et le nom fille et le lien Objet entre le verbe lance et le nom pelote (4). Les flèches en pointillés sous la séquence marquent les étapes du parcours entre les extrémités des liens syntaxiques. Les barres verticales sous les mots marquent les fins de parcours. Le module de recherche des sujets se positionne sur le verbe conjugué lance et se déplace vers la gauche à la recherche d'un dépendant pour ce gouverneur. Il rencontre d'abord le nom Marie qui est déjà gouverné (par la préposition de), puis le nom fille, situé immédiatement à gauche de la préposition. Le module retient ce nom, puisqu'il est libre, et stoppe son parcours puisque le déterminant gouverné par ce nom est le premier mot de la séquence. Le module de recherche des objets se positionne sur le verbe transitif lance et se déplace vers la droite à la recherche d'un dépendant pour ce gouverneur. Il rencontre d'abord le déterminant la et remonte à son gouverneur pelote. Puisque ce nom est libre, il le retient comme cible de la relation, et stoppe sa recherche.

Lors d'une troisième passe, l'analyseur traite les relations dites " non ambiguës ". Il recherche les gouverneurs potentiels des adjectifs et des prépositions. Pour des raisons de lisibilité, je décompose la description en commentant le traitement des 3 prépositions de (5a), puis de l'adjectif rouge (5b) et enfin de la préposition en direction du (5c). Pour la première préposition de, le module de recherche des gouverneurs des prépositions reconnaît sans ambiguïté le nom fille comme gouverneur. Pour la deuxième préposition de, le module retient d'abord le nom pelote situé immédiatement à sa gauche, puis remonte directement au verbe lance, gouverneur de ce nom et situé à gauche, qu'il retient comme deuxième gouverneur candidat, et il stoppe la recherche sur ce verbe conjugué. Il a donc retenu 2 gouverneurs candidats pour cette préposition. Pour la troisième préposition de, le module retient d'abord le nom chat situé immédiatement à sa gauche, puis remonte directement à gauche de la préposition qui gouverne ce nom, pour se saisir de l'adjectif rouge, puis du nom laine, avant de remonter à la deuxième préposition de, gouverneur de ce nom, dont il récupère tous les gouverneurs candidats. Il a donc retenu 4 gouverneurs candidats pour cette préposition.

Pour trouver le gouverneur de l'adjectif rouge (5b), le module de recherche des gouverneurs nominaux des adjectifs part de cet adjectif, se déplace à gauche et sélectionne le nom laine comme candidat, puis, situé immédiatement à gauche de la préposition gouvernant ce nom, le nom pelote. La recherche s'arrête car ce second nom est gouverné par un verbe qui ne se construit pas avec un attribut. Le module a donc retenu 2 gouverneurs candidats pour cet adjectif.

De façon analogue (5c), le module de recherche des gouverneurs des prépositions identifie comme gouverneurs candidats pour la préposition en direction du les mots rouge, laine, pelote et lance. A la fin du traitement des relations ambiguës, l'analyse a produit le treillis (5d). La procédure de désambiguïsation exploitent des proprités de sous-catégorisation endogènes (acquises automatiquement par SYNTEX à partir du corpus en cours de traitement) et exogènes (acquises automatiquement par SYNTEX à partir d'un corpus de 200 millions de mots). La désambiguïsation produit le résultat 5e. Le résulta final complet de l'analyse est l'arbre de dépendance 5f.

[Haut]



 
Pages Université Toulouse le Mirail Page ERSS