|
ANNODIS est un projet multidisciplinaire (linguistique, logique, TAL) né de la collboration de trois laboratoires français :
Ce projet financé par L'Agence National pour la Recherche (ANR) a démarré en Décembre 2007.
|
|
|
objectifs 
Le projet ANNODIS a pour objectif la construction d'un corpus annoté et outillé. Ce corpus sera une référence pour l'étude de l'organisation du discours en français. Les annotations proposées se situeront à deux niveaux d'analyse:
- la perspective ascendante part d'objets élémentaires (les unités minimales de discours) pour construire des structures plus complexes via les relations de discours. Cette partie du projet est dirigée par l'équipe LILAC de l'IRIT (en savoir plus...)
- la perspective descendante aborde le texte dans son entier et se base sur divers indices de surface pour identifier des structures discursives de haut niveau (macro-structures). Cette partie du projet est dirigée par les axes TAL et S'CALADIS de l'ERSS (en savoir plus...)
La construction du corpus est associée à la création de deux interfaces : une première ayant pour rôle d'aider l'annotation des structures discursives et une seconde d'exploiter les annotations produites. La construction de ces interfaces est dirigée par l'équipe du GREYC.(en savoir plus...)
Présentation du projet lors de l'UE TAL (petit bilan des 10 premiers mois du projet)
Methodologie 
Un corpus diversifié et disponible
Trois caractéristiques principales du corpus:
- Un corpus diversifié permet de comparer le fonctionnement des structures discursives dans des types de textes différents
- Un corpus disponible composé de documents libre de droits (le terme "documents" signifie que les textes sont livrée avec une mise en forme matérielle)
- Un corpus pertinent pour les perspectives ascendante (textes argumentatifs) et descendante (textes longs et découpés en section)
Utilisation générale d'outils issus du TAL pour préparer l'annotation
- Post-étiquetage et analyse des relations de dépendance syntaxique pour
- la segmentation en unités minimales de discours (perspective ascendante)
- marquage des configurations d'indices relatives aux structures macro (perspective descendante)
- Profilage automatique des textes pour construire le corpus de référence
Campagne d'annotation
- Définition des spécifiations pour guider l'annotation humaine des :
- relations de discours entre les unités minimales de discours
- macro-structures, notamment les structures énumératives
- Evaluation des spécifications : application des manuels d'annotation par les membres du projets sur une sélection de textes
- Campagne d'annotation avec annotateurs "neutres"
Toutes les procédures d'annotation sont assistées par ordinateur.
Techniques d'apprentissage et de fouille de données sur le corpus annoté pour découvrir des corrélations entre indices de surface et structures
Equipe 
CLLE-ERSS
- Anna Berdah (Doctorante, CLLE-ERSS)
- Andrée Borillo (PR, CLLE-ERSS)
- Didier Bourigault (CR, CLLE-ERSS)
- Myriam Bras (MC, CLLE-ERSS)
- Cécile Fabre (MC, CLLE-ERSS)
- Lydia-Mai Ho-Dac (Post-Doctorante, CLLE-ERSS)
- Marion Laignelet (Doctorante, CLLE-ERSS)
- Anne Le Draoulec (CR, CLLE-ERSS)
- Marie-Paule Péry-Woodley (PR, CLLE-ERSS)
- Christophe Pimm (Doctorant, CLLE-ERSS)
- Laurent Prévot (Post-Doctorant, CLLE-ERSS)
- Josette Rebeyrolle (MC, CLLE-ERSS)
- Franck Sajous (Ingénieur, CLLE-ERSS)
- Ludovic Tanguy (MC, CLLE-ERSS)
- Marianne Vergez-Couret (Doctorante, CLLE-ERSS)