Titre: Analyse Syntaxique et Sémantique en Français écrit. Objet: Bourse Post-doctorale Lieu: Bordeaux Durée: 12 mois à partir de Septembre/Octobre 2010 Contact: Lionel Clément Projet-Equipe INRIA Signes lionel.clement@labri.fr Qui: Docteur en Linguistique Formelle / en Informatique avec composante Linguistique Quoi: L'analyse syntaxique des textes tout-venant se heurte régulièrement à quelques cas complexes pour lesquels il est indispensable d'avoir une analyse fine et complète des phrases en syntaxe et en sémantique. C'est le cas des constructions causatives et factitives, des constructions à verbes supports, des coordonnées, corrélatives et comparatives, des phénomènes d'ellipse, et de bien d'autres encore. Ces constructions sont régulièrement négligés des systèmes robustes et fournissent des résultats rarement corrects dans les traitements automatiques de documents. Nous pouvons constater que les techniques du Data Mining se passent le plus souvent de l'analyse fine du contenu textuel des documents pour n'exploiter que les informations de méta-données. Nous observons que les techniques d'analyse robuste en TAL se passent également des analyses fines pour ne retenir qu'une analyse en surface (Chunking, Shallow-parsing). Mais ces technologies ont été choisies à défaut de savoir-faire en matière d'analyse robuste et fine des textes, tant du point de vue des techniques d'analyse que des formalisations linguistiques nécessaires. Bien que certains de ces outils commencent à être développés, pour l'anglais notamment (dans le récent ouvrage de Johan Bos et ses collègues), il n'y a pour le moment pas d'équivalent pour la langue française. C'est le but de ce projet de recherche de remédier à cela en développant une analyse syntaxique capable de traiter correctement les constructions fréquentes, mais complexes en syntaxe et en sémantique. Nous voudrions que l'étude soit menée dans un cadre de linguistique formelle issue d'un modèle récent comme les « grammaires d'unification» (par exemple comme LFG ou HPSG, ou les grammaires catégorielles d'unification), les grammaires de propriétés, etc. L'analyse syntaxique et sémantique des textes se fera en prenant le contre-pied de l'étude habituelle stochastique et de surface, sans toutefois renoncer à une étude d'extraction de corpus ou basée en partie sur des données statistiques par exemple. Quelques cas de phénomènes linguistiques seront choisis pour leur intérêt théorique et seront appliqués à l'analyse syntaxique et sémantique de textes français issus de gros corpus de textes écrits. La description linguistique de ces phénomènes se fera par une étude critique de l'état de l'art et sera appliquée de façon expérimentale grâce à l'un des outils d'analyse syntaxique fine proposés par la communauté (SXLFG, XLFG5, XLE, LKB, GRAIL, etc).