Stage de Master 2 Recherche pouvant donner lieu à poursuite en thèse. Les applications qui utilisent une analyse linguistique des textes sont nombreuses: veille stratégique, résumé automatique, Question-Réponse, traduction automatique, etc. Pendant longtemps, à défaut de capacités suffisantes des analyseurs linguistiques, on a supposé que la sémantique serait très utile dans de telles applications, sans pouvoir le vérifier expérimentalement. Désormais, sans que ce soit un problème résolu, l'analyse syntaxique est suffisamment performante pour pouvoir développer et exploiter des méthodes d'analyse sémantique à échelle réelle [Clark & Harrison, 2008]. Une précédente thèse au Laboratoire Vision et Ingénierie des Contenus du CEA LIST [Mouton, 2010] a permis d'obtenir des ressources sémantiques en français de deux types à partir de la traduction de ressources anglaises: une base lexicale du type WordNet (JAWS) et une base de cadres sémantiques de type FrameNet. Ces deux ressources ont permis de développer un outil de désambigüisation sémantique (Word Sense Disambigation, WSD) et un autre d'annotation en rôles sémantiques (Semantic Role Labeling). Ces deux outils travaillent indépendamment et pourraient être utilisés dans diverses applications. Le présent stage, conçu comme préalable à une thèse de doctorat aura pour but de reprendre ce travail là où il s'est terminé et d'aller au-delà, en direction d'un but ultime qui serait une analyse sémantique complète des textes. L'objectif sera d'étudier la complémentarité des deux outils et la possibilité de les intégrer en un seul qui profitera des capacités de chacun, la désambigüisation devant faciliter l'annotation en rôles et celle-ci devant fournir des indices supplémentaires pour la désambigüisation [Che & Liu, 2010]. Il faudra aussi étendre les ressources apprises aux verbes et adjectifs, seul le lexique nominal ayant été traité dans la thèse de Claire Mouton. Ce stage pourra par ailleurs commencer l'exploration d'une partie prévue pour lé thèse, l'exploitation de nouvelles informations syntaxiques qui aideront l'analyse sémantique, en particulier l'intégration dans l'analyseur linguistique LIMA du CEA LIST d'informations sur la valence verbale par l'intermédiaire du lexique syntaxique Lefff [Sagot & Danlos, 2009] de l'équipe Alpage (INRIA et Université Paris VII). Références: Wanxiang Che & Ting Liu. Jointly Modeling WSD and SRL with Markov Logic. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), 2010. Clark Peter and Harrison Phil. Boeing's NLP System and the Challenges of Semantic Representation. In Proc SIGSEM Symposium on Text Processing (STEP'08), Venice, Italy, 2008. Mouton Claire. Ressources et méthodes semi-supervisées pour l'analyse sémantique de texte en français, Thèse de doctorat de l'Université Paris 11, 2010. Sagot Benoît et Danlos Laurence (2009). Constructions pronominales dans Dicovalence et le lexique-grammaire – Intégration dans le Lefff . In Linguisticæ Investigationes 32(2) (pages 293-304). Le stage se fera dans le Laboratoire Vision et Ingénierie des Contenus du CEA LIST sous la direction de Gaël de Chalendar. Gael de Chalendar CEA LIST Centre de Fontenay-aux-Roses Laboratoire Vision et Ingénierie des Contenus (Vision and Content Engineering Laboratory) Bat. 38-2 ; 18, rue du Panorama ; BP 6 92265 Fontenay aux Roses Cedex ; France Tél.:01.46.54.80.18 ; Fax.:01.46.54.75.80 Email : Gael.D.O.T.de-Chalendar.A@T.cea.D.O.T.fr