*** Proposition de stage de M2 en TAL *** Le laboratoire MoDyCo (UMR CNRS-Université Paris Ouest Nanterre), en collaboration avec le laboratoire GREYC (UMR CNRS-Université de Caen), propose un sujet de stage en TAL de niveau Master 2 d'une durée minimale de 4 mois, à partir de janvier 2014. Titre : Enrichissement de ressources sémantiques pour l'analyse de la factualité pour des systèmes de recherche d'information. Rémunération : celle prévue par la règlementation à savoir 436,05 ¤ par mois. *- Contexte applicatif et enjeux théoriques *: L'analyse automatique du degré de factualité des situations (ou évènements) dénotées dans les textes s'impose depuis quelques années comme un enjeu important dans le domaine de la recherche d'information. Parmi les applications visées : les systèmes de questions/réponses, les moteurs de recherche et, intégrés ou non à ces derniers, les systèmes visant à proposer en sortie une visualisation des informations sur une ligne du temps (ou *timeline*). Ces applications visent alors à distinguer les évènements présentés comme déjà réalisés et avérés des événements présentés comme incertains ou seulement possibles ou encore des événements présentés par l'auteur d'un texte comme certains selon un co-énonciateur dont l'auteur ne fait que citer les propos en montrant qu'il n'y adhère pas lui-même. Dans une autre terminologie, on parle de l'analyse et de la modélisation des caractéristiques modales (voire énonciatives) des situations. Un numéro entier de la revue *Computational Linguistics* (ModNeg, 2012) a dernièrement été consacré à cette problématique. Il met l'accent sur sa complexité théorique, en termes notamment de catégorisation sémantique des divers indices (lexicaux et grammaticaux) qui participent à l'expression du degré de factualité d'un évènement, celui-ci pouvant être passé ou à venir. Un autre aspect fondamental, encore cependant peu décrit dans la littérature tant linguistique que TAL, a trait aux modes de calcul de ce degré étant donné plusieurs indices co-présents. Les exemples ci-après donnent un aperçu des types d'énoncés qu'il s'agit de pouvoir traiter en montrant la variation du statut véri-conditionnel d'un même contenu propositionnel () fonction des indices sous la portée sémantique desquels il tombe : *Paul est venu* *Paul est peut-être venu* *Je crois que Paul est venu * *On dit que Paul est venu * *Il semblerait que Paul est venu * *Selon Marie, Paul est venu * *Selon Marie, Paul est sûrement venu * *Marie prétend que Paul est venu* *Paul devrait venir* *Paul doit venir* *Paul pourrait venir* *- Sujet de stage :* On note que peu de ressources ont été élaborées pour le français jusqu'à présent. Le stage visera à combler en partie ce déficit et s'intéressera à une analyse sémantique fine d'indices lexicaux (verbes, noms, adjectifs, adverbes). Cette analyse s'appuiera sur une méthodologie et des ressources déjà constituées (Battistelli et Damiani, 2012, Damiani et Battistelli 2013, (Enjalbert et Mathet, 2013) ainsi que sur des conceptions linguistiques issues de (Authier-Revuz, 1995) ou (Gosselin, 1999). Ces ressources et cette méthodologie seront testées et évaluées sur deux types de corpus de textes dans une perspective comparationniste : des dépêches d'agence journalistique et des news technologiques publiées sur le net. Le premier type de corpus est actuellement plus particulièrement analysé dans le cadre d'un système développé pour le projet ANR ChronoLines dont MoDyCo est le pilote (http://chronolines.fr/) ; le second type de corpus est lui plus particulièrement analysé dans le cadre d'une application développée au sein de l'entreprise Noopsis (http://noopsis.fr/), partenaire du laboratoire GREYC. Le travail visera en outre à préciser les zones de recouvrement théorique comme applicatives avec le domaine de l'annotation des opinions (Béthard et al., 2004, Wilson et Wiebe, 2003). *- Profil du candidat:* Le candidat devra être inscrit dans un Master en traitement automatique des langues ou en linguistique appliquée. - Compétences demandées * compétences en traitement automatique des langues et/ou en linguistique. * compétences de base en informatique et plus spécifiquement maitrise des langages de type perl et python. - Comment candidater ? Envoyer un CV (avec le détail des cours et notes des deux années de Master) et une lettre de motivation à : Delphine Battistelli : del.battistelli@gmail.com Patrice Enjalbert : patrice.enjalbert@unicaen.fr *- Références * Authier-Revuz J. (1995). Ces mots qui ne vont pas de soi, Boucles réflexives et non-coïncidences du dire, Paris: Larousse, 1995 Battistelli D., Damiani M. (2013) - « Analyzing modal and enunciative discursive heterogeneity: how to combine semantic resources and a syntactic parser analysis », in Actes WAMM (Workshop on Annotation of Modal Meaning in Natural Language), held in conjunction with IWCS'13, Potsdam, Allemagne. Bethard S., Yu H., Thornton A., Hatzivassiloglou V., Jurafsky D. (2004). « Automatic extraction of opinion propositions and their holders", in Working Notes of the AAAI Spring Symposium on Exploring Attitude and Affect in Text: Theories and Applications, March 22-24, 2004, Stanford Damiani M., Battistelli D. (2013) - « Enunciative and modal variations in newswire texts in French: From guideline to automatic annotation », in Actes de The 7th Linguistic Annotation Workshop & Interoperability with Discourse, held in conjunction with ACL'2013, Sofia, Bulgarie. Enjalbert, P., Mathet, Y. (2013) - « Constructions `Verbe + Verbe infinitif': étude de corpus et lexique sémantique », Document interne GREYC-Noopsis, Octobre 2013. Gosselin L. (2005). *Temporalité et modalité*, Bruxelles, De Boeck Supérieur « Champs linguistiques », 2005. ModNeg, 2012. Modality and Negation, Computational Linguistics, Special Issue - Volume 38, Issue 2 - June 2012 (http://www.mitpressjournals.org/toc/coli/38/2). Sauri R., Pustejovsky J. (2007). "Determining Modality and Factuality for Text Entailment", in Actes ICSC 2007, Irvine, California, 2007. Wilson T., Wiebe J. (2003). "Annotating opinions in the world Press", in Actes 4th SIGdial Workshop on Discourse and Dialogue (SIGdial-03), ACL SIGdial, 2003.