Proposition de post-doctorat à l'université de Caen, laboratoires GREYC / CRISCO. Projet Outils et Méthodes pour l'exploration des textes en Sciences Humaines ============== ============== ============== Ce projet interdisciplinaire vise l'utilisation de techniques de fouille de données ou de fouille de textes sur des problématiques linguistiques (analyse de discours, stylistique, linguistique de corpus, etc.). L'objectif du travail de post-doc est la constitution et l'exploitation des outils informatiques capables de détecter des « motifs » lexicaux et grammaticaux dans des corpus ; plus exactement, les méthodes en TAL et en fouille de données développées au laboratoire Greyc ont un avantage certain sur les outils « traditionnels » de la linguistique de corpus, dans le sens où elles mettent en œuvre des logiciels puissants pour l'identification des motifs séquentiels. Ces méthodes ont été éprouvées sur le problème de la détection d'interactions entre gènes ou sur l'apprentissage de patrons linguistiques dans des articles de presse ; l'originalité de ce projet est donc d'appliquer ces méthodes sur des discours plus complexes, à savoir des textes à valeurs littéraires, sociologiques ou historiques. L'objectif est donc : - d'utiliser les outils de fouille de données permettant l'identification de séquences / motifs pour l'analyse stylistique ; - d'utiliser des outils permettant l'identification de réseaux phrastiques dans les textes ; - d'adapter ces outils à l'utilisation non experte, afin de les mutualiser pour des disciplines différentes ; - de concevoir des représentations de résultats facilement interprétables ; - de concevoir des méthodes et outils adéquats et pertinents pour l'exploration textuelle en Sciences Humaines. Compétences attendues du post-doctorant ========================== Nous recherchons un candidat - ayant un profil en traitement automatique des langues ou en fouille de données ; - et ayant des compétences en développement informatique (notamment pour mettre au point des outils destinés à des non-spécialistes). Environnement de travail ============== Le post-doc sera accueilli au Greyc. Il travaillera en collaboration avec Dominique Legallois (linguistique, Crisco) et Thierry Charnois (TAL / fouille de données, équpes Dlu et Codag du Greyc) . Ce travail interdisciplinaire s'inscrit dans le prolongement d'un travail déjà amorcé et ayant donné lieu à des premiers résultats (Legallois et al. 2011). Il s'appuie aussi sur des travaux liés à l'hybridation de méthodes de fouille de données et du traitement des langues (Cellier et Charnois 2010, Charnois et al 2009), ainsi que sur les travaux plus linguistiques (Legallois 2009 ; 2006). La durée du contrat est de 12 mois (démarrage prévu en septembre 2011). Salaire : environ 1900 euros nets sur financement CPER (Conseil Régional Basse-Normandie) Contacts : Thierry Charnois (informatique, Greyc) ; Dominique Legallois (Sciences du langage, Crisco) ============== Comment candidater : ============== Les candidatures sont à envoyer dès que possible et seront étudiées jusqu'à ce que le poste soit pourvu. Envoyer un CV et une lettre de motivation, ainsi que des lettres de recommandation (ou deux noms de personnes susceptibles de recommander le candidat), par courrier électronique à : thierry.charnois@unicaen.fr et : dominique.legallois@unicaen.fr Thierry Charnois +33 2 31 56 73 77 GREYC - CNRS UMR 6072, Université de Caen, Campus Côte de Nacre F-14032 Caen Cedex - France Dominique Legallois +33 2 31 52 56 14 CRISCO - EA 4255, Université de Caen, Campus 1, F-14032 Caen Cedex - France ------- Références ------- Dominique Legallois, Peggy Cellier et Thierry Charnois « Calcul de réseaux phrastiques pour l'analyse et la navigation textuelle », In Actes de la 18e conférence sur le traitement automatique des langues naturelles (TALN'11), Montpellier, juillet 2011. Dominique Legallois 2009 "À propos de quelques n-grammes significatifs d'un corpus poétique du XIXe siècle" L'Information Grammaticale 121 Dominique Legallois 2006 : « Des phrases entre elles à l'unité réticulaire du texte » Langages 164 Thierry Charnois, Marc Plantevit, Christophe Rigotti and Bruno Crémilleux. Fouille de données séquentielles pour l'extraction d'information dans les textes. Revue TAL, 50(3) : 59-87, 2009. Peggy Cellier, Thierry Charnois. Fouille de données séquentielle d'itemsets pour l'apprentissage de patrons linguistiques. In Actes de la 17e conférence sur le traitement automatique des langues naturelles (TALN'10), 6 pages, actes électroniques, Montréal, Canada, juillet 2010.