Dans le cadre du projet ANR ADDICTE (Analyse distributionnelle en domaine de spécialité) le laboratoire CLLE recrute un ingénieur d'étude en TAL pour une période de 12 mois. Contexte scientifique : L'objectif du projet ADDICTE (Analyse distributionnelle en domaine de spécialité) est de proposer une solution opérationnelle à l'analyse sémantique distributionnelle en domaine de spécialité pour construire des représentations sémantico-conceptuelles du domaine (ontologies de domaine, thésaurus, ressources terminologiques) qui sont utilisables à la fois en ingénierie des connaissances et dans certaines applications documentaires (indexation de documents notamment). Aujourd'hui les modèles d'analyse distributionnelle performants fournissent des ressources « prêt-à-porter » construites à partir de très gros corpus tout-venant de langue générale. Ces word embeddings génériques ne sont pas suffisants pour représenter la sémantique d'un domaine de spécialité, et il est donc nécessaire de les construire sur la base de corpus spécialisés. Or, les corpus de textes spécialisés présentent des caractéristiques problématiques pour l'application de ces méthodes distributionnelles, dont l'efficacité est corrélée à la quantité de données disponibles. D'une part, ces corpus sont de taille modeste (généralement en deçà du million de mots) par comparaison aux très grand corpus de langue générale. D'autre part, les unités terminologiques, et en particulier les termes complexes, y prédominent qui, par leur spécificité, réduisent encore le volume des contextes mobilisables pour le calcul sémantique. En revanche, ces données présentent des caractéristiques intéressantes pouvant être exploitées par un système d'analyse distributionnelle : ces textes sont généralement très structurés, le lexique est réduit, et des ressources sémantiques sont souvent disponibles et peuvent être injectées dans le processus d'analyse. Détails de la mission L'ingénieur se concentrera sur le traitement des données issues de corpus spécialisés et plus particulièrement sur l'extraction des contextes des unités lexicales et terminologiques pour pour la construction de modèles distributionnels (modèles prédictifs à base de réseaux de neurones de type Word2vec). Il s'agira de caractériser ces contextes sur différents niveaux (syntaxiques, structurels, discursifs) et d'étudier leur impact sur les représentations distributionnelles. Pour cela, une première phase de préparation des corpus sera nécessaire, notamment pour pouvoir accéder à la structure du document et à une représentation enrichie des contextes. Dans un second temps, l'ingénieur devra mettre en place un dispositif expérimental permettant d'observer les liens entre les caractéristiques des contextes et les représentations distributionnelles. Activités L'ingénieur aura en charge les tâches suivantes : - constitution d'un corpus spécialisé annoté structurellement (en-tête, sections, titres, tableaux, etc.). Ce corpus devra au moins en partie être converti à partir de formats finalisés (PDF) en exploitant les indices de surface du document et en se basant sur les bibliothèques disponibles (xpdf, pdfminer, etc.) - développement de procédures de sélection et d'observation de contextes dans le corpus. Il s'agira de mettre au point des méthodes permettant l'extraction de contextes en fonction de caractéristiques a priori (linguistiques en se basant sur une annotation syntaxique automatique et/ou structurelles en se basant sur le balisage évoqué précédemment). Compétences Profil recherché : - Master en traitement automatique des langues - Solides connaissances en programmation (Python) - Pratique des corpus numériques : balisage XML, annotation automatique - Des connaissances sur les modèles distributionnels seraient un plus - Langues : français et anglais courants Contexte de travail Pluridisciplinaire et polyvalent en SHS, le laboratoire CLLE mène des recherches qui quadrillent un vaste périmètre des domaines de la linguistique (équipe ERSS) et de la psychologie (équipe LTC). Ses 218 membres dont 76 doctorants sont répartis en 8 axes de recherche qui permettent de couvrir un large spectre des sciences du langage et de la psychologie cognitive. Il est dirigé par Hélène Giraudo. Au sein de l'équipe ERSS (Equipe de Recherche en Syntaxe et Sémantique), l'axe CARTEL (Corpus, Applications, Ressources pour le Traitement et l'Etude du Langage), coordonné par Ludovic Tanguy, regroupe les recherche en linguistique informatique et en traitement automatique des langues (TAL). L'ingénieur recruté sera rattaché à l'axe Cartel. Il interagira avec les membres du laboratoire (permanents et doctorants) impliqués dans le projet ANR ADDICTE ainsi qu'avec les autres équipes partenaires de ce projet. Informations générales Référence : UMR5263-LUDTAN-002 Lieu de travail : TOULOUSE Date de publication : lundi 3 décembre 2018 Type de contrat : CDD Technique/Administratif Durée du contrat : 12 mois Date d'embauche prévue : 1 mars 2019 Quotité de travail : Temps complet Rémunération : autour de 2000¤ bruts (1700 nets) mensuels Niveau d'études souhaité : Bac+5 Expérience souhaitée : Indifférent Contacts : Ludovic Tanguy (ludovic.tanguy@univ-tlse2.fr) et Cécile Fabre (cecile.fabre@univ-tlse2.fr) Postuler en ligne sur : https://emploi.cnrs.fr/Offres/CDD/UMR5263-LUDTAN-002/Default.aspx -- Département des Sciences du Langage & Laboratoire CLLE-ERSS (UMR 5263) Université de Toulouse 2 5, allées Antonio Machado F-31058 Toulouse CEDEX 9 (+33) 5 61 50 36 03 -- http://w3.erss.univ-tlse2.fr/membre/tanguy/