Dans le cadre du projet ANR ADDICTE (Analyse distributionnelle en
domaine de spécialité) le laboratoire CLLE recrute un ingénieur
d'étude en TAL pour une période de 12 mois.

Contexte scientifique :

L'objectif du projet ADDICTE (Analyse distributionnelle en domaine de
spécialité) est de proposer une solution opérationnelle à l'analyse
sémantique distributionnelle en domaine de spécialité pour construire
des représentations sémantico-conceptuelles du domaine (ontologies de
domaine, thésaurus, ressources terminologiques) qui sont utilisables à
la fois en ingénierie des connaissances et dans certaines applications
documentaires (indexation de documents notamment).  Aujourd'hui les
modèles d'analyse distributionnelle performants fournissent des
ressources « prêt-à-porter » construites à partir de très gros corpus
tout-venant de langue générale. Ces word embeddings génériques ne sont
pas suffisants pour représenter la sémantique d'un domaine de
spécialité, et il est donc nécessaire de les construire sur la base de
corpus spécialisés. Or, les corpus de textes spécialisés présentent
des caractéristiques problématiques pour l'application de ces méthodes
distributionnelles, dont l'efficacité est corrélée à la quantité de
données disponibles. D'une part, ces corpus sont de taille modeste
(généralement en deçà du million de mots) par comparaison aux très
grand corpus de langue générale. D'autre part, les unités
terminologiques, et en particulier les termes complexes, y prédominent
qui, par leur spécificité, réduisent encore le volume des contextes
mobilisables pour le calcul sémantique. En revanche, ces données
présentent des caractéristiques intéressantes pouvant être exploitées
par un système d'analyse distributionnelle : ces textes sont
généralement très structurés, le lexique est réduit, et des ressources
sémantiques sont souvent disponibles et peuvent être injectées dans le
processus d'analyse.

Détails de la mission

L'ingénieur se concentrera sur le traitement des données issues de
corpus spécialisés et plus particulièrement sur l'extraction des
contextes des unités lexicales et terminologiques pour pour la
construction de modèles distributionnels (modèles prédictifs à base de
réseaux de neurones de type Word2vec). Il s'agira de caractériser ces
contextes sur différents niveaux (syntaxiques, structurels,
discursifs) et d'étudier leur impact sur les représentations
distributionnelles.  Pour cela, une première phase de préparation des
corpus sera nécessaire, notamment pour pouvoir accéder à la structure
du document et à une représentation enrichie des contextes.

Dans un second temps, l'ingénieur devra mettre en place un dispositif
expérimental permettant d'observer les liens entre les
caractéristiques des contextes et les représentations
distributionnelles.

Activités

L'ingénieur aura en charge les tâches suivantes :

- constitution d'un corpus spécialisé annoté structurellement
  (en-tête, sections, titres, tableaux, etc.). Ce corpus devra au
  moins en partie être converti à partir de formats finalisés (PDF) en
  exploitant les indices de surface du document et en se basant sur
  les bibliothèques disponibles (xpdf, pdfminer, etc.)

- développement de procédures de sélection et d'observation de
  contextes dans le corpus. Il s'agira de mettre au point des méthodes
  permettant l'extraction de contextes en fonction de caractéristiques
  a priori (linguistiques en se basant sur une annotation syntaxique
  automatique et/ou structurelles en se basant sur le balisage évoqué
  précédemment).

Compétences

Profil recherché :
- Master en traitement automatique des langues
- Solides connaissances en programmation (Python)
- Pratique des corpus numériques : balisage XML, annotation automatique
- Des connaissances sur les modèles distributionnels seraient un plus
- Langues : français et anglais courants

Contexte de travail

Pluridisciplinaire et polyvalent en SHS, le laboratoire CLLE mène des
recherches qui quadrillent un vaste périmètre des domaines de la
linguistique (équipe ERSS) et de la psychologie (équipe LTC). Ses 218
membres dont 76 doctorants sont répartis en 8 axes de recherche qui
permettent de couvrir un large spectre des sciences du langage et de
la psychologie cognitive. Il est dirigé par Hélène Giraudo. Au sein de
l'équipe ERSS (Equipe de Recherche en Syntaxe et Sémantique), l'axe
CARTEL (Corpus, Applications, Ressources pour le Traitement et l'Etude
du Langage), coordonné par Ludovic Tanguy, regroupe les recherche en
linguistique informatique et en traitement automatique des langues
(TAL).

L'ingénieur recruté sera rattaché à l'axe Cartel. Il interagira avec
les membres du laboratoire (permanents et doctorants) impliqués dans
le projet ANR ADDICTE ainsi qu'avec les autres équipes partenaires de
ce projet.

Informations générales

Référence : UMR5263-LUDTAN-002
Lieu de travail : TOULOUSE
Date de publication : lundi 3 décembre 2018
Type de contrat : CDD Technique/Administratif
Durée du contrat : 12 mois
Date d'embauche prévue : 1 mars 2019
Quotité de travail : Temps complet
Rémunération : autour de 2000¤ bruts (1700 nets) mensuels
Niveau d'études souhaité : Bac+5
Expérience souhaitée : Indifférent

Contacts : Ludovic Tanguy (ludovic.tanguy@univ-tlse2.fr) et Cécile
Fabre (cecile.fabre@univ-tlse2.fr)


Postuler en ligne sur :
https://emploi.cnrs.fr/Offres/CDD/UMR5263-LUDTAN-002/Default.aspx


-- 
Département des Sciences du Langage & Laboratoire CLLE-ERSS (UMR 5263)
Université de Toulouse 2
5, allées Antonio Machado  F-31058 Toulouse CEDEX 9
(+33) 5 61 50 36 03 -- http://w3.erss.univ-tlse2.fr/membre/tanguy/