Ingénieur de recherches ou ingénieur d'études en Sciences du langage/textométrie/TAL

(durée : 12 mois ou plus)
équipe CLESTHIA, Université Sorbonne nouvelle, 
Maison de la Recherche, 4 rue des Irlandais 75005 Paris

Contexte du recrutement

Projet Pro-TEXT : Le processus de textualisation : modélisations linguistique, psycholinguistique et d'apprentissage automatique financé par l'ANR (Agence Nationale de la Recherche, France)

https://pro-text.huma-num.fr/le-projet/

Descriptif du projet

Le projet Pro-TEXT vise à développer des méthodes linguistiques et
psycholinguistiques ainsi que des outils d'apprentissage automatique
permettant de mieux comprendre la relation entre les régularités de la
performance linguistique écrite et les contraintes cognitives et
contextuelles.

L'analyse du processus d'écriture est maintenant possible grâce à sa
capture en temps réel avec des logiciels d'enregistrement des frappes
au clavier (keylogging). L'enregistrement en temps réel du processus
d'écriture produit ainsi des données temporelles (par exemple, des
durées de pause), des données linguistiques (des séquences
linguistiques produites de manière continue entre deux pauses,
c'est-à-dire des jets textuels, Cislaru & Olive 2018) et des données
topologiques indiquant l'emplacement des opérations textuelles.

Le projet Pro-TEXT vise à analyser le processus de textualisation,
c'est-à-dire la façon dont un texte est construit
progressivement. Pour ce faire, des linguistes, des psycholinguistes
et des infomaticiens (TAL et apprentissage automatique) étudient les
jets textuels d'écriture, c'est-à-dire des segments de texte produits
entre deux pauses, comme par exemple dans « [pause] une cousine qui
[pause] peut venir partager du temps avec elle pendant [pause] le
[pause] w [pause] eek [pause] - [pause] end. [pause]».

L'équipe du projet regroupe principalement des chercheurs de CLESTHIA
(U. Paris 3), CERCA (CNRS-U. de Poitiers) et LIPN (CNRS-U. Pari 13).

Travail au sein du projet

La personne recrutée travaillera au sein de l'équipe des chercheurs de
CLESTHIA mais pourra être amenée à communiquer également avec les
autres équipes sur des sujets précis.

Le travail concerne le traitement des corpus d'écriture enregitrée, et
plus particulièrement : annotation automatique et semi-automatique des
données, correction des annotations, analyse de méthodes de
segmentation de corpus et développement de méthodes d'analyse de
données linéaires et fragmentées, développement de méthodes d'analyse
articulant des données multi-paramétriques (linguistiques et
comportementales, dans le cas du projet Pro-TEXT). Un tâche importante
concerne la préparation d'un corpus sélectionné pour mise à
disposition de la communauté sur la plate-forme Huma-Num. Une
participation à l'encadrement de stagiaires est possible.

La personne recrutée participera activement aux ateliers de travail de
l'équipe, aux travaux collectifs (colloques, publications). Elle
travaillera en étroite collaboration avec Serge Fleury et Dominique
Legallois.

Profil attendu

Master ou Doctorat en Traitement automatique des langues ou en
Sciences du langages, ou soutenance imminente.

Solides connaissances des outils d'annotation du corpus et de
traitement automatique des langues, des méthodes d'analyse
linguistique et des méthodes de programmation.

Le sens de l'équipe, la curiosité, l'ouverture, la créativité,
l'intérêt pour des données et des solutions originales seront des
qualités très appréciées également.

Rémunération

En fonction des qualifications et de l'expérience.

Début du contrat

le 1er juillet 2020

Dépôt de candidature

Envoyer votre dossier à georgeta.cislaru@sorbonne-nouvelle.fr avant le
25 mai 2020.

Constitution du dossier
- diplôme de Master ou rapport de soutenance de la thèse ;
- mémoire de master ou de thèse ;
- CV ;
- lettre de motivation.

Pour toute question, n'hésitez pas à contacter
georgeta.cislaru@sorbonne-nouvelle.fr