Fiche de poste

Ingénieur d'étude à mi-temps en linguistique de corpus - documentation
et communication

Durée: 1 an (renouvelable)

Emploi-type: Ingénieur-e d'études en linguistique de corpus /
documentation et communication

Quotité: mi-temps

Lieu de travail: à déterminer sachant qu'une partie du travail sera
effectuée à distance (travail de réseau).

1. Contexte

Le consortium Huma-Num CORLI (Corpus, Langues, Interactions) est né du
rapprochement des deux consortiums précédents de linguistique de la
TGIR Huma-Num : Corpus Écrits (IRCE) et Corpus Oraux et Multimodaux
(IRCOM).

Leurs membres ont souhaité poursuivre leurs activités dans le cadre
d'un nouveau programme scientifique autour des notions de Langues,
Corpus et Interactions.

Le consortium CORLI, coordonné par Christophe Parisse et Céline Poudat
et géré par la MESHS de Lille, réunit des chercheurs et
enseignants-chercheurs en linguistique, et se donne pour objectif de
fédérer les équipes et laboratoires, les chercheurs, enseignants
chercheurs, ou ingénieurs engagés dans la production et le traitement
de corpus numériques écrits et oraux, quels que soient la langue et/ou
le système d'écriture considérés.

2. Missions

Les missions de l'ingénieur-e seront d'accompagner les projets du
consortium CORLI en assistant les responsables du consortium et les
responsables des différents projets et livrables en assurant les
tâches de gestion, documentation, mise à jour du site et communication
auprès des participants et des partenaires. Suivant ses compétences,
il/elle participera également aux projets scientifiques développés par
le consortium, et à l'Open French Corpus en particulier.

Projet annotation

La transcription et l'annotation de corpus sont des opérations qui
sont au coeur des humanités numériques et la question de l'annotation
collaborative de corpus est au coeur du nouveau projet CORLI.

Trois axes sont actuellement privilégiés:

- la mise à disposition d'une plateforme de transcription et
  d'annotation simple des données langagières - livrable réalisé dans
  le cadre du projet Palamède, issu d'une collaboration initiée en
  2020-2021 entre la MSH Lorraine, CORLI, Huma-Num, l'Atilf et Lit&art
  et différents concepteurs d'outils de transcription, à commencer par
  TACT;
    
- la mise à disposition d'une plateforme d'annotation de haut niveau
  avec des fonctionnalités d'active learning, en collaboration avec
  l'équipe d'Inception (TU Darmstadt) avec laquelle nous avons déjà
  commencé de travailler en 2020;

- une ressource collaborative d'annotation en classe sur le modèle de
  GUM (https://corpling.uis.georgetown.edu/gum/), à laquelle
  participent les laboratoires CLLE, Loria, Lidilem et BCL.

Projet citation

Une fois que les corpus sont dans des formats FAIR, ils ont pour but
d'être utilisés et réutilisés pour la recherche ouverte. Le projet
CITATION a pour but de créer des outils utilisateurs permettant de
créer et d'utiliser des citations de corpus ou d'extraits de
corpus. Les citations elles-mêmes suivront les standards existants ou
proposés par un institut comme RDA (Research Data Alliance). Les
outils créés permettront de:

- sélectionner dans des corpus déposés ou dans l'Open French Corpus
  des emplacements constituant un extrait de corpus

- créer des pages web pérennes permettant de visualiser ou présenter
  un corpus ou un extrait de corpus (soit sélectionné précédemment,
  soit manuellement inséré)

- générer des références bibliographiques pointant sur les pages web
  pérennes et insérées dans le corps et dans la partie bibliographie
  d'un texte scientifique (aux formats RIS, BibTex, etc. et pouvant
  donc être utilisées dans un outil comme Zotero).

Ce travail s'intègre dans la philosophie FAIR, de la science ouverte
et de l'exploitation des data papers. Il permettra d'améliorer l'accès
et la visibilité des travaux de création et de dépôt de corpus.

Projet Open French Corpus

Ce projet a pour objectif de centraliser les corpus de Français déjà
existants et issus de divers projets, tous validés et normalisés par
la communauté et de les mettre à disposition dans un espace commun
avec un outillage approprié pour les utiliser. Ce projet comporte
trois phases pouvant se dérouler en parallèle:

- identifier, rassembler les corpus existants ainsi que les méthodes,
  techniques et formats utilisés pour les constituer

- déterminer un noyau minimum de format, de qualité et de préparation
  des corpus devant être rendus disponible, présentation d'une chaîne
  de traitement permettant de normaliser de nouveaux corpus ou de
  mettre à niveau d'anciens corpus

- rendre disponible les corpus, en téléchargement, en recherche plein
  texte, en recherche outillée

Tous les projets CORLI suivent une même politique qui est d'utiliser
des outils ou des données existantes et d'éviter au plus le
développement de technologies à partir de zéro. Au contraire, CORLI
s'attache à mieux faire connaître les technqologies existantes et à
créer des ponts (au besoin en acceptant de faire des développements
nécessaires) ou de la documentation pour les rendre disponibles ou
mieux les exploiter.

3. Activités

    Participer à la gestion du consortium CORLI
        Suivi des activités des groupes projets
        Diffusion des comptes rendus et informations diverses
        Suivi de la gestion financière réalisée par la MSH
    Mettre à jour le site Web
        Agenda et événements
        Documentation et informations diverses

    Rédaction de la documentation scientifique avec la participation
    des membres de CORLI

    Participer scientifiquement ou techniquement à un des projets du
    consortium (au moins): 1. Open French Corpus ; 2. Annotation;
    3. Citation.

4. Compétences et savoir-faire


- Compétences en gestion de projet. Une expérience antérieure de
  gestion de projet serait appréciée.

- Compétence en communication (genres de la communication,
  i.e. posters, annonces, réseaux sociaux). Bonnes compétences
  rédactionnelles. Des compétences en graphisme seraient un plus.

- Connaissance des CMS et de WordPress en particulier.

- Anglais requis - capacité à communiquer en anglais avec nos
  partenaires (e.g. Clarin, TU Darmstadt, réseau CMC-corpora) et à
  traduire le site Web en anglais.

- Familiarité / expérience avec le domaine de la linguistique de
  corpus et la construction, constitution de corpus textuels
  (échantillonnage, structuration, métadonnées, formats)

- Bonne connaissance des méthodes et des outils de la linguistique de corpus

5. Savoir-être

    Capacité à travailler en réseau
    Autonomie et prise d'initiative
    Capacité d'écoute et aisance dans les interactions

Contact: envoyer CV et lettre de motivation à Christophe Parisse
cparisse@parisnanterre.fr et Céline Poudat
celine.poudat@univ-cotedazur.fr avant le 31 mars.

Début du contrat possible à partir du 1er mai.