2023-06451 - Collecte de données et modèles de traduction pour une
langue régionale de France

Type de contrat : CDD

Niveau de diplôme exigé : Bac + 5 ou équivalent

Autre diplôme apprécié : Traitement automatique des langues,
Linguistique Informatique, Informatique;

Fonction : Ingénieur scientifique contractuel

Niveau d'expérience souhaité : Jeune diplômé

Contexte et atouts du poste

Ce poste se place dans le cadre du Défi Inria COLaF(Corpus et Outils
pour les Langues de France), qui est une collaboration entre les
équipes-projets Inria ALMAnaCH (centre Inria de Paris) et MULTISPEECH
(centre Inria de Nancy-Grand Est). L'objectif du Défi est de
développer et mettre à disposition des technologies numériques
linguistiques pour la francophonie et les langues de France (ensemble
des langues parlées en France: français apprenant, langues régionales
romanes et non romanes, créoles, langues d'immigration, etc.), en
contribuant à la création de corpus de données inclusifs, de modèles,
et de briques logicielles. ALMAnaCH se focalise sur le texte et
MULTISPEECH sur la parole multimodale. Les deux principaux objectifs
de ce projet sont :

- La collecte de corpus de données francophones, massifs et inclusifs:
Il s'agit de constituer de très grands corpus textuels et de parole,
avec des métadonnées riches pour améliorer la robustesse des modèles
face à la variation linguistique, avec une place particulière pour la
variation géographico-dialectale dans le contexte de la
francophonie. Les variations diachroniques, diatopiques et
diastratiques seront des éléments importants à prendre en compte dans
la collection du corpus.

- Le développement et la mise à disposition de technologies
linguistiques: Cela inclut mais ne se limite pas à la production de
ressources annotées (parties du discours, syntaxe, entités nommées), à
l'extraction et la reformalisation de données structurées
(p. ex. dictionnaires) et l'entraînement de modèles (p. ex. de langue
et de traduction) pour la variété linguistique en France et dans la
francophonie.

Mission confiée

Sous la direction de Benoît Sagot (DR, co-responsable de COLaF),
Rachel Bawden (CR) et Thibault Clérice (Inria Starting Research
Position [SRP] dédié au projet), l'objectif de la personne recrutée
sera d'améliorer l'outillage (ressources et modèles) pour (au moins)
une langue régionale de France métropolitaine (p. ex. l'occitan, le
breton, l'alsacien) ou le corse, dans ses variations locales et
diachroniques. Pour ceci, la mission consiste en trois activités
principales :


- la production de données (corpus bruts, corpus bilingues, etc.)

- la conception et entraînement de modèles de traduction

- l'interaction avec les contacts et institutions en lien avec la
  langue traitée

Les données traitées pourront inclure des corpus textuels, des
lexiques ou dictionnaires, mais également des documents sur lesquels
une étape d'acquisition du texte brute par des techniques d'OCR ou
d'HTR (dans ce dernier cas, une collaboration avec les projets
HTRomance ou HTRogène est envisageable, selon les langues).

La conception de nouveaux modèles de traduction nécessitera de prendre
en compte plusieurs dimensions qui représentent un défi : (i) la
faible quantité de données parallèles disponibles, ce qui nécessitera
d'utiliser et de concevoir des méthodes adaptées à des scénarios peu
dotées, et (ii) la variation dialectale et graphique qui existent au
sein d'une même langue (p. ex. les variétés d'occitan, y compris les
variétés anciennes), ce qui nécessitera d'entraîner des modèles
robustes à cette variation.

Une interaction avec les locuteurs de la langue sélectionnée ainsi que
les associations des locuteurs sera importante à la fois pour la
collecte de nouvelles données mais aussi pour comprendre et prendre en
compte les enjeux linguistiques et sociétaux liés au développement
d'outils et de ressources pour ces communautés.

Un contrat doctoral sur la traduction automatique sur cette langue
dans sa variété géographique, stylistique et diachronique sera ouvert
à la suite de cette mission. La personne recrutée sera invitée à y
postuler.


Principales activités

    Identification et acquisition de données pour une ou plusieurs
    langues de France. Ceci inclut

        la transformation de corpus en XML-TEI

        la co-gestion du catalogage (métadonnées) et des cycles de
        mises à disposition des données

        Établissement de recommandations sur l'outillage pour les
        autres langues de France,

        l'acquisition et production de transcription de documents
        manuscrits le cas échéant.

    Collaboration avec l'équipe d'OSCAR et des équipes sur les langues
    de France en synchronie et diachronie, le cas échéant.

    Conception et entraînement de modèles de traduction adaptés aux
    variations des langues traitées;

    Lecture bibliographique sur les méthodes de traitement automatique
    des langues, et plus particulièrement de la traduction
    automatique, pour les scénarios peu dotées et des scénarios
    représentant la variation graphique et ou de langues similaires.

Compétences

La mission décrite fait appel à des qualités variées, au niveau des
compétences en informatique, en traitement automatique des langues (y
compris en apprentissage automatique) et en linguistique (y compris
des connaissances d'une langue régionale). Il n'est donc pas attendu
que la personne recrutée possèdent toutes ces dimensions au début du
contrat; elle pourrait les acquérir au fur et à mesure de la
mission. Nous sommes intéressés par les profils plus linguistiques en
plus des profils plus informatiques, pourvu que le ou la candidat(e)
ait les compétences suivantes :


- Compétences en informatique et en programmation, notamment avec le
  langage Python

- Expérience préalable en traitement automatique des langues (une
  expérience en traduction automatique serait un plus)

- Un intérêt pour les langues et la linguistique

- Un volonté d'apprendre et de se former qu'il s'agisse de compétences
  en apprentissage automatique ou en linguistique et apprentissage
  d'une des langues ciblées

- Français et anglais écrit et oral équivalent C1 minimum;

Un candidat avec un niveau de langue suffisant pour la lecture de
documents dans une langue de France régionale romane ou non romane
(occitan, corse, breton, alsacien, etc.) serait un plus.

Avantages


- Restauration subventionnée

- Transports publics remboursés partiellement

- Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps
  plein) + possibilité d'autorisations d'absence exceptionnelle (ex :
  enfants malades, déménagement)

- Télétravail

- Aménagement du temps de travail (après 12 mois d'ancienneté)

- Équipements professionnels à disposition (visioconférence, prêts de
  matériels informatiques, etc.)

- Prestations sociales, culturelles et sportives (Association de
  gestion des oeuvres sociales d'Inria)

- Accès à la formation professionnelle

- Sécurité sociale

Rémunération

Rémunération en fonction de l'expérience et des grilles de la fonction publique 
Partager

Informations générales

    Thème/Domaine : Langue, parole et audio
    Calcul Scientifique (BAP E)
    Ville : Paris
    Centre Inria : Centre Inria de Paris
    Date de prise de fonction souhaitée : 2023-10-01
    Durée de contrat : 1 an
    Date limite pour postuler : 2023-07-31

Contacts

    Equipe Inria : ALMANACH
    Recruteur :
    Sagot Benoit / Benoit.Sagot@inria.fr

L'essentiel pour réussir


- Se sentir à l'aise en programmation python, en constitution de
  modèles de traduction, en traitement automatique des langues;

- Avoir un intérêt pour les variétés régionales de langues;

- Apprécier la qualité des documents, et leur complexité, au delà de
  leur simple contenu;

- Être capable d'intéragir dans une équipe pluridisciplinaire.

 
A propos d'Inria

Inria est l'institut national de recherche dédié aux sciences et
technologies du numérique. Il emploie 2600 personnes. Ses 200
équipes-projets agiles, en général communes avec des partenaires
académiques, impliquent plus de 3500 scientifiques pour relever les
défis du numérique, souvent à l'interface d'autres
disciplines. L'institut fait appel à de nombreux talents dans plus
d'une quarantaine de métiers différents. 900 personnels d'appui à la
recherche et à l'innovation contribuent à faire émerger et grandir des
projets scientifiques ou entrepreneuriaux qui impactent le
monde. Inria travaille avec de nombreuses entreprises et a accompagné
la création de plus de 180 start-up. L'institut s'efforce ainsi de
répondre aux enjeux de la transformation numérique de la science, de
la société et de l'économie.

Consignes pour postuler

Sécurité défense :

Ce poste est susceptible d'être affecté dans une zone à régime
restrictif (ZRR), telle que définie dans le décret n°2011-1425 relatif
à la protection du potentiel scientifique et technique de la nation
(PPST). L'autorisation d'accès à une zone est délivrée par le chef
d'établissement, après avis ministériel favorable, tel que défini dans
l'arrêté du 03 juillet 2012, relatif à la PPST. Un avis ministériel
défavorable pour un poste affecté dans une ZRR aurait pour conséquence
l'annulation du recrutement.

Politique de recrutement :

Dans le cadre de sa politique diversité, tous les postes Inria sont
accessibles aux personnes en situation de handicap.

Attention: Les candidatures doivent être déposées en ligne sur le site
Inria. Le traitement des candidatures adressées par d'autres canaux
n'est pas garanti.

https://jobs.inria.fr/public/classic/fr/offres/2023-06451