2023-06451 - Collecte de données et modèles de traduction pour une langue régionale de France Type de contrat : CDD Niveau de diplôme exigé : Bac + 5 ou équivalent Autre diplôme apprécié : Traitement automatique des langues, Linguistique Informatique, Informatique; Fonction : Ingénieur scientifique contractuel Niveau d'expérience souhaité : Jeune diplômé Contexte et atouts du poste Ce poste se place dans le cadre du Défi Inria COLaF(Corpus et Outils pour les Langues de France), qui est une collaboration entre les équipes-projets Inria ALMAnaCH (centre Inria de Paris) et MULTISPEECH (centre Inria de Nancy-Grand Est). L'objectif du Défi est de développer et mettre à disposition des technologies numériques linguistiques pour la francophonie et les langues de France (ensemble des langues parlées en France: français apprenant, langues régionales romanes et non romanes, créoles, langues d'immigration, etc.), en contribuant à la création de corpus de données inclusifs, de modèles, et de briques logicielles. ALMAnaCH se focalise sur le texte et MULTISPEECH sur la parole multimodale. Les deux principaux objectifs de ce projet sont : - La collecte de corpus de données francophones, massifs et inclusifs: Il s'agit de constituer de très grands corpus textuels et de parole, avec des métadonnées riches pour améliorer la robustesse des modèles face à la variation linguistique, avec une place particulière pour la variation géographico-dialectale dans le contexte de la francophonie. Les variations diachroniques, diatopiques et diastratiques seront des éléments importants à prendre en compte dans la collection du corpus. - Le développement et la mise à disposition de technologies linguistiques: Cela inclut mais ne se limite pas à la production de ressources annotées (parties du discours, syntaxe, entités nommées), à l'extraction et la reformalisation de données structurées (p. ex. dictionnaires) et l'entraînement de modèles (p. ex. de langue et de traduction) pour la variété linguistique en France et dans la francophonie. Mission confiée Sous la direction de Benoît Sagot (DR, co-responsable de COLaF), Rachel Bawden (CR) et Thibault Clérice (Inria Starting Research Position [SRP] dédié au projet), l'objectif de la personne recrutée sera d'améliorer l'outillage (ressources et modèles) pour (au moins) une langue régionale de France métropolitaine (p. ex. l'occitan, le breton, l'alsacien) ou le corse, dans ses variations locales et diachroniques. Pour ceci, la mission consiste en trois activités principales : - la production de données (corpus bruts, corpus bilingues, etc.) - la conception et entraînement de modèles de traduction - l'interaction avec les contacts et institutions en lien avec la langue traitée Les données traitées pourront inclure des corpus textuels, des lexiques ou dictionnaires, mais également des documents sur lesquels une étape d'acquisition du texte brute par des techniques d'OCR ou d'HTR (dans ce dernier cas, une collaboration avec les projets HTRomance ou HTRogène est envisageable, selon les langues). La conception de nouveaux modèles de traduction nécessitera de prendre en compte plusieurs dimensions qui représentent un défi : (i) la faible quantité de données parallèles disponibles, ce qui nécessitera d'utiliser et de concevoir des méthodes adaptées à des scénarios peu dotées, et (ii) la variation dialectale et graphique qui existent au sein d'une même langue (p. ex. les variétés d'occitan, y compris les variétés anciennes), ce qui nécessitera d'entraîner des modèles robustes à cette variation. Une interaction avec les locuteurs de la langue sélectionnée ainsi que les associations des locuteurs sera importante à la fois pour la collecte de nouvelles données mais aussi pour comprendre et prendre en compte les enjeux linguistiques et sociétaux liés au développement d'outils et de ressources pour ces communautés. Un contrat doctoral sur la traduction automatique sur cette langue dans sa variété géographique, stylistique et diachronique sera ouvert à la suite de cette mission. La personne recrutée sera invitée à y postuler. Principales activités Identification et acquisition de données pour une ou plusieurs langues de France. Ceci inclut la transformation de corpus en XML-TEI la co-gestion du catalogage (métadonnées) et des cycles de mises à disposition des données Établissement de recommandations sur l'outillage pour les autres langues de France, l'acquisition et production de transcription de documents manuscrits le cas échéant. Collaboration avec l'équipe d'OSCAR et des équipes sur les langues de France en synchronie et diachronie, le cas échéant. Conception et entraînement de modèles de traduction adaptés aux variations des langues traitées; Lecture bibliographique sur les méthodes de traitement automatique des langues, et plus particulièrement de la traduction automatique, pour les scénarios peu dotées et des scénarios représentant la variation graphique et ou de langues similaires. Compétences La mission décrite fait appel à des qualités variées, au niveau des compétences en informatique, en traitement automatique des langues (y compris en apprentissage automatique) et en linguistique (y compris des connaissances d'une langue régionale). Il n'est donc pas attendu que la personne recrutée possèdent toutes ces dimensions au début du contrat; elle pourrait les acquérir au fur et à mesure de la mission. Nous sommes intéressés par les profils plus linguistiques en plus des profils plus informatiques, pourvu que le ou la candidat(e) ait les compétences suivantes : - Compétences en informatique et en programmation, notamment avec le langage Python - Expérience préalable en traitement automatique des langues (une expérience en traduction automatique serait un plus) - Un intérêt pour les langues et la linguistique - Un volonté d'apprendre et de se former qu'il s'agisse de compétences en apprentissage automatique ou en linguistique et apprentissage d'une des langues ciblées - Français et anglais écrit et oral équivalent C1 minimum; Un candidat avec un niveau de langue suffisant pour la lecture de documents dans une langue de France régionale romane ou non romane (occitan, corse, breton, alsacien, etc.) serait un plus. Avantages - Restauration subventionnée - Transports publics remboursés partiellement - Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement) - Télétravail - Aménagement du temps de travail (après 12 mois d'ancienneté) - Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.) - Prestations sociales, culturelles et sportives (Association de gestion des oeuvres sociales d'Inria) - Accès à la formation professionnelle - Sécurité sociale Rémunération Rémunération en fonction de l'expérience et des grilles de la fonction publique Partager Informations générales Thème/Domaine : Langue, parole et audio Calcul Scientifique (BAP E) Ville : Paris Centre Inria : Centre Inria de Paris Date de prise de fonction souhaitée : 2023-10-01 Durée de contrat : 1 an Date limite pour postuler : 2023-07-31 Contacts Equipe Inria : ALMANACH Recruteur : Sagot Benoit / Benoit.Sagot@inria.fr L'essentiel pour réussir - Se sentir à l'aise en programmation python, en constitution de modèles de traduction, en traitement automatique des langues; - Avoir un intérêt pour les variétés régionales de langues; - Apprécier la qualité des documents, et leur complexité, au delà de leur simple contenu; - Être capable d'intéragir dans une équipe pluridisciplinaire. A propos d'Inria Inria est l'institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 200 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3500 scientifiques pour relever les défis du numérique, souvent à l'interface d'autres disciplines. L'institut fait appel à de nombreux talents dans plus d'une quarantaine de métiers différents. 900 personnels d'appui à la recherche et à l'innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 180 start-up. L'institut s'efforce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie. Consignes pour postuler Sécurité défense : Ce poste est susceptible d'être affecté dans une zone à régime restrictif (ZRR), telle que définie dans le décret n°2011-1425 relatif à la protection du potentiel scientifique et technique de la nation (PPST). L'autorisation d'accès à une zone est délivrée par le chef d'établissement, après avis ministériel favorable, tel que défini dans l'arrêté du 03 juillet 2012, relatif à la PPST. Un avis ministériel défavorable pour un poste affecté dans une ZRR aurait pour conséquence l'annulation du recrutement. Politique de recrutement : Dans le cadre de sa politique diversité, tous les postes Inria sont accessibles aux personnes en situation de handicap. Attention: Les candidatures doivent être déposées en ligne sur le site Inria. Le traitement des candidatures adressées par d'autres canaux n'est pas garanti. https://jobs.inria.fr/public/classic/fr/offres/2023-06451