INRAE propose un CDD niveau Ingénieur d'Étude pour une durée de 12 mois
renouvelable. L'activité du poste consistera à mettre en place un
workflow de traitement automatique de la langue et d'extraction
d'information appliqué au domaine agro-écologique.


Objectif du poste

L'objectif de ce poste est d'utiliser des techniques de text-mining
pour construire et enrichir des jeux de données FAIR. Ces jeux de
données seront constitués en partie de référentiels existants.

Une première étape du projet consiste à améliorer la couverture
terminologique des référentiels agricoles existants en les enrichissant
grâce à l'extraction de termes spécifiques à partir du corpus des
Bulletins de Santé du Végétal (BSV). Cette étape est complétée en
parallèle par une autre chaîne de traitements de text mining pour
annoter les bulletins à l'aide de référentiels. Plus précisément :

    1.  Perfectionnement d'une chaîne de traitements de text mining en
        français basée sur le système AlvisNLP [Alvis]
        (https://bibliome.github.io/alvisnlp/) pour générer des
        annotations. L'annotation consiste en de la reconnaissance et
        normalisation d'entités nommées du domaine général (dates,
        lieux) ou spécifiques au domaine (stades de développement,
        bioagresseurs, plante cultivée) [Yacoubi Ayadi et al, 2022].

    2.  Perfectionnement de l'enrichissement semi-automatique des
        ressources sémantiques basée sur le text-mining, notamment pour
        les stades de développement, et les bioagresseurs [Chepaikina
        et al 2022]. Les évolutions devront être validées par un réseau
        d'experts par type de culture (légume: tomate, salade,
        carotte).

    3.  Animer l'annotation manuelle par un réseau d'experts d'un
        corpus de référence pour l'évaluation et l'entraînement du
        système d'annotation. Concevoir un guide d'annotation, assurer
        la qualité des annotations, et superviser les annotateurs.

    4.  Expérimentation sur le corpus de tests et validation des
        résultats.

    5.  Mise en forme des résultats de l'expérimentation dans un
        format compatible avec l'ontologie Web Annotation Vocabulary
        [OA].

Profil du candidat

    -   Titulaire d'un diplôme d'ingénieur ou de  Master 2  en
        mathématique, informatique ou bioinformatique, data science,
        terminologie, traitement de la langue, ingénierie des
        connaissances.

    -   Excellente compétence en traitement de la langue (TAL) et dans
        l'utilisation de plateforme NLP.

    -   Bonnes compétences en anglais à l'oral et à l'écriture.
        Une bonne connaissance du français est nécessaire car
        l'ensemble des documents à traiter sont en français.

    -   Excellentes compétences en rédaction scientifique, car il
        sera nécessaire de produire des articles scientifiques, des
        rapports, de la documentation technique et des compte rendu de
        réunion.

    -   Excellente compétence en gestion de projet et planification,
        car il sera nécessaire de faire des points réguliers avec
        différentes équipes du projet D2KAB. Des compétences sur les
        systèmes de versionning comme GIT sont nécessaires.

    -   Autonomie et initiative, être capable de proposer de nouvelles
        techniques au sein du projet et de justifier ses choix.

    -   Personne dynamique pour rejoindre un projet de recherche.

Contexte du poste

Ce poste est financé par le projet de recherche ANR D2KAB :

Les ressources sémantiques (e.g., thesaurus, terminologies,
vocabulaires et ontologies) sont des éléments clés pour assurer
l'interopérabilité des données. Les thésaurus et les terminologies
jouent parfois le rôle de pivots qui permettent de joindre plusieurs
jeux de données.
Ces pivots sont aussi appelés des référentiels. Dans certains domaines
de recherche en agriculture, les scientifiques développent déjà des
référentiels pour faciliter l'intégration de leurs données avec
d'autres et pour permettre l'extraction de connaissances, par exemple
les thésaurus Plant Ontology ou FrenchCropUsage. Cependant, bien
souvent les utilisateurs de ces référentiels ne sont pas uniquement des
scientifiques, qui ont l'opportunité de s'intéresser au monde du web
sémantique, mais des acteurs du monde agricole, qui produisent ou
utilisent des référentiels simples et souvent spécifiques à une
filière.
Par exemple, le référentiel des stades phénologiques de la vigne, la
liste des variétés en vigne produites par l'Institut Français de la
Vigne et du Vin (IFV), ou le référentiel de produits phytosanitaires
produit par l'ACTA. Récemment, une première étape a été franchie
avec la mise à disposition de certains de ces référentiels sur la
plateforme de partage de données agricoles, API-AGRO
(https://plateforme.api-agro.fr). Mais pour aller plus loin dans le
partage et la réutilisation de ces référentiels, il est nécessaire
d'adopter les principes FAIR (Findable, Accessible, Interoperable and
Reusable). Ces principes impliquent l'utilisation des technologies Web
Sémantique (RDF, OWL, SPARQL) pour publier des jeux de données et des
référentiels sur le web: Linked Open Data (LOD).

Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un
consortium multidisciplinaire unique de 7 organisations dont 4 dans
DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO) dont
l'objectif principal est de mettre en place les processus permettant de
transformer les données d'agricole en connaissances - sémantiquement
riches, interopérables, ouvertes - ainsi que les méthodes scientifiques
et les outils pour exploiter et diffuser ces connaissances dans des
applications scientifiques et agricoles.  Pour ce faire D2KAB développe
et maintient AgroPortal (http://agroportal.lirmm.fr), un portail de
ressources sémantiques pour l'agronomie et l'agriculture. Le projet est
guidé par plusieurs scénarios dont un navigateur de recherche améliorée
des bulletins d'alerte agricole intitulés Bulletin de Santé du Végétal
[BSV] [Roussey et al 2017].

L'ANR D2KAB propose plusieurs offres de CDD ingénieur pendant la
durée de ce projet.


Structure d'accueil

Le poste est financé par l'équipe Copain du laboratoire TSCF du Centre
INRAE de ARA Clermont. Dans le projet de recherche D2KAB, cette équipe
travaille en collaboration avec l'équipe Bibliome du laboratoire MaIAGE
dans le centre INRAE de Jouy-en-Josas et l'équipe informatique du
laboratoire MISTEA du centre INRAE de Montpellier. La localisation
définitive sera à déterminer en fonction de la candidature. Des
déplacements occasionnels sont à prévoir entre les centres de
Jouy-en-Josas, de Clermont-Ferrand et de Montpellier.


L'unité de recherche Technologies et systèmes d'information pour les
agrosystèmes (TSCF), composée de 3 équipes qui rassemblent 60 agents,
est implantée sur 2 sites : le Pôle scientifique et universitaire des
Cézeaux à Aubière (63) et le Site de recherche et d'expérimentation de
Montoldre (03) . https://www6.ara.inrae.fr/tscf/

L'activité de l'équipe Copain est consacrée aux méthodes d'ingénierie
des systèmes d'information communicants dédiées à la gestion
agri-environnementale. Les chercheurs de Copain sont spécialisés en
informatique et dans les systèmes d'information, avec une solide
expérience de projets interdisciplinaires. L'activité de cette équipe
est dédiée aux méthodes d'ingénierie de systèmes d'information pour la
gestion agro-environnementale. Ces méthodes couvrent les besoins des
acteurs, la définition des caractéristiques des systèmes d'information,
leur modélisation, leur gestion.


L'unité de recherche MaIAGE regroupe des mathématiciens, des
informaticiens, des bioinformaticiens et des biologistes autour de
questions de biologie et agro-écologie, allant de l'échelle moléculaire
à l'échelle du paysage en passant par l'étude de l'individu, de
populations ou d'écosystèmes. L'unité développe des méthodes
mathématiques et informatiques originales de portée générique ou
motivées par des problèmes biologiques précis. Elle s'implique aussi
dans la mise à disposition de bases de données et de logiciels
permettant aux biologistes d'utiliser les outils dans de bonnes
conditions ou d'exploiter automatiquement la littérature scientifique.

Les questions de recherche de l'équipe Bibliome sont le développement
et l'adaptation de méthodes d'Extraction d'information à partir de
texte (EI), de Recherche documentaire, de Traitement automatique de la
langue (TAL) et d'apprentissage sur des données textuelles, au service
de la recherche en biologie. L'approche de l'équipe consiste à
développer des méthodes d'acquisition automatique de connaissance et
d'ingénierie logicielle pour adapter les traitements linguistiques aux
domaines d'application par des méthodes d'apprentissage. Elle développe
également l'ensemble des chaînes de traitement nécessaires à
l'évaluation et l'exploitation de ces méthodes.

Contrat

Type : CDD d'ingénieur d'étude.

Profil : titulaire d'un diplôme de master 2 ou ingénieur en
informatique, bioinformatique, data-science, TAL.

Durée: 12 mois renouvelable pouvant aller jusqu'à une période de
24 mois en tout.

Date de début d'embauche: septembre 2022 (à négocier).

Localisation : un centre INRAE, Jouy en Josas, Clermont ou Montpellier.

Rémunération environ 2033¤ brut mensuel, dépend du diplôme et
de l'expérience du candidat.


Contact : Catherine Roussey, INRAE Centre de Clermont-Ferrand
(catherine.roussey@inrae.fr)

Co-encadrement par Robert Bossy, INRAE, Jouy-en-Josas
(robert.bossy@inrae.fr)


Candidature

Envoyez un CV et une lettre de motivation à Catherine Roussey
(catherine.roussey@inrae.fr).


La lettre de motivation doit montrer en quoi vos compétences actuelles
répondent au profil de ce poste. Indiquez si possible un référent
français ayant travaillé avec vous.


Date limite de candidature: décembre 2022.


Les entretiens sont menés au fil de l'eau, pour prise de poste au
plus tôt.


Pour toute demande d'information contacter
catherine.roussey@inrae.fr

Références


[Alvis] Nédellec C, Nazarenko A, Bossy R: Information Extraction.
    Ontology Handbook. Edited by: Staab S, Studer R. 2008, Springer
    Verlag, 663-686. URL: github.com/Bibliome/alvisnlp

[BSV] C. ROUSSEY, T. ABDERRAHMANI GHORFI. Annotation sémantique pour
    une interrogation experte des Bulletins de Santé du Végétal. Dans
    les Actes des 29e Journées Francophones d'Ingénierie des
    Connaissances IC 2018, adossée à la 11e Plate-forme Francophone
    d'Intelligence Artificielle, 2-6 juillet 2018, Nancy, p 37-52

Plus d'information sur http://ontology.irstea.fr/pmwiki.php/Site/BSV


[Chepaikina et al 2022] A. CHEPAIKINA, R. BOSSY, C. ROUSSEY, S. BERNARD.
    Enrichissement de ressources sémantiques par extraction de
    coordinations. Soumission à TALN 2022

[OA] Web Annotation Vocabulary https://www.w3.org/TR/annotation-vocab/

[Roussey et al 2017] C. ROUSSEY, S. BERNARD, F. PINET, X. REBOUD, V.
    CELLIER, I. SIVADON, D. SIMONNEAU, A-L. BOURIGAULT. A Methodology
    for the Publication of Agricultural Alert Bulletins as LOD. in
    Computers and Electronics in Agriculture. Volume 142, Part B,
    November 2017, p. 632-650.
    DOI: https://doi.org/10.1016/j.compag.2017.10.022
    URL:
    http://www.sciencedirect.com/science/article/pii/S0168169917306361

[Yacoubi et al 2022] N.YACOUBI AYADI, C. FARON, F. MICHEL, R. BOSSY, A.
    BARBE. Construction d'un graphe de connaissances à partir des
    annotations d'articles scientifiques et de leur contenu en sciences
    de la vie. Soumission à IC 2022.