poste IE TALN

Titre : Fouille pour l'extraction de terminologies agricoles.

Contexte du poste :

Ce poste est financé par le projet de recherche ANR D2KAB :

Les ressources sémantiques (e.g., thesaurus, terminologies,
vocabulaires et ontologies) sont des éléments clés pour assurer
l'interopérabilité des données. Les thésaurus et les terminologies
jouent parfois le rôle de pivots qui permettent de joindre plusieurs
jeux de données. Ces pivots sont aussi appelés des référentiels. Dans
certains domaines de recherche en agriculture, les scientifiques
développent déjà des référentiels pour faciliter l'intégration de
leurs données avec d'autres et pour permettre l'extraction de
connaissances, par exemple les thésaurus Plant Ontology ou
FrenchCropUsage. Cependant, bien souvent les utilisateurs de ces
référentiels ne sont pas uniquement des scientifiques, qui ont
l'opportunité de s'intéresser au monde du web sémantique, mais des
acteurs du monde agricole, qui produisent ou utilisent des
référentiels simples et souvent spécifiques à une filière. Par
exemple, le référentiel des stades phénologiques de la vigne, la liste
des variétés en vigne produites par l'IFV (Institut Français de la
Vigne et du Vin), ou le référentiel de produits phytosanitaires
produit par l'ACTA. Récemment, une première étape a été franchie avec
la mise à disposition de certains de ces référentiels sur la
plateforme de partage de données agricoles, API-AGRO
(https://plateforme.api-agro.fr). Mais pour aller plus loin dans le
partage et la réutilisation de ces référentiels, il est nécessaire
d'adopter les principes FAIR (Findable, Accessible, Interoperable and
Reusable). Ces principes impliquent l'utilisation des technologies Web
Sémantique (RDF, OWL, SPARQL) pour publier des jeux de données et des
référentiels sur le web: Linked Open Data (LOD).

Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un
consortium multidisciplinaire unique de 7 organisations dont 4 dans
DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO)
dont l'objectif principal est de mettre en place les processus
permettant de transformer les données d'agricole en connaissances -
sémantiquement riches, interopérables, ouvertes - ainsi que les
méthodes scientifiques et les outils pour exploiter et diffuser ces
connaissances dans des applications scientifiques et agricoles.  Pour
ce faire D2KAB développe et maintient AgroPortal
(http://agroportal.lirmm.fr), un portail de ressources sémantiques
pour l'agronomie et l'agriculture. Le projet est guidé par plusieurs
scénarios dont un navigateur de recherche améliorée des bulletins
d'alerte agricole intitulés Bulletin de Santé du Végétal [BSV]
[Roussey et al 2017].

L'ANR D2KAB propose plusieurs offres de CDD ingénieur pendant la durée
de ce projet.

Structure d'accueil

Le poste est à destination de l'équipe Copain du laboratoire TSCF du
Centre INRAE de ARA Clermont. Votre bureau sera sur le campus des
Cézeaux à proximité de la ville de Clermont-Ferrand.

L'unité de recherche Technologies et systèmes d'information pour les
agrosystèmes (TSCF), composée de 3 équipes qui rassemblent 60 agents,
est implantée sur 2 sites : le Pôle scientifique et universitaire des
Cézeaux à Aubière (63) et le Site de recherche et d'expérimentation de
Montoldre (03) . https://www6.ara.inrae.fr/tscf/

L'activité de l'équipe Copain est consacrée aux méthodes d'ingénierie
des systèmes d'information communicants dédiées à la gestion
agri-environnementale. Les chercheurs de Copain sont spécialisés en
informatique et dans les systèmes d'information, avec une solide
expérience de projets interdisciplinaires. L'activité de cette équipe
est dédiée aux méthodes d'ingénierie de systèmes d'information pour la
gestion agro-environnementale. Ces méthodes couvrent les besoins des
acteurs, la définition des caractéristiques des systèmes
d'information, leur modélisation, leur gestion.

Objectif du poste

L'objectif de ce poste est d'utiliser des techniques de text-mining
pour construire et enrichir des jeux de données FAIR. Ces jeux de
données seront constitués en partie de référentiels existants.

Une première étape du projet consiste à améliorer la couverture
terminologique des référentiels agricoles existants en les
enrichissant grâce à l'extraction de termes spécifiques à partir du
corpus des bulletins d'alertes (BSV). Plus précisément :

    Mise en place d'une chaîne de traitements de text-mining à partir
    du système AlvisNLP [Alvis] proposé par l'équipe de Bibliome de
    l'INRAE, incluant la préparation des documents, la définition du
    périmètre du domaine d'étude. L'objectif est d'extraire des termes
    candidats relatifs à un domaine d'étude.

    Mise en place d'un protocole collaboratif d'enrichissement des
    terminologies des référentiels et de validation de l'organisation
    des termes à l'aide de l'outil TyDI [TyDI] . Les termes devront
    être validés par un réseau d'experts par type de culture (vigne,
    céréale, légume)

Suite à cette première étape, une nouvelle chaîne de traitements de
text mining sera mise en place pour annoter les bulletins.

    Construction d'un corpus de tests et des données de référence pour
    l'entraînement et l'évaluation de l'annotation automatique.

    Mise en place d'une chaîne de traitements de text mining à partir
    du système Alvis de TALN [Alvis]
    (https://bibliome.github.io/alvisnlp/) pour générer des
    annotations terminologiques. Une annotation terminologique
    détermine la localisation dans le texte de la mention d'un terme.

    Expérimentation sur le corpus de tests et validation des
    résultats.

    Mise en forme des résultats de l'expérimentation dans un format
    compatible avec l' ontologie Web Annotation Vocabulary [OA].

Profil du candidat 

    Titulaire d'un doctorat, d'un diplôme d'ingénieur ou de Master 2
    en mathématique, informatique ou bioinformatique, data science,
    terminologie, traitement de la langue, ingénierie des
    connaissances.

    Excellente compétence en traitement de la langue et dans
    l'utilisation de plateforme NLP.

    Bonnes compétences en anglais à l'oral et à l'écriture. Une bonne
    connaissance du français ou une motivation pour apprendre est
    souhaitable.

    Excellentes compétences en rédaction scientifique, car il sera
    nécessaire de produire des articles scientifiques, des rapports,
    de la documentation technique et des compte rendu de réunion.

    Excellente compétence en gestion de projet et planification, car
    il sera nécessaire de faire des points réguliers avec différentes
    équipes du projet D2KAB. Des compétences sur les systèmes de
    versionning comme GIT sont nécessaires.

    Autonomie et initiative, être capable de proposer de nouvelles
    techniques au sein du projet et de justifier ses choix.

    Personne dynamique pour rejoindre une petite équipe de recherche à
    Clermont-Ferrand.

Contrat

Type : CDD d'Ingénieur d'étude

Profil : titulaire d'un diplôme de master 2 ou ingénieur en
informatique ou bioinformatique, data science

Durée: 12 mois renouvelable pouvant aller jusqu'à une période de 24
mois en tout.

Date de début d'embauche: janvier 2021 (à négocier)

Localisation : INRAE, Centre  Clermont ARA, Aubière

Rémunération environs 2033 euro brut mensuel

Contact : Catherine Roussey, INRAE Centre de Clermont-Ferrand
(catherine.roussey@inrae.fr)

Co-encadrement par Robert Bossy, INRAE, Jouy-en-Josas
(robert.bossy@inrae.fr) Candidature

Envoyer CV et lettre de motivation à Catherine Roussey
(catherine.roussey@inrae.fr)

La lettre de motivation doit montrer en quoi vos compétences actuelles
répondent au profil de ce poste. Indiquez si possible un référent
français ayant travailler avec vous.

Les entretiens sont menés au fil de l'eau, pour prise de poste au plus tôt.

Pour toute demande d'information contacter catherine.roussey@inrae.fr

Date limite de candidature juin 2021.

Références

[Alvis] Nédellec C, Nazarenko A, Bossy R: Information
Extraction. Ontology Handbook. Edited by: Staab S, Studer R. 2008,
Springer Verlag, 663-686. URL: github.com/Bibliome/alvisnlp

[BSV] C. ROUSSEY, T. ABDERRAHMANI GHORFI. Annotation sémantique pour une interrogation experte des Bulletins de Santé du Végétal. Dans les Actes des 29e Journées Francophones d'Ingénierie des Connaissances IC 2018, adossée à la 11e Plate-forme Francophone d'Intelligence Artificielle, 2-6 juillet 2018, Nancy, p 37-52

Plus d'information sur http://ontology.irstea.fr/pmwiki.php/Site/BSV

[OA] Web Annotation Vocabulary https://www.w3.org/TR/annotation-vocab/

[TyDI] Nédellec C., Golik W., Aubin S., Bossy R. (2010) Building Large
Lexicalized Ontologies from Text: A Use Case in Automatic Indexing of
Biotechnology Patents. In: Cimiano P., Pinto H.S. (eds) Knowledge
Engineering and Management by the Masses. EKAW 2010. Lecture Notes in
Computer Science, vol 6317. Springer, Berlin, Heidelberg p 514-523

https://link.springer.com/content/pdf/10.1007%2F978-3-642-16438-5.pdf

[Roussey et al 2017] C. ROUSSEY, S. BERNARD, F. PINET, X. REBOUD,
V. CELLIER, I. SIVADON, D. SIMONNEAU, A-L. BOURIGAULT. A Methodology
for the Publication of Agricultural Alert Bulletins as LOD. in
Computers and Electronics in Agriculture. Volume 142, Part B, November
2017, p. 632-650. DOI: https://doi.org/10.1016/j.compag.2017.10.022
URL:
http://www.sciencedirect.com/science/article/pii/S0168169917306361