Titre : Fouille pour l'extraction de terminologies agricoles et
annotation des bulletins.

Contexte du poste :

Ce poste est financé par le projet de recherche ANR D2KAB :

Les ressources sémantiques (e.g., thesaurus, terminologies, vocabulaires
et ontologies) sont des éléments clés pour assurer l'interopérabilité
des données. Les thesaurus et les terminologies jouent parfois le rôle
de données pivots pour permettre de joindre plusieurs jeux de données.
Ces données pivot sont aussi appelées des référentiels. Dans certains
domaines de recherche en agriculture, les scientifiques développent déjà
des référentiels pour faciliter l'intégration de leurs données avec
d'autres et permettre l'extraction de connaissances e.g., Plant Ontology
ou FrenchCropUsage thesaurus. Cependant, bien souvent les utilisateurs
de ces référentiels ne sont pas uniquement des scientifiques, qui ont
l'opportunité de s'intéresser au monde du web sémantique, mais des
acteurs du monde agricole, qui produisent ou utilisent des référentiels
simples et souvent spécifiques à une filière: Par exemples, le
référentiel des stades phénologiques de la vigne ou la liste des
variétés en vigne produit par l'IFV (Institut Français de la Vigne et du
Vin) ou le référentiel de produits phytosanitaires produit par l'ACTA.
Récemment, une première étape a été franchie avec la mise à disposition
de certains de ces référentiels sur la plateforme de partage de données
agricoles, API-AGRO (https://plateforme.api-agro.fr). Mais pour aller
plus loin dans le partage et la réutilisation de ces référentiels, il
est nécessaire d'adopter les principes FAIR (Findable, Accessible,
Interoperable and Reusable). Ces principes impliquent l'utilisation des
technologies Web Sémantique (RDF, OWL, SPARQL) pour publier des jeux de
données et des référentiels sur le web: Linked Open Data (LOD).

Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un
consortium multidisciplinaire unique de 7 organisations dont 4 dans
DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO) dont
l'objectif principal est de mettre en place les processus permettant de
transformer les données d'agricole en connaissances - sémantiquement
riches, interopérables, ouvertes - ainsi que les méthodes scientifiques
et les outils pour exploiter et diffuser ces connaissances dans des
applications scientifiques et agricoles.  Pour ce faire D2KAB développe
et maintient AgroPortal (http://agroportal.lirmm.fr), un portail de
ressources sémantiques pour l'agronomie et l'agriculture. Le projet est
guidé par plusieurs scénarios dont un navigateur de recherche améliorée
des bulletins d'alerte agricole intitulés Bulletin de Santé du Végétal
[BSV] [Roussey et al 2017].

L'ANR D2KAB propose plusieurs offres de CDD ingénieur pendant la durée
de ce projet.


Structure d'accueil

Le poste est à destination de l'équipe Copain du laboratoire TSCF du
Centre INRAE de ARA Clermont. Votre bureau sera sur le campus des
Cézeaux à proximité de la ville de Clermont-Ferrand.

L'unité de recherche Technologies et systèmes d'information pour les
agrosystèmes (TSCF), composée de 3 équipes qui rassemblent 60 agents,
est implantée sur 2 sites : le Pôle scientifique et universitaire des
Cézeaux à Aubière (63) et le Site de recherche et d'expérimentation de
Montoldre (03) . https://www6.ara.inrae.fr/tscf/

L'activité de l'équipe Copain est consacrée aux méthodes d'ingénierie
des systèmes d'information communicants dédiées à la gestion
agri-environnementale. Les chercheurs de Copain sont spécialisés en
informatique et dans les systèmes d'information, avec une solide
expérience de projets interdisciplinaires. L'activité de cette équipe
est dédiée aux méthodes d'ingénierie de systèmes d'information pour la
gestion agro-environnementale. Ces méthodes couvrent les besoins des
acteurs, la définition des caractéristiques des systèmes d'information,
leur modélisation, leur gestion.


Objectif du poste

L'objectif de ce poste est d'utiliser des techniques de text mining pour
construire et enrichir des jeux de données FAIR. Ces jeux de données
seront constitués en partie de référentiels existants. La FAIRization
des données consiste à les publier sur le web à l'aide des technologies
Web Sémantique (RDF-S, OWL, SPARQL, SHACL).

Une première étape du projet consiste à améliorer la couverture
terminologique des référentiels agricoles existants en les enrichissant
grâce à l'extraction de termes spécifiques  à partir du corpus des
bulletins d'alertes (BSV). Plus précisément :

1. Mise en place d'une chaîne de traitements de text mining à partir du
   système Alvis de TALN [Alvis] proposé par l'équipe de Bibliome de
   l'INRAE, incluant la préparation des documents, la définition du
   périmètre du domaine d'étude. L'objectif est d'extraire des termes
   candidats relatif à un domaine d'étude.
2. Mise en place d'un protocole collaboratif d'enrichissement des
   terminologies des référentiels et de validation de l'organisation
   des termes à l'aide de l'outil TyDI [TyDI] . Les termes devront être
   validés par un réseau d'experts par type de culture (vigne, céréale,
   légume)
3. Transformation du référentiel enrichi en jeu de données RDF. Le choix
   de l'ontologie structurant le jeux de données sera à définir en
   fonction de son périmètre (modèle SKOS ou ontologies disponible sur
   Agroportal). Les contraintes spécifiques à ce jeux de données
   pourront être testées sous forme de contrainte SHACL ou de requête
   SPARQL [Roussey & Bernard 2017]. Publication de la nouvelle version
   du référentiel sur l'Agroportal.

Suite à cette première étape, une nouvelle chaîne de traitements de text
mining sera mise en place pour construire des graphes RDF annotant les
bulletins. Cette seconde étape nécessite des compétences en technologies
Web Sémantique.

4. Prise en main des ontologies Open Annotation Data Model [OA] et
   Semantic Sensor Network [SSN]
5. Construction d'un corpus de tests et des données de référence pour
   l'entraînement et l''évaluation de l'annotation automatique.
6. Mise en place d'une chaîne de traitements de text mining à partir du
   système Alvis de TALN [Alvis] pour générer des annotations
   terminologiques basée sur OA. Une annotation terminologique détermine
   la localisation dans le texte de la mention d'un terme.
7. Expérimentation sur le corpus de tests et validation des résultats.
8. Mise en place d'une chaîne de traitements pour construire les
   observations de parcelles cultivées extraites des BSV à partir des
   annotations terminologiques. Ces observations constituent des
   annotations complexes des BSV combinant les ontologies OA et SSN.
9. Expérimentation sur le corpus de tests et validation des résultats.
10. Mise en place des deux chaînes de traitements sur l'ensemble du
    corpus.
11. Publication des annotations sur le web de données liées, à l'aide
    d'un sparql end point (ontology.inrae.fr)


Profil du candidat

  * Titulaire d'un doctorat, d'un diplôme d'ingénieur ou de Master 2 en
    mathématique, informatique ou bioinformatique, data science,
    ingénierie des connaissances, terminologie, web sémantique.
  * Excellente compétence en traitement de la langue et dans
    l'utilisation de plateforme NLP.
  * Expérience avec des outils d'apprentissage automatique et motivation
    pour apprendre de nouvelles technologies.
  * Une expérience des technologies du Web sémantique sera appréciée
    mais n'est pas obligatoire.
  * Bonnes compétences en anglais à l'oral et à l'écriture. Une bonne
    connaissance du français ou une motivation pour apprendre est
    souhaitable.
  * Excellentes compétences en rédaction scientifique, car il sera
    nécessaire de produire des articles scientifiques, des rapports, de
    la documentation technique et des compte rendu de réunion.
  * Excellente compétence en gestion de projet et planification, car il
    sera nécessaire de faire des points réguliers avec différentes
    équipes du projet D2KAB. Des compétences sur les systèmes de
    versionning comme GIT sont nécessaires.
  * Autonomie et initiative, être capable de proposer de nouvelles
    techniques au sein du projet et de justifier ses choix.
  * Personne dynamique pour rejoindre une petite équipe de recherche à
    Clermont-Ferrand.


Contrat

Type : CDD d'Ingénieur d'étude

Profil : titulaire d'un diplôme de master 2 ou ingénieur en informatique
ou bioinformatique, data science

Durée: 12 mois renouvelable pouvant aller jusqu'à une periode de 24 mois
en tout.

Date de début d'embauche: septembre 2020 à janvier 2021 (à négocier)

Localisation : INRAE, Centre  Clermont ARA, Aubière

Rémunération environs 2033 euro brut mensuel

Contact : Catherine Roussey, Irstea Centre de Clermont-Ferrand
(catherine.roussey@inrae.fr)

Co-encadrement par Robert Bossy, INRA, Jouy-en-Josas
(robert.bossy@inrae.fr)


Candidature

Envoyer CV et lettre de motivation à Catherine Roussey
(catherine.roussey@inrae.fr <catherine.roussey@irstea.fr>)

La lettre de motivation doit montrer en quoi vos compétences actuelles
répondent au profil de ce poste. Indiquez si possible un référent
français ayant travailler avec vous.

Pour toute demande d'information contacter catherine.roussey@inrae.fr 

Date limite de candidature février 2021.

Références

[Alvis] Nédellec C, Nazarenko A, Bossy R: Information Extraction.
Ontology Handbook. Edited by: Staab S, Studer R. 2008, Springer Verlag,
663-686. URL: github.com/Bibliome/alvisnlp

[BSV] C. ROUSSEY, T. ABDERRAHMANI GHORFI. Annotation sémantique pour une
interrogation experte des Bulletins de Santé du Végétal. Dans les Actes
des 29e Journées Francophones d'Ingénierie des Connaissances IC 2018,
adossée à la 11e Plate-forme Francophone d'Intelligence Artificielle,
2-6 juillet 2018, Nancy, p 37-52

Plus d'information sur http://ontology.irstea.fr/pmwiki.php/Site/BSV

[OA] Web Annotation Vocabulary https://www.w3.org/TR/annotation-vocab/

[TyDI] Nédellec C., Golik W., Aubin S., Bossy R. (2010) Building Large
Lexicalized Ontologies from Text: A Use Case in Automatic Indexing of
Biotechnology Patents. In: Cimiano P., Pinto H.S. (eds) Knowledge
Engineering and Management by the Masses. EKAW 2010. Lecture Notes in
Computer Science, vol 6317. Springer, Berlin, Heidelberg p 514-523
https://link.springer.com/content/pdf/10.1007%2F978-3-642-16438-5.pdf 

[Roussey & Bernard 2017] C. ROUSSEY, S. BERNARD. Améliorer la qualité
d'un thésaurus à l'aide de requêtes SPARQL. Dans les actes du 9es
atelier Recherche d'Information SEmantique (RISE 2017) adossé à la
conférence IC 2017 de la Plateforme Francophone d'Intelligence
Artificielle, 4 juillet 2017, Caen, 11
pages. (https://sites.google.com/site/frenchsemanticir/documents).
Actes de l'atelier Rise 2017

[Roussey et al 2017] C. ROUSSEY, S. BERNARD, F. PINET, X. REBOUD, V. 
CELLIER, I. SIVADON, D. SIMONNEAU, A-L. BOURIGAULT. A Methodology for 
the Publication of Agricultural Alert Bulletins as LOD. in Computers and 
Electronics in Agriculture. Volume 142, Part B, November 2017, p. 
632-650. 
DOI: https://doi.org/10.1016/j.compag.2017.10.022
URL: http://www.sciencedirect.com/science/article/pii/S0168169917306361

[SSN] Semantic Sensor Network Ontology https://www.w3.org/TR/vocab-ssn/