Titre: Fouille de texte pour extraction de terminologies agricoles

Contact : Catherine Roussey, Irstea Centre de Clermont-Ferrand (catherine.roussey@irstea.fr)

Co-encadrement par Robert Bossy, INRA, Jouy-en-Josas

Localisation : Irstea, Centre de Clermont-Ferrand, Aubière

Type : Stage de Master 2

Profil : Étudiants de master 2 en informatique ou bioinformatique, data science

Période: courant 2020

Date de début de stage mars 2020

Durée: 2 à 5 mois
Contexte du stage

Dans le cadre de l'ANR D2KAB

Les ressources sémantiques (e.g., thesaurus, terminologies,
vocabulaires et ontologies) sont des éléments clés pour assurer
l'interopérabilité des données. Dans certains domaines de recherche en
agriculture, les scientifiques développent déjà des ressources
sémantiques pour faciliter l'intégration de leurs données avec
d'autres et permettre l'extraction de connaissances e.g., Crop
Ontology ou FrenchCropUsage thesaurus. Cependant, bien souvent les
personnes concernées ne sont pas nécessairement des scientifiques, qui
ont l'opportunité de s'intéresser au monde du web sémantique, mais des
acteurs du monde agricole, qui produisent ou utilisent des
référentiels simples et souvent spécifiques à une filière. Par
exemples, le référentiel des stades phénologiques de la vigne ou la
liste des variétés en vigne produit par l'IFV (Institut Français de la
Vigne et du Vin) ou le référentiel de produits phytosanitaires produit
par l'ACTA. Récemment, une première étape a été franchie avec la mise
à disposition de certains de ces référentiels sur la plateforme de
partage de données agricoles, API-AGRO
(https://plateforme.api-agro.fr). Mais pour aller plus loin dans le
partage et la réutilisation de ces référentiels, il est nécessaire
d'adopter les principes FAIR (Findable, Accessible, Interoperable and
Reusable).

Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un
consortium multidisciplinaire unique de 7 organisations dont 4 dans
DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO)
dont l'objectif principal est de mettre en place les processus
permettant de transformer les données d'agricole en connaissances -
sémantiquement riches, interopérables, ouvertes - ainsi que les
méthodes scientifiques et les outils pour exploiter et diffuser ces
connaissances dans des applications scientifiques et agricoles. Le
projet est guidé par plusieurs scénarios dont un navigateur de
recherche améliorée des bulletins d'alerte agricole intitulés Bulletin
de Santé du Végétal [BSV]. D2KAB développe et maintient AgroPortal
(http://agroportal.lirmm.fr), un portail de ressources sémantiques
pour l'agronomie et l'agriculture.

L'ANR D2KAB propose plusieurs offres de CDD ingénieur dont un qui sera
la suite de ce stage.

Objectif du stage

L'objectif de ce stage est d'améliorer la couverture terminologique des référentiels agricoles existants en les enrichissant grâce à l'extraction de termes spécifiques  à partir du corpus des bulletins d'alertes (BSV). Plus précisément :

- Mise en place d'un workflow de text mining à partir du système Alvis
de TALN [Alvis] proposé par l'équipe de Bibliome de l'INRA

- Mise en place d'un protocole de validation des termes à l'aide de
l'outil TyDI [TyDI] . Les termes devront être validé par un réseau
d'experts par type de culture (vigne, céréale, légume)

- Publication de la nouvelle version des référentiels sur l'Agroportal.

Profil du candidat


- Niveau Master 2 en mathématique, informatique ou bioinformatique, data
science

- Expérience avec des outils d'apprentissage automatique et motivation
pour apprendre de nouvelles technologies.

- Une expérience des technologies du Web sémantique sera appréciée mais
n'est pas obligatoire.

- Bonnes compétences en anglais à l'oral et à l'écriture. Une bonne
connaissance du français ou une motivation pour apprendre est
souhaitable.

- Excellentes compétences en rédaction scientifique, car il sera
nécessaire de produire des rapports, de la documentation technique et
des compte rendu de réunion.

- Excellente compétence en gestion de projet et planification, car il
sera nécessaire de faire des points réguliers avec différentes équipes
du projet D2KAB

- Autonomie et initiative, être capable de proposer de nouvelles
techniques au sein du projet et de justifier de ses choix.

- Personne dynamique pour rejoindre une petite équipe de recherche à
Clermont-Ferrand.

Candidature

Répondre à l'annonce sur le site de l'INRA (un CV et une lettre de
motivation)

http://jobs.inra.fr/offers/detail/285917

Pour toute demande d'information contacter catherine.roussey@irstea.fr

Date limite de candidature mai 2020.

Rémunération

Prime de stage de master 2 (environs 580 ¤ par mois)

Références

[Alvis] Nédellec C, Nazarenko A, Bossy R: Information
Extraction. Ontology Handbook. Edited by: Staab S, Studer R. 2008,
Springer Verlag, 663-686. URL: github.com/Bibliome/alvisnlp

[BSV] C. ROUSSEY, T. ABDERRAHMANI GHORFI. Annotation sémantique pour
une interrogation experte des Bulletins de Santé du Végétal. Dans les
Actes des 29e Journées Francophones d'Ingénierie des Connaissances IC
2018, adossée à la 11e Plate-forme Francophone d'Intelligence
Artificielle, 2-6 juillet 2018, Nancy, p 37-52

Plus d'information sur http://ontology.irstea.fr/pmwiki.php/Site/BSV

[TyDI] Nédellec C., Golik W., Aubin S., Bossy R. (2010) Building Large
Lexicalized Ontologies from Text: A Use Case in Automatic Indexing of
Biotechnology Patents. In: Cimiano P., Pinto H.S. (eds) Knowledge
Engineering and Management by the Masses. EKAW 2010. Lecture Notes in
Computer Science, vol 6317. Springer, Berlin, Heidelberg