Titre: Fouille de texte pour extraction de terminologies agricoles Contact : Catherine Roussey, Irstea Centre de Clermont-Ferrand (catherine.roussey@irstea.fr) Co-encadrement par Robert Bossy, INRA, Jouy-en-Josas Localisation : Irstea, Centre de Clermont-Ferrand, Aubière Type : Stage de Master 2 Profil : Étudiants de master 2 en informatique ou bioinformatique, data science Période: courant 2020 Date de début de stage mars 2020 Durée: 2 à 5 mois Contexte du stage Dans le cadre de l'ANR D2KAB Les ressources sémantiques (e.g., thesaurus, terminologies, vocabulaires et ontologies) sont des éléments clés pour assurer l'interopérabilité des données. Dans certains domaines de recherche en agriculture, les scientifiques développent déjà des ressources sémantiques pour faciliter l'intégration de leurs données avec d'autres et permettre l'extraction de connaissances e.g., Crop Ontology ou FrenchCropUsage thesaurus. Cependant, bien souvent les personnes concernées ne sont pas nécessairement des scientifiques, qui ont l'opportunité de s'intéresser au monde du web sémantique, mais des acteurs du monde agricole, qui produisent ou utilisent des référentiels simples et souvent spécifiques à une filière. Par exemples, le référentiel des stades phénologiques de la vigne ou la liste des variétés en vigne produit par l'IFV (Institut Français de la Vigne et du Vin) ou le référentiel de produits phytosanitaires produit par l'ACTA. Récemment, une première étape a été franchie avec la mise à disposition de certains de ces référentiels sur la plateforme de partage de données agricoles, API-AGRO (https://plateforme.api-agro.fr). Mais pour aller plus loin dans le partage et la réutilisation de ces référentiels, il est nécessaire d'adopter les principes FAIR (Findable, Accessible, Interoperable and Reusable). Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un consortium multidisciplinaire unique de 7 organisations dont 4 dans DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO) dont l'objectif principal est de mettre en place les processus permettant de transformer les données d'agricole en connaissances - sémantiquement riches, interopérables, ouvertes - ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances dans des applications scientifiques et agricoles. Le projet est guidé par plusieurs scénarios dont un navigateur de recherche améliorée des bulletins d'alerte agricole intitulés Bulletin de Santé du Végétal [BSV]. D2KAB développe et maintient AgroPortal (http://agroportal.lirmm.fr), un portail de ressources sémantiques pour l'agronomie et l'agriculture. L'ANR D2KAB propose plusieurs offres de CDD ingénieur dont un qui sera la suite de ce stage. Objectif du stage L'objectif de ce stage est d'améliorer la couverture terminologique des référentiels agricoles existants en les enrichissant grâce à l'extraction de termes spécifiques à partir du corpus des bulletins d'alertes (BSV). Plus précisément : - Mise en place d'un workflow de text mining à partir du système Alvis de TALN [Alvis] proposé par l'équipe de Bibliome de l'INRA - Mise en place d'un protocole de validation des termes à l'aide de l'outil TyDI [TyDI] . Les termes devront être validé par un réseau d'experts par type de culture (vigne, céréale, légume) - Publication de la nouvelle version des référentiels sur l'Agroportal. Profil du candidat - Niveau Master 2 en mathématique, informatique ou bioinformatique, data science - Expérience avec des outils d'apprentissage automatique et motivation pour apprendre de nouvelles technologies. - Une expérience des technologies du Web sémantique sera appréciée mais n'est pas obligatoire. - Bonnes compétences en anglais à l'oral et à l'écriture. Une bonne connaissance du français ou une motivation pour apprendre est souhaitable. - Excellentes compétences en rédaction scientifique, car il sera nécessaire de produire des rapports, de la documentation technique et des compte rendu de réunion. - Excellente compétence en gestion de projet et planification, car il sera nécessaire de faire des points réguliers avec différentes équipes du projet D2KAB - Autonomie et initiative, être capable de proposer de nouvelles techniques au sein du projet et de justifier de ses choix. - Personne dynamique pour rejoindre une petite équipe de recherche à Clermont-Ferrand. Candidature Répondre à l'annonce sur le site de l'INRA (un CV et une lettre de motivation) http://jobs.inra.fr/offers/detail/285917 Pour toute demande d'information contacter catherine.roussey@irstea.fr Date limite de candidature mai 2020. Rémunération Prime de stage de master 2 (environs 580 ¤ par mois) Références [Alvis] Nédellec C, Nazarenko A, Bossy R: Information Extraction. Ontology Handbook. Edited by: Staab S, Studer R. 2008, Springer Verlag, 663-686. URL: github.com/Bibliome/alvisnlp [BSV] C. ROUSSEY, T. ABDERRAHMANI GHORFI. Annotation sémantique pour une interrogation experte des Bulletins de Santé du Végétal. Dans les Actes des 29e Journées Francophones d'Ingénierie des Connaissances IC 2018, adossée à la 11e Plate-forme Francophone d'Intelligence Artificielle, 2-6 juillet 2018, Nancy, p 37-52 Plus d'information sur http://ontology.irstea.fr/pmwiki.php/Site/BSV [TyDI] Nédellec C., Golik W., Aubin S., Bossy R. (2010) Building Large Lexicalized Ontologies from Text: A Use Case in Automatic Indexing of Biotechnology Patents. In: Cimiano P., Pinto H.S. (eds) Knowledge Engineering and Management by the Masses. EKAW 2010. Lecture Notes in Computer Science, vol 6317. Springer, Berlin, Heidelberg