Titre : Fouille pour l'extraction de terminologies agricoles et annotation des bulletins. Contexte du poste : Ce poste est financé par le projet de recherche ANR D2KAB : Les ressources sémantiques (e.g., thesaurus, terminologies, vocabulaires et ontologies) sont des éléments clés pour assurer l'interopérabilité des données. Les thesaurus et les terminologies jouent parfois le rôle de données pivots pour permettre de joindre plusieurs jeux de données. Ces données pivot sont aussi appelées des référentiels. Dans certains domaines de recherche en agriculture, les scientifiques développent déjà des référentiels pour faciliter l'intégration de leurs données avec d'autres et permettre l'extraction de connaissances e.g., Plant Ontology ou FrenchCropUsage thesaurus. Cependant, bien souvent les utilisateurs de ces référentiels ne sont pas uniquement des scientifiques, qui ont l'opportunité de s'intéresser au monde du web sémantique, mais des acteurs du monde agricole, qui produisent ou utilisent des référentiels simples et souvent spécifiques à une filière: Par exemples, le référentiel des stades phénologiques de la vigne ou la liste des variétés en vigne produit par l'IFV (Institut Français de la Vigne et du Vin) ou le référentiel de produits phytosanitaires produit par l'ACTA. Récemment, une première étape a été franchie avec la mise à disposition de certains de ces référentiels sur la plateforme de partage de données agricoles, API-AGRO (https://plateforme.api-agro.fr). Mais pour aller plus loin dans le partage et la réutilisation de ces référentiels, il est nécessaire d'adopter les principes FAIR (Findable, Accessible, Interoperable and Reusable). Ces principes impliquent l'utilisation des technologies Web Sémantique (RDF, OWL, SPARQL) pour publier des jeux de données et des référentiels sur le web: Linked Open Data (LOD). Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un consortium multidisciplinaire unique de 7 organisations dont 4 dans DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO) dont l'objectif principal est de mettre en place les processus permettant de transformer les données d'agricole en connaissances - sémantiquement riches, interopérables, ouvertes - ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances dans des applications scientifiques et agricoles. Pour ce faire D2KAB développe et maintient AgroPortal (http://agroportal.lirmm.fr), un portail de ressources sémantiques pour l'agronomie et l'agriculture. Le projet est guidé par plusieurs scénarios dont un navigateur de recherche améliorée des bulletins d'alerte agricole intitulés Bulletin de Santé du Végétal [BSV] [Roussey et al 2017]. L'ANR D2KAB propose plusieurs offres de CDD ingénieur pendant la durée de ce projet. Structure d'accueil Le poste est à destination de l'équipe Copain du laboratoire TSCF du Centre INRAE de ARA Clermont. Votre bureau sera sur le campus des Cézeaux à proximité de la ville de Clermont-Ferrand. L'unité de recherche Technologies et systèmes d'information pour les agrosystèmes (TSCF), composée de 3 équipes qui rassemblent 60 agents, est implantée sur 2 sites : le Pôle scientifique et universitaire des Cézeaux à Aubière (63) et le Site de recherche et d'expérimentation de Montoldre (03) . https://www6.ara.inrae.fr/tscf/ L'activité de l'équipe Copain est consacrée aux méthodes d'ingénierie des systèmes d'information communicants dédiées à la gestion agri-environnementale. Les chercheurs de Copain sont spécialisés en informatique et dans les systèmes d'information, avec une solide expérience de projets interdisciplinaires. L'activité de cette équipe est dédiée aux méthodes d'ingénierie de systèmes d'information pour la gestion agro-environnementale. Ces méthodes couvrent les besoins des acteurs, la définition des caractéristiques des systèmes d'information, leur modélisation, leur gestion. Objectif du poste L'objectif de ce poste est d'utiliser des techniques de text mining pour construire et enrichir des jeux de données FAIR. Ces jeux de données seront constitués en partie de référentiels existants. La FAIRization des données consiste à les publier sur le web à l'aide des technologies Web Sémantique (RDF-S, OWL, SPARQL, SHACL). Une première étape du projet consiste à améliorer la couverture terminologique des référentiels agricoles existants en les enrichissant grâce à l'extraction de termes spécifiques à partir du corpus des bulletins d'alertes (BSV). Plus précisément : 1. Mise en place d'une chaîne de traitements de text mining à partir du système Alvis de TALN [Alvis] proposé par l'équipe de Bibliome de l'INRAE, incluant la préparation des documents, la définition du périmètre du domaine d'étude. L'objectif est d'extraire des termes candidats relatif à un domaine d'étude. 2. Mise en place d'un protocole collaboratif d'enrichissement des terminologies des référentiels et de validation de l'organisation des termes à l'aide de l'outil TyDI [TyDI] . Les termes devront être validés par un réseau d'experts par type de culture (vigne, céréale, légume) 3. Transformation du référentiel enrichi en jeu de données RDF. Le choix de l'ontologie structurant le jeux de données sera à définir en fonction de son périmètre (modèle SKOS ou ontologies disponible sur Agroportal). Les contraintes spécifiques à ce jeux de données pourront être testées sous forme de contrainte SHACL ou de requête SPARQL [Roussey & Bernard 2017]. Publication de la nouvelle version du référentiel sur l'Agroportal. Suite à cette première étape, une nouvelle chaîne de traitements de text mining sera mise en place pour construire des graphes RDF annotant les bulletins. Cette seconde étape nécessite des compétences en technologies Web Sémantique. 4. Prise en main des ontologies Open Annotation Data Model [OA] et Semantic Sensor Network [SSN] 5. Construction d'un corpus de tests et des données de référence pour l'entraînement et l''évaluation de l'annotation automatique. 6. Mise en place d'une chaîne de traitements de text mining à partir du système Alvis de TALN [Alvis] pour générer des annotations terminologiques basée sur OA. Une annotation terminologique détermine la localisation dans le texte de la mention d'un terme. 7. Expérimentation sur le corpus de tests et validation des résultats. 8. Mise en place d'une chaîne de traitements pour construire les observations de parcelles cultivées extraites des BSV à partir des annotations terminologiques. Ces observations constituent des annotations complexes des BSV combinant les ontologies OA et SSN. 9. Expérimentation sur le corpus de tests et validation des résultats. 10. Mise en place des deux chaînes de traitements sur l'ensemble du corpus. 11. Publication des annotations sur le web de données liées, à l'aide d'un sparql end point (ontology.inrae.fr) Profil du candidat * Titulaire d'un doctorat, d'un diplôme d'ingénieur ou de Master 2 en mathématique, informatique ou bioinformatique, data science, ingénierie des connaissances, terminologie, web sémantique. * Excellente compétence en traitement de la langue et dans l'utilisation de plateforme NLP. * Expérience avec des outils d'apprentissage automatique et motivation pour apprendre de nouvelles technologies. * Une expérience des technologies du Web sémantique sera appréciée mais n'est pas obligatoire. * Bonnes compétences en anglais à l'oral et à l'écriture. Une bonne connaissance du français ou une motivation pour apprendre est souhaitable. * Excellentes compétences en rédaction scientifique, car il sera nécessaire de produire des articles scientifiques, des rapports, de la documentation technique et des compte rendu de réunion. * Excellente compétence en gestion de projet et planification, car il sera nécessaire de faire des points réguliers avec différentes équipes du projet D2KAB. Des compétences sur les systèmes de versionning comme GIT sont nécessaires. * Autonomie et initiative, être capable de proposer de nouvelles techniques au sein du projet et de justifier ses choix. * Personne dynamique pour rejoindre une petite équipe de recherche à Clermont-Ferrand. Contrat Type : CDD d'Ingénieur d'étude Profil : titulaire d'un diplôme de master 2 ou ingénieur en informatique ou bioinformatique, data science Durée: 12 mois renouvelable pouvant aller jusqu'à une periode de 24 mois en tout. Date de début d'embauche: septembre 2020 à janvier 2021 (à négocier) Localisation : INRAE, Centre Clermont ARA, Aubière Rémunération environs 2033 euro brut mensuel Contact : Catherine Roussey, Irstea Centre de Clermont-Ferrand (catherine.roussey@inrae.fr) Co-encadrement par Robert Bossy, INRA, Jouy-en-Josas (robert.bossy@inrae.fr) Candidature Envoyer CV et lettre de motivation à Catherine Roussey (catherine.roussey@inrae.fr ) La lettre de motivation doit montrer en quoi vos compétences actuelles répondent au profil de ce poste. Indiquez si possible un référent français ayant travailler avec vous. Pour toute demande d'information contacter catherine.roussey@inrae.fr Date limite de candidature février 2021. Références [Alvis] Nédellec C, Nazarenko A, Bossy R: Information Extraction. Ontology Handbook. Edited by: Staab S, Studer R. 2008, Springer Verlag, 663-686. URL: github.com/Bibliome/alvisnlp [BSV] C. ROUSSEY, T. ABDERRAHMANI GHORFI. Annotation sémantique pour une interrogation experte des Bulletins de Santé du Végétal. Dans les Actes des 29e Journées Francophones d'Ingénierie des Connaissances IC 2018, adossée à la 11e Plate-forme Francophone d'Intelligence Artificielle, 2-6 juillet 2018, Nancy, p 37-52 Plus d'information sur http://ontology.irstea.fr/pmwiki.php/Site/BSV [OA] Web Annotation Vocabulary https://www.w3.org/TR/annotation-vocab/ [TyDI] Nédellec C., Golik W., Aubin S., Bossy R. (2010) Building Large Lexicalized Ontologies from Text: A Use Case in Automatic Indexing of Biotechnology Patents. In: Cimiano P., Pinto H.S. (eds) Knowledge Engineering and Management by the Masses. EKAW 2010. Lecture Notes in Computer Science, vol 6317. Springer, Berlin, Heidelberg p 514-523 https://link.springer.com/content/pdf/10.1007%2F978-3-642-16438-5.pdf [Roussey & Bernard 2017] C. ROUSSEY, S. BERNARD. Améliorer la qualité d'un thésaurus à l'aide de requêtes SPARQL. Dans les actes du 9es atelier Recherche d'Information SEmantique (RISE 2017) adossé à la conférence IC 2017 de la Plateforme Francophone d'Intelligence Artificielle, 4 juillet 2017, Caen, 11 pages. (https://sites.google.com/site/frenchsemanticir/documents). Actes de l'atelier Rise 2017 [Roussey et al 2017] C. ROUSSEY, S. BERNARD, F. PINET, X. REBOUD, V. CELLIER, I. SIVADON, D. SIMONNEAU, A-L. BOURIGAULT. A Methodology for the Publication of Agricultural Alert Bulletins as LOD. in Computers and Electronics in Agriculture. Volume 142, Part B, November 2017, p. 632-650. DOI: https://doi.org/10.1016/j.compag.2017.10.022 URL: http://www.sciencedirect.com/science/article/pii/S0168169917306361 [SSN] Semantic Sensor Network Ontology https://www.w3.org/TR/vocab-ssn/