Stage Master 2 / dernière année école d'ingénieur - 6 mois - 2026 Extraction d'informations sur les itinéraires techniques phytosanitaires (Antilles françaises) par traitement automatique du langage naturel sur corpus historique Contexte général et projets de recherche La connaissance des itinéraires techniques en agriculture est essentielle pour comprendre l'évolution des pratiques, évaluer leurs impacts environnementaux et sanitaires, et accompagner les transitions vers des systèmes plus durables et tenant compte du changement climatique. Leur reconstitution a posteriori est un challenge, les connaissances étant disséminées dans des sources de données hétérogènes, souvent de manière fragmentaire et non normalisée. Nous proposons un pilote Antilles (cultures banane, canne à sucre, maraîchage) pour extraire automatiquement, à partir d'un corpus scientifique et technique, des informations structurées sur les itinéraires phytosanitaires appliquées entre 1960 (révolution verte) et 2008 (date de démarrage de l'initiative Base Nationale des Ventes - Distributeurs) (produits, matières actives, doses, stades, cibles, dates d'introduction/retrait). Le choix antillais est pertinent à cause du contexte particulier de l'histoire de l'utilisation des produits phytopharmaceutiques dans la région, en plus d'une forte densité d'écrits technico-réglementaires ; la littérature signale en outre des enjeux historiques de contamination qui ont structuré les changements de pratiques (Bocquené & Franco, 2005 ; Cabidoche et al., 2009). La mobilisation d'approches de traitement automatique du langage naturel (TALN) permet aujourd'hui de faciliter la synthèse et l'extraction d'informations disséminées dans des sources textuelles de tout type. A titre d'exemple dans le domaine de l'agronomie, Saffer et al. ont reconstruit la dynamique épidémique passée d'un agent pathogène de la pomme de terre grâce à l'extraction d'information à partir de sources historiques (Saffer et al., 2024). Le.a. futur.e stagiaire s'appuiera sur les premiers résultats obtenus pour améliorer les propositions méthodologiques utilisées et étudiera l'inclusion de nouvelles sources de données textuelles. Objectifs du stage Ce stage a pour objectif de construire un corpus de documents historiques et techniques (Antilles) et développer des méthodes de traitement automatique du langage (e.g.. extraction d'entités et de relations) pour extraire des itinéraires phytosanitaires. Il s'articulera en plusieurs étapes : (1) Compléter un corpus historique et technique (rapports, Bulletins de Santé du Végétal, notices, textes réglementaires, presse spécialisée, publications scientifiques) sur les pratiques phytosanitaires ; (2) Développer une méthode pour l'extraction d'entités d'intérêt et de leurs relations, en mobilisant des approches de TALN ; (3) Normaliser vers des référentiels/ontologies et agréger sous forme de graphe de connaissances ; (4) Évaluer quantitativement et valider avec des experts ; (5) Perspective : évaluer la transférabilité de l'approche vers la vigne en Occitanie (contexte de monoculture intensive fortement documentée en littérature grise). Méthodes pressenties & tâches confiées au/à la stagiaire : - Complétion et normalisation d'un corpus : o collecte ciblée à partir d'un liste de sources pertinentes ; traitement de PDF scientifiques/techniques avec librairie Python GROBID (Lopez, 2009) ; extraction des métadonnées o pré-traitements : reconnaissance optique des caractères (OCR) si besoin, segmentation du contenu textuel (titre/section/phrase). -Traitement automatique du langage : extraction et normalisation d'entités agro-phytos (produit, matière active, culture, stade, dose, cible, équipement), à l'aide d'approches d'extraction d'entités nommées qui combineront ressources lexicale existantes et modèles de langue pré- entraînés (Martin et al., 2020). Le.a stagiaire appliquera des approches de fine-tuning de modèles de langue pré-entraînés (Yao et al. 2024) et/ou des approches zéro-shot à l'aide de modèles de langue génératifs (Ogrinc et al., 2024). -Extraction de relations : règles hybrides + modèles neuronaux pour relier produit-espèce-dose- stade-cible et dater introduction/retrait/interdiction en s'appuyant sur des jeux/cadres multilingues du domaine, notamment la ressource AGROVOC (Kaushik & Chatterjee N., 2018), et des modèles de langues (De et al.,2025). La représentation des information extraites sous forme d'un graphe de connaissance pourra s'appuyer sur l'approche ontologique proposée par Yacoubi Ayadi et al. (2024). Organisation du stage Le stage se déroulera sur une période de 6 mois, à compter de février 2026, dans les locaux de la Maison de la Télédétection à Montpellier. L'étudiant·e sera accueilli·e au sein de l'UMR TETIS (Territoire Environnement Télédétection et Information Spatiale) et sera encadré·e par Jérémy Lavarenne, chercheur en modélisation à l'UMR TETIS et Sarah Valentin, chercheuse en fouille de données textuelles au Cirad à l'UMR TETIS. En plus de la rédaction d'un mémoire de Master 2 ou de fin d'étude selon les attentes de sa formation, d'autres modalités de valorisation des résultats seront éventuellement envisagées avec les encadrants au cours du stage telles que la publication d'un jeu de données (corpus) et la contribution à un data paper. Gratification et avantages - 690¤/mois - tickets restaurant, accès à une restauration collective - transport en commun gratuits sur la métropole de Montpellier Compétences recherchées - Formation en informatique/sciences des données/NLP - Bonne maîtrise du langage de programmation Python - Connaissances en traitement automatique du langage et/ou apprentissage automatique - Intérêt pour les applications socio-environnementales et le travail interdisciplinaire. Candidature Envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 31/10/2025 à Jérémy Lavarenne (jeremy.lavarenne@cirad.fr) à Sarah Valentin (sarah.valentin@cirad.fr) et en précisant en objet du mail "CANDIDATURE STAGE TALN_Antilles 2025". Références -Bocquené, G., & Franco, A. (2005). Pesticide contamination of the coastline of Martinique. Marine Pollution Bulletin, 51, 612-619. https://doi.org/10.1016/j.marpolbul.2005.06.026 -Cabidoche, Y.-M. et al. (2009). Long-term pollution by chlordecone of tropical volcanic soils in the French West Indies. Environmental Pollution, 157(10), 3306-3315. https://doi.org/10.1016/j.envpol.2008.12.015 -De S., Sanyal D.K., Mukherjee I, (2025). Fine-tuned encoder models with data augmentation beat ChatGPT in agricultural named entity recognition and relation extraction, Expert Systems with Applications, Volume 277, 127126. https://doi.org/10.1016/j.eswa.2025.127126 -Kaushik N., Chatterjee N. (2018). Automatic relationship extraction from agricultural text for ontology construction, Information Processing in Agriculture, Volume 5, Issue 1, Pages 60-73, https://doi.org/10.1016/j.inpa.2017.11.003 -Lopez, P. (2009). GROBID: Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications. In TPDL (pp. 473-474). https://doi.org/10.1007/978-3- 642-04346-8_62 -Martin, L. et al. (2020). CamemBERT: a Tasty French Language Model. In ACL 2020. https://doi.org/10.18653/v1/2020.acl-main.645 -Ogrinc M, Korousic Seljak B, Eftimov T. Zero-shot evaluation of ChatGPT for food named-entity recognition and linking. (2024). Front Nutr.; 11:1429259. https://doi.org/10.3389/fnut.2024.1429259. -Saffer, A., Tateosian, L., Saville, A., Yang, Y., Ristaino, J (2024). Reconstructing historic and modern potato late blight outbreaks using text analytics. Scientific Reports. 14. https://doi.org/10.1038/s41598-024-52870-2 -Yacoubi Ayadi, N. et al. (2024). A unified approach to publish semantic annotations of agricultural documents as knowledge graphs. Smart Agricultural Technology, 8, 100484. https://doi.org/10.1016/j.atech.2024.100484. -Yao, X. et al. (2024). AgCNER: the First Large-Scale NER Dataset for Agricultural Diseases and Pests. Scientific Data, 11, 769. https://doi.org/10.1038/s41597-024-03578-5