Stage Master 2 Pro ou école ingénieur Mise en place d'un système d'acquisition semi-automatique d'un corpus de données hétérogènes (Images et Textes) - Application à la problématique de la sécurité alimentaire en Afrique de l'Ouest Le stage s'inscrit dans le cadre d'un projet interdisciplinaire concernant la gestion des risques liés à la sécurité alimentaire. Le projet est centré sur le cas de l'Afrique de l'Ouest, où les risques agricoles sont d'autant plus aigus que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens techniques et financiers. Actuellement les images de télédétection satellitaire sont utilisées en routine pour produire des cartes d'anomalies de croissance de la végétation en temps quasi-réel, aux échelles nationale et régionale. Cependant détecter une anomalie de croissance ne suffit pas à établir un diagnostic sur la production agricole d'une région, car de nombreux facteurs rentrent en ligne de compte. D'un autre côté, les journaux locaux et les nouveaux médias font état de certains événements (sécheresse, inondation, état sanitaire, etc.) qui ont un impact direct sur la production agricole. Ces événements ne sont pas tous répertoriés, ils ne décrivent pas de façon exhaustive la situation régionale ou nationale, mais ils apportent une information thématique complémentaire de celle des images satellite. Ainsi, nous proposons un stage de recherche ayant comme objectif d'établir un lien entre textes et images afin de faire un diagnostic sur la production agricole en cours de saison en vue d'améliorer les systèmes d'alerte précoce. Pour atteindre cet objectif, deux activités seront menées : (i) utiliser des techniques à la pointe de fouille de textes sur le thème du climat et de la production agricole et avec un ancrage géographique en Afrique de l'Ouest ; (ii) lier les informations géo-localisées ainsi extraites aux observations faites par satellite pour poser un diagnostic en temps quasi-réel. La zone géographique d'étude concerne l'Afrique de l'ouest. Les données textuelles à acquérir correspondent à des journaux, des bulletins officiels de veille sur le déroulé de la campagne agricoles émis par les systèmes d'alertes précoces internationaux, régionaux ou nationaux et des données provenant de plateformes de médias sociaux (p. ex., Blogs, Twitter, Flickr, Instagram). Ces données seront récoltées en adaptant (si nécessaire) un système de web scraping mis à disposition. Les données image sont essentiellement des cartes d'indicateurs NDVI (Normalized Difference Vegetation Index) décadaires produites à partir d'images acquises à basse et moyenne résolutions spatiales (entre 250 m et 1 km). Les objectifs de ce stage comprennent la production d'un corpus mis à disposition et d'un rapport détaillant le contenu et les liens sémantiques entre les différentes données. Le livrable consistera dans la rédaction d'un data paper permettant la valorisation du corpus constitué. Le planning prévisionnel est structuré comme suit : 1. étude du cahier des charges du corpus à constituer et choix de la zone d'étude, 2. adaptation et mise en oeuvre du processus de récolte des données (via le système existant mis à disposition) 3. constitution du corpus (textes, images) sur la zone d'étude, 4. Mise en relation et évaluation du corpus avec les experts, 5. Rédaction du Data paper. Compétences requises : Langages Python et Java, outils NLP (souhaité) Capacité de travail en équipe pluridisciplinaire. Divers : Durée : 5 à 6 mois Gratification : taux légal en vigueur Localisations : TETIS (Maison de la Télédétection) à Montpellier Candidature : Envoyer un CV + relevés de notes des deux dernières années à roberto.interdonato@cirad.fr et agnes.begue@cirad.fr