Stage Master 2 Pro ou école ingénieur Acquisition et analyse de transcriptions de vidéos Youtube - la problématique de la sécurité alimentaire en Afrique de l'Ouest Le stage, financé par l'Institut Convergences Agriculture Numérique #DigitAg (https://www.hdigitag.fr), s'inscrit dans le cadre d'un projet interdisciplinaire concernant la gestion des risques liés à la sécurité alimentaire. Le projet est centré sur le cas de l'Afrique de l'Ouest, où les risques agricoles sont d'autant plus aigus que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens techniques et financiers. Les objectifs globaux du projet sont doubles : (i) montrer comment les données de télédétection peuvent être enrichies par d'autres sources de données afin de les rendre plus adaptées à l'analyse de conditions de sécurité alimentaire et (ii) définir des techniques originales de fouille de données. L'analyse et l'interprétation de données agroclimatiques (par exemple, imagerie satellitaire, données climatiques) pourrait être facilitée par l'utilisation conjointes de données indépendantes provenant de sources textuelles, ce qui permettrait de localiser correctement les risques agricoles à l'échelle régionale, en temps quasi-réel. Néanmoins, l'obtention de données textuelles de qualité et leur analyse sont des tâches complexes. Le stage est axé sur l'acquisition et l'analyse de données textuelles sur le thème de la sécurité alimentaire provenant de la transcription textuelle du contenu audio de vidéos Youtube. La zone géographique d'étude est le Burkina Faso. L'idée est de traiter une source d'information représentant une alternative inexplorée à celles qui sont exploitées classiquement dans les processus de construction des corpus textuels et dans des tâches de fouille de texte (par exemple, journaux, articles scientifiques, plateformes de médias sociaux classiques). Le chaîne Youtube gérée par la RTB - Radiodiffusion Télévision du Burkina, qui contient près de 12000 vidéos, a été ciblée pour cette analyse. En choisissant un canal officiel, nous visons un compromis idéal entre les aspects dynamiques du contenu des médias sociaux et la qualité de l'information des sources officielles. L'hypothèse est que les vidéos diffusées par une chaîne d'information officielle sont plus susceptibles de contenir de l'information utile (c.-à-d. reportages, documentaires, entrevues, tournages d'événements officiels, etc.). De plus, le langage standard et clair utilisé dans ce type de vidéos garantit une bonne qualité des transcriptions textuelles. Les processus d'acquisition et analyse des données seront basés sur l'utilisation d'API Web et de bibliothèques python. Les objectifs de ce stage comprennent la production d'un corpus public et d'une série de tâches d'analyse basées sur l'utilisation de techniques de fouille de texte les plus avancées (e.g., LDA, word2vec). Le livrable consistera en un document de recherche présentant les résultats du processus d'analyse, et notamment les connaissances sur la sécurité alimentaire qui peuvent être découvertes dans une telle source d'information. Le planning prévisionnel est structuré comme suit : 1. étude du cahier des charges du corpus à constituer, 2. définition et mise en oeuvre du processus de récolte des données 3. constitution du corpus sur la zone d'étude, 4. analyse du corpus, 5. rédaction des livrables. Compétences requises : Langage Python, outils NLP (souhaité) Capacité de travail en équipe pluridisciplinaire. Divers : Durée : 5 à 6 mois Gratification : taux légal en vigueur Localisations : TETIS (Maison de la Télédétection) à Montpellier Candidature : Envoyer un CV + relevés de notes des deux dernières années à roberto.interdonato@cirad.fr et mathieu.roche@cirad.fr