Offre de stage Master Recherche en Science des données et TALN Sujet : Machine Learning et Word Embeddings pour la classification et l'analyse d'articles encyclopédiques ######### Contexte : Dans le cadre du projet GEODE financé par le LabEx ASLAN nous recherchons un stagiaire en informatique pour travailler sur le développement et l'expérimentation de méthodes de classification et d'analyse d'articles encyclopédiques. Il s'agit de mettre en oeuvre des techniques d'intelligence artificielle adaptées au traitement automatique de la langue. Ce stage s'inscrit dans le cadre d'une collaboration académique interdisciplinaire (informatique, linguistique, géographie et histoire) ayant comme objet principale une étude diachronique des discours géographiques au sein des encyclopédies. Ce projet exploratoire nécessite une activité à l'interface de plusieurs disciplines (intelligence artificielle, informatique, et linguistique) pour élaborer des méthodes innovantes, rapides et fiables de classification de textes et des modes adéquats de représentation et de visualisation de l'information. ######### Objectifs du stage : Ce stage a pour objectif principal de développer des modèles de classification des articles de différentes encyclopédies (l'Encyclopédie de Diderot et d'Alembert (1751-1772), La Grande Encyclopédie, l'Encyclopaedia Universalis et Wikipedia). Une première tâche s'intéressera en particulier à la sous-classification des articles de géographie (articles décrivant des lieux : ville, rivière, pays, etc.). Une deuxième tâche sera consacrée à l'expérimentation et la génération de modèles de langue permettant une représentation informatique des articles pour réaliser une analyse et une comparaison des différents corpus. L'utilisation de méthodes d'apprentissage supervisé ou d'apprentissage profond sera privilégiée et nécessitera de réaliser un travail important pour la préparation des données afin de constituer les jeux d'entrainement et de validation. ######### Bibliographie : - Horton, R., Morrissey, R., Olsen, M., Roe, G., & Voyer, R. (2009) Mining Eighteenth Century Ontologies: Machine Learning and Knowledge Classification in the Encyclopédie, Digital Humanities Quarterly, Volume 3 Number 2. - Roe, G., Gladstone, C. & Morrissey, R. (2016), Discourses and Disciplines in the Enlightenment: Topic Modeling the French Encyclopédie. Frontiers in Digital Humanities 2. - Vigier, D., Moncla, L., Brenon, A., Mcdonough, K., & Joliveau, T. (2020) Classification des entités nommées dans l'Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772). 7e Congrès Mondial de Linguistique Française (CMLF), Montpellier, France. ######### Profil recherché et candidature : Master 2 Informatique Des compétences sont attendues en programmation, en science des données (Data Mining et Machine Learning) et en traitement automatique de la langue (TAL). Lieu du stage : Laboratoire LIRIS-INSA Lyon, Bâtiment Blaise Pascal, Campus La Doua, Villeurbanne. Période de stage : 5 à 6 mois entre février et juillet 2021 Encadrants : Ludovic Moncla, LIRIS UMR 5205 CNRS - INSA Lyon Denis Vigier, ICAR UMR 5191 CNRS - Université Lumière Lyon 2 Pour candidater, envoyer votre CV et vos derniers relevés de notes par mail à ludovic.moncla@insa-lyon.fr et denis.vigier@ens-lyon.fr avant le 30 novembre.