Offre de stage R&D chez Crigen-ENGIE Active Learning Vision par ordinateur, Traitement Automatique du Langage Contexte ENGIE est l'un des leaders mondiaux dans les domaines de l'énergie et de l'environnement. ENGIE est fortement engagé dans la transition énergétique et dans le développement des énergies renouvelables. L'équipe de recherche et de développent du lab CSAI (Computer Science and Artificial Intelligence) réalise des solutions pour de nombreuses entités d'ENGIE, notamment autour des problématiques de la vision par ordinateur et du traitement automatique du langage naturel. Pour mener à bien ces travaux, des bases de données annotées sont nécessaires. C'est dans ce cadre là que s'inscrit ce stage sur l'apprentissage actif. Afin d'optimiser le processus de labélisation de données et éviter d'annoter d'énormes bases contenant des informations redondantes, les méthodes d'apprentissage actif permettent de sélectionner les meilleurs exemples à labéliser par l'utilisateur. Cela permet ainsi d'annoter moins d'exemples mais de manière plus pertinente. L'objectif du stage consiste donc à développer un algorithme d'apprentissage actif permettant d'accélérer le processus d'acquisition de données labélisées de qualité. Cet outil servira notamment pour les projets de vision par ordinateur et de traitement automatique du langage naturel [1][2][3][4]. Missions - Conduire une étude bibliographique sur les méthodes d'apprentissage actif. Cette étude devra notamment comporter les méthodes standard de l'apprentissage actif ainsi que leur application dans les domaines du traitement naturel du langage et de la vision par ordinateur. - Ré-implémenter certaines méthodes existantes et les évaluer. - Analyser et comparer ces méthodes afin de synthétiser les avantages et défauts de chacunes d'entre elles. - Proposer des pistes de travaux et d'amélioration par rapport à l'état de l'art. - Implémenter les améliorations identifiées dans les environnements et architectures du lab CSAI. - Valider les contributions par des expérimentations appropriées. - Dans la mesure du possible, rédiger et soumettre une publication scientifique. - Documenter le code. Profil recherché Niveau: M2, école d'ingénieur. Spécialisation: Machine Learning ou Maths. Compétences nécessaires: - Connaissances en machine learning - Connaissances en mathématiques (algèbre, optimisation, statistiques, ...) - Expérience en programmation dans au moins un langage informatique - Bon niveau d'anglais - Motivé - Autonome Compétences appréciables: - Connaissance en vision par ordinateur et en traitement naturel du langage - Expérience en python et/ou en C++ - Connaissance en deep learning et des outils associés (tensorflow, keras, pytorch,caffe...) Divers Durée du stage: 6 mois - date de commencement flexible. Convention de stage obligatoire. Le dossier de candidature doit être envoyé le plut tôt possible à Philippe Calvez (philippe.calvez1@engie.com), Ahmed Mabrouk (ahmed.mabrouk@engie.com) et Chan-Lang Solène (solene.chan-lang@external.engie.com). Il doit contenir les documents suivants: - un CV détaillé (ensemble des expériences et technologies maîtrisées) - une lettre de motivation - des lettres de recommandations (optionnel) References [1] Burr Settles. Active learning literature survey. Computer Sciences Technical Report 1648, University of Wisconsin- Madison, 2009. [2] Cynthia A. Thompson, Mary Elaine Califf, and Raymond J. Mooney. Active learning for natural language parsing and information extraction. In Proceedings of the Sixteenth International Conference on Machine Learning (ICML- 99), pages 406-414, Bled, Slovenia, June 1999. [3] Kuoliang Wu, Deng Cai, and Xiaofei He. Multi-label active learning based on submodular functions. Neurocom- puting, 313:436-442, 2018. [4] Ozan Sener and Silvio Savarese. Active learning for convolutional neural networks: A core-set approach. In International Conference on Learning Representations, 2018.