L'équipe TAL de DGA-MI recrute un stagiaire : CONTEXTE : Le domaine du traitement automatique des langues (TAL/NLP) a connu un grand essor ces dernières années, notamment grâce aux approches de deep learning et à la généralisation de l'open source. Cependant ces traitements ne correspondent souvent qu'à des briques technologiques indépendantes, qui ne suffisent pas pour mettre en place une chaîne de traitement complète, allant du texte brut jusqu'à l'information structurée. SUJET : L'objectif de ce stage est donc de tirer parti des technologies open source pour développer des systèmes pour plusieurs tâches de TAL, puis les intégrer dans une même chaîne de traitement, complétée par une IHM permettant de visualiser directement le résultat des traitements. Les technologies intégrées seront définies en coordination avec le stagiaire, parmi les principales tâches TAL pour l'écrit : prétraitements, identification de langue, traduction automatique, OCR, détection d'entités nommées, fouille d'opinions, classification thématique, résumé automatique, etc. En fonction des cas, ces systèmes pourront provenir de diverses sources : soit des modèles pré-entraînés distribués en ligne, soit des modèles déjà entraînés en interne, soit de nouveaux modèles que le stagiaire entraînera à partir de code open source et de données libres. PROFIL DU CANDIDAT : - Bac +4 ou bac +5 - Compétences requises : apprentissage automatique, programmation Python et bash, expressions régulières Perl ou équivalent, aisance avec l'environnement Linux et les outils en ligne de commande, maîtrise de l'anglais - Compétences souhaitées : traitement automatique des langues, développement d'IHM, deep learning, maîtrise d'une langue étrangère autre que l'anglais CONDITIONS DU STAGE Durée : 4 à 6 mois (pas de contrainte sur la date de début de stage) Gratification standard Point de contact : dga-mi.stage.fct@intradef.gouv.fr