TEXT MINING APPLIQUÉ AUX ACCORDS D'ENTREPRISE Type d'offre : Stage M2/Ingénieur en informatique, 6 mois, avril-septembre 2017, environ 500€ par mois Lieu de travail: INRIA Paris, 2 rue Simone Iff, 75012 Paris Mots-clés : text mining, recherche d'information, entités nommées, accords d'entreprise À propos d'Inria : INRIA, institut de recherche dédié au numérique, promeut « l'excellence scientifique au service du transfert technologique et de la société ». INRIA emploie 2700 collaborateurs issus des meilleures universités mondiales, qui relèvent les défis des sciences informatiques et mathématiques. Son modèle ouvert et agile lui permet d'explorer des voies originales avec ses partenaires industriels et académiques. INRIA répond ainsi efficacement aux enjeux pluridisciplinaires et applicatifs de la transition numérique. INRIA est à l'origine de nombreuses innovations créatrices de valeur et d'emplois. Description du stage : Ce stage a pour cadre une collaboration avec la DARES (Direction de l'animation de la recherche, des études et des statistiques) du ministère du travail, de la formation professionnelle et du dialogue social. La DARES dispose d'un corpus national exhaustif d'accord d'entreprise d'environ 1 million de documents, qui s'enrichit de 80.000 nouveaux documents par an. Cette base documentaire offre donc la possibilité d'analyser et de mieux comprendre les mécanismes et évolutions du dialogue sociale en France sur une base quantitative, et dans un contexte d'évolution législatif important. Exploiter au mieux un tel volume de documents suppose cependant l'utilisation de techniques de fouille et d'analyse automatiques de textes à relativement grande échelle. L'objectif du stage est d'expérimenter des outils de text mining et de recherche d'information développés par notre équipe INRIA Alpage sur un sous-ensemble de ce corpus. Nos outils se basent sur des techniques d'apprentissage automatiques et ne sont pas dépendantes d'un domaine particulier. Cette collaboration est l'opportunité d'évaluer l'application de ces outils génériques sur le domaine spécifique des accords d'entreprise, ceci recouvrant en particulier la reconnaissance d'entités nommées, la disambiguisation et la résolution d'entités par rapport à un référentiel comme Wikipedia, l'extraction automatique de termes et catégories clefs et l'indexation du sous-corpus annoté pour une interface de recherche sémantique. Idéalement ce travail mettra en évidence les capacités et les limites de nos algorithmes, et donc les besoins en customisation et reconnaissances d'entités plus spécifiques. Le stage s'effectuera au sein de l'équipe Alpage dans les locaux de l'Inria Paris. Formation et expérience souhaitées : Dernière années master ou école d'ingénieur en informatique Compétences en programmation, Java étant un plus Intérêt pour l'apprentissage automatique et la recherche d'information Capacité à travailler en équipe Bon niveau de française et d'anglais technique Contacts : Patrice Lopez - patrice.lopez@inria.fr