TEXT MINING APPLIQUÉ AUX ACCORDS D'ENTREPRISE

Type d'offre : Stage M2/Ingénieur en informatique, 6 mois,
avril-septembre 2017, environ 500€ par mois

Lieu de travail: INRIA Paris, 2 rue Simone Iff, 75012 Paris

Mots-clés : text mining, recherche d'information, entités nommées,
accords d'entreprise

À propos d'Inria : INRIA, institut de recherche dédié au numérique,
promeut « l'excellence scientifique au service du transfert
technologique et de la société ». INRIA emploie 2700 collaborateurs
issus des meilleures universités mondiales, qui relèvent les défis des
sciences informatiques et mathématiques. Son modèle ouvert et agile
lui permet d'explorer des voies originales avec ses partenaires
industriels et académiques. INRIA répond ainsi efficacement aux enjeux
pluridisciplinaires et applicatifs de la transition numérique. INRIA
est à l'origine de nombreuses innovations créatrices de valeur et
d'emplois.

Description du stage :

Ce stage a pour cadre une collaboration avec la DARES (Direction de
l'animation de la recherche, des études et des statistiques) du
ministère du travail, de la formation professionnelle et du dialogue
social. La DARES dispose d'un corpus national exhaustif d'accord
d'entreprise d'environ 1 million de documents, qui s'enrichit de
80.000 nouveaux documents par an. Cette base documentaire offre donc
la possibilité d'analyser et de mieux comprendre les mécanismes et
évolutions du dialogue sociale en France sur une base quantitative, et
dans un contexte d'évolution législatif important. Exploiter au mieux
un tel volume de documents suppose cependant l'utilisation de
techniques de fouille et d'analyse automatiques de textes à
relativement grande échelle.

L'objectif du stage est d'expérimenter des outils de text mining et de
recherche d'information développés par notre équipe INRIA Alpage sur
un sous-ensemble de ce corpus. Nos outils se basent sur des techniques
d'apprentissage automatiques et ne sont pas dépendantes d'un domaine
particulier. Cette collaboration est l'opportunité d'évaluer
l'application de ces outils génériques sur le domaine spécifique des
accords d'entreprise, ceci recouvrant en particulier la reconnaissance
d'entités nommées, la disambiguisation et la résolution d'entités par
rapport à un référentiel comme Wikipedia, l'extraction automatique de
termes et catégories clefs et l'indexation du sous-corpus annoté pour
une interface de recherche sémantique. Idéalement ce travail mettra en
évidence les capacités et les limites de nos algorithmes, et donc les
besoins en customisation et reconnaissances d'entités plus
spécifiques.

Le stage s'effectuera au sein de l'équipe Alpage dans les locaux de
l'Inria Paris.

Formation et expérience souhaitées :

    Dernière années master ou école d'ingénieur en informatique
    Compétences en programmation, Java étant un plus
    Intérêt pour l'apprentissage automatique et la recherche d'information
    Capacité à travailler en équipe
    Bon niveau de française et d'anglais technique 

Contacts : Patrice Lopez - patrice.lopez@inria.fr