-------------- Offre de stage M2 : Extraction de connaissances dans un corpus de publications scientifiques et modélisation ontologique des contextes de citation -------------- Stage financé par le Lab-STICC UMR CNRS 6285 -------------- Le Lab-STICC (http://www.lab-sticc.fr/) est une UMR CNRS de grande taille. Ses effectifs atteignent les 600 personnes, reparties dans toute la Bretagne Océane. Les publications des membres du Lab-STICC ont un impact important dans un grand nombre de disciplines scientifiques. Le présent stage vise à modéliser et à qualifier cet impact à travers les citations des publications des membres du Lab-STICC dans la littérature scientifique. Il s'agira donc, dans un corpus de publications tel que ACM Digital Library ou IEEE Explore, ou HAL/arXiv (en consultant également DBLP, Google Scholar, etc.), de détecter les publications d'une personne donnée dans les listes de références bibliographiques, d'accéder au texte intégral des articles citant la personne en question, d'analyser par des techniques du traitement automatique de langue (en anglais ou français) les contextes de citation et de s'en servir pour alimenter une ontologie ad hoc. En particulier, il s'agira d'évaluer l'appréciation (explicite ou implicite) de la citation par l'auteur de l'article. Différentes mesures seront appliquées à une représentation sous forme de graphe conceptuel de l'ontologie en question, et permettront d'obtenir une vision plus riche de l'impact de la recherche des membres du laboratoire, à divers niveaux de granularité : ils sera possible de former des requêtes concernant une ou des personne(s), des termes, des thématiques ou des domaines, et d'obtenir des résultats métrologiques concrets sur les activités de recherche correspondantes. -------------- Description du poste --------------- Les tâches principales concernent : - Développement de l'outil d'extraction des contextes de citation. - Analyse linguistique des contextes de citation : - morphosyntaxe, - entités nommées, - résolution d'anaphores, - alignement avec des ontologies spécifiques au domaine scientifique en question, - alimentation d'une ontologie ad hoc, - détection de sentiment. - Modélisation des résultats sous forme de graphes contextuels avec possibilité de formation de requêtes. - Comparaison de différentes mesures de graphes pour caractériser l'impact scientifique d'une publication, d'une personne ou d'une équipe du Lab-STICC. --------------- Profil souhaité --------------- - Formation en cours : Master 2 en Linguistique Informatique, Ingénierie linguistique, ou similaire. - Bonnes connaissances en Python (notamment NLTK). - Curiosité et capacité d'explorer des nouveaux domaines en linguistique et/ou informatique. ----------------- Conditions ----------------- Stage conventionné 6 mois rémunéré Merci d'envoyer votre candidature à l'adresse yannis.haralambous@telecom-bretagne.eu Documents souhaités : CV, lettre de motivation, relevé de notes. Lieu : Département Informatique, Télécom Bretagne (à partir du 1er janvier 2017 : IMT Atlantique), Brest. Encadrants : Yannis Haralambous (Télécom Bretagne et UMR CNRS 6285 Lab-STICC) Gilles Coppin (Télécom Bretagne et UMR CNRS 6285 Lab-STICC) Emmanuel Boutillon (Université de Bretagne-Sud et UMR CNRS 6285 Lab-STICC) Contrat : stage. Début : 1er février ou 1er mars 2017, selon les disponibilités du candidat. ------------------------------------------------------------------------- Message diffuse par la liste Langage Naturel Informations, abonnement : http://www.atala.org/article.php3?id_article=48 English version : Archives : http://listserv.linguistlist.org/archives/ln.html http://liste.cines.fr/info/ln La liste LN est parrainee par l'ATALA (Association pour le Traitement Automatique des Langues) Information et adhesion : http://www.atala.org/ ATALA décline toute responsabilité concernant le contenu des messages diffusés sur la liste LN -------------------------------------------------------------------------