Offre de stage M2 "Construction et désambiguïsation de terminologies par des méthodes de fouille de données" Cadre général : - projet MSH ASTTIC (Annotation sémantique et terminologique de textes pour leur indexation et leur catégorisation) - projet transdisciplinaire réunissant l'ATILF (Analyse et traitement informatisé de la langue française) et le LORIA (Laboratoire lorrain de recherche en informatique et ses applications) Domaine : Fouille de données appliquée à la détection de termes en texte intégral Sujet : La terminologie d'un domaine est une liste structurée de termes, un terme pouvant être une unité lexicale simple ou complexe, i.e. composée de plusieurs mots. Il est fréquent que, dans un même domaine, nous ayons des terminologies différentes issues de communautés aussi légèrement différentes. La question qui se pose est donc de rapprocher les termes similaires en fonction, par exemple de leurs usages dans les textes [1, 3, 4]. L'idée de ce projet est donc d'utiliser des méthodes de fouille de données, notamment des méthodes de classification issue de l'Analyse Formelle de Concepts [2], pour confronter les différents usages des termes et les regrouper lorsqu'ils partagent des usages similaires. Inversement, des usages différents du même terme devraient pemettre de distinguer des sens différents d'un même terme [5]. Ainsi, il est possible de confronter les usages d'un terme dans un domaine de spécialité ou dans la langue générale. Si on prend l'exemple du terme "composition", il correspond à des concepts différents dans deux sous-domaines des sciences du langage (syntaxe = grammaire et morphologie = construction des mots), dans un autre domaine de spécialité qu'est la musicologie, probablement dans d'autres domaines encore, mais c'est aussi un nom du français courant. Le stage comporte trois objectifs : - Identifier et extraire des ressources textuelles les élements d'information qui permettront de caractériser les termes et leurs usages - Proposer un modèle de données et définir la méthode de fouille de données la plus appropriée à la comparaison des usages - Réaliser un prototype informatique implémentant cette méthode. Encadrement : Evelyne Jacquey (ATILF) et Yannick Toussaint (LORIA) Lieu : ATILF, Nancy Rémunération : indemnités de stage (1/3 du SMIC net) Durée : 5 mois (février - juin ou mars - juillet) Contact : Evelyne.Jacquey[AT]atilf.fr Bibliographie : [1] N. Aussenac-Gilles and D. Bourigault. The th[ic]2 initiative : Corpus-based thesaurus construction for indexing www documents. In Proceedings of the EKAW'2000 workshop Ontologies and texts, pages 71-78, Juan-Les-Pins, Université Paul Sabatier, Toulouse, Octobre 2000. [2] Ganter B. and Wille R. Formal Concept Analysis, Mathematical Foundations. Springer, 1999. [3] D. Bourigault, N. Aussenac-Gilles, and J. Charlet. Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue d'Intelligence Artificielle (RIA), 18(1), 2004. Hermès. [4] E. Jacquey, L. Kister, M. Grzesitchak, B. Gaiffe, C. Reutenauer, M. Valette, and O. Sandrine. Thesaurus et corpus de spécialité en sciences du langage : une approche lexicométrique appliquée à l'analyse de termes en corpus. In Actes de la conférence TALN2010, Université de Montréal, Juillet 2010. [5] G. Stumme and A. Maedche. Fca-merge : Bottom-up merging of ontologies. In 17th International Joint Conferences on Artificial Intelligence (IJCAI'01), pages 225-234, San Francisco, CA, 2001. Morgan Kaufmann Publishers, Inc.