Sujet : Indexation et recherche d'information sémantiques Contexte L'utilisation d'ontologies dans le cadre d'une recherche d'information a pour but de dépasser les limites d'une recherche classique par mots clés. Le Web sémantique propose une infrastructure qui permet de mettre en place une recherche sémantique. La vision implicite du Web Sémantique repose sur les hypothèses suivantes : - Il existe des ontologies formelles pour décrire objectivement les connaissances d'un domaine. - Il est possible de décrire le contenu de documents en utilisant les concepts de ces ontologies. - Il est possible pour l?utilisateur de rechercher l'information en utilisant ces mêmes concepts. Actuellement, même s'il existe de plus en plus d'ontologies, il est difficile de trouver une ontologie qui couvre la totalité des connaissances d'une base documentaire et qui permettrait de ce fait d'accéder à toute l'information contenue dans cette base. L'idée est donc de proposer des méthodes d'indexation et de recherche d'information qui exploitent la sémantique représentée dans une ontologie (par opposition à la sémantique latente, LSI[1]) mais également le texte lui-même pour ne pas être restreint par la couverture de l'ontologie [4]. Objectifs * Établir un état de l'art sur les méthodes de recherche d'information sémantique. * Proposer des méthodes d'indexation qui permettent de combiner des modèles classiques de Recherche d'Information (e.g. modèle vectoriel [2]) avec l'exploitation d'une ontologie par le biais de mesures de proximité sémantique (e.g mesure de Wu&Palmer [3]). * Implémenter des propositions sur la base du moteur de recherche Lucene[5]. * Participer à la création d'un benchmark pour une évaluation comparative par rapport à une recherche d'information classique. Profil recherché * Intérêt pour l'IC et la Recherche d'Information * Autonome en informatique : connaissance d'UNIX, de Java (ou autre langage OO) Conditions Bac + 5 (Master pro ou recherche ou dernière année ingénieur) orienté informatique Stage de 4 à 6 mois, rémunéré. Lieu du stage : LIPN (http://www-lipn.univ-paris13.fr/), Université Paris 13. Responsables Sylvie Salotti & Haïfa Zargayouna Pour envoyer votre candidature, envoyer un CV et une lettre ou un mail de motivation à : sylvie.salotti at lipn.univ-paris13.fr, haifa.zargayouna at lipn.univ-paris13.fr Liens et références [1] S. Deerwester, Susan Dumais, G. W. Furnas, T. K. Landauer, R. Harshman (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science 41 (6): 391?407. [2] G. Salton , A. Wong , CS Yang (1975) A vector space model for automatic indexing , Communications of the ACM, v.18 n.11, p.613-620, Nov. 1975 [3] Z. Wu & M. Palmer (1994) Verb Semantics and Lexical Selection, Proceedings of the 32nd Annual Meetings of the Associations for Computational Linguistics, pages 133-138. [4] H. Zargayouna (2005) "Indexation sémantique de documents XML" Thèse, Université Paris-Sud. [5] http://lucene.apache.org/