Proposition de stage (niveau M1) Sujet : De nombreuses langues écrites disposent de ressources lexicales sous forme de dictionnaires éditoriaux. Ces dictionnaires existent aussi sous une forme électronique puisqu’ils ont été édités sur des outils de traitements de texte. Mais ces fichiers ne peuvent être utilisés directement par des programmes de Traitement Automatique des Langues Naturelles car ils ne respectent aucun format spécifique. Il est possible d’écrire un programme qui soit capable de localiser les informations à récupérer dans les dictionnaires et qui les représente dans une structure normalisée, mais cette démarche présente l’inconvénient de nécessiter l’écriture d’un programme, ou la spécification de règles complexes, pour chaque dictionnaire. Le but de ce stage est de s’affranchir de cette difficulté en construisant un programme qui, après apprentissage, est capable de convertir un dictionnaire éditorial en un fichier XML. La phase d’apprentissage exploite une partie de dictionnaire disponible sous sa forme éditoriale (les données de départ) et sous la forme structurée au format XML. Le convertisseur utilise les connaissances précédemment apprises pour convertir le reste du dictionnaire. Il doit être capable de signaler les parties du dictionnaire qu’il n’a pas été capable de convertir et qui seront traitées ultérieurement par un linguiste. Salaire mensuel : 530 euros bruts / 396 euros net Durée : 3 mois, courant 2009 Lieu : Laboratoire d’informatique Nantes Atlantique (UMR CNRS 6241) Encadrement : Chantal Enguehard, maître de conférences en informatique, équipe Langage Naturel Postuler : Envoyer un CV, relevé de notes et une lettre de motivation à Chantal Enguehard, chantal.enguehard@univ-nantes.fr. Chantal Enguehard LINA - UMR CNRS 6241 2, rue de la Houssinière BP 92208 44322 Nantes Cedex 03 France http://www.sciences.univ-nantes.fr/info/perso/permanents/enguehard/