PROPOSITION DE STAGE OU CDD, printemps-été 2009 Discipline : informatique, traitement informatique des langues Niveau : Master Durée : 2 à 6 mois Démarrage : dès que possible Lieu : LIMSI-CNRS, Orsay Rémunération : selon niveau Contacts : envoyer un CV et une lettre de motivation à : Sophie Rosset Xavier Tannier Pierre Zweigenbaum Sujet : Repérage de citations dans des brevets internationaux Le texte d'un brevet, tout comme un article scientifique, cite des documents externes de différentes natures : autres brevets, publications scientifiques, bases de données, etc. Ces documents sont habituellement listés en fin de brevet, comme la liste de références bibliographiques d'un ouvrage. Dans le corps du brevet, le mode de citation de ces documents est variable, et utilise tout ou partie de la désignation du document présente en fin de brevet. Il s'agit de repérer automatiquement ces citations dans le corps du brevet, de déterminer leur type, de repérer également la liste des documents présente en fin de brevet, et de lier chaque citation au document approprié. Chacun de ces éléments sera alors marqué par des balises XML prises dans un répertoire fourni. Le travail sera réalisé sur des brevets en trois langues : anglais, français, allemand. Une collection importante d'exemples de brevets déjà annotés est disponible et pourra servir pour la mise au point, l'entraînement et l'évaluation des programmes. Méthodes -------- Plusieurs méthodes sont envisageables : le repérage de patrons de citations à l'aide d'expressions régulières est la plus directe. Pour mettre au point ces patrons, l'étude du corpus existant pourra être en tout ou partie automatisée. Des approches utilisant des méthodes et outils d'apprentissage automatique, comme par exemple les CRF, pourront compléter ou se substituer à la mise au point de patrons. Ce travail se fera dans le cadre du projet Quaero. Compétences ----------- Requises : écriture de scripts. Appréciées : manipulation d'expressions régulières ; expérience du travail sur corpus de textes ; expérience de l'usage de logiciels d'apprentissage automatique ; connaissance de l'allemand. Pierre Zweigenbaum ---- LIMSI - CNRS Groupe LIR / Dépt. Communication Homme-Machine Tél : (+33) (0)1 69 85 80 04 ; Fax : (+33) (0)1 69 85 80 88 Mél : pz@limsi.fr ; Toile : http://www.limsi.fr/~pz/ Lieu : Bâtiment 508, Université Paris XI, Courrier : LIMSI, BP 133, 91403 ORSAY Cedex, France ----