COMMISSARIAT A L'ENERGIE ATOMIQUE ET AUX ENERGIES ALTERNATIVES Laboratoire Vision et Ingénierie des Contenus SUJET Contexte Depuis 2002, le LVIC développe l'analyseur linguistique multilingue LIMA [1]. Il s'agit à ce jour d'un outil très modulaire capable de faire l'analyse (tokenisation, analyse morphologique, syntaxique et sémantique) de textes dans des langues aussi diverses que le Français, l'Anglais, l'Arabe, le Chinois, l'Espagnol, l'Allemand ou encore l'Italien. LIMA représente à ce jour plus de 100.000 lignes de code (sans compter les ressources linguistiques). LIMA est déjà utilisé dans plusieurs produits industriels, mais le CEA LIST a décidé de le diffuser sous une licence libre pour faciliter son utilisation, sa diffusion et obtenir des retours plus rapides d'une communauté d'utilisateurs plus large. LIMA est codé en C++ standard. Il utilise largement les biliothèques boost et Qt. Il est multi-plateformes (GNU/Linux et MS Windows à ce jour). Son architecture le rend très facilement extensible et intégrable dans des applications. Objectifs Cette libération, qui se fait dans le cadre du projet ANR ASFALDA [2], nécessite d'améliorer encore le logiciel avant de le diffuser, et ce sur plusieurs aspects: - documentation des API ; - documentation utilisateur ; - tests unitaires ; - tests fonctionnels. LIMA dépend de ressources linguistiques pour fonctionner (dictionnaires, règles d'analyse,...). Même si le laboratoire est propriétaire de certaines d'entre elles, d'autres sont issues de ressources commerciales et ne peuvent être diffusées librement. Il faudra donc produire des ressources de remplacement à partir de ressources linguistiques libres disponibles. Le travail du stagiaire consistera à intervenir sur ces différents sujets (codage, documentation et ressources) en vue de la mise à disposition de LIMA sur une forge logicielle à la fin du stage. Le ou la candidat(e) retenu(e) aura un bon niveau en C++, une compréhension des problématiques liées à la diffusion des logiciels (tests, documentation...) et idéalement aura participé à un projet de logiciel libre. Le stage se déroulera dans les locaux du LVIC situés à Nano-INNOV à Palaiseau (près de Polytechnique, Sup'Optique, Thales et Danone). [1] http://citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=A5D66B8127851343E2F9DB107DF26034?doi=10.1.1.231.3742 [2] https://sites.google.com/site/anrasfalda/ Durée du stage : 4 à 6 mois Formation souhaitée : Master 1 ou 2, Ingénieur 2° ou 3° année. Contact: Gaël de Chalendar Mail : Gael.de-Chalendar@cea.fr Tél. : 01 69 08 01 50