Stage M2 TAL à l'Inalco Désambiguisation lexicale pour les langues mandingues Le stage proposé vise à développer des outils de désambiguisation lexicale (tonalités et gloses) en exploitant des corpus et des méthodes d'apprentissage statistique. Il portera sur deux langues africaines, le bambara et le maninka, des langues mandingues parlées en Afrique de l'Ouest et dans la diaspora africaine. Il s'agit de déterminer, pour chaque token du corpus, l'entrée lexicale concernée, en s'appuyant sur des mécanismes liés à la tonalisation (partiellement codées ou annotées et au glosage (annoté). Deux corpus sont collectés depuis plusieurs années et continuellement alimentés : le Corpus Bambara de Référence (CBR, http://cormand.huma-num.fr) et le Corpus Maninka de Référence (Vydrine 2013, Maslinsky 2014). Le premier est codé avec un alphabet latin, le second avec le système d'écriture N'ko. Une sous partie du CBR (425K mots) a été annoté manuellement, ce qui permettra de faire appel à techniques d'apprentissage supervisé. Ces deux corpus ayant des textes en commun (la Bible, le Coran), la construction d'un corpus parallèle est également envisagée. L'objectif du stage est de déterminer la faisabilité d'un système pour réaliser automatiquement la tonalisation et le glosage (de manière séquentielle ou jointe) sur ces corpus, en exploitant plusieurs critères linguistiques : morphologie des tokens, contextes et informations distributionnelles, dictionnaires existants, etc. Il serait intéressant de mettre en évidence et d'exploiter les proximités entre ces deux langues pour ces tâches. Suite aux évaluations, l'approche donnant les meilleurs résultats sera développée sous la forme d'un module à intégrer à la plateforme TAL en cours de développement pour ces langues (Maslinsky 2014). Profil recherché : + Master 2 en informatique et/ou en linguistique + Intérêt pour le traitement automatique des langues + Compétences en programmation (Python) + Connaissance des approches utilisées en apprentissage automatique + La connaissance des langues mandingues sera un plus Pour candidater, merci d'envoyer votre CV, vos relevés de notes, vos motivations et tout autre élément utile à Damien Nouvel (damien.nouvel@inalco.fr). Durée du stage : 5 mois à temps plein Date de début : février ou mars 2016 Gratification : 554€/mois (et rbst de 50% des transports) Lieu : Inalco, 2 rue de Lille, 75007 Paris Contact: Damien Nouvel (damien.nouvel@inalco.fr) Références : (Nouvel et. al. 2015) Traitement automatique du bambara - Objectifs et premiers résultats. Séminaire LIMSI-CNRS ILES, 2015. (Maslinsky 2014) Maslinsky, Kirill. Daba: a model and tools for Manding corpora. Atelier TALAF, Traitement Automatique des Langues Naturelles, 2014. (Vydrine 2013) Vydrin, Valentin. Bamana Reference Corpus (BRC) Procedia - Social and Behavioral Sciences, 95:25 October 2013, pp. 75-80. http://www.sciencedirect.com/science/journal/18770428 (Vydrine 2014) Vydrin, Valentin. Projet des corpus écrits des langues manding : le bambara, le maninka. Atelier TALAF, Traitement Automatique des Langues Naturelles, 2014.