Stage M2 au laboratoire ERTIM (INALCO) Traitements TAL pour le bambara et le maninka Le projet MANTAL vise à implémenter des traitements TAL aux langues mandingues (bambara et maninka) qui disposent déjà d'assez conséquents volumes de données annotées (Vydrine 2013, 2014 et 2016) : 3M de mots pour chaque langue annotés automatiquement en morpho-syntaxe, tonalisation et gloses, dont 500K ont été désambiguisés manuellement pour le bambara. Le bambara s'écrit avec des caractères latins, tandis que le maninka utilise le système d'écriture écrit en N'ko, qui se transcrit assez facilement en caractères latins. Ces travaux sont essentiels pour apporter une existence numérique à ces langues parlées par 20 à 30 millions de locuteurs en Afrique et dans la diaspora africaine. L'objectif du stage est d'améliorer les traitements TAL pour ces langues dans plusieurs directions. 1/ En collaboration avec un partenaire allemand, nous souhaitons étendre les travaux à la construction d'analyseurs syntaxiques pour ces langues selon un format interopérable du web sémantique (NIF). Ce travail pourra être exploité pour des applications de plus haut niveau, comme la traduction. 2/ Les corpus pour ces deux langues sont aujourd'hui hébergés sur une infrastructure technique identique, et tout traitement fonctionnel pour une langue peut potentiellement être porté à l'autre. La constitution de corpus parallèles bamara / français (et éventuellement maninka / français) apportera ressource supplémentaire à forte valeur ajoutée pour le projet. 3/ Le corpus maninka ayant été constitué récemment, un travail est nécessaire afin d'en contrôler la qualité et de l'enrichir. Cette tâche sera réalisé par extraction de textes en maninka depuis internet (crawling) et par une vérification automatique de la cohérence des corpus avec les ressources linguistiques existantes (corpus et dictionnaires), ce qui permettra aussi d'apporter aux linguistes des suggestions de mots à ajouter aux dictionnaires ou de segments à corriger dans les corpus. Profil recherché : + Master 2 en TAL + Bonnes compétences en programmation (Python) + Compréhension des approches en apprentissage automatique + La connaissance du bambara / maninka est bienvenue mais pas obligatoire Contexte + Durée du stage : 4 ou 5 mois à temps plein + Date de début : mars ou avril 2017 + Rémunération : tarif en vigueur (510¤/mois, rbst de 50% navigo) + Lieu : INaLCO, 2 rue de Lille, 75007 Paris Merci d'envoyer votre CV et de faire part de vos motivations à Damien Nouvel ( damien.nouvel@inalco.fr ). Références : (Maslinsky 2014) Kirill Maslinsky. Daba: a model and tools for Manding corpora. TALAf 2014. http://talaf.imag.fr/2014 http://talaf.imag.fr/2014/Actes/MASLINSKY%20-%20Daba%3B%20a%20model%20and%20tools%20for%20Manding%20corpora.pdf (Vydrine 2013) Valentin Vydrin. Bamana Reference Corpus (BRC) Procedia - Social and Behavioral Sciences, 95:25, pp. 75-80. http://www.sciencedirect.com/science/journal/18770428 (Vydrine 2014) Valentin Vydrin. Projet des corpus écrits des langues manding : le bambara, le maninka. TALAf 2014. http://talaf.imag.fr/2014 http://talaf.imag.fr/2014/Actes/MASLINSKY%20-%20Daba%3B%20a%20model%20and%20tools%20for%20Manding%20corpora.pdf (Vydrine 2016) Valentin Vydrin, Andrij Rovenchak, Kirill Maslinsky. Maninka Reference Corpus: A Presentation. TALAf 2016. http://talaf.imag.fr/2016