CADRE DU STAGE Dans le cadre d'une collaboration entre les équipes ERTIM et CERMOM de l'Inalco autour du projet ALIENTO, nous proposons une offre de stage à l'intersection entre la linguistique et l'informatique. SUJET DU STAGE Le projet ANR ALIENTO vise à apparier par calcul des énoncés sapientiels brefs (proverbes, sentences, maximes, aphorismes...) médiévaux multilingues (arabe, hébreu, latin et espagnol) à partir des annotations standardisées trilingues (français, anglais et espagnol) portant sur leur sens (sens propre, sens figuré, leçon ou morale, mots-clés conceptuels) et sur leur forme (lemmatisation, structure type ou pattern, structure linguistique, structure formelle, type de discours, figures de style). Le stage portera sur deux aspects de l'exploitation du corpus, présentés ci-dessous. 1/ Fouille de motifs sapientiels Les corpus collectés et annotés à divers niveaux linguistiques et sémantiques permettent d'envisager l'utilisation de techniques de fouille de texte afin d'isoler des motifs lexicaux-grammaticaux représentatifs des énoncés sapientiels. Il s'agit de conduire plusieurs analyses : - des motifs peuvent-ils être extraits sur le corpus dans sa globalité, en retenant à la fois des critères liés à leur fréquence et à leur spécificité (il pourra être utile de confronter les motifs concernant les énoncés sapientiels à la totalité des textes), - par comparaison entre les langues des énoncés : présentent-ils les mêmes caractéristiques d'une langue à une autre, peut-on les rapprocher ou les contraster ? 2/ Mécanismes pour la translittération arabe La plateforme disponible pour mener le projet ALIENTO permet la saisie et la consultation de documents dans leur forme d'origine. Cependant, les utilisateurs qui y accèdent peuvent avoir besoin de comparer les rythmes (phonétiques) des énoncés sans nécessairement savoir lire l'écriture arabe. Dans ce contexte, la base de données permet la saisie des translittérations des textes vers un alphabet latin (système de romanisation simplifié pour Aliento ou norme Arabica). Ce travail, long et fastidieux lorsqu'il est réalisé manuellement, peut être grandement facilité par l'utilisation d'un logiciel de translittération automatique à la plateforme. Il s'agira donc d'établir une liste d'outils capables de réaliser une translittération automatique, de les évaluer, et de déterminer dans quelle mesure ils peuvent être intégrés à l'architecture logicielle du projet. Il sera vraisemblablement nécessaire de réaliser des développements spécifiques et des adaptations selon les attentes et les types de textes (médiévaux) fournis en entrée. COMPÉTENCES REQUISES - Connaissance des outils TAL - Connaissance de l'arabe - Maîtrise des environnements : Linux et Windows - Familiarité avec des langages de programmation : Perl / Python / Java MODALITÉS Démarrage du stage : avril 2016 Employeur : Institut National des Langues et Civilisations Orientales (INALCO) Contrat : Stage M1 ou M2 de 4 mois Lieu de Travail : Maison de la recherche de l'INALCO, 2 rue de Lille, 75007 Paris Rémunération : 554¤ + prise en charge partielle des transport IdF CONTACT Merci d'envoyer votre CV et vos motivations à damien.nouvel@inalco.fr et varol@noos.fr