Stage Master 2 (ou équivalent) de Recherche 2016-2017 Viseo R&D, à Grenoble (France) http://www.viseo.com/fr/offre/recherche-et-innovation SUJET Normalisation de messages issus de la communication électronique médiée CONTEXTE Au départ contraint par le nombre de caractères maximum utilisables pour la rédaction d'un SMS et par la difficulté de maniement des claviers, l'écriture SMS apparaît et se développe rapidement sur les supports de communication du Web (réseaux sociaux, fora, blogs, etc.). Par exemple, l'écriture SMS se caractérise par la présence de formes scripturales très riches : squelettes consonantiques ("slt" (salut)), apocopes ("ordi" (ordinateur)), substitutions phonétisées ("2m1" (demain)), binettes/emoji ("^^", ":)", :)) - la liste est longue. Ce non-respect des règles de la langue implique une réelle difficulté lorsqu'il s'agit d'analyser ces textes avec des outils de traitement automatique de la langue qui sont généralement conçus pour traiter du texte correctement écrit, ce qui implique un impact négatif sur la qualité des résultats à l'issue du traitement. Pour pallier à cette difficulté, on peut envisager soit d'adapter les outils d'analyse, soit de normaliser le texte qui sera passé en entrée des outils d'analyse. Nous choisissons cette deuxième approche dans le cadre de ce stage. OBJECTIF DU STAGE L'objectif de ce stage est de développer un outil performant de normalisation automatique de texte pour le français. Par exemple, «a2min lami» devra être normalisé en «à demain l'ami». Pour atteindre ce but, il sera demandé à l'étudiant de : 1) dresser une typologie des erreurs détectées dans les ressources fournies, pour le français (Tweets, Messages de forums, SMS), en s'appuyant sur les typologies déjà existantes. 2) proposer des méthodes automatiques de normalisation en fonction des types d'erreurs définis à la première étape, avec un intérêt particulier porté sur les types d'erreur les plus fréquents. On s'inspirera des méthodes déjà existantes (par exemple, fondées sur les principes de la traduction automatique, de la reconnaissance de la parole, de la correction orthographique, ...). 3) évaluer les méthodes proposées en fonction des différents types de textes (Tweets, Messages de forums, SMS). PROFIL Ce sujet est destiné aux étudiants de Master 2 (ou équivalent) ayant une double compétence en Informatique et en Linguistique. INFORMATIONS COMPLEMENTAIRES Unité d'accueil : Viseo R&D http://www.viseo.com/fr/offre/recherche-et-innovation Lieu : Viseo R&D, 3 avenue Doyen Louis Weil, Grenoble Encadrant principal : Cédric Lopez http://www.viseo.com/fr/recherche/cedric-lopez Durée du stage : 6 mois Stage rémunéré Merci d'envoyer votre candidature à cedric.lopez@viseo.com constituée du CV, de la lettre de motivation, des relevés de notes des 2 dernières années (M1 et M2) A PROPOS DE VISEO Viseo est une entreprise française de services du numérique qui compte 1200 employés en France, Allemagne, Etats Unis, Singapour, Hong Kong et Maroc. Son centre R&D est situé à Grenoble, à deux minutes à pied de la gare. De nombreux projets de recherche collaboratifs y sont menés, avec un intérêt particulier pour l'analyse de données textuelles : projet SMILK (LabCom ANR) http://www.viseo.com/fr/partenaire/le-laboratoire-commun-smilk, TIER (EU) http://www.viseo.com/en/offre/tier-project, SYNODOS (ANR) http://www.synodos.fr, SOMA (EUROSTARS) http://www.viseo.com/fr/recherche/le-projet-soma, ... Pour en savoir plus : http://www.viseo.com/fr/offre/recherche-et-innovation