Stage Master 2 de Recherche Viseo R&D, à Grenoble (France) http://www.viseo.com/fr/offre/recherche-et-innovation SUJET : Normalisation de messages issus de la communication électronique médiée CONTEXTE Au départ contraint par le nombre de caractères maximum utilisables pour la rédaction d'un SMS et par la difficulté de maniement des claviers, l'écriture SMS apparaît et se développe rapidement sur les supports de communication du Web (réseaux sociaux, fora, blogs, etc.). Par exemple, l'écriture SMS se caractérise par la présence de formes scripturales très riches : squelettes consonantiques ("slt" (salut)), apocopes ("ordi" (ordinateur)), substitutions phonétisées ("2m1" (demain)), binettes/emoji ("^^", ":)", :)) - la liste est longue. Ce non-respect des règles de la langue implique une réelle difficulté lorsqu'il s'agit d'analyser ces textes avec des outils de traitement automatique de la langue qui sont généralement conçus pour traiter du texte correctement écrit, ce qui implique un impact négatif sur la qualité des résultats à l'issue du traitement. Pour pallier à cette difficulté, on peut envisager soit d'adapter les outils d'analyse, soit de normaliser le texte qui sera passé en entrée des outils d'analyse. Nous choisissons cette deuxième approche dans le cadre de ce stage. OBJECTIF DU STAGE L'objectif de ce stage est de développer un outil performant de normalisation automatique de texte pour le français. Par exemple, «a2min lami» devra être normalisé en «à demain l'ami». Pour atteindre ce but, il sera demandé à l'étudiant de : 1) dresser une typologie des erreurs détectées dans les ressources fournies, pour le français (Tweets, Messages de forums, SMS), en s'appuyant sur les typologies déjà existantes. 2) proposer des méthodes automatiques de normalisation en fonction des types d'erreurs définis à la première étape, avec un intérêt particulier porté sur les types d'erreur les plus fréquents. On s'inspirera des méthodes déjà existantes (par exemple, fondées sur les principes de la traduction automatique, de la reconnaissance de la parole, la correction orthographique, ...). 3) évaluer les méthodes proposées en fonction des différents types de textes (Tweets, Messages de forums, SMS). PREREQUIS Ce sujet est destiné aux étudiants de Master 2 Informatique ou de dernière année d'une école d'ingénieur en informatique, avec une spécialité ingénierie linguistique ou terminologique. Profil recherché : - Traitement automatique des langues - Compétences en programmation (Java souhaité) - Expérience minimum de l'utilisation de ressources linguistiques appréciée - Bonne maîtrise du français et anglais INFORMATIONS COMPLEMENTAIRES Unité d'accueil : Viseo R&D http://www.viseo.com/fr/offre/recherche-et-innovation Lieu : Viseo R&D, 3 avenue Doyen Louis Weil, Grenoble Encadrant principal : Cédric Lopez http://www.viseo.com/fr/recherche/cedric-lopez Durée du stage : 6 mois Stage rémunéré Merci d'envoyer votre candidature à cedric.lopez@viseo.com constituée du CV, de la lettre de motivation, des relevés de notes des 2 dernières années (M1 et M2) A PROPOS DE VISEO Viseo est une entreprise française de services du numérique qui compte 1200 employés en France, Allemagne, Etats Unis, Singapour, Hong Kong et Maroc. Son centre R&D est situé à Grenoble, à deux minutes à pieds de la gare. De nombreux projets de recherche collaboratifs y sont menés, avec un intérêt particulier pour l'analyse de données textuelles : projet SMILK (LabCom ANR) http://www.viseo.com/fr/partenaire/le-laboratoire-commun-smilk, TIER (EU) http://www.viseo.com/en/offre/tier-project, SYNODOS (ANR) http://www.synodos.fr , SOMA (EUROSTARS) http://www.viseo.com/fr/recherche/le-projet-soma, ... Pour en savoir plus : www.viseo.com, http://www.viseo.com/fr/offre/recherche-et-innovation Cédric LOPEZ Le Pulsar 4 av du Doyen Louis Weil 38000 GRENOBLE Tél. +33 (0)9 72 31 82 46 Mob. +33 (0)6 72 64 25 77 cedric.lopez@viseo.com Research Scientist Research & Development http://www.viseo.com/en/recherche/cedric-lopez SMILK (LabCom ANR) : Joint Laboratory between INRIA-Wimmics and Viseo : http://www.viseo.com/fr/partenaire/le-laboratoire-commun-smilk Viseo is partner of the TIER Project (EU) http://www.viseo.com/en/offre/tier-project Viseo is partner of the SYNODOS Project (ANR) : http://www.synodos.fr