* Titre : Outillage de l'accès aux textes par lecture active étymologique multilingue * Responsables à contacter Envoyez votre CV par Mel à : Valérie Bellynck (Valerie.Bellynck@imag.fr) Mathieu Mangeot (Mathieu.Mangeot@imag.fr) * Mots clés - Keywords * Ressources linguistiques, Ressources lexicales, TAL, service Web, intercompréhension en langues romanes, intercompréhension en langues sinogrammiques * Profil - Compétences * Étudiant en M2R informatique intéressé par les langues ou plus généralement les humanités numériques ou linguiste ayant de bonnes connaissances en programmation Web. HTML/XML, javascript, PHP, services Web, analyse lexicale, bases lexicales, API REST. * Précisions sur l'offre * - Durée du stage : 5 à 6 mois à temps plein - Date de début : 2018 - Rémunération : tarif en vigueur (~550¤/mois) - Lieu : Laboratoire LIG, Bâtiment IMAG, 700 avenue centrale 38400 Saitn Martin d'Hères Description L'apprentissage des langues peut être grandement facilité par les outils informatiques au sens large. La lecture active est un de ceux-ci. Elle permet d'afficher des compléments d'information (transcriptions phonétiques, traductions de mots, etc) pendant la lecture d'un texte. En quelque sorte, elle réalise l'équivalent électronique du dictionnaire main-gauche. L'outil affiche au dessus d'un texte entré par l'utilisateur une transcription des mots dans une autre langue mieux connue de celui-ci et rend disponible la traduction de chaque mot au survol de la souris. La traduction n'est pas affichée de manière permanente pour inciter le lecteur à comprendre le texte. L'utilisateur peut contribuer directement, améliorer, ou même juste s'approprier des formes lexicales, au plus près de sa lecture. Voir http://jibiki.fr/lecture . Les traitements nécessaires à la réalisation de cet outil sont principalement l'utilisation d'outils de traitement automatique des langues dont des analyseurs morphologiques ainsi que la consultation d'une base lexicale. Nous voulons étendre ce concept pour aider à retenir la forme des mots et faciliter l'intercompréhension dans des langues voisines. Il s'agit alors d'afficher des constituants des mots, soit pour leur origine étymologique, soit pour leur ressemblance. Problèmes durs - généricité L'application finale doit être conçue de manière totalement générique du point de vue des langues traitées mais également des ressources lexicales et des outils de TAL utilisés. - extraction d'information L'information utile se trouve dans certains dictionnaires. Cependant, bien souvent, les entrées ne sont pas suffisamment structurées pour trouver simplement ces informations. Il faut donc les analyser pour trouver l'information voulue puis les modéliser pour les intégrer à la base lexicale. - comparaison de chaînes de caractères Il faut également être capable de modéliser les permutations phonologiques à l'aide d'outils tels que des transducteurs à états finis puis calculer des distances de chaîne entre les mots des différentes langues en jeu (voir dans l'exemple ci-dessous densha <=> diànche). - conception d'interfaces utilisateurs L'affichage final des résultats demande de concevoir les modalités d'affichage et d'interaction permettant de rendre sensible les différentes sources de ressemblance (racine linguistique, langue, mode d'écriture, ...). L'exemple suivant est tiré d'un scénario où le lecteur apprend le japonais et possède des connaissances en mandarin. D'autres scénarios sont possibles avec des ensemble de langues voisines (groupes de langues ou langues régionales comme les langues romanes, le français et le breton, etc.). Cette partie du sujet peut s'adapter aux affinités du stagiaire. Références Goudin, Y. Mangeot, M., Loiseau, M. Bellynck, Mboning, E. & Eggers, E. (2017). `La prise en charge du lexique pour l'apprentissage sur plateforme en ligne : scénarios d'utilisation et prises en compte des spécificités du mandarin' avec , in Journées de l'AREC 2017 « Le lexique chinois contemporain », Université Diderot, 2-3 juin. Mangeot, M., Bellynck, V., Eggers, E., Loiseau, M., & Goudin, Y. (2016). Exploitation d'une base lexicale dans le cadre de la conception de l'ENPA Innovalangues. In I. Smilauer & J. Kostov (Éd.), Actes de la conférence conjointe JEP-TALN-RECITAL 2016 (Vol. 9 : ELTAL, p. 48-64). Paris: ATALA/AFCP. Consulté à l'adresse https://jep-taln2016.limsi.fr/actes/Actes%20JTR-2016/V09-ELTAL.pdf Mangeot, M., (2016). Collaborative construction of a good quality, board coverage and copyright free Japanese-French dictionary. In International Journal of Lexicography 2016; doi: 10.1093/ijl/ecw035; 35 p. Degache, C. (1997) : « Développer l'intercompréhension dans l'espace linguistique roman: le programmeGalatea/Socrates », Document ronéoté, Assises de l'enseignement du et en français, séminaire de Lyon, Aupelf-Uref, 23-25 septembre 1997. Mathieu MANGEOT GETALP-LIG Bureau 338 Bâtiment IMAG, 700 avenue Centrale F-38400 St Martin d'Hères France Tel : +33 4 57 42 15 26 / +33 4 79 75 81 89