Aide à la rédaction pour l'adaptation de textes à différents profils de lecteurs niveau : M2, dernière année d'école d'ingénieur domaine : informatique période : à partir de mars-avril 2015 durée : 5-6 mois URL : http://perso.limsi.fr/amax/recherche/sujet1-amax-M2-2015.html Contexte L'accès à l'information est primordial pour tous et celle-ci passe souvent par l'écrit. Il existe néanmoins très souvent un décalage entre la manière de s'exprimer du rédacteur et les capacités de compréhension de certains lecteurs. Tout lecteur peut se trouver en situation de difficulté, par exemple lorsqu'un niveau de technicité d'un texte n'est pas le sien, ou que la langue utilisée est trop complexe. Les difficultés ressenties peuvent à l'extrême couper certaines personnes de l'accès à des informations importantes. Par exemple, des porteurs de Trisomie 21 auront des difficultés à comprendre de nombreux textes qui contiennent des informations qui les concernent mais qui n'ont pas été conçus pour eux. Il en est ainsi de leur dossier médical : il est légalement obligatoire que celui-ci puisse être consulté et compris par le patient, mais il contient des textes parfois rédigés dans une langue de spécialité ou dans un niveau de langue relativement élevé. Il est donc nécessaire d'apporter des aides efficaces pour l'aide à l'accès à l'information pour ce type de situation. Toutefois, il serait souhaitable qu'existe une version de ces textes multi-niveau adaptable à l'ensemble des profils de lecteurs potentiels. Dans le cadre d'un projet commun avec la Fédération Trisomie 21 France, le laboratoire LIMSI-CNRS s'intéresse à la définition d'un nouveau type de documents qui serait accessible à plusieurs profils de lecteurs, couvrant par exemple une personne atteinte de Trisomie 21, ses aidants et ses médecins. De nouveaux types d'aides à la rédaction sont donc nécessaires : il doit s'agir d'aider un rédacteur à anticiper des difficultés de lecture, et à proposer des variantes pour des fragments non adaptés. Pour cela, un corpus de textes issus de dossiers patients est en cours d'annotation en fragments difficiles ainsi qu'en réécritures possibles. Les données ainsi collectées pourront servir à (1) la détection automatique de fragments potentiellement non adaptés à certains profils de lecteurs, et à (2) l'aide à l'écriture de variantes pour ces fragments. Travail à réaliser Le stage proposé visera à obtenir un module opérationnel de détection de fragments non adaptés, et à proposer si possible des réécritures candidates adaptées. Il faudra tout d'abord faire une étude bibliographique sur les domaines de la réécriture (interactive) de textes, et notamment la simplification automatique. Une analyse de corpus sera ensuite menée afin de comprendre les caractéristiques des textes manipulés et proposer des indices susceptibles de guider les décisions sur l'adéquation des fragments de textes aux profils de lecteurs considérés. L'acquisition de fragments difficiles et de réécritures candidates sera menée de deux manières : (1) par collecte manuelle auprès de volontaires de la fédération Trisomie 21 France; (2) par acquisition automatique fondée en particulier sur le repérage de termes et de leurs variantes dans des textes adaptés à différents profils. La dernière étape aura pour objectif de développer un module d'apprentissage automatique pour l'annotation de fragments de texte en fonction des profils adaptés, dont les prédictions pourront ensuite être utilisées pour suggérer des réécritures candidates, qui seront soit issues du dictionnaire construit manuellement lors de la collecte d'annotations (faible rappel, mais forte précision), soit générées automatiquement par des techniques de paraphrase (fort rappel, précision plus faible). Ce travail, qui pourra être poursuivi par un travail de thèse, aura comme perspective de permettre la lecture d'un document riche en effectuant un parcours dans un graphe de formulations possibles, en s'adaptant (sur le long terme) au profil particulier de chaque lecteur. Profil recherché Etudiant(e) niveau M2, connaissances solides en informatique. Intérêt pour les domaines du traitement automatique des langues, de la linguistique de corpus, et de l'apprentissage automatique. Contact Toute personne intéressée par le stage peut prendre contact avec : Gabriel Illouz (gabriel.illouz@u-psud.fr) Aurélien Max (aurelien.max@limsi.fr) en utilisant comme titre de message "[Candidature] Aide à la rédaction", et en joignant : (a) un CV à jour, (b) les résultats du M1 ou équivalent et ceux du M2 déjà connus, (c) une description relative à l'intérêt pour le sujet proposé. Le stage aura lieu au LIMSI-CNRS (Orsay, RER ligne B) à partir de mars-avril 2015 pour une durée de 5-6 mois.