Le Centre d'épidémiologie sur les causes médicales de décès (CépiDc) de l'Inserm recrute : Un informaticien en traitement automatique du langage (TAL) Description du poste Contexte : La production de la statistique des causes médicales de décès se fonde sur la réception de près de 550 000 certificats de décès par an, dont environ 6% sont transmis par voie électronique (via www.certdc.inserm.fr). Cette proportion devrait augmenter sensiblement dans un futur proche. Les certificats papiers et électroniques ont le même format structuré, conforme au modèle préconisé par l'OMS. Bien que la structure du certificat incite les médecins à séparer des entités nosologiques (des maladies, états morbides ou traumatismes), le texte rédigé est relativement libre et nécessite dans la majorité des cas un traitement automatique de standardisation. Celui-ci vise à bien séparer les entités nosologiques, à reconstituer leur ordre de causalité et à corriger les fautes d'orthographe. Après standardisation, un code de la classification internationale des maladies (CIM) est attribué à chaque entité nosologique à l'aide d'un index (comptant environ 160 000 entrées aujourd'hui). Alors que le texte des certificats papiers est manuellement saisi et standardisé par une entreprise externe au service, le texte des certificats électroniques fait uniquement l'objet d'application de règles syntaxiques simples, qui rendent nécessaire et conséquent un traitement manuel du texte avant l'exploitation par Iris. Missions Dans le cadre de la production de la base des causes médicales de décès, l'agent aura pour missions principales : - le suivi de la qualité de la saisie des certificats de décès, - l'automatisation du traitement du texte médical pour l'accélérer et améliorer sa qualité, - la participation à l'alerte sanitaire. Activités - Assurer le suivi du marché externalisé de saisie des certificats de décès, - Développer les règles de traitement automatique du texte médical avec les outils existant dans le service, - Lister les modifications nécessaires non prises en charge par les règles de traitement automatique du langage proposées par les outils existants, - Participer à une revue des méthodes existantes de traitement automatique du langage à mobiliser pour prendre en charge ces modifications, - Mettre en oeuvre et tester différentes méthodes de traitement automatique du langage, maximisant la proportion de texte standardisé et minimisant la proportion d'erreurs provoquée par le traitement - Mettre à jour la liste des expressions présentes dans l'index afin de minimiser sa taille, de faciliter sa maintenance et de pouvoir ainsi le transmettre à d'autres pays francophones. Spécificité du poste - Les données traitées par le CépiDc sont de nature médicale et strictement confidentielle. Le CépiDc est situé à l'hôpital du Kremlin-Bicêtre (Val de Marne). Il a pour missions principales de produire les données nationales de mortalité par cause, de diffuser, d'assister les utilisateurs et de mener des recherches sur ces données. Le CépiDc est centre collaborateur OMS pour la Famille des Classifications Internationales (FCI) en langue française. Profil recherché Connaissances : - Des méthodes de traitement automatique du langage (TAL) : grammaires formelles, syntaxe formelle, analyse syntaxique automatique, - Des langages de programmation (C, Perl, Python...) et de gestion de bases de données (SQL), - Lecture de l'anglais scientifique. Savoir-faire : - Développement et adaptation de méthodes TAL à une nouvelle problématique, - Evaluation des performances obtenues par les méthodes, - Rédaction de documentation méthodologique (rapport, article), - Gestion des relations avec un prestataire extérieur. Aptitudes : - Capacité de formalisation de problématique de traitement du texte, - Capacité à travailler en équipe avec des acteurs variés (médecins, nosologistes, statisticiens, épidémiologistes), - Rigueur, - Esprit d'initiative. Contrat proposé Contrat à durée déterminée : temps plein de 12 mois renouvelable Rémunération : entre 2 031 et 2 465 ¤ bruts selon l'expérience et le niveau de formation par référence aux grilles de l'Inserm Date de prise de fonction : 01/12/2014 Formation BAC +3/5 en linguistique informatique, spécialité traitement automatique du langage (Licence, Master, école d'ingénieur...). Expérience professionnelle souhaitée : Débutant accepté Pour postuler, merci d'envoyer CV et lettre de motivation à : Grégoire Rey Directeur du CépiDc de l'Inserm gregoire.rey@inserm.fr Tel : 01 49 59 18 63