La mise au point de services facilitant l'accès aux contenus de la Connaissance constitue l'un des axes de recherche portés par Orange Labs Research. L'objet du postdoc est d'étudier la structuration automatique de contenus dans ce domaine (conférences, documentaires, entretiens, émissions de radio ou TV spécialisées, ...). La structuration thématique de contenus est un sujet d'étude actif depuis un certain nombre d'années dans la communauté scientifique. Le sujet a été plus largement traité dans le cadre de la segmentation thématique de journaux télévisés mais également pour des contenus de nature différente comme des réunions ou des cours magistraux (lecture topic segmentation). Dans le cas de la segmentation thématique de contenus de type "journaux télévisés", les sujets consécutifs sont le plus souvent suffisamment différenciés pour que les techniques basées sur la cohésion lexicale permettent d'obtenir de bons résultats. Le matériau de base pour cette segmentation, à savoir la transcription automatique du contenu, est par ailleurs le plus souvent de bonne qualité, du fait des bonnes performances des systèmes de transcription qui ont été largement optimisés dans la communauté parole sur des contenus de ce type. Les contenus étudiés dans le cadre de ce post-doc (conférences, documentaires, entretiens) ont la particularité d'être globalement monothématiques, potentiellement longs comme dans le cas des conférences, et potentiellement très spécialisés. L'adaptation de la segmentation thématique à la segmentation en sous-thème pour ce type de contenus constitue le principal objectif du travail. Plusieurs questions scientifiques devront être abordées : * Au-delà de la cohésion lexicale entre les mots pris individuellement, il s'agira de s'attacher à la cohésion lexicale entre les mots en contexte (dans le cas d'une conférence sur le cerveau, le terme cortex pourra apparaître à plusieurs moment alors que les contextes "cortex visuel", "cortex frontal" seront peut-être plus discriminants pour la structuration). La question est alors de trouver une définition appropriée du contexte. * En amont de la structuration, comment enrichir la couverture lexicale pour le traitement automatique de documents spécialisés? * Lors du processus de structuration, comment tirer profit d'une base de connaissance structurée, de relations sémantiques? Comment définir et exploiter des mesures d'association distributionnelles ? * Comment proposer une organisation hiérarchique des sous-thèmes afin de proposer une structuration de type "plan" des documents? Les résultats du post-doc permettront d'alimenter des travaux de recherche autour d'interfaces innovantes de navigation dans les contenus de la Connaissance. Le candidat devra être titulaire d'un doctorat en informatique, spécialisé en traitement de la parole, traitement du langage ou en recherche d'information. Le postdoc se déroulera à Lannion pour une période de 12 mois et doit débuter en 2015. Le candidat est recruté en CDD, avec une rémunération allant de 35 à 38 keuros brut annuel. Les contraintes de recrutement en CDD imposent que le candidat n'ait pas réalisé plus d'un postdoc préalablement à la candidature. Contact Géraldine Damnati : geraldine.damnati@orange.com