PROPOSITION DE 2 STAGES AU SEIN DE LA SOCIÉTÉ SYLLABS ------------------------------------------------------ * La société : Syllabs (www.syllabs.com) est un jeune laboratoire de recherche privé spécialisé dans les domaines de la Gestion de l'Information et du Traitement Automatique des Langues. Syllabs est au coeur de trois activités complémentaires : La Recherche, les Développements Innovants et le Conseil. Nous recherchons deux stagiaires BAC+5 en Informatique : - Développement d'un outil de compression de phrases pour le résumé automatique de textes - Développement d'un outil de catégorisation des opinions pour des domaines spécifiques ******************************** Outil de compression de phrases ******************************** * CONTEXTE : Projet ANR RPM2 (Résumé Plurimédia, Multi-documents et Multi-opinion). Pour plus d'infos : http://labs.sinequa.com/rpm2/ * SUJET DU STAGE : Développement d’un outil de compression de phrases pour le résumé automatique de textes * OBJECTIFS DU STAGE : Le stage a pour objectif le développement d’un outil de compression de phrases pour le résumé automatique de textes. Ce travail s’inscrit dans le cadre d’un projet de recherche ANR relatif au développement d’un système de résumé multimédia et multi-opinion. Dans ce contexte particulier, nous nous intéressons au cas du résumé par extraction : il s’agit de constituer un résumé par sélection et concaténation des phrases les plus pertinentes du document source. Le résumé ainsi produit peut alors présenter des éléments superflus et/ou redondants que l’on souhaiterait éliminer. L’outil de compression de phrases intervient à ce niveau. Il n’est cependant pas exclu que la compression puisse intervenir en amont du système de résumé i.e. avant la phase d’extraction des phrases pertinentes. Il existe deux grandes approches pour la compression de phrases : l’approche linguistique qui consiste à définir des règles et l’approche statistique qui utilise un corpus d’apprentissage pour détecter des régularités statistiques exploitables. Certaines méthodes dites « hybrides » s’attachent à combiner ces deux approches afin de tirer parti des avantages de chacune. A partir d’un état de l’art, la personne recrutée sera amenée à réaliser une évaluation des méthodes existantes afin de déterminer l’approche finale. Aucune approche n’est privilégiée a priori. Une attention particulière devra être portée à deux éléments caractéristiques d’une bonne compression : la grammaticalité et la concision. La grammaticalité consiste à s’assurer que la phrase est grammaticalement correcte. La concision correspond au fait qu’une phrase compressée doit rendre compte de l’information essentielle de la phrase originale. Une évaluation des performances de l’outil sera réalisée en fin de stage sur la base d’un corpus annoté manuellement. Des mesures classiques d’évaluation seront utilisées avec prise en compte de la grammaticalité et de la concision. La personne sera intégrée à l’équipe en charge des projets de recherche. * CONNAISSANCES ET NIVEAU SOUHAITÉS : - Linguistique Informatique, Bac+5 - Master 2 - Apprentissage supervisé (SVM, perceptron, modèles de Markov) - Modèles de langages - Bonne maîtrise du langage Java et d’un langage de script (Perl, Python) * Eléments facultatifs mais considérés comme un plus : - Maîtrise d'une ou plusieurs langues étrangères - Connaissance des techniques de résumé automatique * LIEU DU STAGE : Syllabs - http://www.syllabs.com/fr/contact.html * RESPONSABLE : Aude Giraudel * DURÉE DU STAGE : 6 mois * DOSSIER DE CANDIDATURE : Merci de nous faire parvenir votre lettre de motivation ainsi que votre CV complet à l'adresse suivante : jobs@syllabs.com ************************************* Outil de catégorisation des opinions ************************************* * CONTEXTE : Projet ANR RPM2 (Résumé Plurimédia, Multi-documents et Multi-opinion). Pour plus d'infos : http://labs.sinequa.com/rpm2/ * SUJET DU STAGE : Développement d’un outil de catégorisation des opinions pour des domaines spécifiques * OBJECTIFS DU STAGE : L’objectif du stage est la mise en place d’un outil de catégorisation des opinions dans un ensemble de classes de type positif, négatif, neutre. Ce travail s’inscrit dans le cadre d’un projet de recherche ANR relatif au développement d’un système de résumé multimédia et multi-opinion. Dans ce contexte particulier, il s’agit de produire des résumés textuels prenant en compte les opinions afin de donner la parole à des courants distincts, des sources d’informations avec des points de vue différents. En cela, l’étiquetage de l’opinion, ce qu’elle exprime, nous intéresse particulièrement et il s’agit ici de faire de la catégorisation selon des types d’opinions préétablis afin de pouvoir rendre dans le résumé final les différents points de vue exprimés. Dans une première phase, il s’agira de mettre en place un outil d’extraction d’opinions et de catégorisation de ces opinions. Le formalisme utilisé reste à définir. Des lexiques d’opinions thématiques devront cependant probablement être spécifiés et développés. Ce travail sera mené en étroite collaboration avec le pôle linguistique de la société. Cette première phase constitue la brique de base du système. Dans une seconde phase, on s’attachera à mettre en place un système de rattachement des objets cibles aux opinions exprimées. On se focalisera alors sur les objets du domaine, leurs instances, leurs attributs ainsi que leurs propriétés pour construire un système complet d’analyse d’opinion. L’étude passera par une étape de modélisation du domaine ainsi que par la mise en place d’un processus qui fera le lien entre le modèle du domaine et les lexiques d’opinions déjà développés. La personne sera intégrée à l’équipe en charge des projets de recherche. * CONNAISSANCES ET NIVEAU SOUHAITÉS : - Linguistique Informatique, Bac+5 - Master 2 - Modélisation des connaissances - Algorithmes de catégorisation - Bonne maîtrise du langage Java et d’un langage de script (Perl, Python) - Bonnes connaissances dans les domaines du Traitement Automatique des Langues * Eléments facultatifs mais considérés comme un plus : - Maîtrise d'une ou plusieurs langues étrangères - Analyse et classification d’opinions * LIEU DU STAGE : Syllabs - http://www.syllabs.com/fr/contact.html * RESPONSABLE : Aude Giraudel * DURÉE DU STAGE : 6 mois * DOSSIER DE CANDIDATURE : Merci de nous faire parvenir votre lettre de motivation ainsi que votre CV complet à l'adresse suivante : jobs@syllabs.com ------------------------------------------------------------- Christelle Ayache - Chef de projet / Linguiste Syllabs (entreprise agréée CIR) 15 rue Jean-Baptiste Berlier 75013 Paris Tel : 01.55.43.76.36 / Fax : 01.55.43.76.35 (New!) Courriel : ayache@syllabs.com Site Web : www.syllabs.com -------------------------------------------------------------