*Exploitation de rapports de lancement de fusées Ariane (CNES)* Postes d'ingénieurs (2*3 mois) au laboratoire ERTIM (INALCO) *Contexte* Dans le cadre d'opérations liées aux campagnes de lancement de fusées, la maintenance des équipements donne lieu à de nombreux rapports (pour ce projet, liés aux lancements Ariane 5) faisant état de la sûreté de fonctionnement des matériels. Ces données sont stockées dans des BDD en format semi-structurés (Excel, Access, Word, PDF), dont une partie exprimées sous forme textuelle. L'objectif principal du projet est d'analyser et de détecter, à l'aide de ces rapports, des tendances et signaux faibles liés aux anomalies, points critiques et incidents qui peuvent survenir lors des campagnes. Cette visée nécessite de débruiter ces rapports, de construire des ressources adéquates (linguistiques et ontologiques), exploitables par le CNES dans le cadre de ce projet et au delà. À plus long terme, il s'agit de faciliter toute opération de recherche ou d'extraction d'information au sein de ces rapports ou de contenus similaires produits par le CNES. *Missions* Les deux ingénieurs recrutés par ERTIM sur ce projet travailleront sur une première phase dès que possible, le travail étant réparti afin d'atteindre les 3 objectifs décrits ci-dessous. *Débruitage et prétraitement des données* Les données à traiter sont saisies par des opérateurs puis numérisées (PDF issus d'OCR) et insérées dans des BDD. En tant que telles, la qualité actuelle des données peut être un frein au bon fonctionnement des traitements TAL. Cette tâche a pour objectif d'améliorer les données textuelles issues du REX : - réparation d'erreurs typographiques ou en sortie de l'OCR, - rétablissement de la casse (minuscules / majuscules / accents), - repérage des acronymes (forme abréviée ou expansée) et, selon les cas, mise en cohérence. - traitements linguistiques (lemmatisation, POS, MWE) adaptés au domaine, selon les ressources terminologiques. Le travail sur un échantillon équilibré (par dates / types d'incidents) permettra de développer et d'évaluer les développements. Le résultat attendu est un ensemble de programmes et des évaluations quantitatives (distance d'édition, WER) et qualitatifs permettant de juger de la pertinence des traitements, unitairement et globalement. *Constitution d'un référentiel lié aux campagnes de lancement* Une meilleure compréhension des risques, des causes et conséquences des incidents qui surviennent lors de campagnes serait obtenue par une modélisation structurée des différents matériels en jeu et événements qui se produisent lors des campagnes. Il s'agit de développer un référentiel (terminologies et/ou ontologies) exploitable et valorisable par le CNES comme une ressource interne, à partir des données textuelles. L'objectif est d'extraire (par ex. par analyse distributionnelle) les entités et relations d'intérêt dans les corpus, comme : - Entités (typologie) * matériels physiques * tests à réaliser sur les matériels * grandeurs et mesures utilisées pour les tests * phases liées aux campagnes de lancement - Relations entre entités * regroupement des matériels par catégories (i.e. moteurs, câbles, etc.) * partie-tout pour l'assemblage de pièces au sein des lanceurs, * liens entre les évènements, les tests et les matériels. La typologie sera constituée selon un format à définir (OWL/SKOS) et initialisée par une alimentaiton semi-automatique. L'évolution de cette ressource devra pouvoir se faire par suggestions (automatiques) et par validation manuelle, selon les besoins exprimés au CNES. Elle viendra en appui aux algorithmes de recherche des tendances et signaux faibles. *Évaluation d'approches pour la détection de tendances et signaux faibles* La recherche d'éléments explicatifs liés aux points critiques représente un enjeu important, c'est une tâche qui sollicite des techniques avancées en traitement automatique des langues, en fouille de données et en recherche de signaux faibles. L'objectif de cette partie du travail est d'explorer les différentes approches possibles pour traiter la problématique. Il s'agira principalement de prédire le mieux possible l'apparition de points critiques. Ces approches devront s'appuyer sur deux dimensions à explorer conjointement : sémantique (textes disponibles) et temporelle (dates associées aux rapports). L'objectif est de permettre d'isoler des éléments explicatifs s'appuyant sur les données textuelles, par des techniques TAL bien maîtrisées (extraction de mots-clés, de termes spécifiques, lexicométrie) et plus exploratoires (représentations distributionnelles, résumé automatique, utilisation de méthodes formelles, etc.). La difficulté reviendra à détecter automatiquement les éléments pertinents correspondant à des signaux faibles d'intérêt. *Profils recherchés* - Diplôme en informatique / science des données - Spécialisation ou vif intérêt pour le TAL - Bonnes compétences en programmation (Python, Java, Perl) - Connaissance en ingénierie des connaissance (OWL, SKOS) - Connaissance de méthodes en fouille de données textuelles (text mining) *Cadre* - Contrat : CDD d'ingénieur de 3 mois à temps plein - Date de début : dès que possible (idéalement 1er novembre) - Rémunération : 1800¤ à 2300¤ net/mois selon expérience - Lieu : INALCO, 2 rue de Lille, 75007 Paris *Candidature* Merci d'envoyer votre CV et de faire part de vos motivations à Damien Nouvel (damien.nouvel@inalco.fr). *Références et liens* - CNES https://cnes.fr - ERTIM http://www.er-tim.fr - Projet COROLLES dans le cadre de mission Philae, Rosetta Lander http://corolles.cnes.fr - Nikola Tulechki. Natural language processing of incident and accident reports: application to risk management in civil aviation. Thèse de doctorat, Toulouse II, 2015. - Hakim Elbadiry, Samuel Bassetto, Mohamed-salah Ouali. Étude comparative des méthodes d'analyse de similarité des défaillances de systèmes aéronautiques. 2015. - Didier Bourigault, Nathalie Aussenac-gilles. Construction d'ontologies à partir de textes. TALN 2003.