Offre de Stage de Master / Fin d'étude Ingénieur : Extraction de relations économiques à partir du texte * Cadre du stage La société GeoTrend développe une plateforme innovante de « Business Discovery » permettant de donner une vision rapide et complète sur n'importe quel marché économique. Cette plateforme analyse en temps réel des milliers de pages web pour extraire les principaux acteurs du marché, les relations qui les lient (partenariat, compétition, etc.) et de nombreuses 'autres informations utiles à la compréhension du marché cible. Le coeur de notre métier consiste donc à développer des briques de Traitement Automatique du Langage et de Machine Learning et de les faire tourner sur des plateformes de Cloud Computing. Ce stage permettra de travailler à la fois sur des problématiques scientifiques récentes et sur des technologies de pointe. Nous souhaitons proposer ce stage en collaboration avec l'équipe MELODI du laboratoire IRIT de Toulouse. Une poursuite dans le cadre d'une thèse CIFRE est envisagée sur la base des mêmes problématiques. * Objectifs L'objectif du stage est d'améliorer le système d'extraction de relations actuel qui se base uniquement sur des règles expertes en proposant un nouveau modèle de Machine Learning. Un data-set d'environ 2000 phrases a été annoté manuellement pour aider le stagiaire dans cette tâche. Ce data-set pourra être utilisé pour évaluer de manière précise le modèle proposé mais ne suffira pas à constituer un corpus d'apprentissage. En effet, les modèles de Machine Learning récents (particulièrement les Réseaux Neurones) nécessitent beaucoup de données d'apprentissage. Des travaux récents proposent donc de construire ces corpus de manière automatique en utilisant des règles ou des bases de connaissances externes (Ratner et al. 2016; Ratner et al. 2018). Les labels ainsi produits contiennent du bruit mais on peut modéliser les erreurs commises par ces différentes règles pour améliorer les résultats. La première étape du stage consistera à faire un état de l'art plus approfondi sur l'extraction de relations. Une piste ou plusieurs seront ensuite retenues pour être mises en oeuvre, évaluées et comparées. * Compétences recherchées * Modèles de Machine Learning (SVM, LSTM, etc.) * Intérêt pour le Traitement Automatique du Langage (analyse syntaxique, word embeddings, etc.) * Frameworks: python, sklearn, ... * Contacts : * Grégoire Sigel, gregoire@geotrend.fr * Farah Benamara, Benamara@irit.fr * Conditions: * Localisation : Toulouse, dans les locaux de Geotrend et ponctuellement à l'IRIT. * Date de démarrage : à partir de février 2019 * Durée : de 4 à 6 mois * Indemnité : Indemnité légale * Suite envisagée en Thèse CIFRE * Ressources bibliographiques Ratner, Alexander, Stephen H. Bach, Henry R. Ehrenberg, et al.2018Snorkel: Rapid Training Data Creation with Weak Supervision. InVLDB. Ratner, Alexander J, Christopher M De Sa, Sen Wu, Daniel Selsam, and Christopher Ré2016Data Programming: Creating Large Training Sets, Quickly. InNIPS pp. 3567-3575. *Grégoire Sigel* CTO & Co-foundeur, Geotrend +33(0)6 26 98 16 84 gregoire@geotrend.fr www.geotrend.fr Airbus BizLab 57 Avenue Jean Monnet, 31770 Colomiers