Le laboratoire CEDRIC du CNAM propose un stage de 6 mois sur la génération de contenu et de mise en pages pour les manuels scolaires. Context et description du projet Reconnaître la structure de documents numériques non structurés est une étape importante lors de leur analyse pour les convertir en un format structuré servant de base à d'autres applications. Par ailleurs, la mise en page est un composant fondamental de tout design graphique, et la génération de mises en page de documents plausibles connaît récemment une explosion à la fois dans la littérature académique et dans les applications. Dans le cadre du "projet ANR Malin" qui vise a la mise accessibilité de manuel scolaire on dispose de manuels au format pdf natif ou d'images scanées et on doit, "comprendre leur sémantique" afin de pourvoir les adapter. A partir des pdf natif plusieurs approches d'extraction automatique de la structure d'un manuel scolaire (cours, exercices, consignes, énoncés, exemples, etc.) et de son contenu multimédia (textes, images, dessins, graphiques, équations, courbes...) ont déja été étudiées et nos expériences à base transformers multimodaux ont donnés des résultats prometteurs [1] mais butent sur la faible quantité de donnée annotées. Une solution envisagée face au manque de données étiquetées est l'augmentation de données par la génération automatique de manuels scolaires. Cela se fait déjà pour d'autres catégories de documents comme les articles scientifiques [2]. Les modèles de générations envisagé seont dans un premier temps purement textuel et s'appuieront sur de larges modèles de langues (LLM) [3,4] pré-entraînés et adaptés sur cette tâche. Sujet du stage L'objectif du stage est de travailler à la génération de manuels scolaires présentant des mises en forme réalistes, qui, outre leur intérêt propre, pourront servir à entraîner les modèles d'analyse de documents. On effectuera tout d'abord un état de l'art des méthodes de génération de mises en forme de documents. Ensuite, l'étudiant expérimentera les différentes approches sur un (petit) corpus de manuels scolaires annotés. Il pourra, en parallèle, s'intéresser à la génération de contenu. Par ailleurs, il interagira avec l'équipe travaillant sur l'extraction de contenu pour voir comment les données produites peuvent être utilisées pour améliorer les résultats de l'extraction. Profil du candidat - Étudiant en master ou en dernière année d'école d'ingénieur. - Une bonne compréhension des fondamentaux de l'apprentissage automatique et de l'apprentissage profond. - Maitrise du langage Python - Une certaine expérience avec au moins un framework d'apprentissage profond tel que PyTorch, Keras, TensorFlow, etc. Conditions du stage Le stage se déroulera sur une période de 5 à 6 mois, au sein du laboratoire Cedric (https://cedric.cnam.fr/) du Cnam Paris (https://www.cnam.fr/) , co-encadré par Olivier Pons et Clément Rambour. Selon la réglementation, l'indemnité de stage est d'environ 600 euros par mois. Pour postuler, envoyer votre CV et une lettre de motivation à Olivier Pons (olivier.pons@lecnam.net) ET Clément Rambour (clement.rambour@lecnam.net) References [1] Lincker,E.,Pons,O.,Guinaudeau,C.,Barbet,I.,Dupire,J.,Hudelot,C.,...& Huron,C.(2023, July). Layout-and Activity-based Textbook Modeling for Automatic PDF Textbook Extraction. In Intelligent Textbooks 2023 (Vol. 3444, pp. 37-53). CEUR-WS [2] Pisaneschi,L.,Gemelli,A.,&Marinai,S.(2023). Automaticgenerationofscientificpapersfor data augmentation in document layout analysis. Pattern Recognition Letters, 167, 38-44. [3] Touvron,H.,Martin,L.,Stone,K.,Albert,P.,Almahairi,A.,Babaei, Y.,Bashlykov,N.,Batra,S., Bhargava, P., Bhosale, S. and Bikel, D., 2023. Llama 2: Open foundation and fine-tuned chat models. [4] Zhong,X.,Tang,J.,&Yepes,A.J.(2019,September). Publaynet:largestdataseteverfor document layout analysis. In 2019 International Conference on Document Analysis and Recognition (ICDAR) (pp. 1015-1022). IEEE.