Le laboratoire CEDRIC du CNAM propose un stage de 6 mois sur la
génération de contenu et de mise en pages pour les manuels scolaires.


Context et description du projet

Reconnaître la structure de documents numériques non structurés est
une étape importante lors de leur analyse pour les convertir en un
format structuré servant de base à d'autres applications. Par
ailleurs, la mise en page est un composant fondamental de tout design
graphique, et la génération de mises en page de documents plausibles
connaît récemment une explosion à la fois dans la littérature
académique et dans les applications.

Dans le cadre du "projet ANR Malin" qui vise a la mise accessibilité
de manuel scolaire on dispose de manuels au format pdf natif ou
d'images scanées et on doit, "comprendre leur sémantique" afin de
pourvoir les adapter. A partir des pdf natif plusieurs approches
d'extraction automatique de la structure d'un manuel scolaire (cours,
exercices, consignes, énoncés, exemples, etc.) et de son contenu
multimédia (textes, images, dessins, graphiques, équations,
courbes...) ont déja été étudiées et nos expériences à base
transformers multimodaux ont donnés des résultats prometteurs [1]
mais butent sur la faible quantité de donnée annotées.

Une solution envisagée face au manque de données étiquetées est
l'augmentation de données par la génération automatique de manuels
scolaires. Cela se fait déjà pour d'autres catégories de documents
comme les articles scientifiques [2]. Les modèles de générations
envisagé seont dans un premier temps purement textuel et s'appuieront
sur de larges modèles de langues (LLM) [3,4] pré-entraînés et
adaptés sur cette tâche.


Sujet du stage

L'objectif du stage est de travailler à la génération de manuels
scolaires présentant des mises en forme réalistes, qui, outre leur
intérêt propre, pourront servir à entraîner les modèles d'analyse de
documents.

On effectuera tout d'abord un état de l'art des méthodes de
génération de mises en forme de documents.

Ensuite, l'étudiant expérimentera les différentes approches sur un
(petit) corpus de manuels scolaires annotés.

Il pourra, en parallèle, s'intéresser à la génération de contenu.

Par ailleurs, il interagira avec l'équipe travaillant sur l'extraction
de contenu pour voir comment les données produites peuvent être
utilisées pour améliorer les résultats de l'extraction.

Profil du candidat

-   Étudiant en master ou en dernière année d'école d'ingénieur.
-   Une bonne compréhension des fondamentaux de l'apprentissage
    automatique et de l'apprentissage profond.
-   Maitrise du langage Python
-   Une certaine expérience avec au moins un framework d'apprentissage
    profond tel que PyTorch, Keras, TensorFlow, etc.

Conditions du stage

Le stage se déroulera sur une période de 5 à 6 mois, au sein du
laboratoire Cedric (https://cedric.cnam.fr/) du Cnam Paris
(https://www.cnam.fr/) , co-encadré par Olivier Pons et Clément
Rambour. Selon la réglementation, l'indemnité de stage est d'environ
600 euros par mois. Pour postuler, envoyer votre CV et une lettre de
motivation à Olivier Pons (olivier.pons@lecnam.net) ET
Clément Rambour (clement.rambour@lecnam.net)

References
[1] Lincker,E.,Pons,O.,Guinaudeau,C.,Barbet,I.,Dupire,J.,Hudelot,C.,...&
    Huron,C.(2023, July). Layout-and Activity-based Textbook Modeling for
    Automatic PDF Textbook Extraction. In Intelligent Textbooks 2023
    (Vol. 3444, pp. 37-53). CEUR-WS
[2] Pisaneschi,L.,Gemelli,A.,&Marinai,S.(2023).
    Automaticgenerationofscientificpapersfor data augmentation in
    document layout analysis. Pattern Recognition Letters, 167, 38-44.
[3] Touvron,H.,Martin,L.,Stone,K.,Albert,P.,Almahairi,A.,Babaei,
    Y.,Bashlykov,N.,Batra,S., Bhargava, P., Bhosale, S. and Bikel, D.,
    2023. Llama 2: Open foundation and fine-tuned chat models.
[4] Zhong,X.,Tang,J.,&Yepes,A.J.(2019,September).
    Publaynet:largestdataseteverfor document layout analysis. In 2019
    International Conference on Document Analysis and Recognition
    (ICDAR) (pp. 1015-1022). IEEE.