*Proposition de stage Titre : *Construction d'une chaine de traitements linguistiques pour la structuration de textes non structurés *Contexte : *La "mémoire" est l'un des lieux où semble se jouer le lien social contemporain. Nouvelle question sociale, elle constitue une composante officielle de l'action municipale dans la plupart des grandes métropoles. Qui posent ce que, dans leur diversité, l'ensemble des acteurs qualifie de "questions mémorielles" ? De quels types de régulation politique et de rapports sociaux ces "questions mémorielles" sont-elles la manifestation ? Comment et avec quels mots sont-elles formulées ? Ces interrogations sont à l'origine du projet de recherche "médiation de l'histoire locale" rattaché au labex "Les passés dans le présent" (http://www.passes-present.eu). Il est piloté par Sarah Gensburger de l'Institut de Sciences politiques (http://isp.cnrs.fr/?GENSBURGER-Sarah) et le laboratoire Modyco de l'université Paris-Ouest Nanterre La défense (www.modyco.fr) y collabore pour tout ce qui touche aux traitements de corpus. *Objectif : *Pour avoir des éléments de réponse aux questions posées ci-dessus, la construction d'une base de données des annonces des associations loi 1901, créées depuis 1947, parmi lesquelles se trouvent les associations qui s'intéressent à la "mémoire" est requise. En fait, le Journal Officiel détient les archives de toutes ces déclarations qui sont disponibles sous divers formats, dont un format text brut des pages scannées puis océrisées de 1960 à 1984 et un format xml qui suit une DTD commune pour la période de 1997 à 2014. *Travail à réaliser* Pour constituer cette BD, il faudra : - construire une chaîne de traitements linguistiques permettant d'extraire de chaque page "océrisée" et de chaque annonce (environ 25 annonces par page), les données utiles à la constitution d'une base de données à des fins d'analyse avec des outils de TDM (Text and data mining). - construire une chaîne de traitements pour détecter des erreurs générées par l'OCR - construire une chaîne de traitement permettant d'intégrer les fichiers xml à cette base de données Une fois la base de données créée, il faudra développer une interface d'interrogation pour extraire de cette BD, des déclarations d'associations répondant à divers critères (dates, domiciliation des associations, requêtes booléennes sur l'objet des associations, etc.), convertir les résultats extraits en fichier au format CSV *Qualifications requises* - Connaissances des techniques du TAL - Compétences informatiques : au moins un langage de programmation (PHP, Java, Python), XML, bases de données *Modalités de recrutement* - Type de contrat : Stage - Durée : 3 à 4 mois à temps plein - Rémunération : à hauteur de 600¤ euros par mois - Date de prise de fonction : le plus tôt possible - Lieu : Université Paris-Ouest La Défense, laboratoire Modyco (200, avenue de la République, Batiment A, 92 Nanterre) *Procédure de recrutement* Le dossier de candidature est à envoyer avant le 20 février 2015 à Mathilde de Saint Leger (mdesaintleger at u-paris10.fr) Ce dossier comprendra : un curriculum vitae détaillé et une lettre de motivation. Pour toute précision, les candidats sont invités s'ils le souhaitent, à prendre contact au préalable avec Mathilde de Saint Leger (mdesaintleger at u-paris10.fr) ou Sarah Gensburger (sgensburger at yahoo.fr) Mathilde de Saint Leger