Offre de post-doc, Université Lille 3 Sujet : annotation sémantique en corpus (projet ANR Jeune Chercheur NOMAGE) Durée : 18 mois Rémunération : entre 1600 et 1800 euros *nets* par mois Lieu : UMR 8163 « Savoirs, Textes, Langage », Université Charles de Gaulle Lille 3, Début du contrat prévu : janvier/février 2009 Cadre du projet Le projet ANR-07-JCJC-0085 « NOMAGE : Analyse sémantique et codification lexicale des nominalisations » (http://nomage.recherche.univ-lille3.fr) vise à étudier les propriétés sémantiques (notamment aspectuelles) des nominalisations. Cette étude est réalisée en corpus et vise à renseigner les propriétés des noms prédicatifs dans leur contexte d'occurrence.. L'une des retombées visées du projet est la mise à disposition de la communauté d'un lexique électronique des nominalisations, tant pour une utilisation humaine que pour des applications en Traitement Automatique des Langues. La mission de post-doctorat sera effectuée au sein de l'UMR STL, un laboratoire de recherche pluridisciplinaire regroupant des philosophes, des philologues et des linguistes. Les données utilisées pour les campagnes d'annotation en cours sont en langue française, toutefois, une extension des principes d'annotation sémantique à d'autres langues sera explorée. La langue de travail est le français. Tâches Le post-doctorant aura à prendre en charge les tâches suivantes : 1. développements (Java, XML, BDD MySQL) * propositions de spécifications et développement de l'outillage logiciel destiné au projet : interface et plate-forme d'annotation * étude des réalisations similaires (Nombank, Nomlex, Simple) et proposition d'une structuration XML pour le lexique NOMAGE 2. linguistique de corpus * suivi des campagnes d'annotation sémantique, participation à l'encadrement des annotateurs * analyse, mise en cohérence et intégration des données annotées 3. animation scientifique * production scientifique (articles et chapitres d'ouvrage) * organisation de séminaires, ateliers et/ou journées d'étude Profil recherché * doctorat en TAL ou linguistique de corpus * bonnes connaissances des standards de structuration de corpus et ressources lexicographiques électroniques XML : TEI notamment * bonnes connaissances en bases de données (MySQL, PostgreSQL) * expérience en développement Java, et maîtrise de langages de script (ex. Perl) * langues : en plus du français, anglais courant. D'autres langues européennes seront un plus : le projet NOMAGE compte comme partenaires l'université Pompeu Fabra (esp.) ainsi que l'université d'Osnabruck. Contacts Antonio BALVET (MCF, UMR STL 8163), antonio.balvet at univ-lille3.fr : co-direction scientifique du projet