Docteur en Sciences du Langage depuis Novembre 2007, mes recherches se concentrent principalement sur l'étude de l'organisation du discours et sa signalisation. Ces sujets sont abordés sous trois perspectives en interaction :
La perspective linguistique qui vise à décrire les procédés linguistiques permettant d'organiser un discours i.e. de lui donner une texture et de signaler cette texture
Texture can be defined as the process whereby meaning is channelled into a digestible current of discourse 'instead of spilling out formlessly in every possible direction' (Halliday 1994:311) [...](Martin 2001:35)
La perspective TAL qui se donne pour objectif la mise au point d'outils informatiques dédiés tout autant à l'analyse en linguistiques de corpus qu'à la mise en oeuvre d'applications (recherche d'information, résumé automatique, traduction assistée, traitement de l'information...)
[The computer] gives us the ability to comprehend, and to account for, the contents of such corpora in a way which was not dreamed of in the pre-computational era of corpus' (Leech 1992:106)
La perspective cognitive qui cherche à décrire les processus et straté gies textuels utilisées lors de la production et interprétation de telle ou telle signalisation de la structure du discours
Text and discourse processing are dynamic processes during which the reader or listener constructs a cognitive representation of the information in the text or discourse. Even though readers' and listeners' representations are not identical to the information they read and hear, texts and discourses contain many linguistic signals that guide comprehension. (Sanders & Gernsbacher 2004:79)
Étude de l'organisation du discours et de sa signalisation, organisation du discours dans une approche descendante : du macro vers le local
Linguistiques de corpus : analyses quantitatives, annotation de corpus
Traitement automatique du langage : marquage automatique de traits liés à la signalisation de l'organisation du discours (PERL), constitution de corpus normés, ...
2008-2011 The transformation of the relationship with information in multimedia communication (2008-2011) - projet ARC (UCL) - en collaboration avec L. Degand, A.-C. Simon, A. Küppers.
Construction d'un corpus d'étude et mise en oeuvre d'analyses data-driven pour mesurer la variation de l'organisation discursive des textes de presse en ligne vs. presse traditionnelle papier.
2008-2010 ANNODIS (ANNOtation DIScursive de corpus), projet ANR - Programme Sciences Humaines et Sociales Appel 2007 : "Corpus et outils de la recherche en sciences humaines et sociales". Responsable Marie-Paule Péry-Woodley, collaborateurs : CLLE-ERSS, Toulouse ; IRIT, Toulouse ; GREYC, Caen.
Mise en oeuvre d'une campagne d'annotation des structures discursives dans des textes expositifs en vue de diffuser pour la communauté scientifique un corpus de textes longs normés (TEI-P5) et annotés discursivement. Corpus livré avec ses outils d'annotation et de navigation : l'interface GLOZZ.
2006-en cours TELOC (Textes En Langue Occitane / Tèxtes En Lenga Occitana) : projet CLLE-ERSS, en partenariat avec le CNRTL, le CROM, CIEL d'ÒC, responsable Myriam Bras, collaborateurs Joan Thomas, Franck Sajous.
Constitution de la base de donnée : mise au norme des textes selon la TEI-P5 et mise en place d'un formulaire de saisie pour la génération des headers (informations métatextuelles).
Projets achevés
2008-2011 INTERMEDE(Services de santé de l'Institut de Recherche en Santé Publique, CLLE-ERSS : Toulouse)étude des interactions médecin-patient en médecine générale et inégalités sociales de santé.
Extraction automatique de traits linguistiques à corréler avec des variables sociologiques.
2008-2009 RHECITAS, projet TGE-ADONIS. Responsable Ludovic Tanguy de CLLE-ERSS, collaborations l'IRIT (Toulouse), l'INIST (Nancy), et Synapse Développement (Toulouse).
Mise en oeuvre de traitements automatiques pour l'exploitation de structures discursives dans la mise en relation d'articles scientifiques à travers les "citations".
2002-2005 VIZU (ERSS, LIMSI) : "Visualisation dynamique des Textes"
2002-2005 GeoSem projet (ERSS, GREYC) : "Traitements sémantiques pour l’Information Géographique : textes, cartes, graphiques"
2001-2005 ASTD (Adverbiauxspatiaux/temporels et Discours), projet ILF (ERSS, LATTICE)
2000-2004 projet Cognitics (ERSS, IRIT), "Segmenter pour interpréter : marqueurs de segmentation et d'organisation des textes"
Financée dans le cadre du projet Cognitics intitulé "Segmenter pour interpréter", cette thèse propose une étude de l'organisation du discours basée sur une analyse en corpus effectuée grace à une méthodologie exploratoire et outillée.
Cette étude se concentre sur l'analyse du rôle discursif joué par les éléments situés en position initiale, de phrase mais également de paragraphe, de section.
Cette étude se base sur une analyse quantitative d'un gros volume de données pour le domaine (700.000 mots), analyse rendue possible par l'adaptation des techniques des linguistiques de corpus à l'étude de l'organisation du discours: étiquetage automatique et systématique des éléments situés en position initiale, définition de variables, puis application de tests statistiques pour mesurer les distributions et les variations en position initiale.
D'un point de vue théorique, l'hypothèse générale est d'attribuer un rôle particulier à la position initiale concernant la signalisation de l'organisation du discours. Cette hypothè
se est largement étayée par des travaux en linguistique cognitive qui soulignent l'importance de la position initiale en tant que position des premiers éléments perçus lors des processus de lecture, point de départ du message.
La distribution des éléments en position initiale nous informent sur le mode organisationnel d'un texte: à l'interface des composantes textuelle et idéationnelle.
Etude de la corrélation entre la fréquence d'apparition de certains types de marqueurs organisationnels et l'appartenance d'un texte à un certain registre de discours.
Ho-Dac L-M. (2010) "An exploratory data-driven analysis for describing discourse organization", in Almela, Moisés & Sánchez, Aquilino (Eds.). A Mosaic of Corpus Linguistics. Selected Approaches. Frankfurt/Berlin: Peter Lang, pp 79-100.
Ho-Dac L-M., Jacques M-P. & Rebeyrolle J. (2005) "Sur la fonction discursive des titres", in S. Porhiel & D. Klinger (eds), l'Unité texte, Pleyben, Perspectives : 125-152.
Ho-Dac L-M., Le Draoulec A. & Péry-Woodley M-P. (2002) " Structures Croisées : titres, cadres et chaînes de référence ", Actes du séminaire ISLsp, Prescot, Toulouse.
Küppers A. & Ho-Dac L-M. (2010) "Private State in Public Media: Subjectivity in French Traditional and Online News", 1st Workshop on Computational Approaches to Subjectivity and Sentiment Analysis (WASSA), ECAI 2010, Lisbon (Portugal) 18 Août 2010. [En ligne] URL : http://gplsi.dlsi.ua.es/congresos/wassa2010/?opc=6
Ho-Dac L-M., Fabre C., Péry-Woodley M-P. & Rebeyrolle J. (2009) "A top-down approach to discourse-level annotation". Corpus Linguistics 2009 (CL 2009). July 20-23, 2009, Liverpool, UK. (voir les publications ANNODIS).
Ho-Dac L-M., Fabre C., Péry-Woodley M.-P. & Rebeyrolle J. (2009) "Corpus annotation of macro discourse structures". 1st International conference on corpus linguistics (CILC-09). 7-9 May, 2009, University of Murcia. [En ligne] URL : www.um.es/lacell/aelinco/index.html (voir les publications ANNODIS).
Ho-Dac L-M. & Péry-Woodley M-P. (2008) "Méthodologie exploratoire outillée pour l'étude de l'organisation du discours",in Durand J. Habert B., Laks B. (éds.) Congrès Mondial de Linguistique Française - CMLF'08 , ISBN 978-2-7598-0358-3, Paris, 2008, Institut de Linguistique Française.
Fabre C., Rebeyrolle J. & Ho-Dac L.-M. (2008) "Examen du statut des syntagmes prépositionnels à la lumière de données issues de corpus annotés",in Durand J. Habert B., Laks B. (éds.) Congrès Mondial de Linguistique Française - CMLF'08 , ISBN 978-2-7598-0358-3, Paris, 2008, Institut de Linguistique Française.
Ho-Dac L-M. & Péry-Woodley M-P. (2008) "Temporal adverbials and discourse segmentation revisited", Linearisation and Segmentation in Discourse. Multidisciplinary Approaches to Discourse 2008 (MAD 08), fevrier 2008, Oslo, Norvège.
Ho-Dac L-M., Laignelet M. (2005) "Temporal Structure and Thematic Progression: A Case Study on French Corpora" , Symposium on the Exploration and Modelling of Meaning (SEM-05), Connectives, discourse framing and discourse structure: from corpus-based and experimental analyses to discourse theories, Biarritz (Basque Country, France) - Casino Bellevue, 14-15 nov 2005 , abstract.
Ho-Dac L-M. & Küppers A. (2010) "Does Internet initiate new genres? the case of printed newspapers, their online versions and citizen press", IVACS 2010, Edinburgh, UK, 18-19 juin 2010.
Ho-Dac L-M., Fabre C., Péry-Woodley M-P. & Rebeyrolle J. (2009) "Des indices aux marqueurs : méthodes de découverte de marqueurs discursifs complexes, Linguistic and Psycholinguistic Approaches to Text Structuring, Paris (France) 21-23 septembre 2009. (voir les publications ANNODIS).
Ho-Dac L-M. & Frérot, C. (2004) "Approche discursive et approche syntaxique des circonstants en corpus", journées ATALA, La Rochelle-France slides(pdf)abstract(pdf).
De bien belles paroles dites par Higelin lors d'une AG des
intermlittents luttant pour leur statut. Un discours sur la condition
d'artiste en ces temps difficiles mais cependant libres (mp3)