Proposition de stage de recherche M2 Laboratoire GREYC - Equipe HULTECH - Université Caen Normandie Désambiguïsation des structures prédicatives basées sur "devoir" ou "pouvoir" : constitution d'un corpus, apprentissage et évaluation Le stage proposé se situe dans le cadre d'un projet en cours mené par des membres de l'équipe HULTECH du GREYC avec l'entreprise Noopsis (Caen, essaimage du GREYC) sur la recherche et l'extraction d'informations dans des textes de `news' de type journalistique. Plus spécifiquement, notre collaboration concerne des constructions linguistiques dans lesquelles un verbe (conjugué en général, le coverbe) commande un verbe à l'infinitif (le prédicat). Le coverbe apporte une information importante, une « qualification » sur l'événement exprimé par le prédicat, telle que : temporalité ou phase (exemple 1), intention (2), modalité d'exécution (3), obligation ou possibilité (4), etc. (1) Jean va/vient de/commence à...travailler (2) Jean espère/ redoute de/ veut/ne veut pas...travailler (3) Jean se hâte de/s'efforce de/peine à...travailler (4) Jean doit/devrait/devait/peut/pourra/n'a pas pu...travailler Dans ce cadre général, on s'intéressera dans le stage aux deux derniers coverbes : devoir et pouvoir : extrêmement fréquents dans nos corpus, ils représentent une fraction très importante (jusqu'à un tiers) des constructions à infinitive. Or ils sont l'un comme l'autre fondamentalement ambigus, avec chacun deux pôles de signification, illustrés par les exemples ci-dessous (extraits de nos corpus). - Pour devoir : valeurs d'obligation (déontique) (5) et de plausibilité (épistémique) (6). - Pour pouvoir : valeurs de capacité - matérielle, juridique, logique...- (dite aussi radicale) (7) et épistémique (8) les deux pouvant facilement coexister (9) (5) Il s'agirait d'un véhicule conçu pour le marché nord-américain; cependant, avant de passer à l'étape de la commercialisation, il devra passer les tests de collision du gouvernement des Etats-Unis. (6) Les premiers véhicules de ce modèle, équipés de moteurs électriques Siemens, devraient commencer les premiers essais sur route à la fin de l'année 2011 (7) D'autre part, elle peut aller jusqu'à 205 km/h avec une batterie au nickel-cadmium. (8) L'essence peut monter en bourse, ça ne fera qu'augmenter le prix du carburant. (9) Sur la durée de vie de la voiture, un conducteur pourrait économiser plus de 22.000 litres d'essence. Ce phénomène a de longue date fait l'objet de recherches en sémantique linguistique [Fuchs, 1989] mais pas à notre connaissance en termes de traitements automatiques visant une désambiguïsation en contexte. Tel est a contrario l'objet de ce stage. Une pré-étude a permis d'identifier un certain nombre de traits, morphosyntaxiques ou autres, aiguillant de manière plus au moins marquée vers un sens ou un autre. A titre d'exemple : le conditionnel et l'imparfait de devoir (devrait, devait) orienterait très fortement vers un sens épistémique, le futur et le passé composé (devra, a dû vers un déontique. De même le conditionnel de pouvoir (pourrait) tire fortement vers l'épistémique et les temps autres que le présent (pourra, pouvait, a pu) vers la capacité, le présent peut étant plus indéterminé. Notre objectif dans ce stage sera de valider, préciser, systématiser... ces premières analyses « manuelles » en appliquant des méthodes d'apprentissage automatique. Pour ce faire, deux étapes sont nécessaires : 1. Établissement d'un Gold Standard Pour mener à bien l'évaluation d'un tel système, il sera nécessaire de disposer d'un corpus annoté de référence (Gold Standard) auquel confronter les productions de ce dernier. La constitution de ces annotations de référence pourra s'appuyer, de façon assez classique, sur des annotations manuelles multiples (plusieurs annotateurs annotent manuellement et indépendamment le même corpus) en vérifiant, grâce à une mesure d'accord inter- annotateurs, qu'un consensus entre annotateurs se dégage, et que les annotations de ces derniers peuvent servir (moyennant un éventuel ajustement) de référence. Ce stage pourra éventuellement constituer un premier pas vers une thèse concernant la constitution d'annotations et les mesures d'accord inter-annotateurs, notamment autour des travaux actuellement menés au GREYC [Mathet et al., 2015, 2016, 2017]. 2. Application de technique(s) d'apprentissage automatique Une fois le corpus annoté de référence (Gold Standard) établi, celui-ci sera exploitable par des techniques d'apprentissage (en tant qu'échantillon d'apprentissage). Pour représenter chaque exemple de l'échantillon, des attributs pertinents seront à définir (temps du coverbe, mode, type de prédicat...) et à extraire automatiquement des textes. Diverses techniques d'apprentissage [Cornuéjols et Miclet, 2010] pourront être exploitées - tâche pour laquelle des procédures ont déjà été développées au GREYC [Alec et al., 2014, 2016, Govind et Spaniol, 2017] -, aussi bien du type « boîtes noires » (telles que les SVM) que des techniques plus lisibles pour un être humain (telles que les arbres de décision). Ce stage est susceptible de bénéficier d'un financement, en fonction notamment de la qualité de la candidature. Contact : yann.mathet@unicaen.fr