L'université Grenoble Alpes, en collaboration avec l'ENS de Lyon, propose un stage de M2 sur *L'intuition sociolinguistique des systèmes d'Intelligence Artificielle* *Responsables du stage* : Jean-Pierre Chevrot (Université Grenoble Alpes) & Jean-Philippe Magué (Ecole Normale Supérieure, Lyon) *Contacts* : jean-pierre.chevrot@univ-grenoble-alpes.fr / jean-philippe.mague@ens-lyon.fr *Financement* : Chaire IA & Langage, Multidisciplinary Institute in Artificial Intelligence (MIAI), UGA *Durée* : 6 mois *Contexte* Depuis plusieurs décennies, la sociolinguistique a décrit la façon dont différents groupes sociaux utilisent différemment la ou les langues qui les environnent. Par exemple de nombreux travaux ont caractérisé l'African American English, opposé au Mainstream American English, les variétés rurales et régionales du français, de l'anglais ou de l'italien, les variétés urbaines utilisées par les jeunes générations dans plusieurs cultures, etc.[1] Plus précisément, les sociolinguistes utilisent des bases de données de parole quotidienne enregistrée pour décrire les caractéristiques linguistiques de ces variétés. Par des enquêtes, ils décrivent également le profil social des locuteurs qui les utilisent. Enfin par des tests de perception, ils cherchent à vérifier si des locuteurs à qui l'on fait entendre des extraits de ces variétés sont capables d'identifier le groupe social de ceux qui les prononcent et s'ils les jugent d'une façon ou d'une autre (prestige, sympathie, stigmatisation, connivence, etc.). Ces travaux ont pour but de comprendre comment le langage et la société interagissent. Sur le plan des applications, ils aident à anticiper les discriminations fondées sur le langage (par exemple des enfants considèrent des 5 ans que des locuteurs avec un accent régional sont «moins intelligents»). Depuis une dizaine d'années, une sociolinguistique computationnelle[2] a émergé. Elle exploite les recueils non supervisés de grandes masses de données langagières et sociales issus notamment des médias sociaux, et tout particulièrement de Twitter. En plus de l'analyse de données classiques, des systèmes basés sur IA sont utilisés pour examiner dans quelle mesure on peut prédire les caractéristiques sociales des utilisateurs à partir des formes graphiques (orthographe, vocabulaire, émoticône, etc.) utilisées dans leurs messages numériques[3]. *Données* Ce stage s'inscrit dans la suite du projet Sosweet, a sociolinguistics of Twitter (https://sosweet.inria.fr/) qui regroupait des laboratoires INRIA, UGA et ENS Lyon de Data science, de Traitement automatique des langues et de linguistiques. Ce projet maintenant terminé a permis la constitution d'une base de données de 650 millions de tweets écrits en français entre 2013 et 2019 par 3 millions d'utilisateurs, accompagnés des liens de suivis et de mentions entre eux. Suite à diverses opérations (projection des tweets géolocalisés sur des données géographiques INSEE estimant les revenus moyens, annotation manuelle par examen direct des compte, etc.), nous avons obtenu un sous-échantillon de 3648 utilisateurs ayant produit 364 800 tweets, pour lesquels le genre, l'âge et la classe sociale sont estimés[4]. *Prédictions fondées sur l'apprentissage automatique* Le sous-échantillon informé sur le statut, l'âge et le genre a permis de mettre en oeuvre des techniques d'apprentissage (Random Forest, Régression logistique, etc.) ou des modèles de langue (CamemBert, https://camembert-model.fr/) pour prédire les caractéristiques sociales des utilisateurs individuels à partir de deux types de données : 1. la distribution en fréquence de la totalité des formes rencontrées dans leurs tweets ; 2. La totalité du texte des tweets qu'ils ont écrits. A partir de la distribution en fréquence des formes, l'accuracy varie entre 70% pour le salaire et 90% sur le sexe. L'âge est autour de 80% et dépasse 90% si on ne prédit que les classes d'âge extrêmes. A partir de la totalité des formes des tweets, l'accuracy est plus basse pour le sexe et l'âge (approximativement 65 %) mais la prédiction sur le statut social échoue. *Objectif du stage : IA vs. Humains* L'objectif du stage est d'organiser une enquête en ligne à grande échelle pour vérifier si des locuteurs "humains" sont capables de prédictions sociodémographiques au moins équivalentes aux systèmes d'IA et si Humains et systèmes utilisent les mêmes critères de jugement. La ou le stagiaire embauché.e devrait (à discuter): - récupérer un échantillon aléatoire des tweets produits par chacun des 3864 utilisateurs de notre base de données pour lesquels sexe, revenu et âge sont estimés. - masquer dans ces tweets tout autre élément que texte, hashtags, émoticônes, url et émojis - mettre en place une enquête en ligne pour demander à un grand échantillon de locuteurs (mettons un millier) d'estimer l'âge, le sexe et la CSE de la personne qui a écrit les tweets - faire varier le nombre de tweets qu'on donne à juger à un même utilisateur, mettons de 5 à 100 (les juges qui jugent les grands échantillons de tweets seront rémunérés). - faire varier la présence et l'absence d'émojis, de graphies non standard et d'émoticônes ou d'autres indices linguistiques dans les tweets proposés au jugement. - collecter des informations sociodémographiques minimales sur les juges : genre, âge, profession, niveau d'étude - traiter les résultats par des méthodes statistiques appropriés : tester les jugements contre le hasard et comparer la puissance prédictive des jugements humains à celle des systèmes d'IA. Il y aura donc plusieurs sous-enquêtes imbriquées, adressées à plusieurs sous-échantillons de locuteurs. Ce travail apportera des connaissances dans le domaine de la sociolinguistique computationnelle. Son originalité réside dans le parallèle entre systèmes d'IA et locuteur humain. Il implique également des enjeux pour la compréhension des systèmes d'IA. Si un locuteur est capable de récupérer la même information sociale sur un échantillon de tweets cent fois plus petit que la base de l'apprentissage machine, alors l'étude de cette sobriété, avérée dans d'autres domainesii, devrait contribuer à améliorer l'efficacité des systèmes d'IA. *Missions et conditions de travail* La personne qui prendra ce travail en charge devra donc avoir des capacités pour gérer des données de taille importante (récupérer les tweets sur le serveur, préparer les échantillons de tweets), d'organiser une enquête à grande échelle en ligne, de traiter les résultats avec des méthodes statistiques élaborées. Cette personne travaillera en collaboration avec les deux responsables de stage dont l'un a une orientation plus informatique et l'autre plus sociolinguistique. Le lieu de travail sera l'un des laboratoires grenoblois associés à la chaire IA & Langage du Multidisciplinary Institute in Artificial Intelligence de l'UGA (MIAI, https://miai.univ-grenoble-alpes.fr/). La ou le stagiaire pourra bénéficier de rendez-vous réguliers avec les responsables du stage et de l'environnement interdisciplinaire stimulant de MIAI : conférences multiples, ateliers, réunions de la chaire IA et Langage, etc. Une part des tâches peut être effectuée en télétravail. La rémunération est de 600.60¤ par mois et le stage durera 6 mois. *Références* 1. Bayley, R., Cameron, R. & Lucas, C. The Oxford Handbook of Sociolinguistics (Oxford University Press, 2013). 2. Nguyen, D., Dogruöz, A. S., Rosé, C. P. & de Jong, F. Computational Sociolinguistics: A Survey. Computational Linguistics 42, 537-593 (2016). 3. Cesare, N., Grant, C., Nguyen, Q., Lee, H. & Nsoesie, E. O. How well can machine learning predict demographics of social media users? arXiv:1702.01807 [cs] (2018). 4. Abitbol, J. L., Karsai, M., Magué, J.-P., Chevrot, J.-P. & Fleury, E. Socioeconomic Dependencies of Linguistic Patterns in Twitter: A Multivariate Analysis. Proceedings of the 2018 World Wide Web Conference on World Wide Web - WWW '18 1125-1134 (2018) doi:10.1145/3178876.3186011.