Le projet ANR Autogramm  (https://autogramm.github.io/) finance un
sujet de thèse à pourvoir cette année, ainsi que des sujets de master.
Les personnes intéressées peuvent contacter Sylvain Kahane
skahane@parisnanterre.fr

Sujets M2 en typologie quantitative
-   rattachements possibles : Lacito (campus Villejuif) ou Modyco
    (Université Paris Nanterre ) ou LISN (Université Paris Saclay) ou
    Inria Grand Est (Nancy)

Nous nous intéressons à l'extraction de descriptions grammaticales de
langues à partir de corpus annotés de différentes façons : textes avec
annotation morphosyntaxique, glose et traduction (Interlinear Glossed
Text, voir la collection Pangloss https://pangloss.cnrs.fr), textes
avec annotation syntaxique (voir le projet Universal Dependencies
https://universaldependencies.org/). Dans ce sujet de master, nous
proposons de partir d'une description linguistique et d'examiner
comment les énoncés descriptifs (les "règles" grammaticales) peuvent
être inférés à partir d'un corpus, en cherchant notamment le type
d'annotation du corpus et le type de requête qui seraient nécessaires
pour y parvenir Plusieurs sujets sont possibles selon la ressource dont
on part.
Sujet 1: partir d'une base de données typologique comme le WALS (Word
    Atlas of Language Structures online, https://wals.info et voir pour
    chaque trait comment y répondre à partir d'un corpus annoté, soit
    en se basant sur des annotations existantes, soit en proposant de
    nouvelles annotations.
Sujet 2: partir d'une grammaire de référence d'une langue et voir pour
    certaines propriétés comment les retrouver dans un corpus annoté.
    Ce deuxième sujet devra être mené pour une langue pour laquelle un
    corpus annoté en syntaxe (syntactic treebank) est disponible et
    avec la collaboration d'un spécialiste de la langue. Il n'est pas
    nécessaire que le candidat parle la langue étudiée, mais il devra
    avoir un vrai intérêt pour la grammaire des langues.
Le travail à partir de corpus permet d'obtenir des informations
quantifiées (fréquence de telle ou telle construction), ce qui ouvre de
nouvelles perspectives d'exploitation des données par rapport à des
bases de données typologiques classiques comme le WALS (voir sujet de
thèse plus bas).

Sujet de thèse en typologie quantitative
-   à démarrer entre maintenant et le 1er octobre (vous pouvez me
    contacter si vous avez un M2 ou soutenez votre M2 à la fin du
    semestre)
-   financement pour 3 ans
-   rattachement : Modyco, Université Paris Nanterre & CNRS

Nous disposons aujourd'hui de bases de données, concernant plusieurs
dizaines de langues, comprenant des corpus annotés selon un même
principe, grâce notamment aux corpus annotés en glose interlinéaires
(IGT, voir par ex. la collection Pangloss, http://pangloss.cnrs.fr/)
ou avec le schéma d'annotation Universal Dependencies
(UD, https://universaldependencies.org et sa variante
SUD, https://surfacesyntacticud.github.io/). Ces bases de données
permettent des études typologiques et présentent plusieurs avantages:
les résultats obtenus sont basés directement sur des données primaires
(des corpus) et pas des données secondaires (des grammaires écrites par
des linguistes). (Ce n'est que partiellement vrai, car les résultats
dépendent quand même des choix fait par un linguiste dans la sélection
du corpus et son annotation; néanmoins ces choix sont visibles et
peuvent être discutés.)
les résultats sont reproductibles à partir du moment où les données
sont librement accessibles ;
la nature des données permet d'avoir des résultats quantitatifs : on ne
dira pas qu'une langue est OV ou VO, mais qu'elle a tel pourcentage de
constructions OV et on pourra observer directement sur les données de
quels facteurs dépend la répartition entre OV et VO (Levshina 2019
https://www.degruyter.com/view/journals/lity/23/3/article-p533.xml,
Gerdes et al. 2019
https://syntaxfest.github.io/syntaxfest19/proceedings/papers/paper_100.pdf,
Futrell et al. 2015 https://aclanthology.org/W15-2112.pdf).
(Voir également le site https://typometrics.elizia.net/#/.)

L'objectif du sujet de thèse est de contribuer au développement de la
typologie quantitative en participant à la construction d'une base de
données quantitatives sur un grand nombre de langues typologiquement
variées et en s'intéressant à l'exploitation d'un tel ensemble de
données (Levshina 2022
https://www.degruyter.com/document/doi/10.1515/lingty-2020-0118/html).
L'originalité du projet repose sur le fait que nous travaillons sur des
données quantitatives et non des traits catégoriels comme les bases de
données typologiques existantes (voir notamment le Word Atlas of
Language Structure online, https://wals.info/, qui donne accès à des
données sur plus de 2500 langues).

On pourra étudier les questions suivantes :
Comment repérer des régularités cross-linguistiques, telles que des
universaux implicationnels quantitatifs, à partir d'un ensemble de
corpus de langues du monde (voir par exemple Gerdes et al. 2021
https://www.glossa-journal.org/articles/10.5334/gjgl.764/?utm_source=TrendMD&utm_medium=cpc&utm_campaign=Glossa%253A_a_journal_of_general_lin
guistics_TrendMD_0) ?
Comment réaliser des inférences entre traits à valeurs quantitatives ?
Quelles sont les informations quantitatives qui peuvent être extraites
d'un corpus et qui sont utiles pour une étude typologique ?
Quels sont les traits qui demandent une annotation préalable des
données et quelle est la nature des annotations nécessaires ? (voir par
exemple le cas des IGT pour les traits morphosyntaxiques et les
treebanks pour l'ordre des mots)
Comment dégager la signature typologique d'une langue à partir d'un
corpus annoté et déterminer ce qui en fait sa particularité au sein
d'un groupe de langues (voir Bickel & Nichols 2002
http://www.autotyp.uzh.ch/download/canary.pdf et projet AutoTyp
https://github.com/autotyp/autotyp-data/blob/master/readme.md)
Comment prendre en compte le déséquilibre d'une base de données qui
n'est pas représentative de la distribution des langues dans le monde,
mais comprend une plus forte proportion de langues de certaines régions
ou familles (langues indo-européennes, langues sémitiques, langues
d'Asie de l'Est, etc.) au détriment d'autres régions ou familles
(Papouasie-Nouvelle Guinée, Océanie, Afrique sub-saharienne, langues
amérindiennes, langues aborigènes) ? (voir Guzmán Naranjo & Becker 2022
https://www.degruyter.com/document/doi/10.1515/lingty-2021-0002/html).
Comment résoudre la question de la commensurabilité des catégories
utilisées dans la description des différentes langues ?
Comment vérifier la cohérence des données ? Cette question peut être abordée en étudiant
la cohérence de banques d'arbres d'une même langue ou d'une même
famille de langues.
Comment détecter la présence d'aberrations dans certaines banques
d'arbres ? (choix de catégorisation non conformes au schéma universel,
par exemple attribution de la relation sujet dans les langues
ergatives, utilisation de la catégorie ADJ dans les langues sans
adjectifs réels, etc.)
Comment visualiser des données quantitatives multidimensionnelles ?
Les données linguistiques posent de nombreux défis de ce point de vue.

Le travail sera mené en collaboration avec les membres du projet ANR
Autogramm (https://autogramm.github.io/), chercheurs en linguistique de
terrain, typologie, linguistique formelle et traitement automatique des
langues. Il pourra mener, avec l'aide d'ingénieurs, à la constitution
d'une base de données typométrique accompagnée d'outils d'interrogation
et de visualisation des données.