• Recherche,

CLERICE Thibault

Détection d'isotopies par apprentissage profond: l'exemple de la sexualité en latin classique et tardif

Publié le 13 juillet 2022 Mis à jour le 13 juillet 2022

Thèse en Lettres et Civilisation Antiques, soutenue le 28 mars 2022.

En 1982, James N. Adams a produit l’étude de référence sur le vocabulaire latin de la sexualité. Dans son ouvrage, l’auteur présente un large éventail de mots ou d’expres-sions classées en fonction de leurs caractéristiques stylistiques (métaphore, métony-mie, etc.) et sémantiques (guerre, cuisine, chasse, violence...) dans diverses catégories (actes, parties intimes masculines et féminines, etc.). À la même époque, François Ras-tier redéfinit l’isotopie comme « la récurrence d’un même trait sémantique » dans un texte. Dans la lignée de ces travaux, nous avons construit un méta-corpus latin inédit de 20 millions de mots en TEI mêlant projets existants et nouveaux textes. En utilisant ce méta-corpus et le travail d’Adams, nous avons construit un exemplier numérique qui fournit 2500 exemples d’isotopies sexuelles latines. Pour traiter le corpus, nous avons développé une méthode et les outils pour lemmatiser et annoter la morphosyntaxe des textes en latins classique et tardif. Enfin, nous avons testé des méthodes d’apprentis-sage profond pour détecter les isotopies dans des textes latins allant de 200 avant notre ère jusqu’à +700. Cette méthode pourra servir de base à la construction de nouveaux « vocabulaires » ou exempliers pour d’autres isotopies à l’avenir. Une sélection de mé-thodes montre des résultats robustes avec l’exemplier complet, et nous évaluons les limites des diverses architectures de modèle de détection d’isotopie en fonction de la taille de l’exemplier ou de la part d’implicite dans ce dernier.

In 1982, James N. Adams produced the reference study of the Latin sexual vocabu-lary. In his book, the author presented a wide range of words or expressions refined by their stylistic (metaphor, metonymy, etc.) and semantic (war, cooking, hunting, vio-lence...) features for various categories (acts, male and female pudenda, etc.). Around the same time, François Rastier refined the definition of isotopy as the “the recurrence of the same semantic feature” in a text. We built a completely new Latin meta-corpus of 20 million words in TEI based on the works of existing projects and news sources. Using this meta-corpus and the work of Adams, we built a new completely new digital “handout” that provide 2500 examples of Latin sexual isotopies. To treat the corpus, we developed a method and the tools to lemmatize and annotate morphological and syntactical features of Classical and Late Latin texts. Finally, we set ourselves up to test deep learning methods to detect isotopies in Latin texts spanning from -200 BCE up to the 700 CE. This method should provide the foundation for building new “voca-bularies” for other isotopies in the future. A selection of methods show robust results with a full corpus, and we discuss the limits of these models based on the corpus size or the difficulty of the task.

Mots-clés : Apprentissage profond, Littérature latine, Lexicographie, Humanités numé-riques, Corpus, Ingénierie, Isotopie, Histoire de la sexualité, Classification de phrases, Stylistique, Traitement automatique des langues, Lemmatisation

Keywords : Deep learning, Latin Literature, Lexicography, Digital Humanities, Cor-pus, Engineering, Isotopy, Sexual History, Sentences Classification, Stylistics, Natural Language Processing, Lemmatization

Directrice de thèse : Bernadette CABOURET LAURIOUX

Membres du jury :
- M. NICOLAS Christian, Directeur de thèse, Professeur des universités, Université Jean Moulin Lyon 3, France,
- Mme PIERAZZO Elena, Rapporteure, Professeure des universités, Université de Tours, France,
- M. ROMARY Laurent, Rapporteur, Directeur de recherche, INRIA, Paris, France,
- Mme BEAULIEU Marie-claire, Associate Professor, Tenure, Tufts University, Medford, Etats Unis,
- M. BUREAU Bruno, Professeur des universités, Université Jean Moulin Lyon 3, France,
- Mme DIK Helma, Associate Professor, Tenure, University of Chicago, Etats Unis.

Président(e) du jury : Bruno BUREAU