Langues

09290005 - Linguistique de corpus pour l'analyse des discours

Niveau de diplôme
Crédits ECTS 3
Volume horaire total 20
Volume horaire CM 20

Responsables

Contenu

Ce cours propose une introduction approfondie à la linguistique outillée, également appelée linguistique de corpus, en explorant ses fondements théoriques et méthodologiques.

Dans une première partie, nous aborderons les différentes typologies de corpus linguistiques, tels que les corpus oraux, écrits, multimodaux, bruts, annotés, monolingues, multilingues, ou encore les corpus parallèles. Nous discuterons des enjeux éthiques et des principes fondamentaux de la constitution de corpus, en insistant sur la nécessité de respecter les normes d’intégrité et de confidentialité des données.

Dans la deuxième partie, le cours se concentrera sur les méthodes de collecte des données nécessaires à la construction d'un corpus linguistique. Nous examinerons les différentes techniques de collection de données textuelles en ligne, notamment le web scraping, et les étapes d'annotation des corpus. Une attention particulière sera portée à l'analyse quantitative et qualitative des données linguistiques recueillies.

La troisième partie du cours sera dédiée aux outils et aux méthodes d’analyse de discours à travers une exploration des différentes fonctionnalités qu’ils proposent pour l’analyse quantitative des corpus. Nous étudierons notamment l'utilisation des logiciels comme TXM pour les corpus textuels, AntConc pour l'analyse textuelle, Praat pour les corpus oraux, ELAN pour les corpus audiovisuels, et Sketch Engine, un service en ligne pour l’analyse de corpus. De plus, nous introduirons les langages de programmation Python et R pour le traitement automatisé du texte et l’analyse de corpus.

Enfin, la quatrième partie sera axée sur la pratique et l'application des concepts étudiés. Les étudiants auront l'occasion de s'exercer à l'utilisation de TXM et d'un outil de web scraping pour la collecte de données textuelles en ligne, la constitution de corpus et la réalisation d’analyses telles que les listes de fréquence, les concordances, les occurrences, les cooccurrences, ainsi que la création de nuages de mots, entre autres. Ce volet pratique vise à renforcer les compétences des participants en matière de traitement de corpus et d'analyse de données linguistiques à l’aide d’outils numériques spécialisés.

Bibliographie

  • ADAM, Jean-Michel. La linguistique textuelle : Introduction à l’analyse textuelle des discours. Paris : Armand Colin, 2006.
  • LONGHI, Julien, Du discours comme champ au corpus comme terrain : contribution méthodologique à l'analyse sémantique du discours. Paris : l'Harmattan, 2018.
  • McENERY, Tony et Andrew Hardie, Corpus Linguistics. Cambridge : Cambridge University Press, 2012.
  • POUDAT, Céline et Frédéric LANDRAGIN, Explorer un corpus textuel : méthodes, pratiques, outils. Louvain-la-Neuve : De Boeck Supérieur, 2017.
  • SARFATI, Georges-Elia, « Analyse du discours et sens commun : institution de sens, communautés de sens, doxa et idéologie », dans Jacques GUILHAUMOU et Philippe SCHEPENS (dir.), Matériaux philosophiques pour l’analyse du discours. Besançon : Presses universitaires de Franche-Comté, 2011, p. 139-174.
  • ZUFFEREY, Sandrine, Introduction à la linguistique de corpus. Londres : ISTE Editions Ltd, 2020.