• Recherche,
  • Publication,
  • Langues,

Un ouvrage-clé pour comprendre le traitement de données textuelles

Publié le 17 décembre 2025 Mis à jour le 18 décembre 2025
Billet veille Harmonizing language data
Billet veille Harmonizing language data

Un collectif de chercheurs allemands a publié cette année un ouvrage qui s'intéresse à la gestion des données linguistiques. Ces données, de nature textuelle, peuvent être manipulées et analysées avec des outils et méthodes particulières.

Un ouvrage-clé pour comprendre le traitement de données textuelles

Intitulée Harmonizing language data. Standards for linguistic resources, cette publication aborde chapitre par chapitre différentes problématiques qui interviennent au cours du cycle des données linguistiques, de leur collecte à leur archivage. Elle s'inscrit dans une dynamique de mutualisation des pratiques, des formats et des outils.

Les chapitres sont à caractère méthodologique ou technique. Les premiers chapitres font état de considérations générales utiles dès la collecte des données : le chapitre 2 explique l'importance de l'encodage dans l'utilisation de ressources textuelles, tandis que le suivant se penche sur les standards internationaux qui les concernent. Les chapitres suivent dans leur ensemble le cours d'un cycle de gestion classique :

  • Traitement : annotations textuelles, reconnaissance d'entités nommées, encodage TEI
  • Diffusion : données ouvertes liées, métadonnées descriptives
  • Réutilisation : accès aux données, requête de partage de corpus
  • Archivage : format d'archivage, bonnes pratiques

Tous les chapitres de Harmonizing language data sont disponibles en entier gratuitement au format PDF.

Pour consulter l'ouvrage :

► Piotr Banski, Ulrich Heid and Laura Herzberg (dirs.), Harmonizing language data. Standards for linguistic resources, De Gruyter Brill (coll. "Digital Linguistics"), v. 4, 2025 : https://www.degruyterbrill.com/document/doi/10.1515/9783112208212/html?lang=en#contents