Étape 2 | Caractériser et documenter les données produites

Produites au cours d’activités de recherche, les données se distinguent des publications scientifiques. Très liées aux pratiques disciplinaires, elles peuvent se présenter sous diverses formes (images, corpus, données d’observation, calculs, modèles de simulations, etc.).
En tant qu’éléments "probants", rappelle la directive européenne sur les données ouvertes du 20 juin 2019, elles occupent une place fondamentale dans le processus de recherche, puisqu’elles sont "nécessaires pour valider des conclusions et résultats".

On distingue communément plusieurs types de données :
 
Les données d’observation Données capturées en temps réel, généralement uniques et impossibles à reproduire (imagerie, astronomie, enquêtes, etc.)
Les données expérimentales Données obtenues à partir d’équipement de laboratoire, souvent reproductibles mais parfois à coût élevé (chromatogramme, spectre RMN, RPE, etc.)
Les données de simulation ou computationnelles Données générées par des modèles informatiques ou de simulation, reproductibles si le modèle est bien documenté (modèle climato-, métrologique, économique, etc.)
Les données dérivées ou compilées Données issues d’un traitement ou de la combinaison de données "brutes" (TDM, bases de données, corpus, etc.). Reproductibles mais à fort coût ou temps.
Les données canoniques ou de référence Accumulation de jeux de données validés ou revus par les pairs, mis à la disposition et admis comme référence (base génome ou cristallographique, archives numérisées, données INSEE, etc.)
Le code informatique Règle de transcription ou instruction décrite assignant à tout symbole un caractère ou une chaîne de caractères univoque.

Garantir la réplicabilité, l’interopérabilité, la réutilisation et la préservation des données de la recherche implique de correctement documenter ses données, c’est-à-dire de donner les informations nécessaires pour les trouver, les lire, les comprendre et les réutiliser. C’est un processus recommandé dès la phase de production des données, qu’elles aient vocation à être diffusées ou non. Ces informations permettant de caractériser les données produites sont appelées métadonnées, littéralement "données décrivant des données".

Les métadonnées peuvent être de différentes natures et varier selon les formats et disciplines. Leur contenu doit renseigner sur l’origine et le contexte de production des données (métadonnées administratives), les conditions de production (métadonnées techniques), les objectifs de la collecte et les références à sa période et à sa localisation (métadonnées scientifiques), les conditions d’accès et les modalités d’utilisation ou de réutilisation des données (métadonnées juridiques).

Les métadonnées peuvent être génériques ou spécifiques si elles s’attachent à un type de données ou à une discipline en particulier. Elles peuvent être saisies manuellement (ajout de mots-clés, tags règle de nommage, description sommaire, etc.) ou bien embarquées automatiquement lorsqu’elles sont générées par un appareil ou un logiciel source (horodatage, géolocalisation, paramètres d’imagerie, etc.). Une combinaison des deux est également possible.

Dans certaines disciplines, il existe des modèles de métadonnées standards et parfois des outils dédiés pour les générer. Le plus souvent, les entrepôts de données proposent également des standards de métadonnées disciplinaires ou généralistes selon leur périmètre.