Aller au contenu principal
Accueil

Menu principal

  • Accueil
  • Cadre institutionnel et juridique
    • Les données de la recherche à Sorbonne Université
    • Plans nationaux pour la science ouverte
    • Cadre juridique
  • Votre projet par étapes
    • Plan de gestion des données
    • Collecter ses données
    • Organiser et décrire ses données
    • Traiter & Analyser ses données
    • Stocker ses données
    • Archiver ses données
    • Partager ses données
    • Réutiliser ses données
    • Rendre vos données FAIR ?
    • Exigences des financeurs
  • Besoin d'accompagnement?
    • Les services
    • Se former
    • Les outils
    • L'équipe

Fil d'Ariane

  1. Accueil
  2. Votre projet par étapes

Organiser et décrire ses données

Que ce soit dans une perspective de partage ou de conservation, il est fondamental de bien décrire et organiser vos données. Votre jeu de données doit être compréhensible par une personne n’ayant pas participé au projet : elle doit pouvoir naviguer dans l’arborescence, connaître le contenu d’un fichier sans avoir à l’ouvrir, et en comprendre rapidement le contenu.

Dans la majorité des disciplines, des standards ont été développés afin de normaliser les pratiques d’organisation d’un jeu de données, de description (à l’aide de métadonnées) ou de structuration des fichiers. Il est recommandé d’utiliser ces standards. Dans le cas où vous ne les utiliseriez pas, il est conseillé de documenter précisément vos pratiques. N’oubliez pas que vous serez le premier réutilisateur de vos données : ce travail de structuration et de description vous sera également bénéfique.

Utilisez des formats de fichiers ouverts, structurés et documentés

Privilégiez les formats ouverts

Voici les principales caractéristiques des formats ouverts :

  • Ils correspondent à des fichiers encodés de façon transparente.
  • Leurs spécifications appartiennent au domaine public.
  • Ils sont interopérables : ils peuvent être créés, lus et modifiés par tout logiciel conçu pour traiter ce type de fichier.

Il est fortement recommandé de privilégier ces formats, car ils facilitent la réutilisation de vos données ainsi que leur conservation à long terme.

Si vous utilisez un format propriétaire — parce qu’il s’agit de la norme dans votre discipline ou parce que vous êtes dépendant d’un logiciel — il est important de préciser, dans le fichier ReadMe et dans les métadonnées, les logiciels ou instruments utilisés. Mentionnez de manière précise le nom, l’éditeur ou le fabricant, ainsi que la version.

Enfin, notez que le simple choix d’un format ouvert ne suffit pas à garantir la réutilisation de vos données : il est également essentiel de privilégier des formats structurés et, lorsque cela est pertinent, modifiables.

Quelques Ressources :

DORANum, Format ouvert ou fermé ? https://doi.org/10.13143/MCWQ-QS64

FACILE, service de validation de format https://facile.cines.fr/ 

JHOVE Open source file format identification, validation & characterisation https://jhove.openpreservation.org/

Conformez-vous aux standards disciplinaires

Les standards (parfois aussi appelés formats) définissent la manière dont vos données sont structurées à l’intérieur d’un fichier (par exemple : nom des variables, règles d’utilisation des variables — obligatoires ou facultatives, uniques ou répétables, listes de valeurs fermées, etc.).

Certains standards intègrent également des informations relatives au fichier lui-même, à son contexte de création ou au contexte d’acquisition des données. Ces informations, souvent générées automatiquement par le logiciel d’acquisition, favorisent la traçabilité et la reproductibilité. Il est donc préférable de privilégier les formats qui offrent des métadonnées riches (pour plus de détails, consultez la partie Métadonnées).

Exemples :

  • TEI: basé sur le format XML, il permet de structurer des documents textuels grâce à des balises.
  • OME-TIFF : utilisé en microscopie, ce conteneur associe des fichiers image au format TIFF et des fichiers de métadonnées au format XML.
  • Les Minimum Informations standards (MIxE) : ils regroupent un ensemble de standards relatifs au expérimentations en omiques (MIAME, MINSEQE, MIAPE, MIFlowCyt ...)

Vous n’utilisez pas de standard ? Documentez la structure de vos fichiers !

Il existe des situations où vous ne pouvez pas utiliser de standards disciplinaires, soit parce qu’ils ne sont pas adaptés, soit parce que vous n’êtes pas outillés pour le faire. Dans ce cas, il est essentiel de documenter la structure de vos fichiers afin de les rendre compréhensibles et réutilisables.

Explicitez le nom de vos variables, leur type (chaîne de caractères, nombre, booléen, date, etc.) et les règles de remplissage (obligatoire/facultative, unique/répétées, liste de valeur contrôlée, normes, unités)

Exemple sidecar json

Pour ce faire, vous pouvez :

  • Utiliser des fichiers “sidecar” : créez un fichier dans un format ouvert et structuré (XML, JSON, CSV) qui documente la structure d’un fichier ou d’un type de fichier contenu dans votre jeu de données. Il doit être facilement identifiable et associé au fichier qu’il décrit : pour cela, utilisez une convention de nommage claire.
  • Préciser ces informations dans un fichier ReadMe.

Organisez et décrivez votre jeu de données

Organisez et nommez correctement vos fichiers 

Un jeu de données est constitué d’un ensemble de fichiers. Lorsqu’il est complexe, il est nécessaire de le structurer dans une arborescence de dossiers. À la racine de votre jeu de données, on trouvera généralement des fichiers communs à l’ensemble du jeu (un fichier de métadonnées, une licence de réutilisation, un fichier README, etc.).

Afin de faciliter la compréhension et la réutilisation de vos données, votre organisation doit respecter certaines règles :

  • Organisez et nommez vos fichiers de manière logique, cohérente et compréhensible par d’autres.
  • Évitez les arborescences trop profondes (trop de dossiers imbriqués).
  • Limitez les informations redondantes à différents niveaux de l’arborescence.
  • Supprimez les doublons de fichiers.
  • N’utilisez pas de noms de fichiers trop longs.
  • Évitez les espaces (utilisez plutôt des tirets ou des underscores) et les caractères accentués.
  • Adoptez un format de date non ambigu, par exemple YYYYMMDD ou YYYY-MM-DD.

Il est important de réfléchir au nommage et à l’organisation de vos fichiers en amont du projet. Documentez ensuite vos choix d’organisation et de convention de nommage dans le fichier ReadMe, placé à la racine de votre jeu de données.

Quelques Ressources :

Thorsten Arendt, Mittal, D., Sehara, K., Cook, T., & Julien Colomb. (2023). Folder structure template for research repositories (v2.4). Zenodo. https://doi.org/10.5281/zenodo.7763694

Urfist Méditerranée, & Institut de l’Information Scientifique et Technique. (2023). DoRANum-Stockage et archivage : Comment bien nommer ses fichiers ? DoRANum. https://doi.org/10.13143/WGQW-AA59

Vous pouvez également vous appuyer sur des standards internationaux ou disciplinaires qui imposent des règles d’organisation et de nommage. Ainsi, toute personne ou tout logiciel maîtrisant ce standard pourra naviguer facilement dans votre jeu de données. Exemples :

  • En imagerie médicale, le standard BIDS (Brain Imaging Data Structure) propose une structuration par répertoire (un dossier par sujet d’étude, pouvant se décliner en sous-répertoires par type de données ou phase d’acquisition). Il définit aussi une convention de nommage fondée sur une liste fermée de
  • Le format HDF5 (Hierarchical Data Format) permet de compléter l’approche arborescente par une organisation interne en « groupes » pour classer les fichiers.

Dans la plupart des cas, l’utilisation de standards est transparente, car elle est directement prise en charge par les logiciels ou les scripts utilisés.

Décrivez votre jeu de données avec des métadonnées

Au-delà de la description des fichiers (mentionnée précédemment), il est indispensable de documenter votre jeu de données dans son ensemble. Cette démarche présente plusieurs avantages :

  • Documenter le contenu : elle permet à de potentiels réutilisateurs d’avoir une idée claire du contenu du jeu de données sans avoir à télécharger ni ouvrir les fichiers qui le composent.
  • Améliorer la découvrabilité : elle facilite l’indexation de votre jeu de données dans des catalogues ou moteurs de recherche, ce qui accroît sa visibilité.
  • Permettre la citation : votre jeu de données pourra être cité correctement (auteurs, titre, date, identifiant, etc.).

Il existe différents standards de métadonnées pour décrire un jeu de données. Le standard généraliste le plus répandu est DataCite. Il permet d’associer de nombreuses informations à un jeu de données, telles que : les auteurs et autrices, un titre, des mots-clés, une description, les financeurs, ainsi que des relations avec d’autres produits de recherche, etc.

Lorsque vous partagez votre jeu sur un entrepôt de données, le choix du standard et l’ajout de métadonnées est relativement transparent. Vous choisissez un entrepôt (parfois disciplinaire) qui vous impose le l’utilisation d’un standard de métadonnées. L’ajout des métadonnées se fait le plus souvent par le biais d’un formulaire de saisie.

Rédigez un fichier ReadMe

Les métadonnées sont une manière structurée de fournir des informations sur votre jeu de données. Elles sont le plus souvent conçues pour être interprétées et utilisées par des logiciels (moteurs de recherche, catalogues, entrepôts de données, etc.).

Le fichier ReadMe, quant à lui, propose une description plus détaillée, narrative et moins contrainte, destinée aux humains. Dans ce fichier, vous devez notamment :

  • Décrire le contenu de votre jeu de données.
  • Préciser les logiciels, méthodes et équipements utilisés pour collecter et/ou analyser les données, ainsi que les logiciels nécessaires pour les lire.
  • Présenter les règles de nommage et d’organisation du jeu de données.
  • Décrire les métadonnées ou variables lorsque celles-ci ne correspondent à aucun standard et ne sont spécifiées dans aucun fichier annexe (ex. : description de la variable, type, unités, valeurs autorisées, etc.).

Ce fichier est généralement rédigé dans un format texte simple (.txt) , vous pouvez toutefois utiliser le Markdown (.md) si vous souhaitez une structuration plus claire. Il est, le plus souvent, placé à la racine de votre jeu de données. Notez que vous pouvez rédiger plusieurs ReadMe qui documentent différents types de données au sein de votre de jeu de données.

Focus sur les métadonnées

Une métadonnée est une donnée qui permet de décrire précisément un objet. Elles sont essentielles non seulement pour la bonne organisation de vos données, mais aussi pour leur analyse. On distingue généralement deux types de métadonnées :

  • Métadonnées embarquées : informations techniques produites automatiquement, comme la date de création d’une photo, la taille d’un fichier ou son nom.
  • Métadonnées enrichies : informations ajoutées par la chercheuse ou le chercheur au cours d’une phase d’analyse, ou pour documenter un fichier ou un jeu de données.
     
Source: DORANum

Les standards

Un standard de métadonnées est un ensemble de règles encadrant la structuration et l’utilisation des métadonnées. Reconnu, normalisé et largement utilisé, il peut définir :

  • Les variables utilisées pour décrire des données,
  • Les variables obligatoires ou facultatives,
  • Les variables uniques ou répétables,
  • Les règles de remplissage (formats de date, vocabulaires contrôlés, etc.).

Il existe de nombreux standards. Le choix doit se faire en fonction du type de données traitées et du domaine scientifique. Exemples :

  • Standards génériques : Dublin Core (largement utilisé pour décrire des ressource sur le web), DataCite (utilisé pour décrire les produites de recherche, dont les jeu de données et logiciel).
  • Standards disciplinaires : MIDAS-Heritage (architecture), EML (écologie), DDI (enquêtes)

Pour identifier un standard adapté à vos données et à votre discipline il existe plusieurs solutions : 

  • Consulter les standards utilisés par les entrepôts de données de votre discipline (voir Partager ses données).
  • Explorer des catalogues dédiés aux standards et métadonnées : Digital Curation Centre, Metadata Standards Catalog ...
  • Demander conseil aux experts disciplinaires de votre établissement : les plateformes de recherche sont souvent des points de contact, et les ingénieurs qui y travaillent disposent fréquemment d’une expertise sur les standards de fichiers, de données et de métadonnées (voir Collecter des données).
  • Nous contacter : nous pouvons vous accompagner dans l’identification du standard le plus adapté à vos besoins.

Vocabulaires contrôlés et normes

Même si le standard que vous utilisez ne mentionne pas de vocabulaires ou de normes spécifiques pour remplir vos champs, il est fortement recommandé d’en utiliser. L’usage de vocabulaires contrôlés ou de normes permet :

  • d’uniformiser les valeurs au sein de votre jeu de données,
  • de faciliter l’interopérabilité avec d’autres jeux de données,
  • d’améliorer la compréhension et la réutilisation de vos données.

Exemples de normes :

  • ISO 8601 pour les dates (format : AAAA-MM-JJ).
  • ISO 639 pour les langues (codes à 2 ou 3 lettres, ex. : fr, fre, fra).

Exemples de vocabulaires contrôlés :

  • Classification de Strunz pour les minéraux.
  • Nomenclature IUPAC pour les composés chimiques.
  • Thésaurus Pactols, dédié à l’indexation des sujets et des lieux en archéologie.
  • Thésaurus MESH pour les sciences biomédicales

Ressources pour trouver des vocabulaires disciplinaires :

  • BARTOC (Basic Register of Thesauri, Ontologies & Classifications)
  • Loterre (Linked open terminology resources)

Menu principal

  • Plan de gestion des données
  • Collecter ses données
  • Organiser et décrire ses données
  • Traiter & Analyser ses données
  • Stocker ses données
  • Archiver ses données
  • Partager ses données
  • Réutiliser ses données
  • Rendre vos données FAIR ?
  • Exigences des financeurs

Formations associées :

  • Gérer et ouvrir les données de la recherche en 5 points
    mar 21/10/2025 - 12:00
  • [Doctorat] Améliorer sa gestion d’images avec Tropy
    mar 18/11/2025 - 14:00
Retour en haut👆🏼 
Propulsé par Drupal
Flux RSS

Pied de page

  • Mentions légales
  • Contact