Organiser et décrire ses données
Que ce soit dans une perspective de partage ou de conservation, il est fondamental de bien décrire et organiser vos données. Votre jeu de données doit être compréhensible par une personne n’ayant pas participé au projet : elle doit pouvoir naviguer dans l’arborescence, connaître le contenu d’un fichier sans avoir à l’ouvrir, et en comprendre rapidement le contenu.
Dans la majorité des disciplines, des standards ont été développés afin de normaliser les pratiques d’organisation d’un jeu de données, de description (à l’aide de métadonnées) ou de structuration des fichiers. Il est recommandé d’utiliser ces standards. Dans le cas où vous ne les utiliseriez pas, il est conseillé de documenter précisément vos pratiques. N’oubliez pas que vous serez le premier réutilisateur de vos données : ce travail de structuration et de description vous sera également bénéfique.
Utilisez des formats de fichiers ouverts, structurés et documentés
Privilégiez les formats ouverts
Voici les principales caractéristiques des formats ouverts :
- Ils correspondent à des fichiers encodés de façon transparente.
- Leurs spécifications appartiennent au domaine public.
- Ils sont interopérables : ils peuvent être créés, lus et modifiés par tout logiciel conçu pour traiter ce type de fichier.
Il est fortement recommandé de privilégier ces formats, car ils facilitent la réutilisation de vos données ainsi que leur conservation à long terme.
Si vous utilisez un format propriétaire — parce qu’il s’agit de la norme dans votre discipline ou parce que vous êtes dépendant d’un logiciel — il est important de préciser, dans le fichier ReadMe et dans les métadonnées, les logiciels ou instruments utilisés. Mentionnez de manière précise le nom, l’éditeur ou le fabricant, ainsi que la version.
Enfin, notez que le simple choix d’un format ouvert ne suffit pas à garantir la réutilisation de vos données : il est également essentiel de privilégier des formats structurés et, lorsque cela est pertinent, modifiables.
Quelques Ressources :
DORANum, Format ouvert ou fermé ? https://doi.org/10.13143/MCWQ-QS64
FACILE, service de validation de format https://facile.cines.fr/
JHOVE Open source file format identification, validation & characterisation https://jhove.openpreservation.org/
Conformez-vous aux standards disciplinaires
Les standards (parfois aussi appelés formats) définissent la manière dont vos données sont structurées à l’intérieur d’un fichier (par exemple : nom des variables, règles d’utilisation des variables — obligatoires ou facultatives, uniques ou répétables, listes de valeurs fermées, etc.).
Certains standards intègrent également des informations relatives au fichier lui-même, à son contexte de création ou au contexte d’acquisition des données. Ces informations, souvent générées automatiquement par le logiciel d’acquisition, favorisent la traçabilité et la reproductibilité. Il est donc préférable de privilégier les formats qui offrent des métadonnées riches (pour plus de détails, consultez la partie Métadonnées).
Exemples :
- TEI: basé sur le format XML, il permet de structurer des documents textuels grâce à des balises.
- OME-TIFF : utilisé en microscopie, ce conteneur associe des fichiers image au format TIFF et des fichiers de métadonnées au format XML.
- Les Minimum Informations standards (MIxE) : ils regroupent un ensemble de standards relatifs au expérimentations en omiques (MIAME, MINSEQE, MIAPE, MIFlowCyt ...)
Vous n’utilisez pas de standard ? Documentez la structure de vos fichiers !
Il existe des situations où vous ne pouvez pas utiliser de standards disciplinaires, soit parce qu’ils ne sont pas adaptés, soit parce que vous n’êtes pas outillés pour le faire. Dans ce cas, il est essentiel de documenter la structure de vos fichiers afin de les rendre compréhensibles et réutilisables.
Explicitez le nom de vos variables, leur type (chaîne de caractères, nombre, booléen, date, etc.) et les règles de remplissage (obligatoire/facultative, unique/répétées, liste de valeur contrôlée, normes, unités)
Pour ce faire, vous pouvez :
- Utiliser des fichiers “sidecar” : créez un fichier dans un format ouvert et structuré (XML, JSON, CSV) qui documente la structure d’un fichier ou d’un type de fichier contenu dans votre jeu de données. Il doit être facilement identifiable et associé au fichier qu’il décrit : pour cela, utilisez une convention de nommage claire.
- Préciser ces informations dans un fichier ReadMe.
Organisez et décrivez votre jeu de données
Organisez et nommez correctement vos fichiers
Un jeu de données est constitué d’un ensemble de fichiers. Lorsqu’il est complexe, il est nécessaire de le structurer dans une arborescence de dossiers. À la racine de votre jeu de données, on trouvera généralement des fichiers communs à l’ensemble du jeu (un fichier de métadonnées, une licence de réutilisation, un fichier README, etc.).
Afin de faciliter la compréhension et la réutilisation de vos données, votre organisation doit respecter certaines règles :
- Organisez et nommez vos fichiers de manière logique, cohérente et compréhensible par d’autres.
- Évitez les arborescences trop profondes (trop de dossiers imbriqués).
- Limitez les informations redondantes à différents niveaux de l’arborescence.
- Supprimez les doublons de fichiers.
- N’utilisez pas de noms de fichiers trop longs.
- Évitez les espaces (utilisez plutôt des tirets ou des underscores) et les caractères accentués.
- Adoptez un format de date non ambigu, par exemple YYYYMMDD ou YYYY-MM-DD.
Il est important de réfléchir au nommage et à l’organisation de vos fichiers en amont du projet. Documentez ensuite vos choix d’organisation et de convention de nommage dans le fichier ReadMe, placé à la racine de votre jeu de données.
Quelques Ressources :
Thorsten Arendt, Mittal, D., Sehara, K., Cook, T., & Julien Colomb. (2023). Folder structure template for research repositories (v2.4). Zenodo. https://doi.org/10.5281/zenodo.7763694
Urfist Méditerranée, & Institut de l’Information Scientifique et Technique. (2023). DoRANum-Stockage et archivage : Comment bien nommer ses fichiers ? DoRANum. https://doi.org/10.13143/WGQW-AA59
Vous pouvez également vous appuyer sur des standards internationaux ou disciplinaires qui imposent des règles d’organisation et de nommage. Ainsi, toute personne ou tout logiciel maîtrisant ce standard pourra naviguer facilement dans votre jeu de données. Exemples :
- En imagerie médicale, le standard BIDS (Brain Imaging Data Structure) propose une structuration par répertoire (un dossier par sujet d’étude, pouvant se décliner en sous-répertoires par type de données ou phase d’acquisition). Il définit aussi une convention de nommage fondée sur une liste fermée de
- Le format HDF5 (Hierarchical Data Format) permet de compléter l’approche arborescente par une organisation interne en « groupes » pour classer les fichiers.
Dans la plupart des cas, l’utilisation de standards est transparente, car elle est directement prise en charge par les logiciels ou les scripts utilisés.
Décrivez votre jeu de données avec des métadonnées
Au-delà de la description des fichiers (mentionnée précédemment), il est indispensable de documenter votre jeu de données dans son ensemble. Cette démarche présente plusieurs avantages :
- Documenter le contenu : elle permet à de potentiels réutilisateurs d’avoir une idée claire du contenu du jeu de données sans avoir à télécharger ni ouvrir les fichiers qui le composent.
- Améliorer la découvrabilité : elle facilite l’indexation de votre jeu de données dans des catalogues ou moteurs de recherche, ce qui accroît sa visibilité.
- Permettre la citation : votre jeu de données pourra être cité correctement (auteurs, titre, date, identifiant, etc.).
Il existe différents standards de métadonnées pour décrire un jeu de données. Le standard généraliste le plus répandu est DataCite. Il permet d’associer de nombreuses informations à un jeu de données, telles que : les auteurs et autrices, un titre, des mots-clés, une description, les financeurs, ainsi que des relations avec d’autres produits de recherche, etc.
Lorsque vous partagez votre jeu sur un entrepôt de données, le choix du standard et l’ajout de métadonnées est relativement transparent. Vous choisissez un entrepôt (parfois disciplinaire) qui vous impose le l’utilisation d’un standard de métadonnées. L’ajout des métadonnées se fait le plus souvent par le biais d’un formulaire de saisie.
Rédigez un fichier ReadMe
Les métadonnées sont une manière structurée de fournir des informations sur votre jeu de données. Elles sont le plus souvent conçues pour être interprétées et utilisées par des logiciels (moteurs de recherche, catalogues, entrepôts de données, etc.).
Le fichier ReadMe, quant à lui, propose une description plus détaillée, narrative et moins contrainte, destinée aux humains. Dans ce fichier, vous devez notamment :
- Décrire le contenu de votre jeu de données.
- Préciser les logiciels, méthodes et équipements utilisés pour collecter et/ou analyser les données, ainsi que les logiciels nécessaires pour les lire.
- Présenter les règles de nommage et d’organisation du jeu de données.
- Décrire les métadonnées ou variables lorsque celles-ci ne correspondent à aucun standard et ne sont spécifiées dans aucun fichier annexe (ex. : description de la variable, type, unités, valeurs autorisées, etc.).
Ce fichier est généralement rédigé dans un format texte simple (.txt) , vous pouvez toutefois utiliser le Markdown (.md) si vous souhaitez une structuration plus claire. Il est, le plus souvent, placé à la racine de votre jeu de données. Notez que vous pouvez rédiger plusieurs ReadMe qui documentent différents types de données au sein de votre de jeu de données.