Objectifs :
Ce module vise à montrer comment tirer profit et contribuer à la démarche d'Open Science. Il est organisé en deux parties :
- La première, récupérer des données en ligne de manière automatique avec R. De très nombreuses données sont maintenant disponibles en ligne et peuvent être utilisées dans vos propres recherches. Ces données peuvent être téléchargées de manière automatique sous forme de script. Nous verrons les techniques de base pour accéder aux données stockées en ligne depuis le logiciel R. Vous développerez un projet concret de récupération de données utiles pour votre projet de thèses.
- La deuxième, publier ses données et scripts dans une démarche de Science ouverte et reproductible. Nous verrons comment valoriser les données et les scripts d'analyses que vous produisez pendant votre thèses. Nous verrons l’intérêt de faire cette démarche et comment faire concrètement pour publier les différentes composantes de vos projets (données et scripts). Nous verrons également comment créer des rapports automatiques de projet sous forme de pdfs ou document word avec le logiciel R.
Programme :
- Cycle de vie des données
- Plan de gestion de données
- Notion de métadonnées
- Diversité des sources de données sur Internet
- Notion d'internet : format html, json, APIs
- Techniques de webscraping pour récupérer des données sur internet avec R
- Pourquoi, comment et où publier ses données
- Savoir produire un rapport d'analyse de données automatique (R Markdown)
- Travail sur un projet personnel et récupération de données
Prérequis :
Bonne pratique du langage R