Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.
Par une approche pratique, nous aborderons dans cet atelier les principes généraux de l'analyse de textes en traitement automatique des langues: nettoyage et préparation de données, lemmatisation, stopswords, vectorisation, normalisation, etc. Ensuite, à l'aide de la bibliothèque des transformers Hugging Face, nous allons appliquer à un jeu de données une série de traitements et d'analyse comme l'extraction d'information (entités nommées), l'analyse des émotions, l'analyse thématique, la visualisation, etc.
Objectifs
- Maîtriser les fondements conceptuels de l’activité de modélisation, entendue comme démarche d’explicitation permettant de passer des connaissances implicites à des données partageables
- Évaluer les apports scientifiques, pratiques et heuristiques de la phase de modélisation d’un projet de recherche en SHS visant la production et la diffusion de données
- S’orienter dans les concepts informationnels et techniques convoqués dans les pratiques de production et de gestion des données de la recherche (identifiant, IRI, base de données, graphe de connaissances, entité, relation, modèle, thésaurus, ontologie, web sémantique, document numérique…)
- Comprendre les liens techniques et informationnels existant entre modélisation et application des principes FAIR
- Organiser le travail entre recherche, modélisation et informatique
Contenus
- Principes du modèle RDF & notion de données ouvertes et liées
- Décryptage de l’ontologie CIDOC-CRM : principes de fond, étude de la documentation, présentation de cas concrets
- Survol des autres ontologies de la famille CIDOC-CRM
- Bonnes pratiques de modélisation pour représenter les connaissances et les sources, leur contexte historique et leur contexte de production
Objectifs
- Connaître l’offre logicielle pour transcrire des documents
- Découvrir les principes et les étapes de la transcription
- Découvrir les solutions Escriptorium et Transkribus
Contenus
- Principes et méthodes de la transcription
- Panorama des outils
- Exemples de projets de transcription collaborative
- Démonstration de Transkribus et eScriptorium
Objectifs
- Récupérer des données sur le web
- Utiliser les fonctions d’export avancé des données
- Découverte de Wikidata
Contenus
- Interroger des API, effectuer du web scraping pour enrichir ses données
- Réconcilier des données avec Wikidata, ORCID…
- Convertir des données structurées
- Exposer ses données dans Wikidata
Prérequis
- Maitriser les bases d’OpenRefine (voir formation Nettoyer ses données avec OpenRefine)
Objectifs
- Découvrir le logiciel OpenRefine pour traiter les données d’un tableur
- Connaître les fonctionnalités utiles pour un projet de recherche
Contenus
- Présentation de l’interface d’OpenRefine
- Créer des facettes, trier et filter ses données
- Nettoyer ses données avec des formules en GREL
- Exporter son projet ou ses données
Méthode
- Exposé et atelier pratique, avec votre ordinateur ou un ordinateur de la bibliothèque
Supercalculateur
Le supercalculateur MeSU est constitué d’équipements conçus pour la performance pour des tâches de simulation numérique ou de calcul intensif. Ce service est accessible sur demande.
La documentation pour les utilisateurs du supercalculateur est disponible dans un espace dédié.
Environnement de virtualisation
L’environnement de virtualisation MeSU permet l’hébergement sur la plateforme de machines virtuelles Linux. Celles-ci peuvent notamment servir à la mise en oeuvre de portails ou d’applications scientifiques reliés aux autres composants de calcul et de stockage de la plateforme. Ce service est accessible sur demande.
Stockage de données
En plus des stockages liés au supercalculateur et à l’environnement de virtualisation, la plateforme MeSU offre un stockage de plus de 400 To pour tout type de données scientifiques. Ce stockage est accessible sur demande.