Traiter et analyser ses données

Pandore toolbox

Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.

Qui contacter pour être accompagné ?

ObTIC - Observatoire des textes, des idées et des corpus

En savoir plus sur l'outil

Pandore Toolbox

ObTIC

Traiter et analyser ses données

Collecter & organiser ses données

Apprentissage profond pour l'analyse automatique des textes en SHS

Par une approche pratique, nous aborderons dans cet atelier les principes généraux de l'analyse de textes en traitement automatique des langues: nettoyage et préparation de données, lemmatisation, stopswords, vectorisation, normalisation, etc. Ensuite, à l'aide de la bibliothèque des transformers Hugging Face, nous allons appliquer à un jeu de données une série de traitements et d'analyse comme l'extraction d'information (entités nommées), l'analyse des émotions, l'analyse thématique, la visualisation, etc.

Début

ven 14/06/2024 - 14:00

Fin

ven 14/06/2024 - 18:00

Lieu

Campus Pierre et Marie Curie

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Ateliers Numériques et séminaires ObTIC

Modéliser les connaissances en SHS : pourquoi, comment, jusqu’où ?

Objectifs

Maîtriser les fondements conceptuels de l’activité de modélisation, entendue comme démarche d’explicitation permettant de passer des connaissances implicites à des données partageables
Évaluer les apports scientifiques, pratiques et heuristiques de la phase de modélisation d’un projet de recherche en SHS visant la production et la diffusion de données
S’orienter dans les concepts informationnels et techniques convoqués dans les pratiques de production et de gestion des données de la recherche (identifiant, IRI, base de données, graphe de connaissances, entité, relation, modèle, thésaurus, ontologie, web sémantique, document numérique…)
Comprendre les liens techniques et informationnels existant entre modélisation et application des principes FAIR
Organiser le travail entre recherche, modélisation et informatique

Contenus

Principes du modèle RDF & notion de données ouvertes et liées
Décryptage de l’ontologie CIDOC-CRM : principes de fond, étude de la documentation, présentation de cas concrets
Survol des autres ontologies de la famille CIDOC-CRM
Bonnes pratiques de modélisation pour représenter les connaissances et les sources, leur contexte historique et leur contexte de production

Rendez-vous individuel

Lieu

Maison de la recherche

S'inscrire

Formation assurée par

CERES - Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales

Consultez le catalogue de formations de la BSU

Découvrir la transcription de textes manuscripts : Escriptorium et Transkribus

Objectifs

Connaître l’offre logicielle pour transcrire des documents
Découvrir les principes et les étapes de la transcription
Découvrir les solutions Escriptorium et Transkribus

Contenus

Principes et méthodes de la transcription
Panorama des outils
Exemples de projets de transcription collaborative
Démonstration de Transkribus et eScriptorium

Début

mer 12/02/2025 - 14:00

Fin

mer 12/02/2025 - 16:00

Love Data Week 10-14 fev. 2025

Lieu

Maison de la recherche

S'inscrire

Formation assurée par

Cellule données de la Bibliothèque de Sorbonne Université

OpenRefine II : Convertir, enrichir et exposer ses données

Objectifs

Récupérer des données sur le web
Utiliser les fonctions d’export avancé des données
Découverte de Wikidata

Contenus

Interroger des API, effectuer du web scraping pour enrichir ses données
Réconcilier des données avec Wikidata, ORCID…
Convertir des données structurées
Exposer ses données dans Wikidata

Prérequis

Maitriser les bases d’OpenRefine (voir formation Nettoyer ses données avec OpenRefine)

Début

mar 20/05/2025 - 14:00

Fin

mar 20/05/2025 - 16:30

Printemps de la donnée (19 mars au 24 juin 2024)

Lieu

En visioconférence

S'inscrire

Formation assurée par

Cellule données de la Bibliothèque de Sorbonne Université

OpenRefine I : Nettoyer ses données avec OpenRefine

Objectifs

Découvrir le logiciel OpenRefine pour traiter les données d’un tableur
Connaître les fonctionnalités utiles pour un projet de recherche

Contenus

Présentation de l’interface d’OpenRefine
Créer des facettes, trier et filter ses données
Nettoyer ses données avec des formules en GREL
Exporter son projet ou ses données

Méthode

Exposé et atelier pratique, avec votre ordinateur ou un ordinateur de la bibliothèque

Début

mar 28/11/2023 - 10:00

Fin

mar 28/11/2023 - 12:00

Lieu

En visioconférence

Campus Pierre et Marie Curie

S'inscrire

Formation assurée par

Cellule données de la Bibliothèque de Sorbonne Université

L'engagement pour la science ouverte

La plateforme MeSU

Supercalculateur

Le supercalculateur MeSU est constitué d’équipements conçus pour la performance pour des tâches de simulation numérique ou de calcul intensif. Ce service est accessible sur demande.
La documentation pour les utilisateurs du supercalculateur est disponible dans un espace dédié.

Environnement de virtualisation

L’environnement de virtualisation MeSU permet l’hébergement sur la plateforme de machines virtuelles Linux. Celles-ci peuvent notamment servir à la mise en oeuvre de portails ou d’applications scientifiques reliés aux autres composants de calcul et de stockage de la plateforme. Ce service est accessible sur demande.

Stockage de données

En plus des stockages liés au supercalculateur et à l’environnement de virtualisation, la plateforme MeSU offre un stockage de plus de 400 To pour tout type de données scientifiques. Ce stockage est accessible sur demande.

Qui contacter pour être accompagné ?

SACADO - Service d'Aide au Calcul et à l'Analyse de Données

En savoir plus sur l'outil

Page internet de MESU

SACADO

Traiter et analyser ses données

Collecter & organiser ses données

Stocker ses données

Traiter & Analyser ses données

Traiter et analyser ses données