L'HTR/OCR en LSHS
TXM pour l’analyse de corpus de textes
Excel est un logiciel de tableurs particulièrement connu pour être propice à la réalisation de calculs et de graphiques à partir de données numériques. Il est également tout à fait possible de l’utiliser pour manipuler des objets textuels. Cela est particulièrement pertinent lorsque des chercheur·euses disposent déjà de données formatées pour ce logiciel, ou bien enregistrées en format .csv (car elles ont été inscrites à la main par les chercheur·euses dans ce logiciel, parce qu’un logiciel de collecte a permis de construire un corpus dans le format .csv, ou encore car des jeux de données sont partagées en open data dans ce format). L’usage d’Excel pour l’analyse de textes est également pertinent lorsque le coût de migration d’un corpus déjà constitué vers des logiciels de textométrie est trop important, ou bien n’est pas nécessairement pertinent pour la question de recherche qui est en jeu.
Fouille et exploration de fonds littéraires, éditions augmentées, caractérisation des mobilités
anciennes et contemporaines, étude des réseaux d’information et des archives du web,
reconstitution virtuelle des objets du patrimoine : les recherches en humanités numériques menées
au sein de la Faculté des Lettres, couvrent un large spectre de problématiques. Il est aujourd’hui
nécessaire d’offrir, en soutien à ces dynamiques, des outils dédiés et un support de développement
adapté.
Dans cette perspective, la Faculté des Lettres, en partenariat avec la Bibliothèque Sorbonne
Université (BSU) et l’Unité de Service Mutualisée SACADO dans le cadre du projet LabRADoR,
met à disposition des laboratoires, enseignantes-chercheuses, enseignants-chercheurs,
chercheurs, chercheuses, des serveurs et des machines virtuelles accessibles sur demande.
Ce projet pilote a pour objectif d’offrir un soutien durable, au travers, notamment :
- d’un accès gratuit à de l’espace de stockage, à l’hébergement d’une application ou
d’un portail web scientifique et à du temps de calcul pour les projets de recherche ; - de conseils et formations concernant l’ouverture, la structuration et la curation des
bases de données issues des laboratoires de la Faculté des Lettres, couvrant
l'ensemble de la chaîne de traitement ; - d'un accompagnement pour l’adoption de bonnes pratiques en matière de
méthodologie, de standards numériques et de gestion de projets ; - de formations dédiées, internes et externes, en lien avec les outils et méthodes du
numérique pour les humanités.
L'équipe du projet Lab-Radar reste disponible pour répondre à vos questions et vous offrir cet
appui. N’hésitez pas à contacter Yasmine Bellouch, chargée de projet
(yasmine.bellouch@sorbonne-universite.fr) et Barbara van Doosselaere, responsable de la
valorisation de la recherche (barbara.van_doosselaere@sorbonne-universite).
Objectifs
- Comprendre les différences entre pseudonymisation et anonymisation
- Découvrir des outils pour pseudonymiser et anonymiser ses données
Contenus
- Présentation des différences entre anonymisation et pseudonymisation
- Présentation de méthodes pour anonymiser les données (généralisation, randomisation)
- Démonstration d’outils pour anonymiser les données
Objectifs
- Découvrir les principes fondamentaux du RGPD
- Connaitre les procédures à mettre en œuvre dans le cadre d’un traitement de données à caractère personnel
Contenus
- Définition des termes et des rôles
- Présentation des procédures à mettre en œuvre pour être en conformité avec le RGPD
- Réponses aux questions
Cet atelier présente deux librairies Python, keybert et keyphrase-vectorizers, pour la tâche d’extraction de concepts clés à partir de textes. Notre objectif est d’extraire les mots-clés à partir du corpus des textes médicaux écrits par Jean-Martin Charcot (fondateur de la neurologie moderne et française au XIXe s.) d’une part, et d’autre à partir des textes écrits par ses élèves et collègues. Cette tâche s’inscrit dans le projet de thèse en cours axé sur le pistage de circulation du discours médical de Jean-Martin Charcot.
Contenus
- Présentation de l’interface d’OpenRefine
- Créer des facettes, trier et filtrer ses données
- Nettoyer ses données avec des fonction pré-enregistrées
- Nettoyer ses données avec des formules en GREL
- Exporter son projet ou ses données
Contenus
• Principes et méthodes de la transcription
• Panorama des outils
• Exemples de projets de transcription collaborative
• Démonstration de Transkribus et eScriptorium
Les projets de recherche en humanités numériques créent des données qu’il faut gérer soigneusement. De cette fin, des connaissances de la théorie des bases de données et sa mise en pratique seraient un ajout important aux compétences des étudiant.e.s, doctorant.e.s et chercheur.euse.s.
Cet atelier de deux heures vise à introduire les participant.e.s aux enjeux des bases de données relationnelles et des systèmes de gestion de bases de données. Nous parlerons également de Structured Query Language (SQL).