Cet atelier présente deux librairies Python, keybert et keyphrase-vectorizers, pour la tâche d’extraction de concepts clés à partir de textes. Notre objectif est d’extraire les mots-clés à partir du corpus des textes médicaux écrits par Jean-Martin Charcot (fondateur de la neurologie moderne et française au XIXe s.) d’une part, et d’autre à partir des textes écrits par ses élèves et collègues. Cette tâche s’inscrit dans le projet de thèse en cours axé sur le pistage de circulation du discours médical de Jean-Martin Charcot.
Les projets de recherche en humanités numériques créent des données qu’il faut gérer soigneusement. De cette fin, des connaissances de la théorie des bases de données et sa mise en pratique seraient un ajout important aux compétences des étudiant.e.s, doctorant.e.s et chercheur.euse.s.
Cet atelier de deux heures vise à introduire les participant.e.s aux enjeux des bases de données relationnelles et des systèmes de gestion de bases de données. Nous parlerons également de Structured Query Language (SQL).
Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.
Par une approche pratique, nous aborderons dans cet atelier les principes généraux de l'analyse de textes en traitement automatique des langues: nettoyage et préparation de données, lemmatisation, stopswords, vectorisation, normalisation, etc. Ensuite, à l'aide de la bibliothèque des transformers Hugging Face, nous allons appliquer à un jeu de données une série de traitements et d'analyse comme l'extraction d'information (entités nommées), l'analyse des émotions, l'analyse thématique, la visualisation, etc.
Détails à venir