ObTIC | LabRADoR

Créer une édition scientifique numérique pour son corpus – Affichage web du texte

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce troisième et dernier atelier de la série est dédié à l’affichage web de son corpus encodé, c’est-à-dire pouvoir observer concrètement les enrichissements variés qui ont été apportés à son corpus via l’encodage. Après une brève introduction de l’intérêt et des méthodes d’une telle étape, l’atelier aura pour but de présenter et de travailler sur plusieurs outils permettant l’affichage web.

Pré-requis : ordinateur portable, connexion internet

Début

ven 16/05/2025 - 14:00

Fin

ven 16/05/2025 - 17:00

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Créer une édition scientifique numérique pour son corpus – Encodage et annotation du texte

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Résumé : Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce second atelier est dédié à l’encodage de texte en XML-TEI, le standard utilisé de nos jours pour encoder des textes littéraires. Après une introduction au langage de balisage XML et aux composants du standard TEI, les participants procéderont, avec l’outil de conversion XML et manuellement, à l’encodage des métadonnées, du corps du texte, ainsi que de diverses annotations (sémantique, critiques, etc.) pertinentes pour le corpus travaillé.

Pré-requis : ordinateur portable, connexion internet, avoir installé Oxygen (obtenir une licence seulement le jour de l’atelier)

Début

ven 14/03/2025 - 14:00

Fin

ven 14/03/2025 - 17:00

Lieu

BNF DataLab

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Créer une édition scientifique numérique pour son corpus – Reconnaissance automatique du texte

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce premier atelier est dédié à la reconnaissance automatique de texte, discipline en constante évolution qui permet aujourd’hui, à l’aide de modèles entraînés, d’acquérir efficacement et rapidement une version lisible par machine d’un corpus de textes. Après une présentation de la discipline, l’atelier fera mettre en pratique ce qui a été mentionné, en appliquant des modèles de segmentation et de transcription, sur le corpus apporté, afin d’obtenir une version exploitable ensuite.

Pré-requis : ordinateur portable, connexion internet, avoir demandé la création d’un compte sur l’instance eScriptorium (rajouter le bon lien)

Documents : à venir

Début

ven 17/01/2025 - 14:00

Fin

ven 17/01/2025 - 17:00

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Journée d’étude IA & Humanités Numériques

L’ObTIC et le SCAI ont le plaisir de vous convier à une demi-journée d’étude dédiée à l’exploration du rôle croissant de l’intelligence artificielle dans les humanités numériques.

Cette rencontre sera l’occasion de réfléchir aux nouvelles perspectives qu’offre l’IA dans la recherche en sciences humaines et sociales, ainsi qu’aux défis méthodologiques qu’elle soulève.

Les 3 interventions, en anglais, seront assurées par:

Michael E. Sinatra, Université de Montréal: « Leveraging a DH Center to explore new interactions between AI and DH »
Javier Cha, Université de Hong Kong: « Future-Proofing the Past: Historical Research in a Digital Age »
Lauren Craig Tilton, Université de Richmond: « Distant Viewing: AI and Ways of Seeing »

Informations pratiques:

Date : le mardi 19 novembre 2024
Horaire: 10h-13h
Lieu: SCAI, salle des séminaires, campus Jussieu (plan ici)
Participation sur place ou en ligne: ici.

Début

mar 19/11/2024 - 10:00

Fin

mar 19/11/2024 - 13:00

Lieu

En visioconférence

Campus Pierre et Marie Curie - SCAI Seminar Room

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Consultez le site d'Obtic

Prompt Engineering : l'art des requêtes efficaces

Résumé : Cet atelier propose une exploration approfondie du "Prompt Engineering", l’art de formuler des requêtes optimisées pour interagir avec des modèles d'IA, tels que ChatGPT, Mistral ou Llama. Cet atelier vous permettra de découvrir les bonnes pratiques pour formuler des prompts qui donnent des résultats précis et créatifs.

À travers des exemples concrets et des exercices pratiques, nous aborderons les bases théoriques en discutant de la littérature scientifique sur le sujet ainsi que des astuces avancées pour améliorer l'efficacité de vos requêtes. L'objectif est d'outiller les participants afin qu'ils puissent maximiser les résultats de leurs interactions avec des outils IA tout en développant une compréhension plus fine de leur fonctionnement.

Public concerné : Débutants souhaitant découvrir les bases d'utilisation de ChatGPT et améliorer leurs interactions avec les modèles d'IA.

Pré-requis : ordinateur portable, connexion internet, éventuellement un compte sur des plateformes d'IA (ChatGPT, DALL-E)

Début

ven 13/12/2024 - 14:00

Fin

ven 13/12/2024 - 16:00

Lieu

BNF DataLab

S'inscire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

L’analyse de la parole - De la prosodie à l'analyse à base de modèles pré-entraînés

Résumé : Au cours des dix dernières années, l'émergence des approches en apprentissage profond ainsi que les modèles pré-entraînés (e.g. Wav2Vec 2.0, Whisper) ont permis d'atteindre des performances impressionnantes sur une variété de tâches. Néanmoins, les méthodes basées sur la théorie linguistique restent pertinentes, notamment pour leur explicabilité. Cet atelier proposera un aperçu des outils disponibles pour les tâches de traitement de la parole, ainsi qu'une introduction à leur utilisation.

L'atelier débutera avec une brève introduction sur le traitement du son. Ensuite nous analyserons un ensemble de données audios en commençant par des analyses prosodiques avec les outils Praat et Prosogram. Enfin, nous utiliserons ces mêmes données pour explorer des modèles pré-entraînés en accès libre (Wav2Vec et Whisper), afin de comprendre leur fonctionnement et d'évaluer leurs performances.

Public concerné : Débutants en traitement de la parole avec des connaissances en TAL

Pré-requis : ordinateur portable, connexion internet, Praat installé, scripts Prosogram téléchargés, accès Google Colab

Début

jeu 07/11/2024 - 14:00

Fin

jeu 07/11/2024 - 18:00

Lieu

Campus Pierre et Marie Curie - SCAI Seminar Room

S'inscire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Extraction de concepts clés à partir de textes

Cet atelier présente deux librairies Python, keybert et keyphrase-vectorizers, pour la tâche d’extraction de concepts clés à partir de textes. Notre objectif est d’extraire les mots-clés à partir du corpus des textes médicaux écrits par Jean-Martin Charcot (fondateur de la neurologie moderne et française au XIXe s.) d’une part, et d’autre à partir des textes écrits par ses élèves et collègues. Cette tâche s’inscrit dans le projet de thèse en cours axé sur le pistage de circulation du discours médical de Jean-Martin Charcot.

Début

mar 30/04/2024 - 10:00

Fin

mar 30/04/2024 - 12:00

Lieu

BNF DataLab

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Consultez le GitHub de l'atelier

Les bases de données en humanités numériques

Les projets de recherche en humanités numériques créent des données qu’il faut gérer soigneusement. De cette fin, des connaissances de la théorie des bases de données et sa mise en pratique seraient un ajout important aux compétences des étudiant.e.s, doctorant.e.s et chercheur.euse.s.

Cet atelier de deux heures vise à introduire les participant.e.s aux enjeux des bases de données relationnelles et des systèmes de gestion de bases de données. Nous parlerons également de Structured Query Language (SQL).

Début

ven 23/02/2024 - 10:00

Fin

ven 23/02/2024 - 12:00

Lieu

BNF DataLab

Contactez la formatrice pour vous inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Pandore toolbox

Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.

Qui contacter pour être accompagné ?

ObTIC - Observatoire des textes, des idées et des corpus

En savoir plus sur l'outil

Pandore Toolbox

ObTIC

Traiter et analyser ses données

Collecter & organiser ses données

Apprentissage profond pour l'analyse automatique des textes en SHS

Par une approche pratique, nous aborderons dans cet atelier les principes généraux de l'analyse de textes en traitement automatique des langues: nettoyage et préparation de données, lemmatisation, stopswords, vectorisation, normalisation, etc. Ensuite, à l'aide de la bibliothèque des transformers Hugging Face, nous allons appliquer à un jeu de données une série de traitements et d'analyse comme l'extraction d'information (entités nommées), l'analyse des émotions, l'analyse thématique, la visualisation, etc.

Début

ven 14/06/2024 - 14:00

Fin

ven 14/06/2024 - 18:00

Lieu

Campus Pierre et Marie Curie

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Ateliers Numériques et séminaires ObTIC

ObTIC