a venir
Ce second atelier est dédié à l’encodage de texte en XML-TEI, le standard utilisé de nos jours pour encoder des textes littéraires. Après une introduction au langage de balisage XML et aux composants du standard TEI, les participants procéderont aux travaux pratiques, avec l’encodage des métadonnées, du corps du texte, ainsi que de diverses annotations (sémantique, critiques, etc.) pertinentes pour le corpus travaillé.
Cet atelier, qui se décline en deux étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions numériques.
Ce premier atelier est dédié à la reconnaissance automatique de texte, discipline en constante évolution qui permet aujourd’hui, à l’aide de modèles entraînés, d’acquérir efficacement et rapidement une version lisible par machine d’un corpus de textes. Après une présentation de la discipline, l’atelier fera mettre en pratique ce qui a été mentionné, en appliquant des modèles de segmentation et de transcription, sur le corpus apporté, afin d’obtenir une version exploitable ensuite.
Pré-requis : ordinateur portable, connexion internet
Lien : GitHub
Cet atelier, en présentiel, et réservé aux chercheur·euses et étudiant·es ayant déjà un usage et une connaissance de base de cet outil, sera animé par Gaël Lejeune et Marceau Hernandez (STIH/CERES).
Pouvoir analyser automatiquement des corpus textuels afin d’en tirer des statistiques et pouvoir faire des recherches précises de certaines expressions sont deux des enjeux de la textométrie. Concrètement, il peut s’agir de rechercher les contextes d’apparition de mots ou d’expressions, comparer la fréquence de différentes expressions ou encore comparer des corpus pour trouver automatiquement ce qui les différencie.
Si vous avez des corpus sur lesquels vous comptez travailler qui ne sont pas encore structurés en XML ou CSV, vous pouvez nous écrire pour que nous voyons comment vous aider à les préparer pour une utilisation plus commode de l'outil.
Résumé : Cet atelier propose une exploration approfondie du "Prompt Engineering", l’art de formuler des requêtes optimisées pour interagir avec des modèles d'IA, tels que ChatGPT, Mistral ou Llama. Cet atelier vous permettra de découvrir les bonnes pratiques pour formuler des prompts qui donnent des résultats précis et créatifs.
À travers des exemples concrets et des exercices pratiques, nous aborderons les bases théoriques en discutant de la littérature scientifique sur le sujet ainsi que des astuces avancées pour améliorer l'efficacité de vos requêtes. L'objectif est d'outiller les participants afin qu'ils puissent maximiser les résultats de leurs interactions avec des outils IA tout en développant une compréhension plus fine de leur fonctionnement.
Public concerné : Débutants souhaitant découvrir les bases d'utilisation de ChatGPT et améliorer leurs interactions avec les modèles d'IA.
Pré-requis : ordinateur portable, connexion internet, éventuellement un compte sur des plateformes d'IA (ChatGPT, DALL-E)
Pouvoir analyser automatiquement des corpus textuels afin d’en tirer des statistiques et pouvoir faire des recherches précises de certaines expressions sont deux des enjeux de la textométrie. Concrètement, il peut s’agir de :
- Rechercher les contextes d’apparition de mots ou d’expressions
- Comparer la fréquence de différentes expressions
- Comparer des corpus pour trouver automatiquement ce qui les différencie.
- Obtenir des représentations graphiques de ces résultats
Si vous avez des corpus sur lesquels vous comptez travailler, nous pourrons en toute fin de séance les examiner ensemble.
Afin de faciliter les manipulations, merci en amont de télécharger et installer l'outil : https://txm.gitpages.huma-num.fr/textometrie/
Fouille et exploration de fonds littéraires, éditions augmentées, caractérisation des mobilités
anciennes et contemporaines, étude des réseaux d’information et des archives du web,
reconstitution virtuelle des objets du patrimoine : les recherches en humanités numériques menées
au sein de la Faculté des Lettres, couvrent un large spectre de problématiques. Il est aujourd’hui
nécessaire d’offrir, en soutien à ces dynamiques, des outils dédiés et un support de développement
adapté.
Dans cette perspective, la Faculté des Lettres, en partenariat avec la Bibliothèque Sorbonne
Université (BSU) et l’Unité de Service Mutualisée SACADO dans le cadre du projet LabRADoR,
met à disposition des laboratoires, enseignantes-chercheuses, enseignants-chercheurs,
chercheurs, chercheuses, des serveurs et des machines virtuelles accessibles sur demande.
Ce projet pilote a pour objectif d’offrir un soutien durable, au travers, notamment :
- d’un accès gratuit à de l’espace de stockage, à l’hébergement d’une application ou
d’un portail web scientifique et à du temps de calcul pour les projets de recherche ; - de conseils et formations concernant l’ouverture, la structuration et la curation des
bases de données issues des laboratoires de la Faculté des Lettres, couvrant
l'ensemble de la chaîne de traitement ; - d'un accompagnement pour l’adoption de bonnes pratiques en matière de
méthodologie, de standards numériques et de gestion de projets ; - de formations dédiées, internes et externes, en lien avec les outils et méthodes du
numérique pour les humanités.
L'équipe du projet Lab-Radar reste disponible pour répondre à vos questions et vous offrir cet
appui. N’hésitez pas à contacter Yasmine Bellouch, chargée de projet
(yasmine.bellouch@sorbonne-universite.fr) et Barbara van Doosselaere, responsable de la
valorisation de la recherche (barbara.van_doosselaere@sorbonne-universite).
Objectifs
- Découvrir les principes fondamentaux du RGPD
- Connaitre les procédures à mettre en œuvre dans le cadre d’un traitement de données à caractère personnel
Contenus
- Définition des termes et des rôles
- Présentation des procédures à mettre en œuvre pour être en conformité avec le RGPD
- Réponses aux questions
Objectifs
- Découvrir le logiciel OpenRefine pour traiter des données tabulées
- Connaître les fonctionnalités utiles pour nettoyer, transformer, restructurer
ses données
Contenus
- Présentation de l’interface d’OpenRefine
- Créer des facettes, trier et filtrer ses données
- Nettoyer ses données avec des fonction pré-enregistrées
- Nettoyer ses données avec des formules en GREL
- Exporter son projet ou ses données
Une session plus approfondie est également proposée en rendez-vous individuel pour compléter cette formation
Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.