Traiter et analyser ses données

[Doctorat] Visualiser les données sous R

Objectifs :

Savoir mettre en place une démarche d'exploration graphique de ses données afin de les analyser statistiquement et éviter les pièges classiques
Connaitre les principes pour produire des "bon" graphs
Connaitre les principes de la vision humaine
Savoir utiliser à bon escient les couleurs dans les graphs
Savoir-faire des graphs reproductibles et réutilisables
Savoir-faire des graphs de qualité professionnelle

Programme :

Pourquoi faire des graphiques ?
Manipulation des données sous R
La package ggplot et ses extensions
Visualisation des modules linéaires
Utilisation des couleurs dans les graphs, théorie et application
Figures complexes sous R
Travail sur projet personnel

Prérequis :

Bonne pratique du langage R

Début

mar 11/02/2025 - 09:00

Fin

jeu 13/02/2025 - 17:00

Lieu

Campus Pierre et Marie Curie

Formation réservée

Doctorant·e·s

S'inscrire via ADUM (inscription à venir)

Formation assurée par

SARA - Service des archives et du recueil des actes

iEES - Institut d'Ecologie et des Sciences de l'Environnement de Paris

Consultez le catalogue de formations du Collège Doctoral

Créer une édition scientifique numérique pour son corpus – Affichage web du texte

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce troisième et dernier atelier de la série est dédié à l’affichage web de son corpus encodé, c’est-à-dire pouvoir observer concrètement les enrichissements variés qui ont été apportés à son corpus via l’encodage. Après une brève introduction de l’intérêt et des méthodes d’une telle étape, l’atelier aura pour but de présenter et de travailler sur plusieurs outils permettant l’affichage web.

Pré-requis : ordinateur portable, connexion internet

Début

ven 16/05/2025 - 14:00

Fin

ven 16/05/2025 - 17:00

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Créer une édition scientifique numérique pour son corpus – Encodage et annotation du texte

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Résumé : Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce second atelier est dédié à l’encodage de texte en XML-TEI, le standard utilisé de nos jours pour encoder des textes littéraires. Après une introduction au langage de balisage XML et aux composants du standard TEI, les participants procéderont, avec l’outil de conversion XML et manuellement, à l’encodage des métadonnées, du corps du texte, ainsi que de diverses annotations (sémantique, critiques, etc.) pertinentes pour le corpus travaillé.

Pré-requis : ordinateur portable, connexion internet, avoir installé Oxygen (obtenir une licence seulement le jour de l’atelier)

Début

ven 14/03/2025 - 14:00

Fin

ven 14/03/2025 - 17:00

Lieu

BNF DataLab

S'inscrire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Créer une édition scientifique numérique pour son corpus – Reconnaissance automatique du texte

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce premier atelier est dédié à la reconnaissance automatique de texte, discipline en constante évolution qui permet aujourd’hui, à l’aide de modèles entraînés, d’acquérir efficacement et rapidement une version lisible par machine d’un corpus de textes. Après une présentation de la discipline, l’atelier fera mettre en pratique ce qui a été mentionné, en appliquant des modèles de segmentation et de transcription, sur le corpus apporté, afin d’obtenir une version exploitable ensuite.

Pré-requis : ordinateur portable, connexion internet, avoir demandé la création d’un compte sur l’instance eScriptorium (rajouter le bon lien)

Documents : à venir

Début

ven 17/01/2025 - 14:00

Fin

ven 17/01/2025 - 17:00

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

Journée d’étude IA & Humanités Numériques

L’ObTIC et le SCAI ont le plaisir de vous convier à une demi-journée d’étude dédiée à l’exploration du rôle croissant de l’intelligence artificielle dans les humanités numériques.

Cette rencontre sera l’occasion de réfléchir aux nouvelles perspectives qu’offre l’IA dans la recherche en sciences humaines et sociales, ainsi qu’aux défis méthodologiques qu’elle soulève.

Les 3 interventions, en anglais, seront assurées par:

Michael E. Sinatra, Université de Montréal: « Leveraging a DH Center to explore new interactions between AI and DH »
Javier Cha, Université de Hong Kong: « Future-Proofing the Past: Historical Research in a Digital Age »
Lauren Craig Tilton, Université de Richmond: « Distant Viewing: AI and Ways of Seeing »

Informations pratiques:

Date : le mardi 19 novembre 2024
Horaire: 10h-13h
Lieu: SCAI, salle des séminaires, campus Jussieu (plan ici)
Participation sur place ou en ligne: ici.

Début

mar 19/11/2024 - 10:00

Fin

mar 19/11/2024 - 13:00

Lieu

En visioconférence

Campus Pierre et Marie Curie - SCAI Seminar Room

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Consultez le site d'Obtic

Prompt Engineering : l'art des requêtes efficaces

Résumé : Cet atelier propose une exploration approfondie du "Prompt Engineering", l’art de formuler des requêtes optimisées pour interagir avec des modèles d'IA, tels que ChatGPT, Mistral ou Llama. Cet atelier vous permettra de découvrir les bonnes pratiques pour formuler des prompts qui donnent des résultats précis et créatifs.

À travers des exemples concrets et des exercices pratiques, nous aborderons les bases théoriques en discutant de la littérature scientifique sur le sujet ainsi que des astuces avancées pour améliorer l'efficacité de vos requêtes. L'objectif est d'outiller les participants afin qu'ils puissent maximiser les résultats de leurs interactions avec des outils IA tout en développant une compréhension plus fine de leur fonctionnement.

Public concerné : Débutants souhaitant découvrir les bases d'utilisation de ChatGPT et améliorer leurs interactions avec les modèles d'IA.

Pré-requis : ordinateur portable, connexion internet, éventuellement un compte sur des plateformes d'IA (ChatGPT, DALL-E)

Début

ven 13/12/2024 - 14:00

Fin

ven 13/12/2024 - 16:00

Lieu

BNF DataLab

S'inscire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

L’analyse de la parole - De la prosodie à l'analyse à base de modèles pré-entraînés

Résumé : Au cours des dix dernières années, l'émergence des approches en apprentissage profond ainsi que les modèles pré-entraînés (e.g. Wav2Vec 2.0, Whisper) ont permis d'atteindre des performances impressionnantes sur une variété de tâches. Néanmoins, les méthodes basées sur la théorie linguistique restent pertinentes, notamment pour leur explicabilité. Cet atelier proposera un aperçu des outils disponibles pour les tâches de traitement de la parole, ainsi qu'une introduction à leur utilisation.

L'atelier débutera avec une brève introduction sur le traitement du son. Ensuite nous analyserons un ensemble de données audios en commençant par des analyses prosodiques avec les outils Praat et Prosogram. Enfin, nous utiliserons ces mêmes données pour explorer des modèles pré-entraînés en accès libre (Wav2Vec et Whisper), afin de comprendre leur fonctionnement et d'évaluer leurs performances.

Public concerné : Débutants en traitement de la parole avec des connaissances en TAL

Pré-requis : ordinateur portable, connexion internet, Praat installé, scripts Prosogram téléchargés, accès Google Colab

Début

jeu 07/11/2024 - 14:00

Fin

jeu 07/11/2024 - 18:00

Lieu

Campus Pierre et Marie Curie - SCAI Seminar Room

S'inscire

Formation assurée par

ObTIC - Observatoire des textes, des idées et des corpus

Les ateliers numériques de l'ObTIC

L’outil Minet pour Instagram et Panoptic

Développé par le CERES, Panoptic est un outil de visualisation, d’exploration et d’annotation de grands corpus d’images. Cet outil intègre notamment des algorithmes de groupage d’images par similarité, ce qui permet d’aider l’usager·e dans le tri et l’exploration. L’outil permet ainsi de :

Explorer l’ensemble des éléments d’un corpus d’images importé par les chercheur·euses.
Regrouper des images ensemble en fonction de leur similarité.
Trouver des images similaires à une image particulière ou à des groupes d’images.
Annoter des images en fonction de différentes propriétés : date, url, tag(s), valeur numérique, vrai/faux
Grouper, trier et filtrer des images en fonction de leurs propriétés (importées ou annotées dans l’interface).

Début

jeu 06/03/2025 - 16:00

Fin

jeu 06/03/2025 - 18:00

Lieu

Maison de la recherche - Salle D117

S'inscrire

Formation assurée par

CERES - Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales

Les ateliers du CERES