Analyse et valorisation des données qualitatives

de la statistique textuelle à la publication Web des résultats

Authors

Affiliations

France Guérin-Pace et Bénédicte Garnier

Institut national d’études démographiques (INED), F-93300 Aubervilliers, France

Labaly Touré

Université du Sine Saloum El Hadj Ibrahima NIASS (USSEIN), F-21000 Kaolack, Sénégal

Ce site a été créé dans le cadre d’une formation dispensée du 5 au 7 mai 2026 au master de Géomatique

Objectifs de la formation

Montrer l’apport des données qualitatives en complément de données quantitatives. Exposer les méthodes de traitement des données textuelles à partir d’exemples de différents corpus (questions ouvertes, entretiens, articles, etc.).

Traiter des données textuelles et présenter l’analyse de différents types de corpus.

Publier le contenu de cette formation sur un site produit avec Quarto (dans RStudio) hébergé sur GitLab.

Public : Etudiants en Master 2

Programme

Jour 1: Les fondements de la statistique textuelle

Du matériau qualitatif à l’analyse quantitative

La diversité des données qualitatives et leur contexte de production
Présentation de différents corpus de données textuelles : réponses à des questions ouvertes dans des enquêtes, mots associés, entretiens, etc.
La mise en forme des données textuelles pour une analyse quantitative (TLE, vocabulaire, lemmatisation, statistiques lexicales)

Initiation à l’analyse lexicale

Présentation du package R.temis et de IRamuteq
Pratique sur trois corpus extraits de l’Enquête EuroBraodMap
Description du corpus (vocabulaire)
Statistiques lexicales et interprétations
Spécificités lexicales

Jour 2 : Analyses multivariées de corpus de données textuelles

Rappel : vocabulaire de la statistique textuelle

L’analyses de données multivariées

L’analyse factorielle des correspondance (AFC et ACM) et les méthodes de classification (CDH) pour l’analyse de données textuelles
Les différentes étapes de traitement des corpus de données textuelles
Les sorties et leur interprétation (spécificités lexicales, plans factoriels, univers lexicaux) à partir de l’exemple d’un corpus de textes courts et d’un corpus de textes longs.

Pratique des analyses multivariées

Choix d’un corpus par groupe (extrait de l’Enquête EuroBraodMap)
Présentation du logiciel IraMuteQ
Pratique de l’analyse factorielle des correspondances (AFC) et de la classification hiérarchique descendante (CDH) sur le corpus choisi

Jour 3 : Restitution des résultats et valorisation

Présentations des résultats par les groupes de travail

Pour chaque groupe, rédaction d’un rapport dans Quarto présentant les analyses réalisées
Restitution des analyses
Débriefing

Publication web avec Quarto sur Gitlab

Présentation des éléments constituant le site hébergé sur le GitLab
Dépôts des présentations sur le site en complément des éléments du cours pour valoriser cette formation
Bilan de la formation

Dépot de l’ensemble des fichiers sur GitLab ici