Analyse et valorisation des données qualitatives

de la statistique textuelle à la publication Web des résultats

Authors
Affiliations

France Guérin-Pace et Bénédicte Garnier

Institut national d’études démographiques (INED), F-93300 Aubervilliers, France

Labaly Touré

Université du Sine Saloum El Hadj Ibrahima NIASS (USSEIN), F-21000 Kaolack, Sénégal

Ce site a été créé dans le cadre d’une formation dispensée du 5 au 7 mai 2026 au master de Géomatique

site en cours de construction

Objectifs de la formation

Montrer l’apport des données qualitatives en complément de données quantitatives. Exposer les méthodes de traitement des données textuelles à partir d’exemples de différents corpus (questions ouvertes, entretiens, articles, etc.).

Traiter des données textuelles et présenter l’analyse de différents types de corpus.

Publier le contenu de cette formation sur un site produit avec Quarto (dans RStudio) hébergé sur GitLab.

Public : Etudiants en Master 2

Programme

Jour 1: Les fondements de la statistique textuelle

Du matériau qualitatif à l’analyse quantitative

  • La diversité des données qualitatives et leur contexte de production
  • Présentation de différents corpus de données textuelles : réponses à des questions ouvertes dans des enquêtes, mots associés, entretiens, etc.
  • La mise en forme des données textuelles pour une analyse quantitative (TLE, vocabulaire, lemmatisation, statistiques lexicales)

Initiation à l’analyse lexicale

  • Présentation du package R.temis et de IRamuteq
  • Pratique sur trois corpus extraits de l’Enquête EuroBraodMap
  • Description du corpus (vocabulaire)
  • Statistiques lexicales et interprétations
  • Spécificités lexicales

Jour 2 : Analyses multivariées de corpus de données textuelles

Rappel : vocabulaire de la statistique textuelle

L’analyses de données multivariées

  • L’analyse factorielle des correspondance (AFC et ACM) et les méthodes de classification (CDH) pour l’analyse de données textuelles
  • Les différentes étapes de traitement des corpus de données textuelles
  • Les sorties et leur interprétation (spécificités lexicales, plans factoriels, univers lexicaux) à partir de l’exemple d’un corpus de textes courts et d’un corpus de textes longs.

Pratique des analyses multivariées

  • Choix d’un corpus par groupe (extrait de l’Enquête EuroBraodMap)
  • Présentation du logiciel IraMuteQ
  • Pratique de l’analyse factorielle des correspondances (AFC) et de la classification hiérarchique descendante (CDH) sur le corpus choisi

Jour 3 : Restitution des résultats et valorisation

Présentations des résultats par les groupes de travail

  • Pour chaque groupe, rédaction d’un rapport dans Quarto présentant les analyses réalisées
  • Restitution des analyses
  • Débriefing

Publication web avec Quarto sur Gitlab

  • Présentation des éléments constituant le site hébergé sur le GitLab
  • Dépôts des présentations sur le site en complément des éléments du cours pour valoriser cette formation
  • Bilan de la formation

Dépot de l’ensemble des fichiers sur GitLab ici