Mise en forme des données

Préparation des corpus

Plus ou moins simple et rapide selon les textes et outils utilisés. Le logiciel doit pouvoir différencier la variable textuelle des métadonnées (variables descriptives des répondants, variables de contexte …). Nous montons ici 2 mise en forme pour des fichiers à traiter avec R.temis ou IRaMuTeQ

Si les textes sont courts

Les textes courts peuvent être stockés dans une colonne d’un tableau de données et les métadonnées dans les autres colonnes. Le fichier doit être enregistré au format tableur (.csv).

Exemple de mots associés On peut aussi utiliser le format “IRaMuTeQ/Alceste” avec les packages R.temis et Rainette. La première ligne comporte les modalités des métadonnées et la ligne suivante les textes. Le fichier doit être enregistré au format texte (.txt).

Si les textes sont longs

On peut stocker les textes dans un dossier/répertoire et les métadonnées dans un fichier (.csv).
Attention : la “jointure” entre les textes et les métadonnées se fait ligne à ligne !

Exemple de discours On recommande d’utiliser la mise en forme “IRaMuTeQ/Alceste”. La première ligne comporte les modalités des métadonnées et la ligne suivante les textes.
Chaque texte doit être précédé d’une ligne de métadonnées (une ligne par texte).

Créer des lignes étoilées

Dans un tableur type Excel

A partir d’un fichier sous forme de tableau (une ligne par texte, une colonne pour les textes, les autres pour les métadonnées, on peut créer des lignes étoilées à partir de la fonction CONCATENER (ou CONCAT) en concaténant les métadonnées.

On peut ensuite coller cette colonne résultante (ici étoil) et la colonne correspondant à la variable textuelle (ici D2_tot) dans un éditeur de texte. Le texte “bidon”, type sautdeligne, ajouté aux métadonnées peut ensuite être remplacé par un saut de ligne pour écrire les textes en dessous de la ligne étoilée. Le fichier doit ensuite être enregistré au format .txt.

Dans R

#Importer le fichier .csv
tableau <- read.csv("EBM_FRABELPORTRUSS.csv", sep=";", header=TRUE, na.strings="", dec=".", strip.white=TRUE)

# Enlever les obs a valeurs manquantes notamment dans la var textuelle
tableau <- na.omit(tableau)

# creation des variables pour construire la ligne *
varsta <-" *Sta_"
varcit <-" *Cit_"
varstud <- " *Stu_"
vargen <- " *Sex_"


## Lignes etoilées commençant par 4 etoiles
var2<-paste(sprintf ("****"),varcit,tableau$City,varsta,tableau$State,varstud,tableau$Study,vargen,tableau$Gender,"\n", tableau$D2tot,sep="")

# Ecriture dans un fichier txt
write.table(var2,"EBM_alc_fromR.txt",col.names=F,row.names=F,quote = FALSE)