4.4 Importation de données dans R

On vous fournit les données suivantes (par e-mail, par exemple).

tailles,poids,reponse,sexe
167,86,Bac+2,H
192,74,Bac,H
173,83,Master,F
174,50,Bac,H
172,78,Bac,H
167,66,DEA,H
171,66,Doctorat,F
185,51, ,H
163,50,Certificat,H
170,55,DES,H

Votre but est d’analyser ces données à l’aide de R. Pour commencer, il faudra les importer (sauvgarder) dans R. Pour cela vous pouvez utiliser la commande read.csv:

Jetons un coup d’oeil à l’objet obtenu.

   tailles poids    reponse sexe
1      167    86      Bac+2    H
2      192    74        Bac    H
3      173    83     Master    F
4      174    50        Bac    H
5      172    78        Bac    H
6      167    66        DEA    H
7      171    66   Doctorat    F
8      185    51               H
9      163    50 Certificat    H
10     170    55        DES    H
'data.frame':   10 obs. of  4 variables:
 $ tailles: int  167 192 173 174 172 167 171 185 163 170
 $ poids  : int  86 74 83 50 78 66 66 51 50 55
 $ reponse: Factor w/ 8 levels " ","Bac","Bac+2",..: 3 2 8 2 2 5 7 1 4 6
 $ sexe   : Factor w/ 2 levels "F","H": 2 2 1 2 2 2 1 2 2 2

Le plus souvant les données à importer en R sont disponibles dans un fichier local ou sur le web sous divers formats : texte dont .txt et .CSV (pour comma-separated value), JSON, EXCEL, etc. Nous aborderons ici principalement le format CSV.

Pour la suite de la démonstration, nous allons utiliser le fichier Med.csv supposé être dans votre répertoire de travail. Voici le contenu de ce fichier.

subject sex condition before after change
       1   F   placebo   10.1   6.9   -3.2
       2   F   placebo    6.3   4.2   -2.1
       3   M   aspirin   12.4   6.3   -6.1
       4   F   placebo    8.1   6.1   -2.0
       5   M   aspirin   15.2   9.9   -5.3
       6   F   aspirin   10.9   7.0   -3.9
       7   F   aspirin   11.6   8.5   -3.1
       8   M   aspirin    9.5   3.0   -6.5
       9   F   placebo   11.5   9.0   -2.5
      10   M   placebo   11.9  11.0   -0.9
      11   F   aspirin   11.4   8.0   -3.4
      12   M   aspirin   10.0   4.4   -5.6
      13   M   aspirin   12.5   5.4   -7.1
      14   M   placebo   10.6  10.6    0.0
      15   M   aspirin    9.1   4.3   -4.8
      16   F   placebo   12.1  10.2   -1.9
      17   F   placebo   11.0   8.8   -2.2
      18   F   placebo   11.9  10.2   -1.7
      19   M   aspirin    9.1   3.6   -5.5
      20   M   placebo   13.5  12.4   -1.1
      21   M   aspirin   12.0   7.5   -4.5
      22   F   placebo    9.1   7.6   -1.5
      23   M   placebo    9.9   8.0   -1.9
      24   F   placebo    7.6   5.2   -2.4
      25   F   placebo   11.8   9.7   -2.1
      26   F   placebo   11.8  10.7   -1.1
      27   F   aspirin   10.1   7.9   -2.2
      28   M   aspirin   11.6   8.3   -3.3
      29   F   aspirin   11.3   6.8   -4.5
      30   F   placebo   10.3   8.3   -2.0

Vous pouvez importer ces données directement (sans copy-paste) avec la fonction read.csv:

Jetons un coup d’oeil à l’objet obtenu.

   subject sex condition before after change
1        1   F   placebo   10.1   6.9   -3.2
2        2   F   placebo    6.3   4.2   -2.1
3        3   M   aspirin   12.4   6.3   -6.1
4        4   F   placebo    8.1   6.1   -2.0
5        5   M   aspirin   15.2   9.9   -5.3
6        6   F   aspirin   10.9   7.0   -3.9
7        7   F   aspirin   11.6   8.5   -3.1
8        8   M   aspirin    9.5   3.0   -6.5
9        9   F   placebo   11.5   9.0   -2.5
10      10   M   placebo   11.9  11.0   -0.9
11      11   F   aspirin   11.4   8.0   -3.4
12      12   M   aspirin   10.0   4.4   -5.6
13      13   M   aspirin   12.5   5.4   -7.1
14      14   M   placebo   10.6  10.6    0.0
15      15   M   aspirin    9.1   4.3   -4.8
16      16   F   placebo   12.1  10.2   -1.9
17      17   F   placebo   11.0   8.8   -2.2
18      18   F   placebo   11.9  10.2   -1.7
19      19   M   aspirin    9.1   3.6   -5.5
20      20   M   placebo   13.5  12.4   -1.1
21      21   M   aspirin   12.0   7.5   -4.5
22      22   F   placebo    9.1   7.6   -1.5
23      23   M   placebo    9.9   8.0   -1.9
24      24   F   placebo    7.6   5.2   -2.4
25      25   F   placebo   11.8   9.7   -2.1
26      26   F   placebo   11.8  10.7   -1.1
27      27   F   aspirin   10.1   7.9   -2.2
28      28   M   aspirin   11.6   8.3   -3.3
29      29   F   aspirin   11.3   6.8   -4.5
30      30   F   placebo   10.3   8.3   -2.0
'data.frame':   30 obs. of  6 variables:
 $ subject  : int  1 2 3 4 5 6 7 8 9 10 ...
 $ sex      : Factor w/ 2 levels "F","M": 1 1 2 1 2 1 1 2 1 2 ...
 $ condition: Factor w/ 2 levels "aspirin","placebo": 2 2 1 2 1 1 1 1 2 2 ...
 $ before   : num  10.1 6.3 12.4 8.1 15.2 10.9 11.6 9.5 11.5 11.9 ...
 $ after    : num  6.9 4.2 6.3 6.1 9.9 7 8.5 3 9 11 ...
 $ change   : num  -3.2 -2.1 -6.1 -2 -5.3 -3.9 -3.1 -6.5 -2.5 -0.9 ...

Noter que le seul argument obligatoire dans la fonction read.csv est le chemin d’accès au fichier à lire. Ici, il n’est pas été nécessaire de spécifier le chemin d’accès complet du fichier puisque ce fichier se trouve dans le répertoire courant de la session R.

Les autres arguments de la fonction read.csv (voir la fiche d’aide de la fonction: ?read.csv) doivent être adaptés selon le formatage du fichier à lire. Par exemple, pour mieux contrôler notre importation, on peut introduire le code suivant,

Importer ces données via le menu RStudio

RStudio fournit une interface graphique pour faciliter l’import d’un fichier texte. Pour cela, il suffit d’aller dans le menu File > Import Dataset> From Text ou via l’onglet Environment dans le quadrant haut-droite.

Pour l’importation RStudio utilise le package utils (package de base chargé automatiquement) ou le package readr (qui fait parti de tidyverse). Dans ce dernier cas, les données importées seront en format tibble.

Pour la suite de la démonstration, nous allons choisir le fichier Med.csv.

L’interface de RStudio vous présente alors différentes options d’import disponible.

Voici le code généré automatiquement par Rstudio (via readr):