Chapitre 4 Importer des données dans R

4.1 Introduction

4.1.1 Objectif de ce cours

Dans le flux de travail (workflow) du data scientist, l’importation constitue très généralement le point de départ. Les données ne sont toujours disponibles sous le format qui se prête à l’analyse souhaitée. Elles peuvent exister dans un classeur Excel sous format xls, xlsx ou csv. Elles peuvent aussi se trouver dans une base de données relationnelles, où diverses tables sont connectées entres elles. Elles peuvent même être disponibles sur Internet (page Wikipédia, Twitter, Facebook, etc.) Dans tous les cas, il revient au data scientist de connaitre la techique appropriée pour les importer dans son environnement de travail, les organiser et les analyser selon l’objectif qu’il s’assigne.

Dans ce chapitre, nous allons voir quelques techniques d’importation de données dans R.

4.1.2 Que nous faut-il?

R (évidemment) et RStudio (de préférence) installés sur le poste de travail
les fichiers fournis dans le cadre du module
un connexion Internet pour illustrer les exemples d’importation depuis la toile

4.1.3 Données

Nous allons illustrer ce chapitre avec une compilation de données tirées des Recensements Généraux de la Population et de l’Habitat au Mali, menés respectivement en 1976, 1987, 1998 et 2009. Le tableau suivant affiche un aperçu (l’année 1976 seulement) des données dont il est question.

Table 4.1: Un aperçu des données démographiques
annee	id	groupage	Homme-Urbain	Homme-Rural	Femme-Urbain	Femme-Rural	source	office
1976	1	0-4	100416	486599	99453	489941	RGPH	DNSI
1976	2	5-9	80816	411456	82665	400186	RGPH	DNSI
1976	3	10-14	60647	282160	65075	256884	RGPH	DNSI
1976	4	15-19	58662	249945	60765	272743	RGPH	DNSI
1976	5	20-24	46239	172152	47487	218355	RGPH	DNSI
1976	6	25-29	36390	163705	43143	223875	RGPH	DNSI
1976	7	30-34	30895	154834	33504	190446	RGPH	DNSI
1976	8	35-39	27926	133457	28505	137444	RGPH	DNSI
1976	9	40-44	22479	116947	22007	125822	RGPH	DNSI
1976	10	45-49	17864	93466	15445	83008	RGPH	DNSI
1976	11	50-54	14692	89927	13238	90369	RGPH	DNSI
1976	12	55-59	10659	66919	8928	53989	RGPH	DNSI
1976	13	60-64	8630	67990	9337	72129	RGPH	DNSI
1976	14	65-69	5043	35236	5032	31800	RGPH	DNSI
1976	15	70-74	3460	28430	4610	33137	RGPH	DNSI
1976	16	75-79	2084	15065	2650	14080	RGPH	DNSI
1976	17	80+	2188	25958	3677	29082	RGPH	DNSI
1976	99	ND	125	272	93	281	RGPH	DNSI
1976	18	Total	529215	2594518	545614	2723571	RGPH	DNSI

Notre fichier se nomme: “RGPH_MLI”. Nous l’avons enregistré sous divers formats, qui seront traduits par diverses extensions (.csv, .txt, .xls, .xlsx, etc). Nous allons les ouvrir progressivement.

Pour permettre l’exécution des codes depuis n’importe quel poste de travail, nous allons utiliser la plateforme Github. Toutefois, il convient de noter que les codes seront tout aussi valides que si l’on accède aux fichiers au niveau local.

Nous allons spécifier la source.

masource <- "https://raw.githubusercontent.com/fousseynoubah/dswr_slides/master/4_Importer_Donnees_dans_R/data/"

A partir de celle-ci, nous allons opérer comme au niveau local (à condition d’avoir une connexion Internet active bie sûr). Pour accéder à un fichier quelconque, monfichier, disponible dans le dossier, il suffit d’orienter sa requête vers:

paste0(masource, "monfichier" )

## [1] "https://raw.githubusercontent.com/fousseynoubah/dswr_slides/master/4_Importer_Donnees_dans_R/data/monfichier"

4.2 Fichiers plats: cas du format CSV

4.2.1 Aperçu

Comme son nom l’indique, le format CSV (Comma Separated Values) est un format où les valeurs de données rectangulaires sont séparées par une virgule (,). Cette règle de base est commode pour les anglophones, pour lesquels les décimales viennent après un point (.) et non après une virgule. Par contre, pour les francophones, le format de sauvegarde de données réquiert une règle différente. Pour ne pas confondre le séparateur de valeurs et la virgule de la décimale, l’on utilise le point-virgule (;). Nous verrons les fonctions qui conviennent pour chacun de ces deux formats.

4.2.2 Importation avec R-base: `read.csv`

La version d’installation de R, couramment appelée R-base (ou base-R), vient avec un ensemble de fonctions qui sont disponibles par défaut. Parmi celles-ci: read.csv. L’importation d’un fichier csv avec R-base se fait de la façon suivante:

RGPH_MLI <- read.csv(
  # Spécifier le nom du fichier
  file = paste0(masource, "RGPH_MLI.csv"), 
  # Déclarer la première ligne comme nom de colonne/variable
  header = TRUE, 
  # Déclarer la virgule comme séparateur
  sep = ",", 
  # Ne pas systématiquement transformer les caractères en facteurs.
  stringsAsFactors = TRUE 
)

Les éléments à l’intérieur de la fonction (file, header, sep, stringsAsFactors, etc.) sont les arguments de la fonction read.csv. Celles-ci ont des valeurs défaut, qui peuvent toutefois être altérer par l’utilisateur. Pour voir ces valeurs par défaut, consulter la documentation intégrer à R en entrant:

?read.csv

Regardons la structure de nos données.

str(RGPH_MLI)

## 'data.frame':    77 obs. of  14 variables:
##  $ ï..annee    : int  1976 1976 1976 1976 1976 1976 1976 1976 1976 1976 ...
##  $ id          : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ groupage    : Factor w/ 20 levels "","0-4","10-14",..: 2 11 3 4 5 6 7 8 9 10 ...
##  $ Homme.Urbain: int  100416 80816 60647 58662 46239 36390 30895 27926 22479 17864 ...
##  $ Homme.Rural : int  486599 411456 282160 249945 172152 163705 154834 133457 116947 93466 ...
##  $ Femme.Urbain: int  99453 82665 65075 60765 47487 43143 33504 28505 22007 15445 ...
##  $ Femme.Rural : int  489941 400186 256884 272743 218355 223875 190446 137444 125822 83008 ...
##  $ Homme       : int  587015 492272 342807 308607 218391 200095 185729 161383 139426 111330 ...
##  $ Femme       : int  589394 482851 321959 333508 265842 267018 223950 165949 147829 98453 ...
##  $ Urbain      : int  199869 163481 125722 119427 93726 79533 64399 56431 44486 33309 ...
##  $ Rural       : int  976540 811642 539044 522688 390507 387580 345280 270901 242769 176474 ...
##  $ Total       : int  1176409 975123 664766 642115 484233 467113 409679 327332 287255 209783 ...
##  $ source      : Factor w/ 2 levels "","RGPH": 2 2 2 2 2 2 2 2 2 2 ...
##  $ office      : Factor w/ 2 levels "","DNSI": 2 2 2 2 2 2 2 2 2 2 ...

4.2.3 Importation avec R-base: `read.csv2`

Avec read.csv déjà, le séparateur peut être spécifié pour permettre la prise en charge des fichiers qui ont point-virgule comme séparateur (;). Toutefois, il existe une fonction bâtie au dessus de celle-ci, qui prend en charge les spécificités de tels fichiers. Il s’agit de read.cvs2.

RGPH_MLI2 <- read.csv2(
  # Spécifier le nom du fichier
  file = paste0(masource, "RGPH_MLI2.csv"), 
  # Déclarer la première ligne comme nom de colonne/variable
  header = TRUE, 
  # Déclarer le point-virgule comme séparateur
  sep = ";", 
  # Ne pas systématiquement transformer les caractères en facteurs.
  stringsAsFactors = TRUE 
)

Ici aussi, les valeurs par défaut des arguments sont maintenues. Pour en savoir plus sur read.csv2, explorer la documentation R en tapant:

?read.csv2

Regardons la structure de ces données aussi.

str(RGPH_MLI2)

## 'data.frame':    77 obs. of  14 variables:
##  $ Ã...annee   : int  1976 1976 1976 1976 1976 1976 1976 1976 1976 1976 ...
##  $ id          : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ groupage    : Factor w/ 20 levels "","0-4","10-14",..: 2 11 3 4 5 6 7 8 9 10 ...
##  $ Homme.Urbain: int  100416 80816 60647 58662 46239 36390 30895 27926 22479 17864 ...
##  $ Homme.Rural : int  486599 411456 282160 249945 172152 163705 154834 133457 116947 93466 ...
##  $ Femme.Urbain: int  99453 82665 65075 60765 47487 43143 33504 28505 22007 15445 ...
##  $ Femme.Rural : int  489941 400186 256884 272743 218355 223875 190446 137444 125822 83008 ...
##  $ Homme       : int  587015 492272 342807 308607 218391 200095 185729 161383 139426 111330 ...
##  $ Femme       : int  589394 482851 321959 333508 265842 267018 223950 165949 147829 98453 ...
##  $ Urbain      : int  199869 163481 125722 119427 93726 79533 64399 56431 44486 33309 ...
##  $ Rural       : int  976540 811642 539044 522688 390507 387580 345280 270901 242769 176474 ...
##  $ Total       : int  1176409 975123 664766 642115 484233 467113 409679 327332 287255 209783 ...
##  $ source      : Factor w/ 2 levels "","RGPH": 2 2 2 2 2 2 2 2 2 2 ...
##  $ office      : Factor w/ 2 levels "","DNSI": 2 2 2 2 2 2 2 2 2 2 ...

4.2.4 Importation avec `readr`

4.2.4.1 Aperçu

readr est un package créé par Hadley Wickham. Ses fonctions sont similaires à celles de read.csv et de read.csv2. readr présente l’avantage de faire partie du tidyverse. Il travaille harmonieusement avec les autres packages de cet écosystème. Sa syntaxe est très simple: pour importer un fichier csv, on utilise read_csv au lieu de read.csv. Cette logique est valable pour d’autres formats, dont il suffit seulement d’ajouter l’extension après le tiret d’en bas (“_“). Ainsi, on a :

read_csv2: pour les fichiers CSV ayant le point-virgule (;) comme séparateur;
read_tsv: pour les fichiers avec les valeurs séparées par des tabulations;
read_fwf: pour les fichiers avec les valeurs séparées par des espaces fixes.

4.2.4.2 `read_csv` et `read_csv2`

Ouvrons le fichier csv avec read_csv.

# Chargement du package "readr"
library(readr) 
# Importation du fichier
RGPH_MLI <- read_csv(
  # Spécifier le nom du fichier
  file = paste0(masource, "RGPH_MLI.csv"), 
  # Déclarer la première ligne comme nom de colonne/variable
  col_names = TRUE, 
  # Indiquer la valeur à attribuer aux cellules vides 
  na = "", 
  # Nombre de lignes à ne pas importer, partant du ficher
  skip = 0
  )

et read_csv2

# Chargement du package "readr"
library(readr) 
# Importation du fichier
RGPH_MLI <- read_csv2(
  # Spécifier le nom du fichier
  file = paste0(masource, "RGPH_MLI2.csv"), 
  # Déclarer la première ligne comme nom de colonne/variable
  col_names = TRUE, 
  # Indiquer la valeur à attribuer aux cellules vides 
  na = "", 
  # Nombre de lignes à ne pas importer, partant du ficher
  skip = 0
  )

4.2.4.3 Généralisation

read_csv est un cas spécifique d’une fonction généraliste qui couvre un large spectre de formats : read_delim.

# Chargement du package "readr"
library(readr) 
# Importation du fichier
RGPH_MLI <- read_delim(
  # Spécifier le nom du fichier
  file = paste0(masource, "RGPH_MLI.csv"), 
  # Indiquer le séparateur
  delim = ","
  )

RGPH_MLI2 <- read_delim(
  # Spécifier le nom du fichier
  file = paste0(masource, "RGPH_MLI2.csv"), 
  # Indiquer le séparateur
  delim = ";"
  )

Avec read_delim, divers format de fichiers peuvent être importés, à partir du moment où le séparateur est bien spécifié:

virgule (,);
point-virgule (;);
tabulation (\t);
barre verticale (|);
espace (" “); etc.

Les autres arguments peuvent être ajustés pour prendre en compte les spécificités des données. Toutefois, il faut noter que read_delim est assez intuitive pour détecter le type des données (entiers, réels, caractères, etc.). Elle inspecte jusqu’à 1000 lignes (et peut aller jusqu’à la nième ligne) pour déterminer le type de données d’une colonne.

4.3 Excel: `xls`, `xlsx`

4.3.1 Aperçu

Faisant partie de la suite MS Office, Excel est l’un des tableurs les plus populaires. Il est difficile de l’exclure du workflow du data scientist car c’est l’outil de prédilection dans beaucoup de domaines et secteurs (entreprises, administrations) en matière d’organisation et de sauvegarde des données . Les data scientist opérant exclusivement sur des bases de données constituent une niche. Pour la majorité, amenée à interagir avec des spécialistes d’autres domaines, il est important de pourvoir disposer de techniques pour importer les données collectées et organisées par leurs soins dans Excel.

Dans R, plusieurs solutions existent. Nous verrons deux packages:

xlsx; et
readxl.

4.3.2 Importation avec `xlsx`: `read.xlsx`

Le package xlsx offre deux fonctions majeures pour lire des formats xls et xlsx. Il s’agit de read.xlsx et read.xlsx2 (plus rapide sur les fichiers lourds).

Pour le format xls…

# Chargement du package "xlsx"
library(xlsx)

# Ne pouvant accéder au fichier depuis le net,
# il faut le télécharger localement d'abord.
library(downloader)
download(url = paste0(masource, "RGPH_MLI.xls?raw=true"), 
         dest = "RGPH_MLI.xls", 
         mode="wb")

# Exemple avec fichier Excel 97-2003
RGPH_MLI_xls <- read.xlsx( 
  # Spécifier le nom du fichier (format "xls")
  file = "RGPH_MLI.xls", 
  # Indiquer le numéro d'ordre de l'onglet à importer
  sheetIndex = 1, 
  #  sheetName = "RGPH_MLI" # indiquer le nom de l'onglet (alternative au numéro d'ordre)
  # Déclarer la première ligne comme nom de colonne/variable
  header = TRUE
)

…et pour le format xlsx

# Chargement du package "xlsx"
library(xlsx)

# Ne pouvant accéder au fichier depuis le net,
# il faut le télécharger localement d'abord.
library(downloader)
download(url = paste0(masource, "RGPH_MLI.xlsx?raw=true"), 
         dest = "RGPH_MLI.xlsx", 
         mode="wb")

# Exemple avec fichier Excel 2007-plus
RGPH_MLI_xlsx <- read.xlsx( 
  # Spécifier le nom du fichier  (format "xlsx")
  file = "RGPH_MLI.xlsx", 
  # Indiquer le numéro d'ordre de l'onglet à importer
  sheetIndex = 1, 
  #  sheetName = "RGPH_MLI" # indiquer le nom de l'onglet (alternative au numéro d'ordre)
  # Déclarer la première ligne comme nom de colonne/variable
  header = TRUE
)

4.3.3 Importation avec `readxl`: `read_excel`

Le package readxl est bâti sur les mêmes principes que readr. Il permet d’importer des formats Excel avec la même logique syntaxique. Il contient des fonctions spécifiques, read_xls et read_xlsx, et une fonction généraliste, read_excel.

# Chargement du package "readxl"
library(readxl) 

# Exemple avec fichier Excel 97-2003
RGPH_MLI_xls <- read_excel(
# Spécifier le nom du fichier (format "xls")
path = "RGPH_MLI.xls", 
# indiquer le nom de l'onglet ou le numéro d'ordre, les deux sont acceptés
sheet = "RGPH_MLI", 
# Déclarer la première ligne comme nom de colonne/variable
col_names = TRUE
)

# Exemple avec fichier Excel 2007-plus
RGPH_MLI_xlsx <- read_excel(
# Spécifier le nom du fichier (format "xls")
path = "RGPH_MLI.xlsx", 
# indiquer le nom de l'onglet ou le numéro d'ordre, les deux sont acceptés
sheet = "RGPH_MLI", 
# Déclarer la première ligne comme nom de colonne/variable
col_names = TRUE
)

4.4 Formats issues d’autres logiciels statistiques: `Stata` et `SPSS`

4.4.1 Aperçu

Le data scientist peut aussi être amené à travailler sur des données sauvegardées à partir d’autres programmes de traitement de données tels que Stata, SPSS, SAS, etc. Dans R, les solutions sont nombreuses. Ici, nous allons voir deux packages: foreign et haven.

4.5 Importation avec `foreign`

Le package foreign permet d’ouvrir des fichiers dta, issus de Stata…

# Chargement du package "foreign"
library(foreign) 

# Ne pouvant accéder au fichier depuis le net,
# il faut le télécharger localement d'abord.
library(downloader)
download(url = paste0(masource, "RGPH_MLI.dta?raw=true"), 
         dest = "RGPH_MLI.dta", 
         mode="wb")

# Importation
RGPH_MLI_stata <- read.dta(
  # Spécifier le nom du fichier
  file = "RGPH_MLI.dta",
  # Conversion des dates du format Stata au format R (pour dire simple)
  convert.dates = TRUE, 
  # Conversion des étiquettes de variables catégorielles en facteurs
  convert.factors = TRUE, 
  # Convertir "_" de Stata en "." dans R (surtout nom des variables)
  convert.underscore = FALSE, 
  # Donner ou pas une valeur particulière aux cellules vides?
  missing.type = FALSE, 
  # Si oui, cet argument indique si cette valeur est présente ou pas
  warn.missing.labels = TRUE 
)

et des fichiers sav, issus de SPSS.

# Chargement du package "foreign"
library(foreign) 

# Ne pouvant accéder au fichier depuis le net,
# il faut le télécharger localement d'abord.
library(downloader)
download(url = paste0(masource, "RGPH_MLI.sav?raw=true"), 
         dest = "RGPH_MLI.sav", 
         mode="wb")

# Importation

RGPH_MLI_spss <- read.spss(
  # Spécifier le nom du fichier
  file = "RGPH_MLI.sav", 
  # Conservation des étiquettes de variables catégorielles (facteurs)
  use.value.labels = TRUE, 
  # Importation en data frame au lieu de matrice
  to.data.frame = TRUE 
  )

4.6 Base de données relationnelles

4.6.1 Aperçu

R peut aussi importer des données depuis une base de données relationnelles. Celle-ci peut aussi bien être locale, installée sur le poste de travail, que distante, installée sur un serveur accessible via Internet. Nous allons illustrer ici avec une base locale.

Les packages varient d’un type de base à un autre:

RMySQL pour MySQL,
RPostgreSQL pour PostgreSQL
RSQLite: pour SQLite
etc.

Pour plus de détails, consulter cette page.

4.6.2 Importation avec RODBC

Commençons par ouvrir le chaine de communication entre R et la base via ODBC (Open Data Base Connectivity).

# Chargement du package "RODBC"
library(RODBC) 
dswr <- odbcConnect(
  # Indiquer le nom de la chaîne de connection 
  dsn = "dswr", 
  # Indiquer l'identifiant (s'il y'en a)
  uid = "", 
  # Indiquer le mot de passe (s'il y'en a)
  pwd = "" 
  )

Maintenant, importons la table qui nous intéresse, RGPH_MLI. Pour celà, deux méthodes sont possibles.

# Méthode 1: extraction de la table
RGPH_MLI_rodbc_tbl <- sqlFetch(
  # Indiquer le nom de la chaîne de connection
  dswr, 
  # Indiquer le nom de la table
  sqtable = "RGPH_MLI"
  ) 

# Méthode 2: requête SQL
RGPH_MLI_rodbc_sql <- sqlQuery(
  # Indiquer le nom de la chaîne de connection
  channel = dswr, 
  # Selectionner toutes les colonnes et lignes de la table "RGPH_MLI"
  query = "SELECT * FROM RGPH_MLI;"
  )

Une fois les extractions de données finie, il faut penser à briser la chaîne de connection, fermer la porte.

odbcClose(dswr)

4.6.3 Importation avec `odbc`

Une autre solution est de passe par le package odbc.

# Chargement du package "odbc"
library(odbc)
# Chargement du package "DBI"
library(DBI) 

# Importation
dswr <- dbConnect(
  # Indiquer le package utilisé par l'interfacee "DBI"
  odbc::odbc(), 
  # Indiquer le nom de la chaîne de connection
  "dswr"
  )

Comme avant, on peut importer la table d’intérêt par deux méthodes.

# Méthode 1: extraction de la table
RGPH_MLI_odbc <- dbReadTable(
  # Indiquer le nom de la chaîne de connection
  conn = dswr, 
  # Indiquer le nom de la table indiquer
  name = "RGPH_MLI"
  ) 

# Méthode 2: requête SQL
RGPH_MLI_odbc_sql <- dbGetQuery(
  # Indiquer le nom de la chaîne de connection
  conn = dswr, 
  # Selectionner toutes les colonnes et lignes de la table "RGPH_MLI"
  "SELECT * FROM RGPH_MLI;"
  )

Comme avant, en bon invité, on ferme la porte en sortant.

dbDisconnect(dswr)

4.7 Depuis Internet

4.7.1 Aperçu

Les données peuvent aussi être tirées de la toile mondiale. Les outils disponibles dans R varient selon le type de données.

4.7.2 Chargement de fichier CSV

Pour un fichier CSV, le chargement dans l’environnement R se fait de la même façon que pour des fichiers locaux.

url <- "https://raw.githubusercontent.com/fousseynoubah/dswr_slides/master/4_Importer_Donnees_dans_R/data/RGPH_MLI.csv"
RGPH_MLI_csv_online <- read.csv(url)
# ou
RGPH_MLI_csv_online <- read_csv(url)