1 Introduction

Durant votre cursus du cours LBIRA2110, nous vous offrons la chance de vous former au logiciel et langage de programmation R.

R c’est la référence dans le domaine des analyses statistiques. Programmer en R nécessite R-Studio qui est une interface utilisateur facilitant l’utilisation du langage R.

1.1 Installation

L’installation de R et R-studio n’est pas très compliquée mais requiert de suivre à la lettre plusieurs étapes. Le lien suivant vous mènera vers un support où l’installation y est détaillée:

Installation détaillée de R et R-Studio

En suivant scrupuleusement ces étapes vous ne devriez avoir aucun soucis!

1.2 Bases du language R

R est un langage de programmation à part entière. Avant de vouloir réaliser des analyses statistiques il faut apprendre les bases. Pour vous familiariser avec le langage nous vous proposons les cours Data Camp suivants:

DataCamp

ATTENTION vous devez impérativement vous inscrire avec votre adresse UCLouvain

Data Camp est une plateforme de cours de R et python en ligne développée par une équipe Belge de la région de Leuven. Vous aurez l’occasion de l’utiliser gratuitement durant ce cours, profitez-en.

Durant ce cours nous vous proposons de suivre la formation “Introduction à R” qui est composée de 6 modules. De nombreux autres modules existent et nous vous encourageons à les découvrir.

En plus de Data Camp, les liens suivant vous aideront dans votre apprentissage.

1.3 Packages

R contient de base une multitude de fonctions. Mais étant un langage de programmation communautaire il dispose également d’une multitude d’extensions créées par des utilisateurs. Ces extensions sont appelées packages.

Un package contient bon nombre de fonctions et / ou de jeux de données à utiliser pour réaliser les analyses souhaitées.

Dans le cadre de ce cours nous utiliserons exclusivement les packages ci-dessous:

PACKAGE
readxl Importer données depuis des fichiers Excel
rmarkdown Convertir directement vos codes et sorties en rapports depuis Rstudio
pander Rendre les sorties R plus esthétiques dans les rapports Rmarkdown
dplyr Manipuler des données
car - Hmisc - EnvStats Diverses fonctions pour l’inférence, la modélisation et l’analyse de données
emmeans Estimations et contrasts pour la modélisation
visreg Visualiser une régression
sjPlot Collection de fonctions pour visualiser des données
FactoMineR Réaliser une analyse en composantes principales
factoextra Analyser des données multivariées et visualiser les résultats

Le plus simple est de tous les installer une fois sur votre ordinateur en début d’année et ensuite de charger l’un ou l’autre quand vous en avez besoin.

1.4 Importer des données

Lorsqu’on dispose de données il faut les importer dans R pour effectuer des analyses dessus. En fonction du type de fichier dans lequel sont stockées les données, la fonction à utiliser est différente.

Pour importer des données ..

# Depuis un fichier .txt
data <- read.table(file = "path/file.txt", header = TRUE / FALSE, sep = .. , dec = .. )

# Depuis un fichier .csv
data <- read.csv(file = "path/file.csv", header = TRUE / FALSE, sep = .. , dec = .. )

# Depuis un fichier .xlsx
data <- readxl::read_xlsx(path = "path/file.xlsx", sheet = .. , col_names = TRUE / FALSE)

Rmq

  • Si les observations sont séparées par TAB, utiliser sep="\t"
  • Si il y a une observation par case dans un fichier .csv, utiliser sep=";"

L’objet data est un objet de type dataframe. C’est la structure de données centrale de R.

1.5 Dataframe

Comme expliqué juste au dessus, le dataframe est une structure centrale de R. C’est comme son nom l’indique un tableau de données pour lequel les colonnes correspondent à une variable et les lignes à un individu.

1.5.1 Préparer un dataframe

Supposons que nous disposions d’un dataframe df. Avant de commencer une quelconque analyse il faut le préparer.

Noms des variables
S’ils ne sont pas valides (ex: un nom de variable en 2 mots ou contenant des caractères spéciaux) ou bien simplement s’ils ne sont pas très clairs il est possible de renommer soi-même les variables.

colnames(df) <- c("Var1", "Var2", .., "VarM") # M variables dans df

Encodage des variables qualitatives
Celles-ci doivent être encodées commes des facteurs. Un niveau correspond à une modalité. Par défaut les variables qualitatives sont encodées comme des chaines de caractères (ou bien comme des nombres si les modalités sont représentées par des chiffres).

data$VarQuali <- as.factor(data$VarQuali) # pour une variable qualitative nommée VarQuali

Données manquantes
La façon la plus simple de gérer cela est d’omettre chaque ligne de df où des données sont manquantes. La plus part des fonctions ne gèrent pas les données manquantes. C’est un moyen efficace pour éviter les erreurs.

df <- na.omit(df)

1.5.2 Manipulation

Pour manipuler les données contenues dans un dataframe, la package dplyr est fortement recommandé. Il contient quelques fonctions très intuitives pour la manipulation d’un dataframe.

# Filtrer les individus
dplyr::filter(df, ..)

# Sélectioner des variables
dplyr::select(df, ..)

# Ajouter une nouvelle variable
dplyr::mutate(df, ..)

# Transformer une variable existante
dplyr::transmute(df, ..)

1.5.3 Création

Une autre façon que l’importation pour créer un dataframe est tout simplement de le créer à la main.

df <- data.frame(Var1 = ..,
                 Var2 = .., 
                 Var3 = ..)  

# A gauche de l'égalité le nom de chaque variable et à droite un vecteur.
# /!\ Les vecteurs à droite doivent tous être de même taille.

1.6 Rmarkdown

Rmarkdown est une extension de R permettant de construire directement des rapports HTML, PDF ou Word depuis R incluant le code utilisé ainsi que les résultats obtenus.