Chapitre 1 À propos

Dans ce document, vous trouverez les différentes manières d'utiliser R pour vos analyses statistiques de base. Notez que les notions théoriques relatives aux tests statistiques utilisés n'y sont pas présentées. Pour cela, vous pouvez vous référrer au livre Veterinary Epidemiologic Research (Dohoo et al., 2009) ou au cours PTM-6675. Dans ce document, nous supposons que vous savez déjà:
- Importer ou créer des bases de données dans R
- Modifier des variables ou sélectionner une partie d'un jeu de données
- Produire des tables de fréquence
- Produire des figures de base avec le package ggplot2

Nous couvrirons quelques généralités sur la gestion de projets d'analyses, puis sur les fonctions de bases qui vous permettrons de réaliser vos projets de:
- Régression linéaire;
- Régression logistique;
- Régression pour des données de comptes ou d'incidence;
- Analyse de survie;
- Modèles mixtes pour données structurées (les fameux modèles avec intercepts et/ou pentes aléatoires).

Tout au long du texte, vous trouverez des exemples de code R agrémenter de commentaires. Le code R utilisé se trouve dans les encadrés en gris (comme l'exemple qui suit). C'est le code que vous pourrez utiliser pour vos propres analyses. Les lignes précédées du signe # sont un commentaire, elles ne sont pas considérées lorsque R les lit. Après chaque encadré gris, suivra un encadré blanc où les résultats de l'analyse sont présentées. N'oubliez pas, R est sensible aux majuscules. Par exemple, voici un code R où je demande simplement de présenter les statistiques principales des variables du jeu de données cars. Ce jeu de données contient 2 variables, speed et dist:

#Ceci est un commentaire. R ignorera cette ligne
#La fonction summary() produit les principales statistiques pour un jeu de données
summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00
#On peut aussi, par exemple demander les statistique d'une variable précise dans un jeu  de données de cette façon:
summary(cars$speed)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     4.0    12.0    15.0    15.4    19.0    25.0