Chapitre 5 Autres modèles

Les objectifs du chapitre sont:


Nous avons ainsi vu que le point de départ de modélisation du nombre de réclamations se fait par la Poisson. Afin d’améliorer le pouvoir prédictif, d’autres modèles sont possibles. Pour illustration, regardons des données réelles et la valeurs prédites par l’un de nos modèles de régression Poisson.


### Compare avec fonction glm()
score.glm <- as.formula(nb.sin ~ couleur + myopie + type_territoire + langue + alimentation + offset(log(expo)))
Poisson1  <- glm(score.glm, family=poisson(link=log), data=db.fictif)
db.fictif$lambda <- predict(Poisson1, newdata=db.fictif, type='response')

table <- data.frame()
for(i in 0:5){
  pred <- sum(dpois(i, db.fictif$lambda))
  obs  <- sum(ifelse(db.fictif$nb.sin == i, 1, 0))
  res  <- c(i, pred, obs)
  table <- rbind(table, res)
}
colnames(table) <- c('NbSin', 'Predicted', 'Observed')
table$Diff <- table$Predicted - table$Observed  

knitr::kable(table, digits = c(0, 2, 0, 2))
NbSin Predicted Observed Diff
0 320486.18 323390 -2903.82
1 59625.27 54627 4998.27
2 6268.45 7679 -1410.55
3 473.16 1049 -575.84
4 28.43 124 -95.57
5 1.44 10 -8.56

Avec ce genre de prédiction, le modèle Poisson serait fort probablement rejeté par un test d’ajustement (à voir formellement un peu plus tard). Du tableau, il est important de constater que la Poisson

  1. sous-estime la probabilité d’avoir aucune réclamation;
  2. sous-estime en même temps la queue à droite.

Ce sont ainsi les deux ailes de la distribution qu’il faut corriger.


Il y a plusieurs manières d’améliorer l’ajustement des données car l’échec de la Poisson s’explique de plusieurs façons:

  • Hétérogénéité non-observée;
  • Excès de zéros;
  • Contagion (durée ou d’occurence);
  • Truncation ou censure;
  • etc.