5.3 Excès de zéros

On pourrait reprendre rapidement la base de données utilisées pour le cours et calculer la distribution du nombre de réclamations.

table <- db.fictif %>%
  group_by(nb.sin) %>%
  summarize(nb.obs = n(),
            sum.expo = sum(expo)) %>%
  mutate(pct.obs = 100*nb.obs/nrow(db.fictif), 
         pct.expo = 100*sum.expo/sum(db.fictif$expo)) %>%
  ungroup()

knitr::kable(table, digits = c(0, 0, 0, 2, 2))
nb.sin nb.obs sum.expo pct.obs pct.expo
0 323390 282039 83.59 83.19
1 54627 48800 14.12 14.39
2 7679 7085 1.98 2.09
3 1049 976 0.27 0.29
4 124 114 0.03 0.03
5 10 9 0.00 0.00
6 3 3 0.00 0.00
7 1 1 0.00 0.00

La présence d’une grande proportion de \(0\) dans le décompte des variables aléatoires de comptage est fréquente. Souvent, cela provient du fait que le cas \(0\) provient de plusieurs situations potentielles différentes. En assurance, on peut ainsi avoir aucune réclamations dans l’année peut signifier que l’assuré n’a pas eu d’accident, mais peut aussi signifier que l’assuré a eu des accidents qu’il n’a pas réclamé.


Une manière récente et populaire de générer de nouvelles distributions de comptage, ayant en même temps des interprétations intéressantes et l’utilisation de la somme composée. Ainsi, en supposant la forme suivante:

\[\begin{equation*} Y = \sum_{j=1}^M X_i, \label{ComSum} \end{equation*}\]

nous pouvons créer une quantité impressionnante de distributions.


Pour cette partie du cours, nous allons nous concentrer sur 2 distributions différentes:

  1. Si \(M \sim Bernoulli(\phi)\), et \(X \sim Poisson(\lambda)\), nous avons une distribution de Poisson gonflée à zéro (traduction de Zero-Inflated Poisson);

  2. Si \(M \sim Bernoulli(\phi)\), et \(X \sim Poisson-tronquee(\lambda)\), signifiant que \(X_i \in \{1,2, \cdots\}\), nous avons une distribution Poisson à barrière (traduction de Hurdle Poisson);


5.3.1 Poisson gonflée à zéro

Comme nous l’avons vu dans le tableau des valeurs observées et prédites par la Poisson, un des problèmes de la loi de Poisson est la sous-estimation de la probabilité d’avoir zéro. Ceci motive l’utilisation d’une distribution qui gonfle artificiellement le nombre de zéros.

La Poisson gonflée à zéro est un mélange de deux distributions:

  1. une distribution dégénérée à 0 et

  2. une distribution de comptage classique.

La fonction de probabilité de la Poisson gonflée à zéro s’exprime comme:

\[\begin{eqnarray*} \Pr(S_i =k) &=& \begin{cases} \phi + (1-\phi) \exp(-\lambda_i) & \text{ pour } \ k = 0\\ (1-\phi) \frac{\lambda_i^k \exp(-\lambda_i)}{k!} & \text{ pour } \ k = 1,2,... \end{cases} \end{eqnarray*}\]


Proposition 5.5 Montrez que les deux premiers moments d’une Poisson gonflé à zéro sont \(E[S_i] = (1-\phi) \lambda_i\) and \(Var[S_i] = E[S_i] + E[S_i](\lambda_i - E[S_i])\).

\[\begin{eqnarray*} E[S_i] &=& \sum_{k=0}^{\infty} k \Pr(S_i =k) \\ &=& \sum_{k=1}^{\infty} k \Pr(S_i =k) \\ &=& \sum_{k=1}^{\infty} k (1-\phi) \frac{\lambda_i^k \exp(-\lambda_i)}{k!} \\ &=& (1-\phi) \sum_{k=1}^{\infty} k \frac{\lambda_i^k \exp(-\lambda_i)}{k!} \\ &=& (1-\phi) \lambda_i \end{eqnarray*}\]

\[\begin{eqnarray*} Var[S_i] &=& E[S_i^2] - E[S_i]^2 \\ E[S_i^2] &=& \sum_{k=0}^{\infty} k^2 \Pr(S_i =k) \\ &=& \sum_{k=1}^{\infty} k^2 \Pr(S_i =k) \\ &=& (1-\phi) \sum_{k=1}^{\infty} k^2 \frac{\lambda_i^k \exp(-\lambda_i)}{k!} \\ &=& (1-\phi) (Var[S_i; \text{ Poisson}(\lambda_i)] + E[S_i; \text{ Poisson}(\lambda_i)]^2) \\ &=& (1-\phi) (\lambda_i + \lambda_i^2) \end{eqnarray*}\]


Proposition 5.6 Pour \(\phi > 0\), le modèle Poisson gonflée à zéro suppose de la surdispersion.

\[\begin{eqnarray*} Var[S_i] &=& (1-\phi) (\lambda_i + \lambda_i^2) - (1-\phi)^2 \lambda_i^2 \\ &=& (1-\phi) \lambda_i + (1-\phi) \lambda_i^2 - (1-\phi)^2 \lambda_i^2 \\ &=& (1-\phi) \lambda_i \left( 1 + \lambda_i - (1-\phi) \lambda_i \right) \\ &=& E[S_i] (1 + \lambda_i - E[S_i]) \\ &=& E[S_i] (1 + \phi \lambda_i) \end{eqnarray*}\]


En plus de \(\lambda_i\), il est d’ailleurs possible d’ajouter des variables explicatives dans le paramètre \(\phi\) de la Poisson gonflée à zéro, tel que:

\[\begin{equation*} \phi_i = \frac{\exp(\mathbf{X}_i' \gamma)}{1+\exp(\mathbf{X}_i' \gamma)}, \end{equation*}\]

avec \(\gamma\) un vecteur de paramètres.


5.3.2 Poisson à barrière

On peut aussi remarquer dans nos données qu’une grande partie des assurés, environ \(98\%\) des contrats, réclame moins de 2 fois par année. Ainsi, il pourrait être pertinent de ne s’occuper au départ que de la dichotomie réclame/ne réclame pas, par une régression logistique, et de s’intéresser au nombre de réclamations total par la suite.

Conséquemment, une classification basée sur deux processus pourrait s’avérer utile:

1- Un régression logistique qui distingue les assurés qui réclament et ceux qui ne réclament pas;

2- Pour les assurés qui réclament, un processus qui détermine le nombre de réclamations.


Formellement, la fonction de probabilité d’un modèle Poisson à barrière s’exprime comme:

\[\begin{equation*} \Pr(S_i=k) = \begin{cases} \exp(-\lambda_i) & \text{ pour } \ k = 0\\ \frac{1- \exp(-\lambda_i)}{1-\exp(-\tau_i)} \frac{\tau_i^k \exp(-\tau_i)}{k!} & \text{ pour } \ k = 1,2,... \end{cases} \label{HurSys} \end{equation*}\]

avec \(\lambda_i = \exp(\mathbf{X}_i' \beta)\) et \(\tau_i = \exp(\mathbf{X}_i' \gamma)\), des paramètres pouvant inclure des variables explicatives.


Proposition 5.7 La moyenne et la variance d’une Poisson à barrière s’expriment comme:

\[\begin{eqnarray*} E[S_i] &=& \frac{1- \exp(-\lambda_i)}{1-\exp(-\tau_i)} \tau_i\\ Var[S_i] &=& P(S_i > 0) Var[S_i|S_i > 0] + P(S_i = 0)E[S_i|S_i > 0] \end{eqnarray*}\]


Une propriété intéressante du modèle Poisson à barrière est lié à la fonction de logvraisemblance de modèle Poisson à barrière, qui s’exprime comme:

\[\begin{align*} \ell &= \underbrace{\sum_{i=1}^n I_{(S_i = 0)} \log(f_1(0)) + I_{(S_i > 0)} \log(1-f_1(0))}_{\ell_1} + \underbrace{\sum_{i=1}^n I_{(S_i > 0)} \log\left(\frac{f_2(s_i)}{1-f_2(0)}\right)}_{\ell_2} \\ &= \ell_1 + \ell_2 \end{align*}\]

avec \(f_1(0) = \exp(-\lambda_i)\) et \(f_2(s_i) = \frac{\tau_i^{s_i} \exp(-\tau_i)}{s_i!}\).


Pour l’estimation par maximum de vraisemblance, cela signifie qu’au lieu de maximiser \(\ell\), nous pouvons séparer l’analyse du nombre de réclamations en deux étapes distinctes et indépendantes:

  1. L’estimation des paramètres \(\beta\) pour le processus 0-1 se fait en maximisant \(\ell_1\);

  2. L’estimation des paramètres \(\gamma\) pour le processus > 1 se fait en maximisant \(\ell_2\).


5.3.3 Distinction entre les deux modèles

Même si le modèle à barrière et le modèle gonflé à zéro modifient la probabilité de n’avoir aucun événement, les deux modèles ne sont pas (toujours) équivalents.

Pour comprendre la différence, on remarquer que les deux modèles peuvent s’exprimer comme une somme composée:

\[Y = \sum_{j=1}^M X_i, \]

avec:

  1. Pour la distribution à barrière: \(M \sim Bernoulli\) avec des variables aléatoires \(X_i\) ne prenant que des valeurs positives \(1,2,3,...\);

  2. Pour la distribution gonflée à zéro: \(M \sim Bernoulli\), mais des variables aléatoires \(X_i\) prenant les valeurs \(0,1,2,3,...\).


Une différence fondamentale entre les deux modèle est la manière de générer la valeur de 0:

  1. Pour la distribution à barrière: uniquement lorsque \(M=0\);

  2. Pour la distribution gonflée à zéro: selon deux possibilités, (1) si \(M=0\) ou (2) si \(M=1\) et \(X_i=0\).

Lorsque nous voulons modéliser des données de comptage, il convient ainsi de vérifier si nous travaillons avec un phénomène qui s’explique davantage par un modèle à barrière ou par un modèle gonflé à zéro.