5.4 Autres distributions

5.4.1 Double-Poisson

Le modèle Double Poisson a été proposé comme distribution de comptage lors de recherches sur lea famille exponentielle double.

La distribution s’obtient comme une combinaison exponentielle de deux Poissons, l’une de paramètre \(\mu\) et l’autre de paramètre \(s\), de manière à avoir:

\[\begin{eqnarray*} \Pr(S=s) &=& K(\mu, \phi) \phi^{1/2} (\Pr(s; \mu))^{\phi}(\Pr(s; s))^{1-\phi} \\ &=& K(\mu, \phi) \phi^{1/2} \left(\frac{e^{-\mu} \mu^s}{s!}\right)^{\phi}\left(\frac{e^{-s} s^s}{s!}\right)^{1-\phi} \end{eqnarray*}\]

avec \(K(\mu, \phi)\) une constante de normalisation pour s’assurer que la fonction de probabilité somme à un.


Reparamétrisée, la distribution s’exprime comme:

\[\Pr(S=s) = K(\mu, \phi) \phi^{1/2} \exp(-\phi \mu) \left(\frac{e^{-s} s^s}{s!}\right) \left(\frac{e \mu}{s}\right)^{\phi s} \]

avec:

\[\frac{1}{K(\mu, \phi)} \approx 1 + \frac{1-\phi}{12 \phi \mu} \left(1 + \frac{1}{\phi \mu} \right)\]


La distribution a une moyenne environ égale à \(\mu\) et une variance environ égale à \(\mu/\phi\). Ainsi, le modèle admet de la surdispersion pour \(\phi\) plus petit que un.

Il a déjà été montré que \(K(\mu, \phi)\) est presque égal à 1, et l’estimation des paramètres néglige souvent \(K(\mu, \phi)\).


Proposition 5.8 En négligeant la constante de normalisation \(K\), et en supposant que \(\mu = exp( \mathbf{X}' \beta)\), montrez que la condition de premier ordre des \(\beta\) par MLE est égal à:

\[\begin{eqnarray*} \sum_{i=1}^n \frac{y_i - \mu_i}{(\mu_i/\phi_i)} \frac{\delta \mu_i}{ \delta \beta'} = 0 \end{eqnarray*}\]

Développements à faire à la maison.


Si \(\phi_i\) ne dépend pas de régresseur et donc, \(\phi_i = \phi\), il est possible de montrer que l’estimation par MLE de \(\phi\) est la valeur moyenne de la déviance d’une Poisson. Dans une telle situation, les estimateurs d’une double Poisson sont les mêmes qu’une Poisson, alors que la matrice de variance des estimateurs se doit seulement d’être multipliée par \(1/\widehat{\phi}\).

Ainsi, le modèle retourne à une Poisson pour \(\phi = 1\).


Un package en R propose une estimation de la double-Poisson.


5.4.2 Poisson généralisée

Le problème que la NB2 et de nombreuses autres distribution de comptage est qu’elles ne permettent que de la surdispersion. Ainsi, pour combler un besoin, une distribution de comptage qui admet de la surdispersion et de la sousdispersion a été proposée. Il s’agit que la Poisson généralisée, donc la fonction de probabilité s’exprime comme:

\[\begin{equation*} \Pr(S = S) = \left(\frac{\lambda}{1+a \lambda} \right)^s \frac{(1+a s )^{s-1}}{s!} \exp\left(-\frac{\lambda (1+as)}{(1+a \lambda)} \right) \end{equation*}\]


Proposition 5.9 La moyenne et la variance d’une Poisson généralisée sont respectivement \(\lambda\) et \(\lambda(1+a\lambda)^2\).

Développements à faire à la maison.


On peut voir \(a\) comme un paramètre de dispersion: si \(a>0\), il y a surdispersion alors que \(a<0\) implique sousdispersion. Lorsque \(a=0\), la Poisson généralisée revient à la Poisson.

Attention, dans le cas de sousdispersion, l’espace paramétrique est restreint par certaines contraintes. Néanmoins, puisque nous travaillons habituellement avec des données surdispersées si nous modélisons le nombre de réclamations, nous n’analyserons pas en détails cette situation.


5.4.3 Autres

Il existe une quantité presque indénombrable de distributions de comptage. Le cours ne fait qu’en aborder quelques unes. Pour les personnes intéressées, on peut se référer aux deux grands classiques:

  • Winkelmann, R. (2008). Econometric analysis of count data. Springer Science & Business Media.
  • Cameron, A. C., & Trivedi, P. K. (2013). Regression analysis of count data. Cambridge university press.

Au-delà de ce qui est dans la littérature, chacun d’entre vous pourrait construire sa propre distribution de comptage en prenant n’importe quelle fonction qui somme à un. On peut d’ailleurs facilement créer de nouvelles distributions de comptage en supposant divers temps d’attente, ou encore en discrétisant plein de fonction de densité provenant de variables aléatoires continues.


Néanmoins, il convient de bien comprendre l’objectif de la modélisation: il s’agit de résumer un phénomène (ici le nombre de réclamations d’assurance) en une fonction paramétrique afin d’en trouver les propriétés, interpréter les résultats et éventuellement prédire les résultats futurs, ou du moins accorder une probabilité aux événements futurs.

L’objectif de l’analyse statistique n’est pas de simplement d’ajuster le plus précisément possible les observations passées, et d’ainsi répliquer exactement les observations. Ceci mène nécessairement à un surajustement des données.


5.4.3.1 Ajout d’une hétérogénéité

Même si nous avons utilisé des distributions de comptage qui ne sont pas des distributions de Poisson, il est bien possible d’ajouter de l’hétérogénéité à toutes les distributions introduites dans ce chapitre. Ainsi, la gamma, l’inverse-gaussienne ou la lognormale peuvent être couplées à plusieurs des distributions plus haut.

En ce sens, on pourrait développer des modèles du type:

  1. Un modèle conditionnel de Poisson gonflé à zéro, de paramètres (\(\phi\), \(\lambda_i \theta\)), avec \(\lambda_i = \exp( \mathbf{X}_i \beta)\) et \(\theta \sim gamma(\alpha, \alpha)\).

  2. Un modèle conditionnel de Poisson à barrière, de paramètres (\(\lambda_i\), \(\tau_i \theta\)), avec \(\lambda_i = \exp( \mathbf{X}_i \beta)\), \(\tau_i = \exp(\mathbf{Z}' \gamma)\) et \(\theta \sim gamma(\alpha, \alpha)\).

  3. etc.