5.1 Hétérogénéité

Nous avons déjà construit un distribution de comptage avec hétérogénéité lorsque nous avons introduit les distributions NB1 et NB2. Nous avions en effet supposé la distribution conditionelle \(N||\Theta = \theta \sim Poisson(\lambda \theta)\), et choisi des diverses formes de distributions gamma pour l’hétérogénéité. Il convient de définir un peu plus clairement ce type de modèle, qu’on réfère souvent à des modèles de mélange.

On peut justifier l’introduction d’une variable aléatoire d’hétérogénéité dans un modèle de comptage en réalisant que que chaque assuré d’un portefeuille est différent. On peut en partie expliquer la différence des assurés en utilisant des variables de segmentation, comme l’âge, l’état civil, etc. Le problème provient de la situation où les régresseurs du modèle n’expliquetaient pas complètement cette hétérogénéité individuelle.

Formellement, supposons que le modèle permettant de modéliser la variable aléaoire \(Y\) est définie comme:

\[E[Y| \mathbf{X}, \mathbf{Z}] = \exp(\mathbf{X}' \mathbf{\beta} + \mathbf{Z}' \mathbf{\gamma}).\]

Par contre, on supposera que \(\mathbf{Z}\) n’est pas observé. En assurance, on peut voir \(\mathbf{Z}\) comme représentant l’omission de variables de classification importantes:

parce qu’il n’est pas permis de les utiliser: âge, sexe, religion, territoire, etc.
parce qu’il est impossible de les mesurer: maturité, qualité des réflexes, aggressivité ou colère au volant, propension à prendre de l’alcool en conduisant, etc.

Ainsi, en regrupant \(\mathbf{Z}' \mathbf{\gamma}\) dans un seul terme, nous avons:

\[E[Y| \mathbf{X}, \mathbf{Z}] = \exp(\mathbf{X}' \mathbf{\beta} + \nu) = \exp(\mathbf{X}' \mathbf{\beta}) \theta ,\]

avec \(\theta = \exp(\mathbf{Z}' \mathbf{\gamma}) = \exp(\nu)\), représentant l’hétérogénéité non-observée du modèle.

5.1.1 Propriétés d’une Poisson-mélange

On peut ajouter un paramètre d’hétérogénéité dans n’importe quelle distribution, comme nous le verrons plus tard. Par contre, pour présenter les propriétés des modèles de mélange, il convient d’utiliser la Poisson-mélange.

Dans une Poisson-mélange(\(\lambda_i \Theta\)), on peut facilement montrer que nous avons les deux premiers moments suivants:

\[\begin{eqnarray*} E[S_i|\theta] &=& \lambda_i E[\Theta] \\ Var[S_i|\theta] &=& \lambda_i + \lambda_i^2 Var[\Theta] \end{eqnarray*}\]

Proposition 5.1 La fonction génératrice des probabilité (fgp) de la Poisson-mélange(\(\lambda_i \Theta\)) s’exprime comme:

\[\begin{eqnarray*} \mathbb{P}(z) &=& \mathbb{M}_{\Theta}( \lambda_i (z -1) ), \end{eqnarray*}\]

où \(\mathbb{M}_{\Theta}(t)\) est la fonction génératrice des moments de la variable aléatoire \(\Theta\).

\[\begin{eqnarray*} \mathbb{P}(z) &=& \sum_{x=0}^{\infty} \Pr(S_i = x) z^x \\ &=& \sum_{x=0}^{\infty} \int_{0}^{\infty} \frac{(\lambda_i \theta)^x e^{-\lambda_i \theta}}{x!} z^x g(\theta) d\theta \\ &=& \sum_{x=0}^{\infty} \int_{0}^{\infty} \frac{(\lambda_i \theta z)^x }{x!} e^{-\lambda_i \theta} g(\theta) d\theta \\ &=& \int_{0}^{\infty} \left( \sum_{x=0}^{\infty} \frac{(\lambda_i \theta z)^x }{x!} \right) e^{-\lambda_i \theta} g(\theta) d\theta \\ &=& \int_{0}^{\infty} e^{\lambda_i \theta z} e^{-\lambda_i \theta} g(\theta) d\theta \\ &=& \int_{0}^{\infty} e^{\theta \lambda_i (z -1)} g(\theta) d\theta \\ &=& \mathbb{M}_{\Theta}( \lambda_i (z -1) ) \end{eqnarray*}\]

Cette preuve implique que la somme et l’intégrale ont été interchangées, ce qui exige normalement d’appliquer le théorème de convergence monotone. À la place, nous n’avons qu’à utiliser le théorème de l’espérance totale:

\[\begin{eqnarray*} \mathbb{P}(z) &=& E[z^x] = E [ E[z^x|\theta] ]\\ &=& \int_0^{\infty} E[Z^x|\theta] g(\theta) d(\theta) \\ &=& \int_{0}^{\infty} \sum_{x=0}^{\infty} \frac{(\lambda_i \theta)^x e^{-\lambda_i \theta}}{x!} z^x g(\theta) d\theta \\ &=& \int_{0}^{\infty} \left( \sum_{x=0}^{\infty} \frac{(\lambda_i \theta z)^x }{x!} \right) e^{-\lambda_i \theta} g(\theta) d\theta \\ &=& \int_{0}^{\infty} e^{\lambda_i \theta z} e^{-\lambda_i \theta} g(\theta) d\theta \\ &=& \int_{0}^{\infty} e^{\theta \lambda_i (z -1)} g(\theta) d\theta \\ &=& \mathbb{M}_{\Theta}( \lambda_i (z -1) ) \end{eqnarray*}\]

Deux derniers théorème concernant les modèles de Poisson-mélange nous sont pertinents.

Théorème 5.1 (Fonction de vraisemblance unimodale, Holgate (1980)) Tous les modèles de mélange continus basés sur une Poisson ont une fonction de vraisemblance unimodale.

Ce théorème nous assure que l’utilisation de techniques numériques classiques pour obtenir les MLE d’une régression Poisson, comme l’algorithme de Newton-Raphson, vont converger vers la valeur maximale de la fonction de logvraisemblance.

Théorème 5.2 (Double croisement, Shaked (1980)) Supposons un modèle de mélange avec:

Une variable aléatoire conditionnelle provenant de la famille exponentielle, de fonction de densité (ou de probabilité) \(f(y|\theta)\);
Une hétérogénété \(\Theta\) avec \(E[\Theta] = 1\) et \(Var[\Theta] = \sigma^2 > 0\).

Alors la distribution marginale \(h(y) = E_{\Theta}[f(y|\theta)]\) aura des queues de distributions plus épaisses que \(f(y|\theta)\), dans le sens où la différence entre les densités de la distribution marginale et la distribution conditionelle, \(h(y) - f(y|\theta)\) est \(\{+,-,+\}\) lorsque \(y\) croisse sur son support.

Ce théorème est très intéressant si on réfère au tableau des valeurs observées et prédites affiché en début de chapitre. En effet, le théorème indique que l’ajout d’une variable aléatoire modélisant l’hétérogénéité lèvera les deux ailes de la distribution.

Attention, dans les mélanges de Poisson que vous pouvez trouver dans plusieurs articles scientifiques, surtout les articles un peu moins récents, le modèle de Poisson mélange utilisé n’est pas le même que celui à la base de notre cours. En effet, dans plusieurs cas, le modèle utilisé a la forme suivante:

\[N|\Theta=\theta \sim Poisson(\theta),\]

avec \(\Theta\) ayant une distribution quelconque. Cette paramétrisation permet difficilement la segmentation du risque, puisque les régresseurs se devraient d’être utilisés dans la distribuiton de \(\Theta\). Nous utilisons plutôt

\[N|\Theta = \theta \sim Poisson(\lambda \theta),\]

Puisque plusieurs modèles dans la littérature ont été développés avec \(N|\theta \sim Poisson(\theta)\), il est parfois difficile voire même impossible de transposer des résultats connus dans un modèle avec segmentation.

5.1.2 Modèles paramétriques

Au final, on travaille avec une distribution conditionnelle \(S_i |\Theta = \theta \sim Poisson(\lambda_i \theta)\), et on cherche, par le théorème de probabilités totales, la distribution marginale de \(S_i\), dont la fonction de probabilités aura la forme:

\[ \Pr(S_i =s) = \int_0^{\infty} \Pr(S_i=s|\Theta= \theta) g_{\Theta}(\theta) d\theta\]

On cherche donc à lister des candidats possibles pour la variable aléatoire \(\Theta\). Plusieurs distributions ont été essayées dans la littérature. On peut faire un survol en regardant, par exemple:

Karlis, D., & Xekalaki, E. (2005). Mixed poisson distributions. International Statistical Review/Revue Internationale de Statistique, 35-58.
Gupta, R. C., & Ong, S. H. (2005). Analysis of long-tailed count data by Poisson mixtures. Communications in statistics—Theory and Methods, 34(3), 557-573.

Nous ne couvrirons pas toutes les possibilités, mais verrons les cas les plus importants.

5.1.2.1 Gamma

Le cas classique est de supposer \(\Theta \sim gamma(\alpha, \alpha)\):

\[\begin{eqnarray*} g_{\Theta}(\theta) &=& \frac{\alpha^{\alpha}}{\Gamma(\alpha)} \theta^{\alpha - 1} e^{-\alpha \theta} \end{eqnarray*}\]

Comme nous l’avons vu plus tôt, un tel modèle de Poisson-mélange nous donne une NB2 comme distribution marginale de \(S_i\). En reparamétrisant la distribution de \(\Theta\) de manière à avoir \(\Theta \sim gamma(\lambda \alpha, \lambda \alpha)\), nous trouvons une NB1 comme distribution marginale de \(S_i\).

Les MLE \(\widehat{\beta}\) et \(\widehat{\alpha}\) nous permettent d’obtenir la distribution de l’hétérogénéité \(\Theta\), soit une \(gamma(\widehat{\alpha}, \widehat{\alpha})\) (pour la NB2), ou encore une \(gamma(\widehat{\lambda} \widehat{\alpha}, \widehat{\lambda} \widehat{\alpha})\) (pour la NB1).

5.1.2.2 Inverse-gaussienne

Une première alternative est de supposer que \(\Theta\) suit une distribution inverse-gaussienne de moyenne 1 et de variance \(\tau\). La fonction de densité de \(\Theta\) est ainsi:

\[g_{\Theta}(\theta) = \frac{\theta^{-3/2}} {\sqrt{2 \pi \tau}} \exp\left(-\frac{(\theta - 1)^2}{2\tau \theta} \right) \] La distribution marginale de \(S_i\) est ainsi appelée une Poisson-inverse-gaussienne, ou PIG, avec une fonction de probabilités se développant comme:

\[\begin{eqnarray*} \Pr(S_i = s_i) &=& \int_{0}^{\infty} \frac{(\lambda_i \theta)^{s_i} e^{-\lambda_i \theta} }{s_i!} \frac{\theta^{-3/2}} {\sqrt{2 \pi \tau }} \exp\left(-\frac{(\theta - 1)^2}{2\tau \theta} \right) d \theta \\ &=& \frac{\lambda_i^{s_i}}{{s_i}! \sqrt{2 \pi \tau }} \exp\left(1/\tau \right) \int_{0}^{\infty} \theta^{{s_i}-3/2} \exp\left(-\theta \left(\frac{1}{2 \tau} + \lambda_i \right) - \frac{1}{2\tau \theta} \right) d \theta \end{eqnarray*}\]

L’intégrale à résoudre semble complexe, mais il a déjà été montré que:

\[\begin{equation*} \int_{0}^{\infty} e^{-ax^h - bx^{-h}} x^{s-1} dx = \frac{2}{h} (\frac{b}{a})^{\frac{s}{2h}} K_{\frac{s}{h}}(2\sqrt{ab}) \end{equation*}\]

où \(K_j(.)\) est la fonction Bessel modifiée de seconde espèce satisfaisant:

\[\begin{eqnarray*} K_{-\frac{1}{2}}(a) &=& \left(\frac{\pi}{2a}\right)^{0.5} e^{-a} \\ K_{\frac{1}{2}}(a) &=& K_{-\frac{1}{2}}(a)\\ K_{s+1}(a) &=& K_{s-1}(a) + \frac{2s}{a} K_s(a). \end{eqnarray*}\]

Ainsi, on peut obtenir une forme fermée de la fonction de probabilité de la PIG:

\[\begin{equation*} \Pr(S_i = {s_i}) = \frac{\lambda_i^{s_i}}{s_i !} \Big(\frac{2}{\pi\tau}\Big)^{0.5} \exp(\tfrac{1}{\tau}) (1+2\tau\lambda_i)^{-\tfrac{u_i}{2}} K_{u_i}(z_i) \end{equation*}\]

où:

\[\begin{eqnarray*} u_i &=& s_i - 0.5 \\ z_i &=& \frac{(1+2\tau\lambda_i)^{0.5}}{\tau} \end{eqnarray*}\]

Le théorème de l’espérance totale fait en sorte que l’espérance de la PIG peut se trouver facilement:

\[E[S_i] = E[E[S_i|\Theta]] = E[\lambda_i \Theta] = \lambda_i E[\Theta] = \lambda_i,\]

Avec le théorème de la variance totale, on pourrait montrer que:

\[Var[S_i] = \lambda_i + \tau \lambda_i^{2}.\]

Cette forme de la variance de la PIG est similaire à la forme de la variance de la NB2. Ainsi, pour être plus précis, la distribution marginale développée ici est la PIG2.

Tout comme nous avons pu développé une NB1 en changeant les paramètres de la distribution de \(\Theta\), une distribution PIG1 existe. L’espérance et la variance de la PIG1 sont égales à:

\[\begin{align*} E[S_i] &= \lambda_i \\ Var[S_i] &= \lambda_i + \tau \lambda_i \end{align*}\]

5.1.2.3 Lognormale

La dernière distribution paramétrique que nous analyserons est le mélange Poisson basé sur une loi lognormale.

L’avantage de cette distribution mixante est qu’elle provient d’une simple transformation de la loi normale. Puisque la loi normale est utilisée un peu partout en pratique et dans plusieurs logiciels statistiques, il peut être pratique de travailler avec un modèle qui utilise ces avantages.

Ainsi, si \(\Theta\) est une distribution LogNormale de paramètres \(\mu = -\sigma^2/2\) et \(\sigma^2\), nous avons la fonction de densité suivante:

\[g_{\Theta}(\theta) = \frac{1}{\theta \sigma \sqrt{2 \pi}} \exp \left(\frac{-(\log(\theta) - \mu)^2} {2\sigma^2} \right)\]

La distribution marginale résultante s’appelle la Poisson-lognormal (ou PLN). On peut obtenir la fonction de probabilité de la manière suivante:

\[\begin{align*} \Pr(S_i = s_i) &= \int_{0}^{\infty} \frac{ \exp(-\lambda_i \theta) (\lambda_i \theta)^{s_i}}{s_i!} \frac{1}{\theta \sigma \sqrt{2 \pi}} \exp \left(\frac{-(\log(\theta) - \mu)^2} {2\sigma^2} \right) d\theta \\ &= \frac{\lambda_i^{s_i} \exp\left(-\frac{\left(\mu^2 \right)}{2\sigma ^{2}}\right) }{s_i! ( \sigma \sqrt{2 \pi})} \int_{0}^{\infty} \exp(-\lambda_i \theta) \theta^{s_i-1} \exp\left( \left(\frac{ \mu - 1 }{\sigma ^{2}}\right) \ln(\theta) - \lambda_i \theta \right) d\theta \\ \end{align*}\]

Il n’est malheusement pas possible, avec les connaissances mathématiques actuelles, de trouver une solution analytique simple à cette intégrale. Ainsi, on peut pas exprimer facilement la distribution marginale de \(S_i\).

Des approches ont été développées depuis plusieurs décennies pour trouver une solution à ce genre de situations:

Approximation numérique des intégrales;
Approches bayésiennes ou par simulations (les simulations Monte Carlo par chaînes de Markov, ou MCMC, sont populaires);
Approximation par filtres, le plus connu étant le filtre de Kalman;
etc.

Il semble exister certains packages en R pouvant nous aider à estimer les paramètres d’une telle distribution.

Il peut parfois être plus simple de travailler avec la loi normale qu’avec la loi lognormale, surtout lorsque nous utilisons certains logiciels statistiques. Ainsi, on peut aussi réécrire le modèle Poisson-lognormal comme:

\[N|\Xi = \xi \sim Poisson\left(\lambda \exp(\xi) \right) \text{, avec } \Xi \sim Normal\left(-\frac{\sigma^2}{2}, \sigma^2 \right)\]

L’espérance et la variance de la PLN sont:

\[\begin{align*} E[S_i] &= \lambda_i \\ Var[S_i] &= \lambda_i + \sigma^2 \lambda_i^2 \end{align*}\]

On remarque encore une fois que une variance de forme NB2. Ainsi, la distribution marginale développée ici est la PLN2. Tout comme nous avons pu développé une NB1 et une PIG1, une distribution PLN1 existe, d’espérance et la variance égales à:

\[\begin{align*} E[S_i] &= \lambda_i \\ Var[S_i] &= \lambda_i + \sigma^2 \lambda_i \end{align*}\]

5.1.3 Simulations

Pour déterminer, il est pertinent d’indiquer que malgré la complexité de certaines distributions Poisson-mélange, il est très simple de simuler ces distribution. En effet, nous n’avons qu’à procéder selon le schéma suivant:

Simuler une valeur de \(\theta\) à partir de la loi mixante choisie;
Simuler une Poisson de moyenne \(\lambda \times \theta\).

Simulation d’une NB2 en passant par une simulation d’une gamma:

set.seed(100)
lambda <- 0.15
alpha <- 0.65
theta <- rgamma(1, alpha, alpha)
rpois(1, lambda*theta)

## [1] 0

Simulation d’une NB1 en passant par une simulation d’une gamma:

set.seed(100)
lambda <- 0.15
alpha <- 0.05
theta <- rgamma(1, lambda*alpha, lambda*alpha)
rpois(1, lambda*theta)

## [1] 0