7.3 Approche avec effets individuels

Classiquement, dans ce type de modèle de comptage, le point de départ est la distribution Poisson:

\[ N_{i,t} \sim Poisson(\mu_{i,t} = \alpha_i \lambda_{i,t}), \ \ \lambda_{i,t} = \exp(x_{i,t}' \beta), \ i=1,...,m \ \text{et} \ t = 1,...,T\]

(\(\alpha\) représente ici un effets individuel qui affecte l’assuré \(i\), et non un paramètre de surdispersion).

Nous avons ici deux situations sensiblement différentes:

1- Dans les modèles à effets fixes: \(\alpha_i\), \(i=,...,n\) sont des , pouvant donc être tous estimés (\(n\) paramètres).

2- Dans un modèle à effets aléatoires: \(\alpha_i\) sont des i.i.d.. Les modèles à effets aléatoires peuvent être vus comme une généralisation des modèles à hétérogénéité vus dans le chapitre portant sur les données transversales.

Dans les deux cas, comme un seul \(\alpha_i\) affecte la totalité des contrats d’un même assuré, nous nous retrouvons avec un modèle de données de panel donnant la possibilité de créer une forme de dépendance temporelle.

7.3.1 Effets fixes

Comme les \(\alpha_i\), \(i=,...,n\) sont des paramètres inconnus, une approche intuitive serait de les estimer par maximum de vraisemblance. Puisque nous avons \(n\) assuré, cela signifie l’estimation de \(n+(p+1)\) paramètres dans le modèle, ce qui peut être fort considérable.

Au-delà de la quantité gigantesque de paramètres à estimer, le problème est que cette estimation ne génère pas nécessairement des estimés convergents dans le cas classique d’un \(T\) fixe et \(n \rightarrow \infty\). En effet, le grand nombre de paramètres dans le modèle pourrait faire en sorte que la mauvaise estimation des effets fixes génère de mauvaises estimations de \(\beta\).

Le problème n’est pas imaginaire: dans le cas d’une régression logistique d’ailleurs, il a été montré que les MLE des \(\beta\) étaient faussés dans le cas d’une estimation par MLE des effets fixes.

Pour voir si nous avons un tel problème, trouvons tout d’abord les MLE des paramètres du modèle dans le cas poissonnien:

\[\begin{eqnarray*} \Pr[N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T}|\alpha_i, \beta] &=& \prod_{t=1}^T \frac{\exp(-\alpha_i \lambda_{i,t}) (\alpha_i \lambda_{i,t})^{n_{i,t}} }{n_{i,t}!}\\ \ln\left(\Pr[N_{i,1},...,N_{i,T}|\alpha_i, \beta] \right) &=& -\alpha_i \sum_{t=1}^T \lambda_{i,t} + \sum_{t=1}^T n_{i,t} \ln(\alpha_i) + \sum_{t=1}^T n_{i,t} \ln(\lambda_{i,t}) - \sum_{t=1}^T \ln(n_{i,t}!) \end{eqnarray*}\]

Une approche qu’on peut prendre pour trouver les estimateurs et de débuter avec une dérivation du log-vraisemblance par rapport à \(\alpha_i\). Par la suite, en égalant ensuite l’expression à 0, nous obtenons la condition de premier ordre suivant pour chaque \(i=1, \ldots, m\):

\[\hat{\alpha}_i = \frac{\sum_{t=1}^T n_{i,t}}{\sum_{t=1}^T \lambda_{i,t}} = \frac{n_{i,\bullet}}{\lambda_{i,\bullet}} \]

Avec l’estimateur par MLE \(\hat{\alpha}_i\), l’idée est de substituer \(\alpha_i\) par \(\hat{\alpha}_i\) dans la fonction de vraisemblance. Ainsi, pour estimer les paramètres \(\beta\), on peut réécrire la distribution jointe de l’assuré \(i\) comme:

\[\begin{eqnarray*} \Pr[N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T}|\beta] &=& \prod_{t=1}^T \frac{\exp(-\alpha_i \lambda_{i,t}) (\alpha_i \lambda_{i,t})^{n_{i,t}} }{n_{i,t}!}\\ &\propto& \prod_{t=1}^T \exp\left(-\left(\frac{n_{i,\bullet}}{\lambda_{i,\bullet}}\right) \lambda_{i,t}\right) \left(\left(\frac{n_{i,\bullet}}{\lambda_{i,\bullet}}\right) \lambda_{i,t}\right)^{n_{i,t}} \\ &=& \exp\left(- \left(\frac{n_{i,\bullet}}{\lambda_{i,\bullet}}\right) \sum_{t=1}^T \lambda_{i,t}\right) n_{i,\bullet}^{n_{i,\bullet}} \prod_{t=1}^T \left(\frac{\lambda_{i,t}}{\lambda_{i,\bullet}} \right)^{n_{i,t}} \\ &\propto& \prod_{t=1}^T \left(\frac{\lambda_{i,t}}{\lambda_{i,\bullet}}\right)^{n_{i,t}} \\ \end{eqnarray*}\]

Ainsi, pour la totalité des \(m\) assurés du portefeuille, la fonction de vraisemblance à maximiser pour trouver le vecteur de paramètres \(\beta\) est:

\[\begin{eqnarray*} L(\beta) &\propto& \prod_{i=1}^m \prod_{t=1}^T \left(\frac{\lambda_{i,t}}{\lambda_{i,\bullet}}\right)^{n_{i,t}} \end{eqnarray*}\]

Dans le cas où l’estimation individuelle des \(\alpha_i\) serait considérée (ce qu’on appelle l’approche par effets fixes), il nous faudrait donc dériver cette fonction (ou le logarithme de cette fonction) pour trouver les MLE des \(\beta\).

Par contre, nous ne savons pas encore si cette forme d’estimation pose problème.

7.3.1.1 Maximum de vraisemblance conditionnel

Dans la littérature scientifique, il existe des moyens pour contourner ce problème de mauvaises estimations des \(\beta\) lorsqu’on a présence d’effets fixes. L’approche recommandée est de passer par l’estimation du maximum de vraisemblance conditionnel.

L’objectif de cette estimation est de conditioner sur la statistique exhausive de \(\alpha_i\), \(i=1,...,m\) pour les distributions de la famille exponentielle linéaire. Dans notre cas, comme nous venons tout juste de le voir, la statistique exhaustive correspond à \(\sum_{t=1}^T n_{i,t} = n_{i, \bullet}\).

Proposition 7.1 L’estimateur par maximum de vraisemblance conditionnel d’un modèle de Poisson avec effets fixes correspond à l’estimateur par maximum de vraisemblance d’un modèle de Poisson avec effets fixes.

Preuve

Dans un premier temps, notons que si \(N_{i,t} \sim Poisson(\alpha_i \lambda_{i,t})\), alors \(\sum_{t=1}^T N_{i,t}\) est aussi une somme de Poisson, et donc une Poisson de paramètre \(\sum_{t=1}^T \alpha_i \lambda_{i,t} = \alpha_i \lambda_{i,\bullet}\).

Ainsi, pour l’assuré \(i\), sa contribution à la fonction de vraisemblance s’exprime comme:

\[\begin{eqnarray*} \Pr[N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T}| n_{i, \bullet} ] &=& \frac{\Pr\left(N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T}, n_{i, \bullet} \right)}{\Pr\left(n_{i, \bullet}\right)} \\ &=& \frac{\Pr(N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T})}{\Pr\left(n_{i, \bullet} \right)}\\ &\propto& \frac{\prod_{t=1}^T \exp(-\alpha_i \lambda_{i,t}) (\alpha_i \lambda_{i,t})^{n_{i,t}}} {\exp\left(-\alpha_i \lambda_{i,\bullet}\right) \left(\alpha_i \lambda_{i,\bullet}\right)^{n_{i, \bullet}}} \\ &=& \frac{\exp(-\alpha_i \lambda_{i,\bullet}) \alpha_i^{n_{i,\bullet}} \prod_{t=1}^T \lambda_{i,t}^{n_{i,t}}} {\exp(-\alpha_i \lambda_{i,\bullet}) \alpha_i^{n_{i,\bullet}} \lambda_{i,\bullet}^{n_{i, \bullet}}} \\ &=& \prod_{t=1}^T \left(\frac{\lambda_{i,t}}{\lambda_{i,\bullet}}\right)^{n_{i,t}} \\ \end{eqnarray*}\]

ce qui correspond au même résultat obtenu pour le calcul du MLE, tel que vu plus tôt.

Puisqu’il a été prouvé que le MLE conditionnel ne génère pas de problème dans l’estimation des \(\beta\) pour les modèles longitudinaux à effets fixes, cela signifie que le MLE classique (qui est équivalent au MLE conditionnel) d’un modèle de Poisson avec effets fixes n’en génére pas non plus.

Il est donc facile de trouver les paramètres d’un modèle à effets fixes: il ne s’agit que d’un MLE classique avec une série de paramètres \(\alpha_i, i=1,...,n\) et \(\beta\) à estimer.

7.3.1.2 Condition de premier ordre

Pour un modèle à effets fixes, avec \(\lambda_{i,t}^{FE} = \exp(x_{i,t}' \beta)\), la condition de premier ordre provenant de la dérivation par rapport à \(\beta\) de la fonction de vraisemblance génère la condition de premier ordre suivante:

\[\begin{equation*} \sum_{i=1}^n \sum_{t=1}^T \boldsymbol{X}_{i,t} \left(n_{i,t} - \lambda_{i,t}^{FE} \frac{\sum_t n_{i,t}}{\sum_t \lambda_{i,t}^{FE}} \right)=\boldsymbol{0}. \end{equation*}\]

7.3.1.3 Autres distributions de comptage

Il est possible d’utiliser d’autres modèles à effets fixes que la distribution de Poisson, évidemment. Toutefois, ce n’est pas si simple. Le modèle binomial négatif avec effets fixes est d’ailleurs assez controversé et plusieurs paramétrisations possibles ont été proposées.

7.3.2 Effets aléatoires

Dans un modèle avec données longitudinales avec effets aléatoires, on suppose que les \(\alpha_i = \alpha_i^{RE}\) ne sont plus des paramètres à estimer, mais des variables aléatoires positives, avec une certaine fonction densité \(g(\cdot)\). Sachant \(\alpha_i^{RE}\), les variables de comptage \(N_{i,1}, N_{i,2},\ldots,N_{i,T}\) sont indépendantes.

Pour un modèle à effets aléatoires, la distribution jointe de \(N_{i,1},...,N_{i,T}\) s’exprime ainsi comme:

\[\begin{eqnarray*} &&\Pr[N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T}]\nonumber\\ &=& \int_0^{\infty} \Pr[N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T}|\boldsymbol{x}_{i,1},...,\boldsymbol{x}_{i,T},\alpha_i^{RE}] g(\alpha_i^{RE}) d\alpha_i^{RE} \nonumber \\ &=& \int_0^{\infty} \left( \prod_{t=1}^T \Pr[N_{i,t}=n_{i,t}|\boldsymbol{x}_{i,1},...,\boldsymbol{x}_{i,T},\alpha_i^{RE}] \right) g(\alpha_i^{RE}) d\alpha_i^{RE}\nonumber\\ &=& \int_0^{\infty} \left( \prod_{t=1}^T \exp(-\alpha_i^{RE}\lambda_{i,t}^{RE})\frac{(\alpha_i^{RE}\lambda_{i,t}^{RE})^{n_{i,t}}}{n_{i,t}!} \right) g(\alpha_i^{RE}) d\alpha_i^{RE}.\label{REcond} \end{eqnarray*}\]

Il est important de noter que les distributions jointes peuvent toujours s’exprimer de la manière suivante:

\[\begin{eqnarray*} \Pr[N_{i,1},...,N_{i,T}] &=& \Pr[N_{i,1}] \times \Pr[N_{i,2}|n_{i,1}] \times \Pr[N_{i,3}|n_{i,1}, n_{i,2}] \times \ldots \times \Pr[N_{i,T}|n_{i,1}, \ldots, n_{i,T-1}] \\ &=& \Pr[N_{i,1}] \prod_{t=1}^T \Pr[N_{i,t}|n_{i,1:(t-1)}] \end{eqnarray*}\]

avec \(n_{i,1:(t-1)}\) représentant l’historique de sinistre du temps \(1\) au temps \(t-1\). Même si toutes les distributions jointes peuvent prendre l’équation ci-dessus, ce qui est intéressant dans le cas des modèles à effets aléatoires est qu’à chaque périodde \(t\), on peut explicitement mettre à jour le paramètre \(\alpha_i^{RE}\), et calculer une distribuiton a posteriori de \(\alpha_i^{RE}\).

Nous y reviendrons.

7.3.2.1 MVNB

Comme avec les données transversales, on peut proposer diverses distributions pour l’effet aléatoire \(\alpha_i^{RE}\).

Le cas classique survient lorsque \(\alpha_i^{RE}\) suit une gamma de moyenne 1 et de variance \(\frac{1}{\nu}\). Dans un tel cas, on peut exprimer la probabilité jointe de manière close et la probabilité jointe s’exprime comme:

\[\begin{eqnarray*} \Pr[N_{i,1},...,N_{i,T}] &=& \left(\prod_{t=1}^{T} \frac{(\lambda_{i,t}^{RE})^{n_{i,t}}}{n_{i,t}!} \right) \frac{\Gamma(n_{i,\bullet} + \nu)}{\Gamma(\nu)} \left(\frac{\nu}{\sum_{i=1}^T \lambda_{i,t}^{RE} + \nu}\right)^{\nu} \left(\sum_{i=1}^T \lambda_{i,t}^{RE} + \nu\right)^{-n_{i,\bullet}}, \label{distgamma1} \end{eqnarray*}\]

avec \(n_{i,\bullet}=\sum_{t=1}^T n_{i,t}\).

Cette distribution simple est malgré tout bien importante. Elle s’appelle la binomiale négative multivariée (MVNB), ou encore la multinomiale négative. On la retrouve dans pratiquement tous les modèles de base pour les données de panel de comptage.

En utilisant la forme:

\[\begin{eqnarray*} \Pr[N_{i,1},...,N_{i,T}] &=& \Pr[N_{i,1}] \prod_{t=1}^T \Pr[N_{i,t}|n_{i,1:(t-1)}] \end{eqnarray*}\]

on peut montrer que la MVNB correspond au produit de NB2, dans lequel le paramètres sont mis-à-jour à chaque période en fonction de l’historique de sinistres observé.

Dans le cas de la MVNB, nous avons aussi :

\[ \mathbb{E}[N_{i,t}] = \lambda_{i,t}^{RE}<\mathbb{V}[N_{i,t}] = \lambda_{i,t}^{RE} + (\lambda_{i,t}^{RE})^2/\nu. \] —

On pourrait montrer que les conditions de premier ordre de la MVNB pour l’estimation par maximum de vraisemblance des paramètres sont:

\[\begin{equation*} \sum_{i=1}^n \sum_{t=1}^T \boldsymbol{X}_{i,t} \left(n_{i,t} - \lambda_{i,t} \frac{\sum_t n_{i,t} + \nu}{\sum_t \lambda_{i,t} + \nu} \right) = \boldsymbol{0} \label{eq2} \end{equation*}\] \[\begin{equation*} \sum_{i=1}^n \left( \sum_{j=1}^{n_{i,\bullet} - 1} \frac{1}{j + \nu} \right) - \log\left(1 + \frac{\sum_t \lambda_{i,t}}{\nu}\right) + \sum_t \frac{\lambda_{i,t} + n_{i,t}}{\sum_t \lambda_{i,t} + \nu} = 0. \end{equation*}\]

Clairement, comme on l’a vu dans les chapitres sur les données transversales, on peut utiliser d’autres types de distributions pour les \(\alpha_i^{RE}\), et même pour la distribution conditionnelle des \(N_{i,t}\).

7.3.2.2 Effets aléatoires ou fixes ?

En pratique, les effets fixes sont souvent utilisés en économétrie, et pratiquement jamais en assurance. Les effets aléatoires, d’un autre côté, sont une des bases de l’actuariat: pensons aux modèles de crédibilité, aux systèmes bonus-malus, etc.

Pour comprendre la différence entre les modèles, un comparaison entre les équations de premier ordre est particulièrement intéressante:

\[\begin{equation*} \sum_{i=1}^n \sum_{t=1}^T \boldsymbol{X}_{i,t} \left(n_{i,t} - \lambda_{i,t}^{FE} \frac{\sum_{t=1}^T n_{i,t}}{\sum_{t=1}^T \lambda_{i,t}^{FE}} \right)=\boldsymbol{0}. \label{eq1} \end{equation*}\]

\[\sum_{i=1}^n \sum_{t=1}^T \boldsymbol{X}_{i,t} \left(n_{i,t} - \lambda_{i,t}^{RE} \frac{\sum_{t=1}^T n_{i,t} + \nu}{\sum_{t=1}^T \lambda_{i,t}^{RE} + \nu} \right) = \boldsymbol{0}\]

Quelques remarques intéressantes sont à faire:

1- Pour les effets fixes, un assuré n’ayant aucune réclamation dans ses \(T\) contrats d’assurance ne contribue pas à l’estimation des paramètres \(\beta\). En effet, chaque \(n_{i,t}=0\), et nous avons \(n_{i,\bullet} = 0\).

2- Encore pour les effets fixes, un assuré ne changeant pas de caractéristiques de risque pendant ses \(T\) contrats ne contribue pas à l’estimation des paramètres \(\beta\). En effet, dans un tel cas, \(\lambda_{i,t}^{FE} = \lambda_{i}^{FE}\), et \(\sum_t \lambda_{i,t}^{FE} = T \lambda_{i}^{FE}\).

3- Il n’y a pas de différence entre les effets fixes et les effets aléatoires lorsque \(T\) est large. Toutefois, pour de petites valeurs de \(T\) les paramètres obtenus pour chacun des modèles peut être différent.

Dans tous les cas, on peut se demander quel modèle doit-on préférer.

Les raisons d’une différence entre RE et FE proviennent de la construction du modèle avec effets aléatoires. En effet, le développement de l’équation de la probabilité jointe \(\Pr[N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T}]\), plusieurs hypothèses sur les effets aléatoires ont été faites, alors que cela est inutile pour les effets fixes.

L’une des hypothèses nécessaires dans le développement de la MVNB, par exemple, est que les effets aléatoires doivent être i.i.d.. Entre autres, cela signifie que la distribution de \(\alpha_i\) selon \(\boldsymbol{X}_{i,t}\) est égal à \(g(\cdot)\), et ne dépend donc pas de \(\boldsymbol{X}_{i,t}\).

Si la distribution de \(\alpha_i\) dépend de \(\boldsymbol{x}_{i,t}\), alors les estimateurs \(\widehat{\boldsymbol{\beta}}^{RE}\) pourraient ne pas être convergents et ne devraient pas être utilisés, alors que les effets fixes pourraient toujours être utilisés.

Qu’en est-il en pratique? Dans votre devoir, vous pourrez analyser la valeur des \(\hat{\alpha}_i^{FE}\) en fonction des régresseurs disponibles pour vérifier si ces derniers sont indépendants des \(X_{i,t}\).

Comme vous allez le voir, il est clair que les \(\alpha_i\) ne sont pas i.i.d..

Comment légitimiser l’utilisation des effets aléatoires alors? Des analyses plus poussées ont montrés qu’il est défendable d’utiliser les effets aléatoires en assurance, même s’il y a clairement une dépendance entre les régresseurs et l’hétérogénéité. Dans un tel cas, il faut toutefois faire attention à l’interprétation de ces paramètres. En effet, les paramètres obtenus dans les modèles avec effets aléatoires indiquent seulement l’effet apparent des régresseurs, et non un effet causal, ou encore ce qu’on pourrait appeler le réel impact.

Ne pas identifier l’impact réel d’un régresseur n’est pas idéal en biostatistique, mais est un peu moins problématique en assurance. En effet, l’intérêt principal dans ces modèles est dans le calcul de la prime. Notre objectif est de savoir, par exemple, quelle est l’augmentation de prime à accorder à un assuré qui passe de la campagne à la ville, et non de déterminer l’effet causal d’augmentation de la fréquence de réclamations.