7.4 Modèles marginaux

7.4.1 Approche par GEE

L’idée est de cette approche est de généraliser les GLM afin d’inclure une dépendance entre les \(T\) observations d’un même sujet \(i\). Reprenons l’équation de premier ordre de base d’un GLM:

\[\begin{eqnarray*} \sum_{i=1}^m \frac{n_i - \lambda_i}{Var(N_i)} \frac{\delta \lambda_i}{\delta \beta} = 0 \end{eqnarray*}\]

Utilisons cette équation pour les données de panel (chaque individu \(i\) est observé \(T\) fois):

\[\begin{eqnarray*} \sum_{i=1}^m \sum_{t=1}^T \frac{n_{i,t} - \lambda_{i,t}}{Var(N_{it})} \frac{\delta \lambda_{i,t}}{\delta \beta}= 0 \end{eqnarray*}\]

Sous forme vectorielle, on peut donc exprimer cette équation comme:

\[\begin{eqnarray*} \sum_{i=1}^m Var[N_i]^{-1} (n_{i} - \lambda_{i}) \frac{\delta \lambda_{i}}{\delta \beta} = \boldsymbol{0} \end{eqnarray*}\]

avec \(n_i, \lambda_i, Var[N_i]\) des vecteurs contenant de l’information sur les \(T\) contrats d’un même assuré.

La matrice de covariance des variables aléatoires \(N_{i,t}\), pour le modèle glm s’exprime comme:

\[ A_i = \left[ \begin{array}{cccc} \lambda_{i,1} & 0 & ... & 0\\ 0 & \lambda_{i,2} & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \lambda_{i,T}\\ \end{array} \right] \]

Cette matrice ne tient aucunement compte de la surdispersion, ni de la dépendance potentielle entre les différentes réalisation \(t=1,...,t\) d’un même sujet \(i\).

Au lieu d’utiliser la matrice \(Var[N_i]\), utilisons plutôt \(A_i\) dans la condition de premier ordre:

\[\begin{eqnarray*} \sum_{i=1}^n \left(\frac{\delta \lambda_{i}}{\delta \beta}\right)^{T} A_i^{-1} (n_{i} - \lambda_{i}) = \boldsymbol{0} \end{eqnarray*}\]

Le principe des GEE consiste à substituer à \(A_i\) un candidat plus raisonable pour la matrice variance-covariance des \(N_i\), en rendant compte à la fois de la surdispersion et de la covariance. Proposons donc une forme plus plausible:

\[ V_i = \phi A_i^{1/2} R_i(\alpha) A_i^{1/2}\]

où la matrice de corrélation \(R_i(\alpha)\) rend compte de la dépendance sérielle existant entre les \(N_{i,t}\) et dépend d’un certain nombre de paramètre \(\alpha\).

\(R_i\) est une matrice de dimention \(T_i \times T_i\), dont les éléments ne dépendent pas des régresseurs \(X_{i,t}\). La surdispersion, quant à elle, est prise en compte dans le paramètre \(\phi\). On obtient alors:

\[\begin{eqnarray*} \sum_{i=1}^m \left(\frac{\delta \lambda_{i}}{\delta \beta}\right)^{T} V_i^{-1} (n_{i} - \lambda_{i}) = \boldsymbol{0} \end{eqnarray*}\]

7.4.1.1 Matrice de correlation

La matrice de correlation est la matrice \(R_i\). Si \(R_i\) correspond à une matrice identité, on revient au GLM car le modèle ne supposera plus de dépendance entre les divers contrats d’un même assuré. On peut supposer plusieurs formes de dépendance entre les éléments:

Échangeable;
Autoregressive;
Sans structure;
Independents;
etc.

Dans le but de prédire le futur nombre de réclamations, il n’est pas encore tout-à-fait est clair si une approche de type GEE est possible. Par contre, le modèle reste pertinent pour mieux identifier la forme de dépendance qui existe entre les contrats.

La résolution de l’équation de premier ordre s’effectue facilement en R en utilisant le package geepack ou encore en utilisant la méthode du score de Fisher pour \(\beta\) et une estimation des moments pour \(\alpha\).