7.4 Modèles marginaux

7.4.1 Approche par GEE

L’idée est de cette approche est de généraliser les GLM afin d’inclure une dépendance entre les T observations d’un même sujet i. Reprenons l’équation de premier ordre de base d’un GLM:

mi=1niλiVar(Ni)δλiδβ=0

Utilisons cette équation pour les données de panel (chaque individu i est observé T fois):

mi=1Tt=1ni,tλi,tVar(Nit)δλi,tδβ=0

Sous forme vectorielle, on peut donc exprimer cette équation comme:

\begin{eqnarray*} \sum_{i=1}^m Var[N_i]^{-1} (n_{i} - \lambda_{i}) \frac{\delta \lambda_{i}}{\delta \beta} = \boldsymbol{0} \end{eqnarray*}

avec n_i, \lambda_i, Var[N_i] des vecteurs contenant de l’information sur les T contrats d’un même assuré.


La matrice de covariance des variables aléatoires N_{i,t}, pour le modèle glm s’exprime comme:

A_i = \left[ \begin{array}{cccc} \lambda_{i,1} & 0 & ... & 0\\ 0 & \lambda_{i,2} & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \lambda_{i,T}\\ \end{array} \right]

Cette matrice ne tient aucunement compte de la surdispersion, ni de la dépendance potentielle entre les différentes réalisation t=1,...,t d’un même sujet i.


Au lieu d’utiliser la matrice Var[N_i], utilisons plutôt A_i dans la condition de premier ordre:

\begin{eqnarray*} \sum_{i=1}^n \left(\frac{\delta \lambda_{i}}{\delta \beta}\right)^{T} A_i^{-1} (n_{i} - \lambda_{i}) = \boldsymbol{0} \end{eqnarray*}


Le principe des GEE consiste à substituer à A_i un candidat plus raisonable pour la matrice variance-covariance des N_i, en rendant compte à la fois de la surdispersion et de la covariance. Proposons donc une forme plus plausible:

V_i = \phi A_i^{1/2} R_i(\alpha) A_i^{1/2}

où la matrice de corrélation R_i(\alpha) rend compte de la dépendance sérielle existant entre les N_{i,t} et dépend d’un certain nombre de paramètre \alpha.


R_i est une matrice de dimention T_i \times T_i, dont les éléments ne dépendent pas des régresseurs X_{i,t}. La surdispersion, quant à elle, est prise en compte dans le paramètre \phi. On obtient alors:

\begin{eqnarray*} \sum_{i=1}^m \left(\frac{\delta \lambda_{i}}{\delta \beta}\right)^{T} V_i^{-1} (n_{i} - \lambda_{i}) = \boldsymbol{0} \end{eqnarray*}

7.4.1.1 Matrice de correlation

La matrice de correlation est la matrice R_i. Si R_i correspond à une matrice identité, on revient au GLM car le modèle ne supposera plus de dépendance entre les divers contrats d’un même assuré. On peut supposer plusieurs formes de dépendance entre les éléments:

  • Échangeable;
  • Autoregressive;
  • Sans structure;
  • Independents;
  • etc.

Dans le but de prédire le futur nombre de réclamations, il n’est pas encore tout-à-fait est clair si une approche de type GEE est possible. Par contre, le modèle reste pertinent pour mieux identifier la forme de dépendance qui existe entre les contrats.


La résolution de l’équation de premier ordre s’effectue facilement en R en utilisant le package geepack ou encore en utilisant la méthode du score de Fisher pour \beta et une estimation des moments pour \alpha.