Petit GLM

Solution 6.3 de l’exemple 2.16

La première étape est de codifier les caractéristiques.

Bien qu’il existe d’autres possibilités, nous codifierons en variables binaires.

\[\begin{align*} X_1 &= \begin{cases} 1 & \text{si le territoire est urbain} \\ 0 & \text{si le territoire est rural} \end{cases},\\ X_2 &= \begin{cases} 1 & \text{si l'assuré est marié} \\ 0 & \text{sinon} \end{cases}, \\ X_3 &= \begin{cases} 1 & \text{si l'assuré est célibataire} \\ 0 & \text{sinon} \end{cases} \end{align*}\]

Remarques:

  1. Le territoire a 2 modalités: urbain et rural. Ainsi, on introduit 2-1=1 variable binaire \(X\) pour codifier l’information.

  2. L’état civil a 3 modalités: marié, célibataire et divorcé. Dans ce cas, on introduit 3-1=2 variables binaires \(X\) pour codifier toutes les possibilités.

  • si l’assuré est marié: \(\{X_2 = 1, X_3 = 0 \}\);
  • si l’assuré est célibataire: \(\{X_2 = 0, X_3 = 1 \}\);
  • si l’assuré est divorcé: \(\{X_2 = 0, X_3 = 0 \}\).

Ainsi, en incluant une valeur de \(X_0 = 1\), qui sera utilisée pour l’intercept \(\beta_0\), notre tableau de données correspond à:

\(i\) \(X_0\) \(X_1\) \(X_2\) \(X_3\) \(y\)
1 1 1 0 1 1
2 1 1 0 0 0
3 1 1 1 1 2
4 1 0 1 1 3
5 1 1 0 0 1
6 1 1 1 1 0
7 1 0 0 1 1
8 1 1 0 1 2

Notre modèle est ainsi, pour l’assuré \(i\):

\[Y_i \sim Poisson(\lambda_i = \exp(\beta_0 X_{0,i} + \beta_1 X_{1,i} + \beta_2 X_{2,i} + \beta_3 X_{3,i})).\]


Nous devons ensuite trouver les paramètres \(\{\beta_0, \beta_1, \beta_2, \beta_3\}\) afin que:

\[\begin{eqnarray*} \mathbf{U}( \mathbf{\hat{\beta}}) = \sum_{i=1}^n \mathbf{X}_{i} \left(y_i - \lambda_i \right) = 0\\ \end{eqnarray*}\]

avec \(\mathbf{X}_{i} = \{X_{0,i}, X_{1,i} , X_{2,i} , X_{3,i} \}\).

Utilisons l’algorithme de Newton-Raphson pour trouver les MLE des \(\beta\):

\[\mathbf{\hat{\beta}}^{(r+1)} = \mathbf{\hat{\beta}}^{(r)} - \mathbf{H}^{-1}( \mathbf{\hat{\beta}}^{(r)}) \mathbf{U}( \mathbf{\hat{\beta}}^{(r)}) .\]


Pour débuter l’algorithme, nous devons commencer avec des valeurs initiales de \(\beta\), i.e.  \(\{\beta_0^{(0)}, \beta_1^{(0)}, \beta_2^{(0)}, \beta_3^{(0)} \}\).

Ce choix initial est arbitraire. Mais il est plus simple de débuter avec un effet nul pour \(\{X_{1,i} , X_{2,i} , X_{3,i} \}\), et choisir une valeur de \(\beta_0^{(0)}\) qui fait en sorte que \(\lambda_i^{(0)}= \overline{Y}, \forall i \in \{1, \ldots, 8\}\).

Puisque nous avons une fonction de lien logarithmique, nous avons ainsi:

\[\begin{eqnarray*} (\mathbf{\hat{\beta}}^{(0)})^T &=& \{\log\left( \overline{Y} \right), 0, 0, 0 \}. \end{eqnarray*}\]

Ainsi, tous les \(\lambda_i^{(0)} = \exp( \mathbf{X_i}' \mathbf{\beta}) = \overline{Y} = 1.25\), pour \(i=1,...,8\).


On peut donc estimer la valeur de \(U\) pour la première itération:

\[\begin{align*} U(\hat{\beta}^{(0)}) =& \sum_{i=1}^8 \mathbf{X}_i (n_i - \hat{\lambda}_i^{(0)}) \text{, un vecteur } 4 \times 1 \\ =& \begin{bmatrix} 1 \\ 1 \\ 0 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 1 - 1.25 \end{array} \right) + \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} \times \left( \begin{array}{c} 0 - 1.25 \end{array} \right) + \begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 2 - 1.25 \end{array} \right) + \begin{bmatrix} 1 \\ 0 \\ 1 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 3 - 1.25 \end{array} \right) + \\ & \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} \times \left( \begin{array}{c} 1 - 1.25 \end{array} \right) + \begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 0 - 1.25 \end{array} \right) + \begin{bmatrix} 1 \\ 0 \\ 0 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 1 - 1.25 \end{array} \right) + \begin{bmatrix} 1 \\ 1 \\ 0 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 2 - 1.25 \end{array} \right) \\ =& \begin{bmatrix} 0 \\ -1.50 \\ 1.25 \\ 1.50 \end{bmatrix} \end{align*}\]

alors que:

\[\begin{align*} H(\hat{\beta}^{(0)}) =& - \sum_{i=1}^8 \mathbf{X}_i \mathbf{X}_i^T \hat{\lambda}_i^{(0)} \text{, une matrice } 4 \times 4 \\ =& -\begin{bmatrix} 1 \\ 1 \\ 0 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 0 & 1 \end{bmatrix} \times 1.25 -\begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 0 & 0 \end{bmatrix} \times 1.25\\ & -\begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 1 & 1 \end{bmatrix} \times 1.25 -\begin{bmatrix} 1 \\ 0 \\ 1 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 0 & 1 & 1 \end{bmatrix} \times 1.25\\ & -\begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 0 & 0 \end{bmatrix} \times 1.25 -\begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 1 & 1 \end{bmatrix} \times 1.25\\ & -\begin{bmatrix} 1 \\ 0 \\ 0 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 0 & 0 & 1 \end{bmatrix} \times 1.25 -\begin{bmatrix} 1 \\ 1 \\ 0 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 0 & 1 \end{bmatrix} \times 1.25 \\ =& \begin{bmatrix} -10.00 & -7.5 & -3.75 & -7.50 \\ -7.50 & -7.5 & -2.50 & -5.00 \\ -3.75 & -2.5 & -3.75 & -3.75 \\ -7.50 & -5.0 & -3.75 &-7.50 \end{bmatrix} \end{align*}\]


Ainsi:

\[\begin{align*} \hat{\beta}^{(1)} =& \hat{\beta}^{(0)} - H^{-1}(\hat{\beta}^{(0)}) U(\hat{\beta}^{(0)}) \\ =& \begin{bmatrix} log(1.25) \\ 0 \\ 0 \\ 0 \end{bmatrix} - \begin{bmatrix} -10.00 & -7.5 & -3.75 & -7.50 \\ -7.50 & -7.5 & -2.50 & -5.00 \\ -3.75 & -2.5 & -3.75 & -3.75 \\ -7.50 & -5.0 & -3.75 &-7.50 \end{bmatrix}^{-1} \begin{bmatrix} 0 \\ -1.50 \\ 1.25 \\ 1.50 \end{bmatrix} \\ =& \begin{bmatrix} 0.2231 \\ 0 \\ 0 \\ 0 \end{bmatrix} - \begin{bmatrix} 0 \\ 0.6000 \\ -0.2667 \\ -0.4667 \end{bmatrix} = \begin{bmatrix} 0.2231 \\ -0.6000 \\ 0.2667 \\ 0.4667 \end{bmatrix} \end{align*}\]


On peut ainsi recommencer l’algorithme avec ces nouvelles valeurs de \(\hat{\beta}^{(1)}\). Attention, car pour cette nouvelle itération, la valeur des \(\lambda^{(1)}\) ne sera pas la même pour tous les assurés car \(\lambda_i^{(1)} = \exp(\mathbf{X}_i^T \beta^{(1)})\).

\(i\) \(X_0\) \(X_1\) \(X_2\) \(X_3\) \(y\) \(\lambda^{(1)}\)
1 1 1 0 1 1 1.093
2 1 1 0 0 0 0.686
3 1 1 1 1 2 1.428
4 1 0 1 1 3 2.602
5 1 1 0 0 1 0.686
6 1 1 1 1 0 1.428
7 1 0 0 1 1 1.993
8 1 1 0 1 2 1.094

On aurait ainsi:

On peut donc estimer la valeur de \(U\) pour la première itération:

\[\begin{align*} U(\hat{\beta}^{(0)}) =& \sum_{i=1}^8 \mathbf{X}_i (n_i - \hat{\lambda}_i^{(0)}) \text{, un vecteur } 4 \times 1 \\ =& \begin{bmatrix} 1 \\ 1 \\ 0 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 1 - 1.093 \end{array} \right) + \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} \times \left( \begin{array}{c} 0 - 0.686 \end{array} \right) + \begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 2 - 1.428 \end{array} \right) + \begin{bmatrix} 1 \\ 0 \\ 1 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 3 - 2.602 \end{array} \right) + \\ & \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} \times \left( \begin{array}{c} 1 - 0.686 \end{array} \right) + \begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 0 - 1.428 \end{array} \right) + \begin{bmatrix} 1 \\ 0 \\ 0 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 1 - 1.993 \end{array} \right) + \begin{bmatrix} 1 \\ 1 \\ 0 \\ 1 \end{bmatrix} \times \left( \begin{array}{c} 2 - 1.094 \end{array} \right) \\ =& ... \end{align*}\]

alors que:

\[\begin{align*} H(\hat{\beta}^{(0)}) =& - \sum_{i=1}^8 \mathbf{X}_i \mathbf{X}_i^T \hat{\lambda}_i^{(0)} \text{, une matrice } 4 \times 4 \\ =& -\begin{bmatrix} 1 \\ 1 \\ 0 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 0 & 1 \end{bmatrix} \times 1.093 -\begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 0 & 0 \end{bmatrix} \times 0.686\\ & -\begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 1 & 1 \end{bmatrix} \times 1.428 -\begin{bmatrix} 1 \\ 0 \\ 1 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 0 & 1 & 1 \end{bmatrix} \times 2.602\\ & -\begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 0 & 0 \end{bmatrix} \times 0.686 -\begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 1 & 1 \end{bmatrix} \times 1.428\\ & -\begin{bmatrix} 1 \\ 0 \\ 0 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 0 & 0 & 1 \end{bmatrix} \times 1.993 -\begin{bmatrix} 1 \\ 1 \\ 0 \\ 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 0 & 1 \end{bmatrix} \times 1.094 \\ =& ... \end{align*}\]


Ainsi, après convergence, on aurait

\[\begin{align*} \hat{\beta} = \begin{bmatrix} -0.2231 \\ -0.4700 \\ 0.2231 \\ 0.7985 \end{bmatrix} \end{align*}\]

Et donc, on obtiendrait les primes suivantes pour les 6 profils possibles:

\(profil\) \(X_0\) \(X_1\) \(X_2\) \(X_3\) \(\hat{\lambda}\)
1 1 1 1 0 0.625
2 1 1 0 1 1.111
3 1 1 0 0 0.500
4 0 1 1 0 1.000
5 0 1 0 1 1.778
6 0 1 0 0 0.800