6.4 Estimateur des paramètres de structures
L’un des défauts de l’approche bayésienne était lors de l’estimation de paramètres. Lorsque les paramètres des modèles sont donnés, que ce soit pour un nombre fini de profils de risque, ou pour une hétérogénéité continue (pour les distributions conjuguées), le calcul de la prime bayésienne peut être fait. En pratique, évidemment, ces paramètres doivent être trouvés.
Ainsi, un autre avantage de la crédibilité de Bühlmann est qu’il est possible d’utiliser l’approche sans supposer une forme précise des distributions de \(S_t\) ou \(\Theta\) afin de déterminer la prime future. En effet, nous avons simplement d’avoir \(\Sigma^2\) et \(M^2\) pour calculer le coefficient \(\mathsf{Z}\).
On doit trouver des estimateurs de \(M^2\), \(\Sigma^2\) et \(\mu = E[\mu(\Theta)]\) en ayant des données brutes.
6.4.1 Base de données équilibrée
Pour les modèles de crédibilité qu’on utilise pour faire une tarification basée sur l’expérience passée, une manière simple d’illustrer la forme de données que nous avons serait le tableau suivant. Chaque ligne correspond à un assuré, et nous pouvons l’expérience de cet assuré \(i\) pendant chacun des ses contrats \(t, t=1, \ldots,T\), qu’on note \(s_{i,t}\). Nous observons \(m\) assurés pour \(T\) contrats.
Assuré | Contrat 1 | Contrat 2 | … | Contrat T |
---|---|---|---|---|
1 | \(s_{1,1}\) | \(s_{1,2}\) | … | \(s_{1,T}\) |
2 | \(s_{2,1}\) | \(s_{2,2}\) | … | \(s_{2,T}\) |
… | … | … | … | … |
\(m\) | \(s_{m,1}\) | \(s_{m,2}\) | … | \(s_{m,T}\) |
Une base de données équilibrée correspond à la situation où tous les assurés \(i=1,\ldots,m\) sont observés pendant le même nombre de contrats. Dans la table ci-dessus, puisque nous observons les \(m\) assurés pendant \(T\) contrats, la base de données est équilibrée. En pratique, ce n’est évidemment pas le cas: certains assurés ne restent qu’un an chez un assureur, alors qu’un autre assuré peut être chez ce même assureur depuis plus de 30 ans.
Commençons par développer l’approche d’estimation non-paramétrique pour des données équilibrées, et nous proposerons des corrections pour les données non-équilibrées dans le modèle de crédibilité de Bühlmann-Straub, dans un prochain chapitre.
La table ci-dessus aide à mieux comprendre la forme longitudinale des données, où nous voyons l’expérience d’un même assuré sur une même ligne. En réalité, avec de vraies bases de données d’assurance, il n’est pas nécessaire d’avoir une telle forme.
On peut prendre exemple sur la base de données db.fictif pour s’en convaincre.
table <- db.fictif[1:7, c("policy_no", "veh.num", "renewal_date", "nb.sin", "Tot.Cost")]
knitr::kable(table)
policy_no | veh.num | renewal_date | nb.sin | Tot.Cost |
---|---|---|---|---|
6000088 | 1 | 2015-11-10 | 0 | 0.00 |
6000088 | 1 | 2016-11-10 | 1 | 185.81 |
6000274 | 1 | 2011-02-03 | 0 | 0.00 |
6000274 | 1 | 2012-02-03 | 0 | 0.00 |
6000274 | 1 | 2013-02-03 | 0 | 0.00 |
6000274 | 1 | 2014-02-03 | 0 | 0.00 |
6000274 | 1 | 2015-02-03 | 0 | 0.00 |
On voit ainsi que le véhicule #1 de la police 6000088 est observé pendant deux contrats, en 2015 et 2016. Le véhicule #1 de la police 60000274, quant à elle, est observée 5 fois. Les colonnes indiquant le nombre de sinistre réclamé, e même que la charge totale, sont aussi indiquées. C’est surtout de cette manière que les bases de données d’assurance sont maintenant structurée. En utilisant la fonction group() du package dplyr, il est assez simple de faire des opérations sur tous les contrats d’un seul véhicule.
6.4.2 Estimateurs
Pour une base de données équilibrées, on peut aussi calculer certains estimateurs pour chaque assuré \(i\), mais aussi pour le portefeuille en entier:
Assuré | Contrat 1 | Contrat 2 | … | Contrat T | Moyenne | Variance |
---|---|---|---|---|---|---|
1 | \(s_{1,1}\) | \(s_{1,2}\) | … | \(s_{1,T}\) | \(\hat{\mu}_{1}\) | \(Var\left[\hat{\mu}_{1}\right]\) |
2 | \(s_{2,1}\) | \(s_{2,2}\) | … | \(s_{2,T}\) | \(\hat{\mu}_{2}\) | \(Var\left[\hat{\mu}_{2}\right]\) |
… | … | … | … | … | … | … |
\(m\) | \(s_{m,1}\) | \(s_{m,2}\) | … | \(s_{m,T}\) | \(\hat{\mu}_{m}\) | \(Var\left[\hat{\mu}_{m}\right]\) |
TOTAL | … | … | … | … | \(\hat{\mu}\) | \(Var\left[\hat{\mu}\right]\) |
6.4.2.1 Moyennes
Proposition 6.9 L’estimateur de \(\mu_i = E[S_{i,t}]\), la moyenne de l’expérience individuelle de l’assuré \(i\), s’exprime comme:
\[\begin{eqnarray*} \hat{\mu}_i &=& \overline{S}_i = \frac{1}{T} \sum_{t=1}^T S_{i,t} \end{eqnarray*}\]
Proposition 6.10 L’estimateur de \(\mu = E[S_{i,t}]\), la prime collective, s’exprime comme:
\[\begin{eqnarray*} \hat{\mu} &=& \frac{1}{m} \sum_{i=1}^m \overline{S}_i = \frac{1}{m T} \sum_{i=1}^m \sum_{t=1}^T S_{i,t} \end{eqnarray*}\]
Proposition 6.11 Les estimateurs \(\hat{\mu}_i\) et \(\hat{\mu}\) sont des estimateurs sans biais de \(\mu\).
(Développement à faire en classe)
6.4.2.2 Moyenne des variances individuelles (EPV)
On cherche un estimateur de \(\Sigma^2\), la moyenne des variances individuelles. Dans des cours d’introduction en statistique, on a vu que \(S^2\) est un estimateur de la variance qui est sans biais. Ainsi, l’estimateur suivant est sans biais:
\[\begin{eqnarray*} \widehat{\sigma_i^2(\Theta)} &=& \sum_{t=1}^{T} \frac{(S_{i,t} - \overline{S}_i)^2}{T-1} = \widehat{\sigma^2(\Theta)} \end{eqnarray*}\]
avec \(E\left[\widehat{\sigma^2(\Theta)}\right] = \sigma^2(\Theta)\). Il semble donc raisonable de prendre la moyenne de cet estimateur pour obtenir:
\[\begin{eqnarray*} \widehat{\Sigma^2} &=& \frac{1}{m} \sum_{i=1}^m \widehat{\sigma^2(\Theta)} = \frac{1}{m (T-1)} \sum_{i=1}^{m} \sum_{t=1}^{T} (S_{i,t} - \overline{S}_i)^2 \end{eqnarray*}\]
Proposition 6.12 L’estimateur \(\widehat{\Sigma^2}\) est un estimateur sans biais de \(\Sigma^2 = E\left[\sigma^2(\Theta) \right]\).
(Développement à faire en classe)
6.4.2.3 Variance des moyennes individuelles (VHM)
Le paramètre \(M^2\) correspond à la variance des moyennes individuelles. Ainsi, un estimateur intuitif de \(M^2\) pourrait simplement être de prendre la variance des \(\overline{S}_i\):
\[\begin{eqnarray*} \widehat{M^2_*} = \sum_{i=1}^{m} \frac{(\overline{S}_i - \overline{S})^2}{m - 1} = \sum_{i=1}^{m} \frac{(\delta_i - \Delta)^2}{m - 1} \end{eqnarray*}\]
Pour vérifier si \(\widehat{M^2_*}\) est sans biais, nous devons obtenir certains résultats préliminaires.
Proposition 6.13 La variance de la moyenne des coûts individuels est égale à:
\[\begin{eqnarray*} Var\left(\overline{S}_i \right) &=& \frac{1}{T} E\left[\sigma^2(\theta) \right] + Var\left[\mu(\theta) \right] \end{eqnarray*}\]
(Développement à faire en classe)
Proposition 6.14 La variance de la moyenne de tous les coûts individuels est égale à:
\[\begin{eqnarray*} Var\left(\overline{S} \right) &=& \frac{1}{m T} E\left[\sigma^2(\theta) \right] + \frac{1}{m} Var\left[\mu(\theta) \right] \\ \end{eqnarray*}\]
(Développement à faire en classe)
Proposition 6.15 L’estimateur \(\widehat{M^2_*}\) est un estimateur biaisé de \(M^2 = Var\left[\mu(\Theta) \right]\).
(Développement à faire en classe)
\[\begin{eqnarray*} E[\widehat{M^2_*}] &=& E\left[\sum_{i=1}^{m} \frac{(\overline{S}_i - \overline{S})^2}{m - 1} \right] \\ \end{eqnarray*}\]
Une notation utilisant \(\delta_i\) et \(\Delta\) est introduite afin simplifier les calculs et éviter la confusion entre les symboles \(\overline{S}_i\) et \(\overline{S}\):
\[\begin{align*} \delta_i \equiv \overline{S}_i \ \ \text{ et } \ \ \Delta \equiv \overline{S} \end{align*}\]
Nous avons donc:
\[\begin{eqnarray*} E[\widehat{M^2_*}] &=& E\left[\sum_{i=1}^{m} \frac{(\overline{S}_i - \overline{S})^2}{m - 1} \right] = E\left[\sum_{i=1}^{m} \frac{(\delta_i - \Delta)^2}{m - 1} \right] \\ &=& \frac{1}{m-1} \sum_{i=1}^{m} E\left[\delta_i^2 - 2\delta_i \Delta + \Delta^2 \right] \\ &=& \frac{1}{m-1}E\left[\sum_{i=1}^{m} \delta_i^2 - 2\Delta \underbrace{\sum_{i=1}^{m} \delta_i}_{= m \Delta} + \sum_{i=1}^{m} \Delta^2) \right] \\ &=& \frac{1}{m-1}E\left[\left(\sum_{i=1}^{m} \delta_i^2 \right) - 2 m \Delta^2 + m \Delta^2) \right] \\ &=& \frac{1}{m-1}E\left[\left(\sum_{i=1}^{m} \delta_i^2 \right) - m \Delta^2 \right] \\ &=& \frac{1}{m-1}E\left[\left(\sum_{i=1}^{m} \delta_i^2 \right) - m \Delta^2 + \underbrace{ m \mu^2 - m \mu^2}_{=0} \right] \\ &=& \frac{1}{m-1}E\left[\left(\sum_{i=1}^{m} \left(\delta_i^2 - \mu^2 \right) \right) - m \left(\Delta^2 - \mu^2 \right)\right] \end{eqnarray*}\]
puisque nous avons l’égalité \(\mu = E[\delta_i]\) mais aussi l’égalité \(\mu = E[\Delta]\), nous obtenons:
\[\begin{eqnarray*} E[\widehat{M^2_*}] &=& \frac{1}{m-1}E\left[\sum_{i=1}^{m} \left(\delta_i^2 - E[\delta_i]^2 \right) \right] - \frac{m}{m-1} E\left[ \left(\Delta^2 - E[\Delta]^2 \right)\right] \\ &=& \frac{1}{m-1} \sum_{i=1}^{m}\left( E\left[\delta_i^2\right] - E[\delta_i]^2 \right) - \frac{m}{m-1} \left(E[\Delta^2] - E[\Delta]^2 \right) \\ &=& \frac{1}{m-1}\sum_{i=1}^{m} Var\left(\delta_i \right) - \frac{m}{m-1} Var\left(\Delta \right) \\ &=& \frac{1}{m-1}\sum_{i=1}^{m} Var\left(\delta_i \right) - \frac{m}{m-1} Var\left(\Delta \right) \\ &=& \frac{1}{m-1}\sum_{i=1}^{m} \left(\frac{1}{T} E\left[\sigma^2(\theta) \right] + Var\left[\mu(\theta) \right]\right) - \frac{m}{m-1} \left(\frac{1}{m T} E\left[\sigma^2(\theta) \right] + \frac{1}{m} Var\left[\mu(\theta) \right] \right) \\ &=& \frac{m}{T(m-1)} E\left[\sigma^2(\theta)\right] + \frac{m}{m-1} Var\left[\mu(\theta) \right] - \frac{1}{T(m-1)} E\left[\sigma^2(\theta) \right] + \frac{1}{m-1} Var\left[\mu(\theta) \right] \\ &=& \frac{1}{T} E\left[\sigma^2(\theta)\right] + Var\left[\mu(\theta) \right] \ne Var\left[\mu(\theta) \right] \end{eqnarray*}\]
Puisque \(E[\widehat{M^2_*}] \ne M^2\), l’estimateur \(\widehat{M^2_*}\) est biaisé, ce qui n’est pas une caractéristique intéressante pour un estimateur.
Proposition 6.16 Un estimateur sans biais de \(M^2\) est:
\[\begin{eqnarray*} \widehat{M^2} &=& \widehat{M^2_*} - \frac{1}{T} \widehat{\Sigma^2} = \sum_{i=1}^{m} \frac{(\overline{S}_i - \overline{S})^2}{m - 1} - \frac{1}{T} \widehat{\Sigma^2} \end{eqnarray*}\]
(Développement à faire en classe)
Étant donné la soustraction dans le calcul de \(\widehat{M^2}\), il peut arriver que cet estimateur soit négatif, même s’il doit normalement estimer une variance. Dans une telle situation, on posera l’estimateur \(\widehat{M^2} = 0\). Ainsi, cette correction introduirait un biais dans le calcul de l’estimation \(M^2\).
Proposition 6.17 Un estimateur non-paramétrique du facteur de crédibilité est
\[\mathsf{Z} = \frac{T}{T + \frac{\widehat{\Sigma^2}}{\widehat{M^2}}}\]
6.4.3 Exemples numériques
Exemple 6.6 Le jeu de données suivant pour 3 polices observées sur 5 années indique le nombre de réclamations annuelles pour chaque assuré.
Assuré | Contrat 1 | Contrat 2 | Contrat 3 | Contrat 4 | Contrat 5 |
---|---|---|---|---|---|
1 | 1 | 3 | 2 | 5 | 4 |
2 | 2 | 0 | 1 | 2 | 0 |
3 | 3 | 2 | 2 | 1 | 2 |
Trouvez la prime de tous les assurés pour l’année 6, soit \(P_{i,6}\) pour \(i = 1,2,3\).