7.2 Modèles conditionnés sur des réalisations passées

Parce que les modèles avec effets aléatoires (une famille que nous verrons plus tard, mais qui ne sont qu’une généralisation des modèles à hétérogénéité vus plus tôt dans le cours) sont extrêmement populaires en actuariat, et que les modèles GEE sont aussi facilement utilisables (autre famille que nous verrons plus tard dans ce chapitre), l’autre famille de modèles n’a pas été très étudiée en actuariat. Pourtant, ces modèles mériteraient un peu de considération.


7.2.1 Modèles naïfs

Afin d’inclure une dépendance temporelle entre les contrats d’un même assuré (ou d’un même véhicule), intuitivement, une approche simple pourrait simplement être l’utilisation de l’expérience passée comme régresseur dans une approche GLM de base.

Par exemple, pour le \(t^e\) contrat d’un assuré \(i\), la moyenne d’une Poisson pourrait s’exprimer comme:

\[\lambda_{i,t} = \exp(x_{i,t} \beta + \gamma_1 \times n_{i,t - 1} + \gamma_2 \times n_{i,t - 2} + \gamma_3 \times n_{i,t - 3} + .. + \gamma_w \times n_{i,t - w}).\]

où les régresseur \(\gamma_1, \gamma_2, \ldots, \gamma_w\) ne sont que des paramètres similaires à \(\beta\) et qui peuvent être estimés classiquement par des algorithmes de type Newton-Raphson.


Même si l’approche est très intuitive, et malheureusement fortement utilisée encore en industrie, ce modèle pose un grave problème:

Que faire avec les assurés qui ont seulement une expérience de sinistre de \(s\) années, pour \(s<w\)? Pensons par exemple aux jeunes assurés qui s’achètent une première assurance.


En pratique, pour un \(s < w\), plusieurs actuaires et analystes ignoreront les contrats passés et continueront malgré tout à utiliser une moyenne de forme:

\[\lambda_{i,t} = \exp(x_{i,t} \beta + \gamma_1 \times n_{i,t - 1} + \gamma_2 \times n_{i,t - 2} + \gamma_3 \times n_{i,t - 3} + .. + \gamma_s \times n_{i,t - s}).\]

On voit ainsi que seuls \(\gamma_1, \gamma_2, \ldots, \gamma_s\) sont utilisés, alors que \(\gamma_{s+1}, \ldots, \gamma_w\) sont ignorés et pas utilisés dans le calcul du paramètre de moyenne. Cela revient à supposer que \(n_{i,t - s + 1} = n_{i,t - s + 2} = ... = n_{i,t - w} = 0\).

En conséquence, les assurés sans historique seront tarifés comme s’il n’avait pas eu de réclamations lors des \(w\) dernières années. Un nouveau conducteur de 16 ans, par exemple, sera considéré comme un excellent assuré n’ayant jamais eu de réclamations, ce qui est l’exact opposé de ce que nous voulons.


La distribution du nombre de réclamations de ces nouveaux assurés est simplement fausse. En effet, ce que nous cherchons est plutôt:

\[\begin{align*} &\Pr(N_{i,t}| n_{i,t - 1}, n_{i,t - 2}, ..., n_{i,t - s})\\ &= \sum_{n_{i,t - s- 1}, \ldots, n_{i,t - w}}\Pr(N_{i,t}| n_{i,t - 1}, \ldots, n_{i,t - s}, \ldots, n_{i,t - w}) \Pr(n_{i,t - s - 1}, \ldots, n_{i,t - w}) \end{align*}\]

Le problème est que l’expression \(\Pr(n_{i,t - s - 1}, ..., n_{i,t - w})\) n’est justement pas connue. À la fin des années 1970, quelques chercheurs ont essayé de développer et d’approximer cette équation, sans succès.


7.2.2 Modèles Kappa-N

Le principal problème de l’approche naïve est qu’il est impossible de distinguer les nouveaux assurés des assurés avec expérience n’ayant pas eu de réclamations. Ne pas avoir eu de réclamations n’est pas la même chose que de ne pas avoir eu de réclamations.

Pour distinguer ces deux types d’assurés, nous introduirons donc la variable indicatrice \(\kappa_{i, t} = I(n_{i,t}=0)\), ce qui amène:

\[\begin{eqnarray} \lambda_{i,T}= \exp(X_{i,T}' \beta + \gamma_0 (-\kappa_{i, \bullet}) + \gamma_1 n_{i, \bullet} ) \label{csequa} \end{eqnarray}\]

avec \(\kappa_{i, \bullet} = \sum_{t=1}^{T-1} \kappa_{i, t} = \sum_{t=1}^{T-1} I(n_{i,t}=0)\) correspondant à la somme des contrats annuels sans réclamations pour l’assuré \(i\).

Utiliser \(-\kappa_{i, \bullet}\) comme régresseur à la place de \(\kappa_{i, \bullet}\) aura une importance plus tard.


Avec cette approche, nous pouvons donc différentier les nouveaux assurés des assurés avec expérience sans réclamation. En effet, si on suppose un nouvel assuré, il aura \(\kappa_{\bullet}=n_{\bullet}=0\), alors qu’un assuré avec expérience aura aussi \(n_{\bullet}=0\), mais \(\kappa_{\bullet}>0\).


Une autre manière de comprendre le modèle est de réécrire la forme de la moyenne \(\lambda_{i,t}\):

\[\begin{eqnarray*} \mu_{i,t} &=& g(X_{i,t}' \beta + \gamma_0 (-\kappa_{i, \bullet}) + \gamma_1 n_{i, \bullet} ) \\ &=& g(X_{i,t}' \beta^* + \gamma_0 (100 -\kappa_{i, \bullet}) + \gamma_1 n_{i, \bullet} ) \\ &=& g(X_{i,t}' \beta^* + \gamma_0 \underbrace{(100 -\kappa_{i, \bullet} + \frac{\gamma_1}{\gamma_0} n_{i, \bullet} )}_{\text{Claim Score}} )\\ &=& g(X_{i,t}' \beta^* + \gamma_0 \ell_{i,t} ), \text{ with } \ell_{i,t} = (100 -\kappa_{i, \bullet} + \frac{\gamma_1}{\gamma_0} n_{i, \bullet} ) \end{eqnarray*}\]

Une constante de \(100\) a été ajoutée à la seconde ligne, ce qui change l’intercept \(\beta_0\), mais pas le modèle.


Avec cette paramétrisation, le nouveau régresseur \(\ell_{i,t}\), qui résume la totalité de l’expérience sinistre, peut être vu comme un score de réclamation (claim score), similaire à un score de crédit. En d’autres mots, nous avons:

1- Les assurés avec une grande valeur de \(\ell_{i,t}\) devraient être considérés comme plus risqués;

2- Les assurés avec une petite valeur de \(\ell_{i,t}\) devraient être considérés comme moins risqués.


Avec ce simple modèle, appelé modèle Kappa-N, nous pouvons avoir de bons résultats intéressants au niveau de la tarification:

i- Un assuré \(i\) sans expérience aurait \(n_{i, \bullet} = 0\) et \(\kappa_{i, \bullet} = 0\), ce qui implique un score de 100. En d’autres mots, les nouveaux assurés entre dans le système avec un score de 100.

ii- Chaque année sans sinistre descend le score de 1;

iii- Chaque sinistre augmente le score de \(\Psi = \frac{\gamma_1}{\gamma_0}\), appelé le paramètre de saut (jump-parameter). Par souci pratique, sans pour autant perdre trop de précision, il est souvent intéressant d’arrondir \(\Psi\) pour obtenir une valeur entière. Cet ajustement permet de rendre le système de tarification plus simple et plus facile à expliquer aux assurés, aux courtiers et aux administrateurs.

iv- L’impact d’une réclamation sur la prime est environ équivalente à \(\Psi\) années sans réclamation. Autrement dit, l’assuré aura besoin de \(\Psi\) années sans réclamation pour revenir au niveau de prime qu’il avait avant sa réclamation;

v- L’augmentation de prime d’une réclamation représente \((\exp(\Psi \gamma_0) - 1)\)%.

vi- Chaque année sans réclamation correspond à une rabais de \((1 - \exp(-\gamma_0))\)%.


L’avantage du modèle est qu’il est simple et très facile à implanter avec n’importe quelle distribution. Le modèle Kappa-N peut ainsi être utilisé rapidement pour détecter l’impact des réclamations passées dans les modèles de tarification.

7.2.3 Séries chronologiques: DARMA

Au-delà de l’approche naïve, un premier modèle que nous pourrions étudier se base sur la théorie des séries chronologiques. Par contre, bien que la théorie sur les séries chronologiques soit bien connue, les séries temporelles pour les données de comptage de faibles valeurs ne peuvent pas être si facilement dérivées de la généralisation des séries temporelles normales.


En effet, si on suppose une forme autoregressive classique, de type \(N_t = \rho n_{t-1} + I_t\), sachant que \(0 < \rho < 1\) et que \(N_t\) et \(N_{t-1}\) sont des variables de comptage, il est difficile de choisir une processus \(I_t\) assurant que \(N_t\) sera aussi discrète.

Donc, le domaine de la variable aléatoire peut poser problème, et notons aussi que le domaine du paramètre de moyenne, devant être positif, peut aussi être délicat. Encore aujourd’hui, il n’y a pas de modèle dominant dans les séries temporelles de comptage.


Les modèles ARMA discrets, notés DARMA, ont été les premières tentatives sérieuses d’utiliser un modèle de séries temporelles pour données discrètes. Le modèle le plus simple est le DARMA(1,0) qui s’exprime comme:

\[N_t = u \times n_{t-1} + (1-u) \times \epsilon_t\]

\(u\) est une variable binaire, prenant la valeur 1 avec probabilité \(p\) et la valeur 0 avec probabilité \(1-p\).

Différentes hypothèses peuvent être faites pour ce qui en est de la variable aléatoire \(\epsilon_t\). Mais le modèle de base est évidemment un \(\epsilon_t \sim Poisson\). La fonction d’autocorrelation d’ordre \(k\) pour ce modèle est \(p^k\), comme le modèle AR(1), et seules des corrélations positives sont possibles.


Ce modèle est toutefois beaucoup trop simple pour mériter de l’étudier en détails. En effet, il montre de graves défauts:

  1. Le modèle signifie que le nombre de réclamations qu’un assuré au temps \(T\) est soit le nombre de réclamations qu’il a eu l’année passée (i.e. \(n_{t-1}\)) ou un nombre de réclamations correspondant à la réalisation de la v.a. \(\epsilon\). Il n’est pas clair que c’est ce que nous nous imaginons comme type de dépendance temporelle pour le nombre de réclamations.

  2. Pour obtenir une grande corrélation temporelle, il nous faut une grande valeur de \(p\). Dans un tel cas, on obtiendrait une série ayant toujours les mêmes valeurs.

Ainsi, le modèle DARMA est maintenant très peu utilisé.


7.2.4 Opérateur d’amincissement

Une autre approche s’inspire du modèle DARMA, et se base sur un opérateur d’amincissement (thinning operator). Pour mieux comprendre l’idée de l’approche, on se restrictera aux cas autoregressif d’ordre un mais il est facilement possible de généraliser le modèle à des ordres supérieurs.


Le modèle de comptage autoregressif d’ordre 1, appelé INAR(1), est défini par:

\[\begin{equation*} N_{t} = \underbrace{\rho \circ n_{t-1}}_{\text{Passé}} + \underbrace{I_{t}}_{\text{Nouvelle contribution}}. \end{equation*}\]


Les deux parties du processus peuvent s’analyser indépendamment:

1- La contribution des réclamations passées passe par l’utilisation de \(\circ\), le , ou plus simplement l’opérateur d’amincissement binomial. Cet opérateur est défini comme:

\[\rho \circ n_{t-1} = Binomial(n_{t-1}, \rho)\]

En d’autres mots, \(\rho \circ n_{t-1}\) est la réalisation d’une variable aléatoire binomiale de paramètre \(n_{t-1}\) et \(\rho\).

2- La variable aléatoire \(I_{t}\) peut se voir comme l’équivalent du bruit \(\epsilon\) dans une série chronologique de type AR(1).


Une interprétation simple du modèle pour compter le nombre de réclamations au temps \(t\) est que, ayant observé \(n_{t-1}\) l’an dernier, le nombre de réclamation au temps \(t\) correspond à la somme entre \(\rho \circ n_{t-1}\) et \(I_{t}\).


On peut interpréter le modèle à la facon d’un processus de naissances et de morts. Le composante \(\rho \circ n_{t-1}\) représente les survivants de la période passée et \(I_{t}\) la composante de naissances. Il est certain qu’interprété de cette manière, il peut par contre être difficile de justifier que le nombre de réclamations d’un assuré suit vraiment un processus INAR.


Pour définir convenablement le modèle INAR(1), on doit aussi ajouter l’hypothèse usuelle que la variable aléatoire \(I_{t}\) est une variable de comptage i.i.d. et indépendente de \(n_{t-1}\).


Le modèle INAR(1) a une propriété markovienne:

\[\begin{equation*} \Pr(N_{t}=n|n_{t-1}, n_{t-2},...) = \Pr(N_{t}= n|n_{t-1}), \end{equation*}\]

Ce qui facilite l’expression de la densité jointe \(N_{1}, N_{2},..., N_{T}\) :

\[\begin{eqnarray*} \Pr[N_{1},\ldots,N_{T}] = \Pr(N_{T}|n_{T-1}) \times ...\times \Pr(N_{2}|n_{1}) \times \Pr(N_{1}), \end{eqnarray*}\]

Sur un horizon de temps \(h\), on peut exprimer la covariance comme:

\[\begin{equation*} Cov[N_{i,t},N_{i,t-h}] = \left[\prod_{j=0}^{h-1} \rho_{i,t-j} \right] Var[N_{i,t-h}]. \end{equation*}\]


7.2.4.1 Poisson-INAR(1)

Le modèle Poisson-INAR(1) est obtenu lorsque \(I_{t}\) est distribué selon une Poisson. Le modèle INAR s’y apprête bien car

  1. Comme nous l’avons déjà vu, si le nombre d’essai \(n\) est une Poisson(\(\lambda\)), une distribution binomiale de paramètres (\(n\), \(p\)) est aussi une Poisson, de paramètre (\(\lambda p\)). Il s’agit simplement d’une somme composée \(S = \sum_{j=1}^N X_j\), avec \(N \sim Poisson\), et \(X_j \sim Bernoulli(p)\).

  2. En conséquence, on se retrouve avec la somme de deux Poisson indépendantes (\(Binomial(\rho,n_{t-1})=B(\rho,n_{t-1})\) et \(I_{t}\)), et la somme est encore Poisson (\(N_{t}\)).


Si on suppose que \(I_{t} \sim Poisson(\lambda_{t})\), alors nous avons les résultats suivants:

\[\begin{eqnarray*} E[N_{t}] &=& E[B(\rho,n_{t-1})] + E[I_{t}]\\ &=& \rho E[N_{t-1}] + \lambda\\ &&\rightarrow E[N_t] = E[N_{t-1}] = \lambda/(1-\rho) \end{eqnarray*}\]

aussi:

\[\begin{eqnarray*} Var[N_{t}] &=& Var[B(\rho,n_{t-1})] + Var[I_{t}]\\ &=& \rho E[N_{t-1}] + \lambda\\ &&\rightarrow Var[N_t] = Var[N_{t-1}] = \lambda/(1-\rho) \end{eqnarray*}\]


En conséquence, on pourrait même montrer que pour \(t=1\), \(N_t\) suit une Poisson(\(\lambda/(1-\rho)\)). Ainsi, pour la première valeur observée, nous avons:

\[\begin{eqnarray*} \Pr(N_{1} = n_{1}) &=& \exp\Big[\frac{-\lambda}{1 - \rho}\Big] \frac{[\lambda/(1-\rho)]^{n_{1}}} {n_{1}!}, \end{eqnarray*}\]


Pour exprimer les autres possibilités, pour les temps \(t=2,...\), il suffit d’énumérer les possibilités. Par exemple, si on veut calculer la probabilité d’observer 4 réclamations, alors que l’an dernier 2 réclamations ont été observées, il faudrait donc compter toutes les probabilités suivantes:

  • \(B(\rho, n_{t-1}=2) = 0\) et \(I_{t}=4\), car \(0+4=4\)
  • \(B(\rho, n_{t-1}=2) = 1\) et \(I_{t}=3\), car \(1+3=4\)
  • \(B(\rho, n_{t-1}=2) = 2\) et \(I_{t}=2\), car \(2+2=4\)

Les situation avec \(B(\rho, n_{t-1}=2) > 2\) sont impossibles car \(n_{t-1}=2\).


Donc, plus généralement, nous avons:

\[\begin{equation*} \Pr(N_{t} = n_{t}|n_{t-1}) = \sum_{j=0}^{\min(n_{t},n_{t-1})} \binom{n_{t-1}}{j}\rho^{j} (1-\rho)^{n_{t-1}-j} e^{-\lambda} \frac{\lambda^{n_{t}-j}}{(n_{t}-j)!}, \end{equation*}\]

\(N_{t}\) a un distribution marginale de Poisson. Selon cette hypothèse, conditionnellement à l’horizon de longueur \(h\), les deux premiers moments s’expriment comme:

\[\begin{equation*} E[N_{t}|n_{t-h}] = \rho^h n_{t-h} + \frac{1-\rho^h}{1-\rho}\lambda \end{equation*}\]

\[\begin{eqnarray*} Var[N_{t}|n_{t-h}] &=& \rho^h(1-\rho^h)n_{t-h} + \frac{1-\rho^h}{1-\rho}\lambda \\ &=& E[N_{t}|n_{t-h}] - \rho^{2h}n_{t-h}, \nonumber \end{eqnarray*}\]

On remarque d’ailleurs que la Poisson-INAR(1) implique de la sous-dispersion, ce qui n’est pas idéal.


Lorsque \(\rho = 0\), le modèle revient à la distribution Poisson, et on peut donc effectuer des tests statistiques classiques pour vérifier l’hypothèse Poisson. Toutefois, notons que \(\rho\) est nécessairement positif, et on teste donc un paramètre sur la borne de son domaine.


7.2.4.2 NB-INAR(1)

Afin de mettre de la surdispersion dans le modèle, on peut supposer des distributions marginales binomiale négative.

Nous savons que pour 2 variables aléatoires \(j\) de forme NB1\((\lambda_{j}, \alpha)\), leur somme est aussi une NB1 de moyenne \(\lambda_{1} + \lambda_{2}\) et de variance \((\lambda_{1} + \lambda_{2})(1+\alpha)\) . On utilise ainsi \(I_{t} \sim NB1(\lambda, \alpha)\), et on doit montrer que \(B(\rho, N)\) est une NB1 si \(N\sim BN1\).


La distribution marginale, et donc la distribution de \(N_1\), doit être choisie afin d’obtenir un distribution stationnaire. Ainsi, les paramètres de la distribution marginale de \(N_{t}\)sont \(\lambda_{t}/(1-\rho)\) et \(\frac{\rho + \rho^2 + \alpha}{1-\rho^2}\).


Nous obtenons donc:

\[\begin{eqnarray*} \Pr(N_{1}= n_{1}) = \frac{\Gamma(n_{1} + \lambda/(\alpha(1-\rho)))}{\Gamma(n_{1}+1) \Gamma(\lambda/(\alpha(1-\rho)))} (1+\alpha)^{-\lambda/(\alpha(1-\rho))} (1+\alpha^{-1})^{-n_1} \end{eqnarray*}\]

\[\begin{eqnarray*} &&\Pr(N_{t}= n_{t}|n_{t-1}) = \nonumber \\ &&\sum_{j=0}^{\min(n_{t},n_{t-1})} \binom{n_{t-1}}{j} \rho^{j} (1-\rho)^{n_{t-1}-j} \frac{\Gamma(n_{t} - j + \alpha^{-1}\lambda)}{\Gamma(n_{t} - j +1) \Gamma(\alpha^{-1}\lambda)} (1+\alpha)^{-\lambda/\alpha} (1+\alpha^{-1})^{-n_{t} + j},\nonumber \\ \end{eqnarray*}\]

où la distribution marginale de \(n_{t}\) est NB1.


Sur un horizon de temps \(h\), les moments s’expriment comme:

\[E[N_{t}|n_{t-h}] = \rho^h n_{t-h} + \frac{1-\rho^h}{1-\rho}\lambda\]

\[\begin{eqnarray*} Var[N_{t}|n_{t-h}] &=& \rho^h(1-\rho^h)n_{t-h} + \frac{1 - \rho^h}{1- \rho} \lambda + \frac{1 - \rho^{2h}}{1- \rho^2} \lambda \alpha \\ &=& E[N_{t}|n_{t-h}] - \rho^{2h} n_{t-h} + \frac{1 - \rho^{2h}}{1- \rho^2} \lambda \alpha .\nonumber \end{eqnarray*}\]

On voit que:

  1. pour des valeurs nulles de \(\rho\), le modèle NB1-INAR(1) revient à la NB1;

  2. lorsque \(\alpha \rightarrow 0\), le NB1-INAR(1) devient une Poisson-INAR(1);

  3. pour des valeurs nulles de \(\rho\) ET un \(\alpha \rightarrow 0\), le modèle devient une Poisson.

Tout peut se vérifier par des tests statistiques, mais il faut faire attention aux tests sur les bornes.


7.2.4.3 Paramètres de régression

Nous avons développé le modèle avec un paramètre \(\lambda\) fixe, autant pour le Poisson-INAR(1) que pour la NB1-INAR(1). On pourrait facilement intégrer des régresseurs dans le modèle en utilisant: \[\lambda_{i,t} = \exp(x_{i,t} \beta)\]

et même

\[\rho_{i,t} = logit(z_{i,t} \gamma) = \exp(z_{i,t} \gamma)/(1+\exp(z_{i,t} \gamma))\]


Dans un tel cas, les expression \(\Pr(N_{1}= n_{1})\) et \(\Pr(N_{t}= n_{t}|n_{t-1})\) s’utilisent toujours. Toutefois, il faut noter que le modèle n’est plus tout à fait stationnaire:

\[\begin{eqnarray*} E[N_{t}] &=& E[B(\rho,n_{t-1})] + E[I_{t}]\\ &=& \rho \frac{\lambda_{t-1}}{1-\rho} + \lambda_t \ne \frac{\lambda_{t}}{1-\rho} \end{eqnarray*}\]


Comme on s’attend à ce que les \(\lambda\) ne varient pas trop dans le temps et que nous ne travaillons pas avec des valeurs de \(t\) très élevées, on peut croire que la différence n’est pas majeure. Mais si on s’y attarde:

\[\begin{eqnarray*} E[N_2] &=& \rho \frac{\lambda_1}{1-\rho} + \lambda_2 \\ E[N_3] &=& \rho (\rho \frac{\lambda_1}{1-\rho} + \lambda_2) + \lambda_3 \\ &=& \rho^2 \frac{\lambda_1}{1-\rho} + \rho \lambda_2 + \lambda_3 \\ E[N_4] &=& \rho (\rho^2 \frac{\lambda_1}{1-\rho} + \rho \lambda_2 + \lambda_3) + \lambda_4 \\ &=& \rho^3 \frac{\lambda_1}{1-\rho} + \rho^2 \lambda_2 + \rho \lambda_3 + \lambda_4 \\ ... &=& ...\\ E[N_T] &=& \rho^{T-1} \frac{\lambda_1}{1-\rho} + \sum_{j=2}^T \rho^{T-j} \lambda_j \\ \end{eqnarray*}\]


L’absence de stationnarité du modèle n’empêche pas son utilisation. Toutefois, on se retrouve avec un problème d’interprétation du modèle, où le nombre de réclamations au temps \(T\) n’a pas la même distribution que le nombre de réclamations à un temps différent.

De plus, on remarque que le nombre de réclamations au temps \(T\) dépend des \(\lambda\) passés.


7.2.5 Modèle basé sur d’autres opérateurs

D’autres types d’opérateurs commencent à être développés pour modéliser les séries chronologiques: opérateurs hypergéométriques, etc. Les autres opérateurs ne sont souvent qu’une généralisation du binomial thinning operator, mais admettant plus formes de généralisations. Il pourrait être intéressant que des chercheurs en actuariat listent les opérateurs possibles et voient s’il est pertinent de les utiliser pour des données de panel en actuariat.

Toutefois, au-delà de l’ajustement qui pourrait être intéressant, l’idée est de trouver une justification pour ces modèles. Dans le modèle INAR, par exemple, il est difficile de justifier comment la survenance d’une sinistre l’an dernier peut être vu comme pouvant probablement “survivre” cette année et donc augmenter la probabilité de réclamation. Dans un processus de naissances et de morts, on voit bien que le INAR se justifie. Dans le cas de l’analyse des sinistres, j’en suis moins certain.