7.5 Analyse prédictive pour données de panel
Pour chacune des familles des modèles vue dans ce chapitre, il est facilement possible de calculer
\(\Pr(N_{T+1}|n_1,...,n_{T})\) afin de prédire le nombre de réclamations dans le futur, conditionnellement aux réalisations passées.
7.5.1 Modèles avec effets aléatoires
Dans les modèles avec effets aléatoires, c’est l’analyse bayésienne qui permet de calculer les primes prédictives. À chaque période de temps \(t\), les effets aléatoires sont mis à jour pour tenir compte de la nouvelle expérience de sinistres, ce qui permet de révéler certains informations cachées de notre assuré. Formellement:
\[\begin{eqnarray*} \Pr[N_{i,T+1} = n_{i,T+1}|n_{i,1},...,n_{i,T}] &=& \frac{\Pr(n_{i,1},...,n_{i,T+1})}{\Pr(n_{i,1},...,n_{i,T})} \nonumber \\ &=& \frac{\int \Pr(n_{i,1},...,n_{i,T+1},\alpha_i) d\alpha_i} {\int \Pr(n_{i,1},...,n_{i,T},\alpha_i) d\alpha_i} \nonumber \\ &=& \int \Pr(n_{i,T+1}|\alpha_i) \left(\frac{\Pr(n_{i,1},...,n_{i,T}|\alpha_i) g(\alpha_i)} {\int \Pr(n_{i,1},...,n_{i,T}|\alpha_i) g(\alpha_i) d\alpha_i} \right) d\alpha_i \nonumber \\ &=& \int \Pr(n_{i,T+1}|\alpha_i) \left(\frac{\left[\prod_t \Pr(n_{i,t}|\alpha_i)\right] g(\alpha_i)} {\int \left[\prod_t \Pr(n_{i,t}|\alpha_i)\right] g(\alpha_i) d\alpha_i} \right) d\alpha_i \nonumber \\ &=& \int \Pr(n_{i,T+1}|\alpha_i) g(\alpha_i|n_{i,1},...,n_{i,T}) d\alpha_i , \label{Predictive} \end{eqnarray*}\]
où \(g(\alpha_i|n_{i,1},...,n_{i,T})\) est la distribution a posteriori de l’effet aléatoire \(\alpha_i\).
Dans les cas où cette distribution a posteriori peut être exprimée facileement, ou dans une forme fermée, les moments de la distribution prédictive peuvent être trouvés directement en conditionant sur les effets aléatoires.
Dans le cas du modèle MVNB, ce n’est qu’une application classique du modèle Poisson-gamma, et on sait que la distribution a posteriori des effets aléatoires est encore gamma de paramètres \(\sum_t \lambda_{i,t} + \nu\) et \(\sum_t n_{i,t} + \nu\).
(Exercice à faire en classe)
- La distribution a posteriori des effets aléatoires \(\alpha\) de l’assuré \(i\) (on enlève l’indice pour simplifier)
\[\begin{eqnarray*} g(\alpha|N_1=n_1,N_2=N_2,...,N_{T}=N_{T}) &=& \frac{\prod_{t=1}^n \left[ \Pr[N_t=n_t|\alpha] \right] g(\alpha)}{\Pr(N_1=n_1,N_2=N_2,...,N_{T}=N_{T})} \\ &\propto& \prod_{t=1}^T \frac{(\lambda_t \alpha)^{n_t} e^{-\lambda \alpha}}{n_t!} g(\alpha) \\ &\propto& \alpha^{\sum_{t=1}^T n_t} e^{- \sum_{t=1}^T \lambda_t \alpha} \alpha^{\nu - 1} e^{-\nu} \\ &=& \alpha^{\nu + \sum_t^T n_t - 1} e^{-(\nu + \sum_{t=1}^T \lambda_t) \alpha} \\ \end{eqnarray*}\]
On reconnaît la forme d’une distribution gamma, avec \(\alpha^* = \nu + \sum_{t=1}^T s_t\) et \(\tau^* = \nu + \sum_{t=1}^T \lambda_t\).
- Prime prédictive
\[\begin{align*} E[N_{T+1}|n_1,\ldots,n_{T}] &= E[\lambda_{T+1} \alpha|n_1,\ldots,n_{T}] \\ &= \lambda_{T+1} E[\alpha|n_1,\ldots,n_{T}] = \lambda_{T+1} \frac{\alpha^*}{\tau^*} \\ &= \lambda_{T+1} \frac{\nu + \sum_{t=1}^T n_t }{\nu + \sum_{t=1}^T \lambda_t } \end{align*}\]
7.5.1.1 Binomiale négative conditionnelle
On peut terminer sur un dernier modèle avec effets aléatoires.
On parle beaucoup de la Poisson pour les données de panel, mais d’autres distributions conditionnelles peuvent être utilisées. Une approche classique est celle utilisant la binomiale négative.
Il faut toutefois faire attention à la forme à prendre pour l’approche avec données de panel. Conditionnellement à une variable aléatoire \(\delta_i\), on utilise une NB1 ayant la forme suivante:
\[\begin{eqnarray*} \Pr[N_{i,t}=n_{i,t}|\delta_i] &=& \frac{\Gamma(n_{i,t} + \lambda_{i,t})}{\Gamma(\lambda_{i,t}) \Gamma(n_{i,t}+1)} \Big(\frac{\delta_i}{1+\delta_{i}}\Big)^{\lambda_{i,t}} \Big(\frac{1}{1+\delta_{i}}\Big)^{n_{i,t}}, \end{eqnarray*}\]
avec \(\lambda_{i,t} = \exp(x_{i,t}' \beta)\). Sous cette nouvelle paramétrisation de la NB1, la distribution a les moments suivants:
\[\begin{eqnarray*} E[N_{i,t}|\delta_i] &=& \lambda_{i,t}/\delta_i, \\ Var[N_{i,t}|\delta_i] &=& \lambda_{i,t}(1+\delta_i)/\delta_i^2 \\ &=& E[N_{i,t}|\delta_i] (1+\delta_i)/\delta_i \nonumber. \end{eqnarray*}\]
On constate donc que la NB1, avant même l’ajout d’effets aléatoires, est surdispersée.
Par la suite, on suppose que \(\delta_i/(1+\delta_i)\) suit une distribution beta de paramètres (\(a\),\(b\)), et donc de moyenne \(a/(a+b)\) et variance \(ab/\left((a+b+1)(a+b)^2\right)\).
On peut ainsi montrer que la distribution jointe est égale à:
\[\begin{eqnarray*} \Pr[N_{i,1}=n_{i,1},...,N_{i,T}=n_{i,T}] = \frac{\Gamma(a+b) \Gamma(a+\sum_t \lambda_{i,t})\Gamma(b+\sum_t n_{i,t})} {\Gamma(a) \Gamma(b) \Gamma(a+b+ \sum_t \lambda_{i,t} + \sum_t n_{i,t})} \prod_t^T \frac{\Gamma(\lambda_{i,t} + n_{i,t})}{\Gamma(\lambda_{i,t}) \Gamma(n_{i,t} + 1)}. \end{eqnarray*}\]
On se retrouve ainsi avec les moments suivants:
\[\begin{eqnarray*} E[N_{i,t}] &=& E[E[N_{i,t}|\delta_i]] \nonumber \\ &=& \lambda_{i,t} E[1/\delta_i] \nonumber \\ &=& \lambda_{i,t} \frac{b}{a - 1}, \label{espNBB} \end{eqnarray*}\]
\[\begin{eqnarray*} Var[N_{i,t}] &=& E[Var[N_{i,t}|\delta_i]] + Var[E[N_{i,t}|\delta_i]] \nonumber \\ &=& \lambda_{i,t} E[(1+\delta_i)/\delta_i^2] + \lambda_{i,t}^2 Var[1/\delta_i] \nonumber \\ &=& \lambda_{i,t} \frac{(a+b-1)b}{(a-1)(a-2)} + \lambda_{i,t}^2 \left[\frac{(b+1)b}{(a-1)(a-2)} - \frac{b^2}{(a-1)^2} \right], \end{eqnarray*}\]
\[\begin{eqnarray*} Cov[N_{i,t},N_{i,t+j}] &=& Cov[E[N_{i,t}|\delta_i], E[N_{i,t+j}|\delta_i]] + E[Cov[N_{i,t},N_{i,t+j}|\delta_i]] \nonumber \\ &=& Cov[\lambda_{i,t}/\delta_i,\lambda_{i,t+j}/\delta_i] + 0 \nonumber \\ &=& \lambda_{i,t} \lambda_{i,t+j} Var[1/\delta_i] \nonumber \\ &=& \lambda_{i,t} \lambda_{i,t+j} \frac{b}{a-1} \left(\frac{b+1}{a-2} - \frac{b}{a-1} \right), \ \ \ j > 0. \end{eqnarray*}\]
La distribution converge vers la NB1 pour:
\[Var[\delta_i/(1+\delta_i)] = ab/\left((a+b+1)(a+b)^2\right) \rightarrow 0\].
Ce qui est particulier avec l’approche NB-Beta est qu’elle suppose deux formes de variation:
Une première variation provient de la NB1 directement, et suppose ainsi une surdispersion dans la modélisation du nombre de réclamations.
L’ajout d’un effet aléatoire modélise la dépendance temporelle.
Le modèle MVNB, par son paramètre \(\alpha\), modélise simultanément une variance conditionnelle et une dépendance temporelle.
Le modèle NB-Beta est intéressant car la densité a posteriori de l’effet aléatoire modélisé par \(\delta_i/(1+\delta_i)\) suit encore une distribution beta de paramètres \(\sum_{t=1}^T \lambda_{i,t} + a\) et \(\sum_{t=1}^T n_{i,t} + b\) (donc, on parle de distributions conjuguées)
Les primes prédicitives peuvent donc s’exprimer comme:
\[\begin{eqnarray*} E[N_{i,t+1}|N_{i,1},...,N_{i,t}] &=& E[E[N_{i,t+1}|N_{i,1},...,N_{i,t}, \delta_i]] \nonumber \\ &=& \lambda_{i,t+1} E[1/\delta_i |N_{i,1},...,N_{i,t}] \nonumber \\ &=& \lambda_{i,t+1} \frac{\sum_t n_{i,t} + b}{\sum_t \lambda_{i,t} + a - 1}, \end{eqnarray*}\]
On remarque une forme similaire au modèle MVNB, mais - comme on l’indiquait plus tôt - le modèle permet une flexibilité supplémentaire grâce au nouveau paramètre ajouté au modèle.