1.2 Modèles de mélange

Nous savons qu’en assurance, chaque assuré est différent. Le problème provient de la situation où les régresseurs du modèle n’expliquent pas complètement l’hétérogénéité individuelle.

Supposons que le vrai modèle pour modéliser le nombre de réclamations Y est:

E[Y|X,Z]=exp(Xβ+Zγ),

mais Z n’est pas observé. Le vecteur Z peut représenter des variables qui ne peuvent pas être utilisées (âge, sexe, religion, territoire), ou encore des variables qui ne peuvent pas être mesurées convenablement (réflexes, maturité, connaissance du code de la route, etc.).

Ainsi, nous avons:

E[Y|X,Z]=exp(Xβ+ν),

avec ν=Zγ représentant l’hétérogénéité non-observée.

De manière équivalente, on pourrait aussi écrire:

E[Y|X,Z]=exp(Xβ)θ.

Est-ce que la présence d’une hétérogénéité peut causer un biais dans l’estimation?\

Dans une régression linéaire standard, avec μ=Xβ+Zγ, la condition pour ne pas avoir de biais dans ˆμ est qu’il n’y ait pas de biais entre X et Z.

Montrez que la condition E[ν|X]=E[ν] n’est pas suffisante pour l’estimation de β d’une Poisson avec lien logarithmique.

Nous voulons montrer que

E[Y|X]=E[E[Y|X,ν]|X]=E[exp(Xβ+ν)|X]=exp(Xβ)E[exp(ν)|X]exp(Xβ)E[exp(ν)] avec la seule condition E[ν|X]=E[ν]

La condition est que E[exp(ν)|X]=E[exp(ν)]

Ainsi, en supposant E[exp(ν)|X]=E[exp(ν)], nous pouvons choisir diverses formes pour exp(ν)Θ, avec la distribution conditionnelle Poisson pour créer des modèles que nous appelerons Poisson-mélange.