6.2 Modèles non-liés

Certains modèles ne sont pas liés par des restrictions paramétriques, par exemple la NB2 et la Poisson gonflée à zéro ne sont pas liées.

Ainsi, avec un test de score, il est fort possible que la Poisson soit rejetée en faveur de la Poisson gonflée à zéro, et que la Poisson soit rejetée face à la NB2. Puisqu’il n’existe pas de paramètre liant la NB2 à la Poisson gonflée à zéro, nous devons nous rabattre sur d’autres outils.

6.2.1 Test sur un lien artificiel

Une méthode intéressante pour comparer deux modèles non-liés est de créer un hyper-modèle qui lierait les deux modèles à tester. Un hypermodèle est un modèle qui inclut, ou lie, les deux modèles non-liés.

A l’extrême, on pourrait penser à un modèle du genre:

$\Pr(N=k) = \xi \times \Pr(N=k; \text{NB2}) + (1 - \xi) \times \Pr(N=k; \text{Poisson gonflé à zéro}),$ et faire une estimation des paramètres, dont $\widehat{\xi}$ . On pourrait voir si $\xi$ est statistiquement plus près de 0 ou de 1. Toutefois, il n’est pas clair que ce modèle soit si simple à estimer (présence de maximums locaux, problème d’identification des paramètres, etc.).

Un exemple plus réaliste d’hypermodèle est de généraliser la forme de la variance des modèles à hétérogénéité. Ainsi, si on doit choisir entre une NB2 et une NB1, on pourrait construire un modèle NBk ayant une variance de forme:

$Var[Y_i] = \lambda_i + \alpha \lambda_i^k,$

qui pourrait provenir de modèle $S |\theta \sim Poisson(\lambda \theta)$ , avec $\theta \sim Gamma(\frac{\lambda^{2-k}}{\alpha}, \frac{\lambda^{2-k}}{\alpha})$ .

En estimant le paramètre $k$ , nous pourrions utiliser un simple test de Wald pour déterminer s’il est préférable d’utiliser une NB1 ou une NB2. On pourrait développer le même genre d’approche pour développer une PIGk ou une PLNk.

6.2.2 Critère d’information

Intuitivement, on pourrait évaluer l’ajustement du modèle en analysant la valeur des logvraisemblances. En effet, la logvraisemblance peut s’interpréter comme la probabilité d’observer les données sachant le modèle et les paramètres. Ainsi, un meilleur modèle devrait avoir une plus grande probabilité.

Toutefois, il est important de comprendre que lorsque l’on augmente le nombre de paramètres, l’ajustement du modèle est amélioré. Même si un régresseur ajouté au modèle est statistiquement significatif, il peut amener une perte dans la précision de l’estimation. Il y a donc ici un conflit entre:

le biais;
la variance.

La sélection d’un modèle se doit d’être un compromis acceptable entre ces deux éléments, où:

l’utilisation de plusieurs régresseurs donne un biais faible, mais une variance élevée;
l’utilisation d’un petit nombre de régresseurs donne un biais élevé, mais une variance faible.

Une méthode standard pour comparer les modèles (liés ou non-liés) sont les critères d’information. La théorie de l’information est utilisé pour choisir les critères. Il existe plusieurs critères pouvant être utilisés dans une telle situation. Les plus connus sont le critère d’information de Akaike (AIC), et le second le critère d’information bayésien (BIC).

$\begin{eqnarray*} AIC &=& -2 \ell + 2(p+1) \\ BIC &=& -2 \ell + (p+1)\ln(n) \end{eqnarray*}$

où $\ell$ est le logvraisemblance du modèle ajusté, $p+1$ le nombre de paramètres dans le modèle et $n$ le nombre de données dans l’échantillon. Le meilleur modèle est celui présentant le plus petit AIC et le plus petit BIC.

En plus du AIC ou du BIC, de nombreux autres critères d’information ont été développés.

Le AIC et le BIC sont très simples à calculer.

ell.r <- logLik(Poisson1)
ell.u <- logLik(model.nb2.MASS)
(AIC <- cbind(-2*ell.r + 2*ncol(Matrix.X), -2*ell.u + 2*(ncol(Matrix.X)+1) ))

##          [,1]     [,2]
## [1,] 284588.7 283024.2

(BIC <- cbind(-2*ell.r + log(nrow(db.train))*ncol(Matrix.X), -2*ell.u + log(nrow(db.train))*(ncol(Matrix.X)+1) ))

##          [,1]     [,2]
## [1,] 284672.7 283118.8

Même si la Poisson et la NB2 sont liées, on peut aussi regarder le AIC et le BIC pour ces deux modèles. On voit encore une fois que la NB2 semble plus intéressante que la Poisson.