2.1 Distributions de la famille exponentielle

Dans la littérature en probabilité, il existe plusieurs familles de distributions, où chaque membre d’une même famille partage des propriétés communes aux autres membres. Travailler de manière générale avec des familles de distributions, plutôt que d’énumérer toutes les possibilités comportent plusieurs avantages.

Les distributions de la famille exponentielle sont utilisées pour les GLM.

2.1.1 Caractéristiques des distributions

On suppose une variable aléatoire \(Y\), et on utilisera la notation \(f(y)\) pour la fonction de densité, mais aussi pour la fonction probabilité dans le cas où \(Y\) est discret.

La fonction de densité, et la fonction de probabilité, des membres de la famille exponentielle linéaire peut s’écrire sous la forme:

\[ f(y) = c(y, \phi) \exp\left[ \frac{y \theta - a(\theta)}{\phi}\right].\]

Le paramètre \(\theta\) est appelé de la distribution, et \(\phi\) est le de la distribution.

Par définition, toutes les distributions ayant une fonction de densité (ou une fonction de probabilité) pouvant s’écrire sous la forme précédente sont dites membres de la famille exponentielle linéaire.


Théorème 2.1 L’espérance et la variance de \(Y\) correspondent à:

\[E[Y] = a'(\theta) \ \ \ \text{ et } Var[Y] = \phi a''(\theta)\]

\(a'(\theta)\) et \(a''(\theta)\) sont les première et seconde dérivées de \(a(\theta)\) par rapport à \(\theta\).

On sait que:

\[\int f(y) dy = 1\]

Ainsi:

\[\begin{eqnarray*} \int f(y) dy &=& \int c(y, \phi) \exp\left[ \frac{y \theta - a(\theta)}{\phi}\right] dy \\ 1 &=& \int c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right] \exp\left[ \frac{- a(\theta)}{\phi}\right] dy \\ &=& \int \frac{c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]}{\exp\left[ \frac{a(\theta)}{\phi}\right]} dy \\ &=& \frac{1}{\exp\left[ \frac{a(\theta)}{\phi}\right]} \int c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy \\ \exp\left[ \frac{a(\theta)}{\phi}\right] &=& \int c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy \end{eqnarray*}\]

On cherche:

\[\begin{eqnarray*} \int y f(y) dy &=& \int y c(y, \phi) \exp\left[ \frac{y \theta - a(\theta)}{\phi}\right] dy \\ &=& \frac{\int y c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy}{\exp\left[ \frac{a(\theta)}{\phi}\right]} \\ &=& \frac{\int y c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy}{\int c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy} \\ &=& \frac{\int \phi \frac{\delta}{\delta \theta} c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy}{\int c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy} \\ &=& \frac{\phi \frac{\delta}{\delta \theta} \int c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy}{\int c(y, \phi) \exp\left[ \frac{y \theta}{\phi}\right]dy} \\ &=& \frac{ \phi \frac{\delta}{\delta \theta} \exp\left[ \frac{a(\theta)}{\phi}\right]}{\exp\left[ \frac{a(\theta)}{\phi}\right]} \\ &=& \frac{ \phi \exp\left[ \frac{a(\theta)}{\phi}\right] \frac{a'(\theta)}{\phi} }{\exp\left[ \frac{a(\theta)}{\phi}\right]} \\ &=& a'(\theta) \end{eqnarray*}\]


Pour une certaine variable aléatoire \(Y\), afin de choisir les fonctions \(a(\theta)\) et \(c(y, \phi)\) appropriées, il est souvent plus facile de travailler avec:

\[ \ln(f(y)) = \ln(c(y, \phi)) + \left[ \frac{y \theta - a(\theta)}{\phi}\right].\]


2.1.2 Loi binomiale

On suppose que \(Y \sim Bin(n,p)\). Ainsi:

\[ \Pr[Y=y] = \binom{n}{y} p^y (1-p)^{n-y} \]

et donc:

\[\begin{eqnarray*} \ln(Pr[Y=y]) &=& \ln\left[\binom{n}{y}\right] + y \ln(p) + (n-y) \ln(1-p) \\ &=& \ln\left[\binom{n}{y}\right] + y \ln\left(\frac{p}{1-p}\right) + n \ln(1-p) \end{eqnarray*}\]

On peut voir que:

\[\begin{eqnarray*} c(y, \phi) &=& \binom{n}{y}\\ \theta &=& \ln\left(\frac{p}{1-p}\right) \ \ \Rightarrow p = \frac{e^{\theta}}{1+e^{\theta}} \\ a(\theta) &=& - n \ln(1-p) = n \ln(1+e^{\theta})\\ \phi &=& 1 \end{eqnarray*}\]


Exemple 2.1 Calculez l’espérance et la variance de la binomiale.

\[\begin{eqnarray*} E[Y] &=& a'(\theta)\\ &=& \frac{\delta}{\delta \theta} n \ln(1+e^{\theta}) \\ &=& n \frac{e^{\theta}}{1+e^{\theta}} = np \end{eqnarray*}\]

\[\begin{eqnarray*} Var[Y] &=& \phi a''(\theta)\\ &=& \frac{\delta}{\delta \theta} n \frac{e^{\theta}}{1+e^{\theta}} \\ &=& n \left( \frac{e^{\theta}(1+e^{\theta}) - e^{2 \theta}}{(1+e^{\theta})^2}\right) = np(1-p) \end{eqnarray*}\]


2.1.3 Loi de Poisson

On suppose que \(Y \sim Poisson(\lambda)\). Ainsi:

\[ Pr[Y=y] = \frac{\lambda^y e^{-\lambda}}{y!} \]

et donc:

\[\begin{eqnarray*} \ln(Pr[Y=y]) &=& - \lambda + y \ln(\lambda) - \ln(y!)\\ &=& - \ln(y!) + y \ln(\lambda) - \lambda \end{eqnarray*}\]

On peut voir que:

\[\begin{eqnarray*} c(y, \phi) &=& - \ln(y!)\\ \theta &=& \ln(\lambda) \ \ \Rightarrow \lambda = \exp(\theta) \\ a(\theta) &=& \lambda = \exp(\theta)\\ \phi &=& 1 \end{eqnarray*}\]

Exemple 2.2 Calculez l’espérance et la variance de la Poisson.

\[\begin{eqnarray*} E[Y] &=& a'(\theta)\\ &=& a(\theta) = \lambda \end{eqnarray*}\]

\[\begin{eqnarray*} Var[Y] &=& \phi a''(\theta)\\ &=& a(\theta) = \lambda \end{eqnarray*}\]

2.1.4 Loi normale (gaussienne)

On suppose que \(Y \sim Normal(\mu, \sigma^2)\). Ainsi:

\[ f(y) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{1}{2\sigma^2} (y-\mu)^2\right) \]

et donc:

\[\begin{eqnarray*} \ln(f(y)) &=& \ln \sigma - \frac{(y-\mu)^2}{2\sigma^2} \\ &=& \ln \sigma - \ln(\sqrt{2 \pi}) - \frac{y^2/2}{\sigma^2} + \frac{y \mu - \mu^2/2}{\sigma^2} \end{eqnarray*}\]

On peut voir que:

\[\begin{eqnarray*} c(y, \phi) &=& \ln \sigma - \ln(\sqrt{2 \pi}) - \frac{y^2/2}{\sigma^2}\\ \theta &=& \mu \\ a(\theta) &=& \mu^2/2\\ \phi &=& \sigma^2 \end{eqnarray*}\]

Exemple 2.3 Calculez l’espérance et la variance de la normale.

\[\begin{eqnarray*} E[Y] &=& a'(\theta)\\ &=& 2 \mu/2 = \mu \end{eqnarray*}\]

\[\begin{eqnarray*} Var[Y] &=& \phi a''(\theta)\\ &=& \phi = \sigma^2 \end{eqnarray*}\]

2.1.5 Loi gamma

Il existe plusieurs paramétrisations possibles pour une distribution. Habituellement, en généralisant directement la forme de la loi exponentielle, la loi gamma(\(\alpha\), \(\tau\)) s’exprime comme:

\[\begin{eqnarray*} f(x) = \frac{\tau^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} \exp(-\tau x) I_{]0,\infty[}. \end{eqnarray*}\]

Par contre, en posant \(\mu = \alpha/\tau\), nous pouvons obtenir une loi gamma(\(\mu\), \(\nu\)) de la forme suivante:

\[\begin{eqnarray*} f(y) = \frac{1}{\Gamma(\nu)} \left(\frac{\nu y}{\mu} \right)^{\nu} \exp(-\frac{y \nu}{\mu} ) \frac{1}{y} I_{]0,\infty[} \end{eqnarray*}\]

qui a une variance de \(\mu^2/\nu\). Cette dernière paramétrisation de la gamma est celle qui est utilisée dans la théorie des GLM.


Exemple 2.4 Trouvez \(\theta\), \(a(\theta)\), \(\phi\) et \(c(y, \phi)\), en utilisant la deuxième paramétrisation de la gamma.

En exercice à la maison.


Exemple 2.5 Calculez l’espérance et la variance de la gamma.

En exercice à la maison.


2.1.6 Inverse-gaussienne

La distribution inverse-gaussienne est une distribution à deux paramètres (\(\sigma\) et \(\mu\)). Elle est moins connue que les autres distributions de la famille exponentielle linéaire que nous venons de voir, mais est utilisée assez souvent en actuariat. Elle ne prend que des valeurs positive, et s’avère ainsi une solution de rechange intéressante à la loi gamma pour modéliser le coût des réclamations, qui sont aussi strictement positifs.

La distribution inverse-gaussienne a la fonction de densité suivante:

\[f(y) = \frac{1}{\sqrt{2\pi y^3} \sigma} \exp\left(-\frac{1}{2y} \left(\frac{y - \mu}{\mu \sigma}\right)^2\right)\]

On peut montrer que \(E[Y] = \mu\) et \(Var[Y] = \sigma^2 \mu^3\).

Exemple 2.6 Trouvez \(\theta\), \(a(\theta)\), \(\phi\) et \(c(y, \phi)\).

En exercice à la maison.

Exemple 2.7 Calculez l’espérance et la variance de la gamma.

En exercice à la maison.


2.1.7 Estimation par maximum de vraisemblance

Comme nous le verrons plus tard, l’intérêt de la théorie des GLM est de pouvoir avoir une méthode générale pour estimer les paramètres de la fonction de densité (ou de probabilité) de \(Y\). On passe par l’estimateur par maximum de vraisemblance.

Définition 2.1 L’estimateur du maximum de vraisemblance (EMV ou MLE en anglais) est un estimateur statistique utilisé pour inférer les paramètres de la loi de probabilité d’un échantillon donné en recherchant les valeurs des paramètres maximisant la fonction de vraisemblance.

En d’autres mots, l’idée de base de l’estimation par maximum de vraisemblance est de choisir les paramètres d’une distribution afin de maximiser la vraisemblance d’avoir obtenu l’échantillon de données que nous avons.


Avec un échantillon de \(m\) observations, qu’on suppose être des réalisation de la variable aléatoire \(Y\) de paramètres \(\theta\), la fonction de vraisemblance s’exprime ainsi comme :

\[L(y, \theta) = \prod_{i=1}^m f(y_i; \theta).\]

avec \(f(y_i; \theta)\), la fonction de densité (ou de probabilité) de l’observation \(y_i\), qui dépend des paramètres \(\theta\).

On travaillera aussi avec la fonction de logvraisemblance, qui est le logarithme de la fonction de vraisemblance:

\[\ell(y; \theta) = \log L(y, \theta) = \sum_{i=1}^m \log(f(y_i; \theta)).\]


Lorsque la variable aléatoire \(Y\) est membre de la famille exponentielle linéaire, la fonction de logvraisemblance s’exprime comme:

\[\begin{eqnarray*} \ell(\phi, \theta) &=& \sum_{i=1}^n \left(\ln(c(y_i, \phi)) + \left[ \frac{y_i \theta - a(\theta)}{\phi}\right] \right)\\ &=& \left[ \frac{n (\overline{y} \theta - a(\theta))}{\phi}\right] + \sum_{i=1}^n \ln(c(y_i, \phi) \end{eqnarray*}\]

Ainsi, comme l’objectif de l’estimation par maximum de vraisemblance et de trouver la valeur de \(\theta\) qui maximise la logvraisemblance, on dérivera la fonction par rapport à \(\theta\), que l’on posera égale à 0. Ceci mène à la condition de premier ordre suivante pour les membres de la famille exponentielle linéaire:

\[\begin{eqnarray*} \left[ \frac{n (\overline{y} - a'(\theta))}{\phi}\right] &=& 0 \ \ \Rightarrow a'(\theta) = \overline{y} \end{eqnarray*}\]

Ainsi, pour tout membre de la famille exponentielle linéaire, le paramètre de moyenne de la variable aléatoire, soit \(a'(\theta) = \mu\), est égal à \(\overline{Y}\), la moyenne empirique de l’échantillon.


Comme nous le verrons plus tard, la théorie des GLM a l’objectif principal d’estimer la moyenne des distributions. Ainsi, l’estimateur du maximum de vraisemblance est utilisé pour estimer \(a'(\theta) = \mu\). Les autres paramètres de la distribution, s’ils existent, ne sont pas considérés pour le moment.


Exemple 2.8 On suppose un échantillon de données d’assurance. Le nombre moyen de réclamations dans l’échantillon est de \(0.075\). Si on suppose que le nombre de réclamations suit une loi de Poisson de moyenne \(\lambda\), quel serait le MLE pour \(\lambda\)?

La Poisson est membre de la famille exponentielle linéaire. Ainsi, nous avons vu que le MLE de \(a'(\theta) = \lambda\), est égal à la moyenne empirique de l’échantillon, donc \(\widehat{\lambda} = 0.075\).


Exemple 2.9 On suppose encore une échantillon de données d’assurance, mais nous analysons le coût des réclamations. Le coût moyen d’une réclamation dans l’échantillon est de \(9525\). Quels seraient les MLE des paramètres dans les deux cas suivants:

  1. On suppose que le coûts des réclamations suit une loi gamma(\(\mu\), \(\nu\));
  2. On suppose que le coûts des réclamations suit une loi inverse-gaussienne(\(\mu\), \(\sigma\),).

La gamma et l’inverse-gaussienne sont des membres de la famille exponentielle linéaire. Ainsi, nous avons vu que pour les deux distributions, le MLE de \(a'(\theta) = \mu\), est égal à la moyenne empirique de l’échantillon, donc \(\widehat{\mu} = 9525\).

Pour ce qui en est du MLE de \(\nu\) pour la gamma, et de \(\sigma\) pour l’inverse-gaussienne, nous devrons attendre un peu avant de couvrir cette situation.