3.2 Loi de Poisson
Proposition 3.1 La distribution de probabilité de la Poisson est:
\[ \Pr(X = k) = p_k = \frac{e^{-\lambda} \lambda^k}{k!}\].
Exercice 3.1 Trouvez la moyenne d’une loi lorsque \(N \sim Poisson(\lambda)\).
On peut calculer l’espérance comme:
\[\begin{eqnarray*} \mathbb{E}[N] &=& \sum_{j \in \mathbb{N}} j \Pr[N = j] \\ &=& \sum_{j=0}^{\infty} j \frac{\lambda^j e^{-\lambda}}{j!} \\ &=& e^{-\lambda} \sum_{j=1}^{\infty} j \frac{\lambda^j }{j!} \\ &=& e^{-\lambda} \sum_{k=0}^{\infty} \frac{\lambda^{k+1}}{k!} \text{, avec un changement de variable: } j = k+1 \\ &=& \lambda \text{, car } \sum_{k=0}^{\infty} \frac{\lambda^{k}}{k!} = e^{\lambda} \end{eqnarray*}\]
Exercice 3.2 Trouvez la variance d’une loi lorsque \(N \sim Poisson(\lambda)\).
À faire à la maison, en utilisant l’égalité \(Var[N] = E[N^2] - E[N]^2\).
Proposition 3.2 Parce que \(E[N] = Var[N]\), on dit de la Poisson qu’elle a la propriété d’équidispersion.
Proposition 3.3 La fonction génératrice des probabilités de la Poisson se définit comme:
\[\begin{eqnarray*} \mathbb{P}(s) &=& \sum_{k=0}^{\infty} s^k \Pr(X = k) \\ &=& \sum_{k=0}^{\infty} s^k \frac{e^{-\lambda} \lambda^k}{k!}\\ &=& e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda s)^k}{k!} \\ &=& e^{-\lambda + \lambda s} \end{eqnarray*}\]
Proposition 3.4 La ratio des probabilités successives peut être écrit comme:
\[ \frac{p_k}{p_{k-1}} = \frac{\lambda}{k} \]
Ainsi, les probabilités sont strictement décroissantes pour \(0 < \lambda < 1\) (et le mode est à 0); pour \(\lambda > 1\), les probabilités sont croisantes pour \(k < [\lambda]\) et décroissent ensuite.
Proposition 3.5 La distribution de Poisson n’est pas fermée pour des transformations linéaire.
Exemple à faire en classe (solution: ??)
La distribution \(Y = a + X\) est souvent appelée Poisson translatée, avec
\[\Pr(Y = k) = \frac{\lambda^{(k-a)} e^{-\lambda}}{(k-a)!}, \ k = a,a+1,a+2,...\]
L’utilisation de la Poisson translatée peut servir dans le cas où on doit analyser une situation où le domaine de la variable aléatoire de comptage ne commence pas à 0.
Récemment, par exemple, un étudiant de l’équipe a analysé le nombre de voitures assurés sur un contrat d’assurance et la Poisson translatée a été utilisée (car on ne peut pas avoir \(0\) voiture assurée sur un contrat, sinon il n’y a tout simplement pas de contrat).
3.2.1 Limite d’une distribution binomiale
Proposition 3.6 La distribution de Poisson est la limite d’une distribution binomiale lorsque \(n \rightarrow \infty\) et \(p = \lambda/n\).
Exemple à faire en classe (solution: ??)
Pour mieux comprendre les propriétés de la Poisson, supposons l’expérience d’une urne dans laquelle on trouve des billes rouges et des billes bleues, dans laquelle on fait des tirages avec remise. On suppose
- Si une bille rouge est pigée, on indique que c’est un succès \(s\),
- Si une bille bleue est pigée, on indique que c’est un échec \(e\).
- Par convention, on dit que \(p\) est la probabilité de succès.
- On effectue \(n\) tirages, et \(X\) est le nombre de succès.
Selon ces paramètres, \(X\) est une binomiale(\(n\),\(p\)).
Supposons maintenant que chaque tirage correspond à une unité de temps: Donc, s’il y a 5 tirages, 5 unités de temps auront passé.
La séquence de tirage avec remise est ainsi l’exemple classique d’un processus stationnaire à temps discret;
Chaque tirage est indépendant, et la probabilité de succès est constante dans le temps.
La distribution de \(X\) pour le cas limite lorsque \(n \rightarrow \infty\) est la Poisson.
Exemple 3.1 Comment interprétez-vous la loi de Poisson comme limite de la binomiale dans un contexte pratique, comme dans le cas de la modélisation du nombre de réclamations en assurance ?
Au niveau de l’interprétation et de l’application de cette distribution dans un contexte d’assurance, on pourrait donc interpréter la loi de Poisson comme une limite de binomiale représentant la probabilité d’avoir un sinistre:
\(\pi \rightarrow 0\) : La probabilité d’avoir un sinistre tend vers 0 à chaque acte posé (par exemple chaque geste posé lors de la conduite d’une voiture);
\(n \rightarrow \infty\) : Le nombre de fois où l’acte est effecté pendant une année (par exemple, le nombre de fois ou un assuréfait un geste lorsqu’il conduit son véhicule dans l’année);
\(n\pi = \lambda > 0\): Malgré que le fait que la probabilité d’avoir un sinistre est pratiquement nul à chaque acte posé, il devient de plus en plus probable qu’un sinistre survienne sur une année puisque cet acte est posé un grand nombre de fois (suite de l’exemple: un assuré utilise plusieurs fois son véhicule dans l’année et a une probabilité non-nulle d’avoir une réclamation).
3.2.2 Temps d’attente (et processus de renouvellement)
Définition 3.1 Le temps séparant l’arrivée de deux événements est appelé temps d’attente (en anglais, waiting times ou interarrival times).
Supposons \(\tau_i\), le temps d’attente entre le \(i-1^{e}\) et le \(i^{e}\) événement. Conséquemment, on peut en conclure que le \(k^{e}\) événement surviendra à un temps défini par:
\[\begin{equation} \nu(k) = \sum_{i=1}^k \tau_i \end{equation}\]
Ceci nous permet d’établir la relation suivante entre le temps d’attente \(\tau_i\) et le processus de comptage \(N(t)\) comme :
\[\begin{equation*} \nu(k) \le t \Leftrightarrow N(t) \ge k \end{equation*}\]
On peut ainsi définir la fonction de probabilité en utilisant la distribution des temps d’attente:
\[\begin{eqnarray*} \Pr(N(t) = k) &=& \Pr(N(t) < k+1) - \Pr(N(t) < k) \nonumber \\ &=& \Pr(\nu(k+1) > t) - \Pr(\nu(k) > t) \nonumber \\ &=& F_k(t) - F_{k+1}(t) \end{eqnarray*}\]
où \(F_k(t)\) est la fonction cumulative de \(\nu(k)\).
Exemple 3.2 Supposons que le temps d’attente entre deux événements est exponentiel de paramètre \(\lambda\), i.e.:
\[\begin{equation*} f(\tau; \lambda) = \lambda e^{-\lambda \tau} \end{equation*}\]
En utilisant la fonction de probabilité définie en utilisant la distribution des temps d’attente, montrez le nombre d’événements observés pour une période \(T\) est une Poisson de moyenne \(\lambda T\).
Exemple à faire en classe (solution: ??)
L’exemple précédent est important car cela signifie que la moyenne d’une Poisson est proportionnelle à son exposition au risque. Concrètement, cela signifie qu’un assuré aura une moyenne de réclamations 2 fois plus élevé s’il est exposé 2 fois plus longtemps au risque.
3.2.3 Hypothèses nécessaires pour la Poisson
Afin de retrouver la distribution de Poisson, de fortes hypothèses ont été utilisées précédemment.
Généralement, la violation de l’une de ces 4 hypothèses invalide l’utilisation de la Poisson. Ainsi, on essayant de modéliser un phénomène aléatoire, si nous savons que l’une de ces 4 hypothèses n’est pas respectée, il serait préférable de ne pas utiliser la Poisson et de trouver une distribution alternative.
3.2.3.1 Dépendance d’occurence.
Une dépendance d’occurence positive (négative) signifie que l’occurence d’un succès augmente (diminue) les chances de survenance d’un autre succès.
La Poisson ne suppose aucune dépendance d’occurence, au sens où le processus de comptage ne change pas suivant un succès.
Exemple 3.3 Retour sur l’exemple de l’urne avec les balles rouges (succès) et bleues (échec). Supposons que lorsqu’une balle rouge est pigée (succès), celle-ci est replacée dans l’urne avec \(s\) autres balles rouges. Si une balle bleue est pigée, elle est simplement replacée dans l’urne, et la proportion rouges/bleues ne change pas.
Si la procédure est répétée \(n\) fois, il peut être montrée que le nombre de succès a une distribution de Polyà-Eggenberger:
Si \(s > 0\), cela signifie que la contagion positive. On peut montrer que la binomiale négative en est la distribution limite, et non la Poisson.
Si \(s = 0\), cela signifie des tirages indépendants. On sait que la distribution limite est la Poisson.
Si \(s = -1\), il s’agit d’une sorte de tirage sans replacement, qu’on sait être une distribution hypergéométrique. Ainsi, la distribution hypergéométrique peut être vue comme de la contagion négative.
3.2.3.2 Dépendance de durée.
Une dépendance de durée signifie que le processus de comptage change selon le temps écoulé depuis le dernier succès.
La Poisson ne suppose aucune dépendance de durée, au sens où le temps écoulé depuis le dernier succès n’a aucune influence sur le processus de comptage.
Exemple 3.4 La composition de l’urne dépend du temps qui s’est passé avant le dernier succès.
Exemple 3.5 Un cas classique en assurance est la modélisation des tremblements de terre. En effet, nous savons que plus le temps depuis le dernier tremblement de terre est grand, plus la probabilité d’avoir un tremblement de terre est grande.
3.2.3.3 Non-stationnarité.
La non-stationnarité réfère à une situation où le processus de comptage changerait dans le temps pour des raisons exogènes.
Contrairement aux deux premières hypothèse, la non-stationnarité n’invalide pas nécessairement la Poisson.
Exemple 3.6 La composition de l’urne change constamment, indépendamment d’un succès ou d’un échec.
3.2.3.4 Hétérogénéité:
L’hétérogénéité est un concept majeur en actuariat. Une hétérogénétié signifie que chaque individu dans un portefeuille, ou encore chaque sujet d’étude est différent.
Il y a une véritable ambiguité dans la relation entre le processus stochastique sous-jacent et la distribution de comptage si la population est hétérogène. S’il y a hétérogénéité, la probabilité d’une occurence devient aussi un variable aléatoire.
La présence d’une forte hétérogénéité invalide habituellement la Poisson.
Exemple 3.7 Le cas classique pour représenter l’aléatoire est le tirage de dés: on prend un dé équilibré, on le lance un grand nombre de fois et on calcule certaines probabilités.
Lorsqu’il y a présence d’hétérogénéité, on supposerait aussi que le dé qu’on lance est inconnu. On pourrait ainsi piger au hasard un dé parmi un montagne de dés différents, certains avec 6 faces, d’autrs avec 10 face, etc. On tirerait toujours ce même dé, sans jamais regarder son nombre de faces, et on essaierait de déduire certaines propriétés des lancers de dés.
Exemple 3.8 Supposons ainsi que la montagne de dés contient 95 dés à 6 faces, 4 dés à 10 faces et 1 dé à 50 faces. Analysez l’évolution de notre connaissance de la valeur du prochain lancer de dé, si le nombre 10 est obtenu avec le dé pigé au hasard.
On peut conclure que j’ai pigé l’un des 4 dés à 10 faces ou encore le dé à 50 faces. Il est impossible qu’un dé à 6 faces ait été pigé.
Sachant que je ne suis plus dans une situation où mon dé provient d’une montagne de 95 dés à 6 faces, 4 dés à 10 faces et 1 dé à 50 faces, mais plutôt d’une situation où mon dé ne peut avoir que 10 ou 50 faces, l’espérance de la valeur d’un prochain tirage aumgentera.
Nous savons que lorque le dé est tiré, tous les lancers de ce même dé sont considérés indépendants. En d’autres mots, les réalisations passées n’influencent ou ne changent pas le nombre de faces du dé pigé.
Par contre, nous venons de voir que l’espérance d’un prochain tirage peut malgré tout évoluer en fonction des observations passées. Il s’agit de ce qui est appelé de la contagion apparente.
Dans le cas d’un modèle de Poisson, il peut être montré, sous certaines restrictions paramétriques pour l’hétérogénéité, que la distribution binomiale négative peut représenter la forme limite de cette distribution.
Mais on se rappelle que la binomiale négative est aussi reliée à de la vraie contagion provenant d’une dépendance d’occurence.
Ceci représente l’un des grands problèmes de l’analyse des données de comptage: la distribution de la variable aléatoire représentant le nombre d’événements ne peut pas identifier le processus stochastique sous-jacent s’il y a présence d’hétérogénéité.
Ceci est fréquemment référé au Théorême impossible de Bates et Neyman (1951)
Pour des données transversales, il est impossible de distinguer entre la vraie contagion et la contagion apparente.