Rozdział 8 Dyskretne rozkłady prawdopodobieństwa

W tym rozdziale przedstawiono kila najbardziej przydatnych sparametryzowanych dyskretnych rozkładów prawdopodobieństwa.

8.1 Rozkład zero-jedynkowy

Rozkład zero-jedynkowy to rozkład dwupunktowy, w którym zmienna losowa przyjmuje dwie wartości: \(0\) z prawdopodobieństwem \(1-p\) i \(1\) z prawdopodobieństwem \(p\). Rozkład zero-jedynkowy ma tylko jeden parametr \(p\). Wyznaczenie wartości oczekiwanej i wariancji rozkładu zero-jedynkowego można potraktować jako ćwiczenie (vide zadanie 7.8).

8.2 Rozkład dwumianowy

Rozkład dwumianowy ma dwa parametry \(n\) i \(p\). Zmienna losowa \(X\) może przyjmować wartości od \(0\) do \(n\). Za pomocą rozkładu dwumianowego opisuje się prawdopodobieństwo osiągnięcia \(x\) sukcesów w \(n\) niezależnych identycznych próbach. Parametr \(p\) to prawdopodobieństwo sukcesu w pojedynczej próbie, zwanej próbą Bernoulliego. Prawdopodobieństwo sukcesu jest takie samo w każdej próbie. Dla skrócenia zapisu przyjmuje się często oznaczenie \(q = 1 - p\) (prawdopodobieństwo porażki).

Załóżmy, że \(X\) jest zmienną losową o rozkładzie dwumianowym i parametrach \(n\) i \(p\). Wtedy prawdopodobieństwo, że liczba sukcesów w \(n\) próbach wyniesie \(x\) można wyznaczyć na podstawie poniższego wzoru:

\[\begin{equation} \mathbb{P}(X=x) = \textbf{p}(x)={n\choose x}p^x (1-p)^{n-x} \text{, dla } x \in \{ 0, 1, 2, ..., n \} \tag{8.1} \end{equation}\]

Rozkład zero-jedynkowy (8.1) jest rozkładem dwumianowym z parametrem \(n\) równym 1.

Przykład rozkładu dwumianowego: rzucamy osiem razem kością; zmienna \(X\) to liczba szóstek o rozkładzie dwumianowym z parametrami \(n=8\) i \(p=1/6\).

Zmienna losowa o rozkładzie dwumianowym ma następujące własności:

  1. „Eksperyment” składa się z \(n\) prób (podejść, ang. trials).

  2. Możliwe są tylko dwa wyniki pojedynczej próby: „sukces” (S) lub „porażka” (F).

  3. Prawdopodobieństwo „sukcesu” \(p\) nie zmienia się w poszczególnych próbach. Prawdopodobieństwo „porażki”, które często oznaczamy literą \(q\) (\(q=1-p\)), oczywiście również się nie zmienia.

  4. Próby (podejścia) są niezależne.

  5. Zmienna losowa to \(X\) – liczba sukcesów w \(n\) podejściach.

Wartość oczekiwana w rozkładzie dwumianowym:

\[\begin{equation} \mu=np \tag{8.2} \end{equation}\]

Wariancja i odchylenie standardowe:

\[\begin{equation} \sigma^2= npq \tag{8.3} \end{equation}\]

\[\begin{equation} \sigma=\sqrt{npq} \tag{8.4} \end{equation}\]

8.3 Rozkład Poissona

Rozkład Poissona nazwany jest na cześć XVIII-wiecznego fizyka i matematyka Siméona Poissona.

Służy do opisywania liczby zdarzeń rzadkich, które wystąpią w określonym okresie (lub na określonej długości, na określonym obszarze, w określonej objętości itd.). Aby liczba zdarzeń rzadkich miała rozkład Poissona, zdarzenia muszą następować niezależnie od siebie, ze stałą oczekiwaną częstotliwością w każdym równym odcinku.

Rozkład Poissona nazywany jest rozkładem zdarzeń rzadkich. Żeby opowiedzieć, w jakich sytuacjach stosujemy rozkład Poissona, najlepiej posłużyć się przykładami:

  1. Liczba awarii systemu komputerowego w danym dniu

  2. Liczba zamówień na części zamienne w danym miesiącu

  3. Liczba statków docierających do nabrzeża w ciągu 12 godzin

  4. Liczba samochodów dostawczych przyjeżdżających do magazynu w ciągu godziny

  5. Liczbę usterek w dużej rolce blachy o długości 20 mb

  6. Liczba pasażerów przybywających na dworzec w ciągu 10 minut po południu w dzień powszedni

  7. Liczba klientów, którzy przychodzą do kasy w lokalnym sklepie spożywczym w określonym przedziale czasowym

Jeżeli \(X\) ma rozkład Poissona o parametrze \(\lambda\), to prawdopodobieństwo, że \(X\) przyjmie wartość \(x\) można wyznaczyć na podstawie poniższego wzoru:

\[\begin{equation} \mathbb{P}(X=x) = \textbf{p}(x)=\frac{\lambda^x e^{-\lambda}}{x!} \text{, dla } x \in \{ 0, 1, 2, ... \} \tag{8.5} \end{equation}\]

Wartość oczekiwana i wariancja w rozkładzie Poissona są sobie równe i wynoszą \(\lambda\).

\[\begin{equation} \mu= \sigma^2 = \lambda \tag{8.6} \end{equation}\]

Odchylenie standardowe jest jak zawsze pierwiastkiem z wariancji:

\[\begin{equation} \sigma=\sqrt{\lambda} \tag{8.7} \end{equation}\]

8.4 Szablony

Arkusze kalkulacyjne

Kalkulator dla rozkładów dyskretnych — arkusz Google

Kalkulator dla rozkładów dyskretnych — szablon w Excelu: Rozkłady_dyskretne.xlsx

Kod w R

# Rozkład dwumianowy
n <- 18
p <- 0.6
from <- 12
to <- 14

result <- pbinom(to, n, p)-pbinom(from-1, n, p)
if (from > to) {
  # błąd od > do
  print("!!! Wartość 'od' nie może być większa od wartości 'do' !!!")
} else {
  p=paste0("P(", from, " <= X <= ", to, ")")
  print(p)
  print(result)
}
## [1] "P(12 <= X <= 14)"
## [1] 0.3414956
# Rozkład Poissona
lambda <- 5/3
from <- 2
to <- Inf

result <- ppois(to, lambda)-ppois(from-1, lambda)
if (from > to) {
  # błąd od > do
  print("!!! Wartość 'od' nie może być większa od wartości 'do' !!!")
} else {
  p=paste0("P(", from, " <= X <= ", to, ")")
  print(p)
  print(result)
}
## [1] "P(2 <= X <= Inf)"
## [1] 0.4963317
# Rozkład hipergeometryczny
N <- 49
r <- 6
n <- 6
from <- 3
to <- 6

result <- phyper(to, r, N-r, n)-phyper(from-1, r, N-r, n)
if (from > to) {
  # błąd od > do
  print("!!! Wartość 'od' nie może być większa od wartości 'do' !!!")
} else {
  p=paste0("P(", from, " <= X <= ", to, ")")
  print(p)
  print(result)
}
## [1] "P(3 <= X <= 6)"
## [1] 0.01863755

Kod w Pythonie

from scipy.stats import binom, poisson, hypergeom

# Rozkład dwumianowy
n = 18
p = 0.6
_from = 12
_to = 14
result = binom.cdf(_to, n, p) - binom.cdf(_from-1, n, p)
if _from > _to:
    print("!!! Wartość 'od' nie może być większa od wartości 'do' !!!")
else:
    p = "P(" + str(_from) + " <= X <= " + str(_to) + ")"
    print(p)
    print(result)
## P(12 <= X <= 14)
## 0.34149556326865305
    
# Rozkład Poissona
lambda_val = 5/3
from_val = 2
to_val = float('inf')

result = poisson.cdf(to_val, lambda_val) - poisson.cdf(from_val-1, lambda_val)

if from_val > to_val:
    print("!!! Wartość 'od' nie może być większa od wartości 'do' !!!")
else:
    p = "P(" + str(from_val) + " <= X <= " + str(to_val) + ")"
    print(p)
    print(result)
## P(2 <= X <= inf)
## 0.49633172576650164
    
# Rozkład hipergeometryczny
N = 49
r = 6
n = 6
_from = 3
_to = 6

result = hypergeom.cdf(_to, N, r, n) - hypergeom.cdf(_from-1, N, r, n)

if _from > _to:
    print("!!! Wartość 'od' nie może być większa od wartości 'do' !!!")
else:
    p = "P(" + str(_from) + " <= X <= " + str(_to) + ")"
    print(p)
    print(result) 
## P(3 <= X <= 6)
## 0.018637545002022304

8.5 Pytania

Pytanie 8.1 Wśród dziesięciu opon samolotowych znajdujących się w hangarze trzy są wadliwe. Wybieramy losowo cztery opony. Niech F będzie liczbą wybranych opon wadliwych. Czy F jest zmienną losową dwumianową?

Pytanie 8.2 Sprzedawca zauważył, że na dłuższą metę dwie z trzech telefonicznych ofert sprzedaży są skuteczne. Ma on złożyć dwanaście telefonicznych propozycji. Niech X oznacza liczbę zawartych transakcji sprzedaży. Czy X jest zmienną losową dwumianową? Odpowiedź uzasadnij.

8.6 Zadania

Zadanie 8.1 Pewien sprzedawca chodzi od domu do domu w dzielnicy mieszkaniowej, aby zademonstrować nowe urządzenia gospodarstwa domowego potencjalnym klientom. Prawdopodobieństwo, że potencjalny klient po zakończeniu pokazu złoży zamówienie na produkt, jest stałe i wynosi 0,16. Aby wykonać zadanie w zadowalający sposób, sprzedawca potrzebuje co najmniej czterech zamówień. Jeżeli sprzedawca zrobi 16 pokazów, to jakie jest prawdopodobieństwo, że będą po nich dokładnie 4 zamówienia? Przynajmniej 4 zamówienia?

Zadanie 8.2 (Na podstawie McClave and Sincich 2012) Fundacja „Zdrowa woda” odkryła, że 25% wody butelkowanej sprzedawanej w sklepach to w rzeczywistości woda z kranu nalana do butelek. Załóżmy, że wylosowano 5 butelek z różnych sklepów i marek. Niech X oznacza liczbę butelek, w których jest woda z kranu.

  1. Wyjaśnij, dlaczego X jest (w przybliżeniu) zmienną o rozkładzie dwumianowym.

  2. Podaj rozkład prawdopodobieństwa w formie wzoru dla tego przypadku.

  3. Znajdź \[\mathbb{P}(X = 2)\] i \[\mathbb{P}(X ≤ 1)\].

Zadanie 8.3 Załóżmy, że serwer e-mail na Politechnice Gdańskiej ulega awarii średnio 0,81 razy w danym semestrze. Zakładamy, że liczba awarii ma rozkład Poissona (awarie są niezależne, intensywność pozostaje stała).

  1. Jakie jest prawdopodobieństwo, że w danym semestrze nie będzie awarii?

  2. Jakie jest prawdopodobieństwo przynajmniej dwukrotnej awarii w semestrze?

Zadanie 8.4 Załóżmy, że interesuje nas wystąpienie poważnych defektów w szosie miesiąc po położeniu asfaltu. Będziemy zakładać, że prawdopodobieństwo poważnego defektu jest takie samo dla dowolnych dwóch odcinków szosy o równej długości oraz że wystąpienie (lub niewystąpienie) defektu na dowolnym odcinku jest niezależne od wystąpienia (lub niewystąpienia) defektu na dowolnym innym odcinku. Dowiadujemy się, że poważne defekty pojawiają się miesiąc po asfaltowaniu z częstotliwością 2 defekty/kilometr. Jakie jest prawdopodobieństwo, że na trzykilometrowym odcinku nie będzie żadnych defektów?

Zadanie 8.5 Klienci przychodzą do sklepu losowo, ale ze stałą intensywnością w ciągu całego dnia pracy (8:00-20:00). Przez 12 godzin pracy sklepu przychodzi zwykle około 240 klientów. Jakie jest prawdopodobieństwo, że w najbliższy wtorek roboczy pomiędzy 10:00 a 10:05 nikt nie przyjdzie?

Zadanie 8.6 Rzucamy 100 razy symetryczną monetą.

  1. Jakie jest prawdopodobieństwo uzyskania od 47 do 53 orłów?

  2. Jakie jest prawdopodobieństwo, że liczba orłów będzie mniejsza niż 40 lub większa niż 60?

Zadanie 8.7 Losujemy dziesięciokrotnie miejsce na planecie, która w 71% jest pokryta wodą.

  1. Jakie jest prawdopodobieństwo, że 7 razy trafimy na wodę?

  2. Jakie jest prawdopodobieństwo, że za każdym razem trafimy na wodę?

Zadanie 8.8 Pewna dama stwierdziła podczas popołudniowego spotkania z przyjaciółmi, że potrafi rozpoznawać z 90-procentową skutecznością, czy do filiżanki mleko nalano przed nalaniem herbaty, czy też po nalaniu herbaty. Uczestnicy spotkania postanowili przeprowadzić eksperyment: w ukryciu przed ową damą rzucali monetą i w zależności od wyniku nalewali najpierw mleko lub najpierw herbatę, a następnie podawali damie, której zadaniem było rozpoznać sposób przygotowania.

  1. Jeżeli rzeczywiście skuteczność wynosiła 90% w każdej próbie, jakie było prawdopodobieństwo, że dama w 20 próbach odgadnie prawidłowo sposób przygotowania przynajmniej 17 razy?

  2. Jakie jest prawdopodobieństwo przynajmniej 17 sukcesów w 20 próbach, jeżeli skuteczność była w pełni losowa (50%)?

Zadanie 8.9 W czasie II wojny światowej niemieckie lotnictwo bombardowało Londyn. Władze brytyjskie zbierały raporty dotyczące lokalizacji pojedynczych miejsc, w które trafiły bomby. W tym celu Londyn podzielono na 576 kwadratowych obszarów o polu 0,25 km2. Załóżmy, że bombardowanie było losowe (poszczególne trafienia nie były w żaden sposób od siebie zależne), nie było skoncentrowane na żadnym punkcie (prawdopodobieństwo wszędzie było takie samo), a intensywność bombardowania w całym okresie wynosiła 3,73 bomby na km2.

Jakie, przy powyższych założeniach, było prawdopodobieństwo, że w pewien określony kwadrat (o polu wynoszącym 1/4 km2) trafi więcej niż 5 bomb?

Jakie było prawdopodobieństwo, że w co najmniej jeden z 576 kwadratów trafi więcej niż 5 bomb?

Zadanie 8.10 W pewnym systemie komputerowym próby włamania zdarzają się dość często: od poniedziałku do piątku z częstotliwością średnią 3 razy na godzinę, w weekendy (w sobotę i niedzielę) ze średnią intensywnością 8 razy na godzinę.

  • Losujemy jedną godzinę w pewnym tygodniu. Jakie jest prawdopodobieństwo, że przez tę godzinę nie nastąpi próba włamania do systemu?

  • Pewnego losowego dnia pracownik zauważył, że przez pół godziny od momentu, gdy pojawił się w pracy, nie nastąpiła żadna próba włamania. Jakie jest prawdopodobieństwo, że jest weekend?

Zakładamy, że każda godzina i dzień ma takie samo prawdopodobieństwo wylosowania i że próby włamania są od siebie niezależne i wystąpienie próby włamania nie powoduje zmiany prawdopodobieństwa próby włamania w żadnym innym momencie lub okresie, intensywność zaś jest stała przez daną dobę.

Literatura

McClave, J. T., and T. T. Sincich. 2012. Statistics. Pearson Education. https://books.google.pl/books?id=gcYsAAAAQBAJ.