8 Zákon veľkých čísel

Zákon veľkých čisel je jedným z najdôležitejších výsledkov v pravdepodobnosti a štatistike. Hovorí o tom, že aritmetický priemer vypočítaný zo stále väčšieho a väčšíeho počtu nezávislých a rovnako rozdelených náhodných premenných sa blíži k skutočnej strednej hodnote.21 Zároveň je to aj výsledok, ktorý sme potichu používali len sme o tom nehovorili explicitne. Vždy, keď používame počítačovú simuláciu na ukázanie akýchsi vlastností náhodnej premennej, využívame fakt, že pri dostatočne veľkom množstve simulácií sú tieto odsimulované vlastnosti výpovedné o skutočných vlastnostiach.

Príklad 8.1 Majme mincu o ktorej nevieme, či je férová alebo nie. Chceli by sme vedieť aká je pravdepodobnosť toho, že padne hlava (\(X=1\)) alebo znak (\(X=0\)). Teda uvažujeme \(X \sim \text{Bern}(p)\). Hádžeme mincou, napríklad 8 krát a dostávame realizáciu siedmych náhodných premenných \(X_1, X_2, X_3, X_4, X_5, X_6, X_7, X_8.\) Hádžeme tak, že výsledok každého hodu nesúvisí s tým predošlým, takže \(\{X_i\}_{i=1}^8\) sú nezávislé. Každé \(X_i\) je hod mincou, takže \(X_i \sim \text{Bern}(p)\) Nevieme aké je \(p\) ale intuícia nám hovorí, že to bude blízke \(\sum_{i=1}^{8}X_i/8.\) Vskutku, \(Y = \sum_{i=1}^{8}X_i \sim \text{Bin}(8,p)\) a \(\text{E}[Y] = 8p\) preto \(\text{E}[Y/8] = p.\) Osem realizácií je dosť málo, čím viacej by sme ich mali, tým bližšie by bol aritmetický priemer skutočnému priemeru.

Zákon veľkých čisel upresňuje túto intuíciu.

V prvom rade treba zadefinovať, čo znamenená blízke alebo blížiť sa. Ešte predtým, čo znamená nezávislosť náhodných premenných pre viac ako dve náhodné premenné.

Hovoríme, že náhodné premenné \(X_1, X_2, \dots, X_n\)nezávislé ak platí,

\[P(X_1 \leq x_1, X_2 \leq x_2, \dots, X_n \leq x_n) = P(X_1 \leq x_1) \cdot P(X_2 \leq x_2) \cdots P(X_n \leq x_n)\]

pre všetky \(x_1, x_2, \dots, x_n \in \mathbb{R}.\)

Alternatívne by sme mohli zapísať \[p_{X_1 X_2 \cdots X_n}(x_1, x_2,\dots ,x_n) \equiv P(X_1=x_1, X_2=x_2, \cdots, X_n=x_n) = P(X_1=x_1) \cdot P(X_2=x_2) \cdots P(X_n=x_n),\] pre diskrétne rozdelené náhodné premenné a všetky \(x_i \in \mathcal{S}_{X_i}\) a

\[f_{X_1 X_2 \cdots X_n}(x_1, x_2,\dots ,x_n) = f_{X_1}(x_1) \cdot f_{X_2}(x_2) \cdots f_{X_n}(x_n),\]

pre spojité náhodné premenné a všetky \(x_1, x_2, \dots, x_n \in \mathbb{R},\) kde \(f_{X_1 X_2 \cdots X_n}(x_1, x_2,\dots ,x_n)\) označuje združenú mnohorozmernú funkciu hustoty. Platí pre ňu:

\[ P\left(X_1 \in [a_1,b_1],\cdots, X_n \in [a_n,b_n] \right) = \int_{a_1}^{b_1} \dots \int_{a_n}^{b_n} f_{X_1 X_2 \cdots X_n}(x_1, x_2,\dots ,x_n) dx_n \dots dx_1.\] Ide len o obyčajné zovšeobecnenie vzťahu z predošlej kapitoly pre viac ako dve premenné.

8.1 Konvergencia podľa pravdepodobnosti

Existujú rôzne spôsoby blíženia sa keď hovoríme o náhodných premenných. Jeden takýto koncept si teraz zadefinujeme. Majme postupnosť náhodných premenných \(\{X_i\}_{i=1}^{\infty} = X_1, X_2, X_3 \cdots\).

Hovoríme, že postupnosť náhodných premenných \(\{X_i\}_{i=1}^{\infty}\) konverguje podľa pravdepodobnosti k náhodnej premennej \(X\) ak platí:

\[\forall \epsilon > 0: \lim_{n \rightarrow \infty}P(|X_n - X| < \epsilon) = 1.\] Toto označujeme \(X_n \rightarrow_P X.\)

Pripomeňme si, čo je vlastne tento objekt \(P(|X_n - X| < \epsilon):\)

\[P(|X_n - X| < \epsilon) = P \left( \{\omega \in \Omega: |X_n(\omega) - X(\omega)|< \epsilon \} \right).\] To znamená, že pre akékoľvek malé \(\epsilon\) existuje nejaké dostatočne veľké \(n_0\) také, že pre všetky \(n \geq n_0\) bude pravdepodobnosť toho, že \(X_n\) bude \(\epsilon\)-blízko \(X\) ľubovoľne blízka nule.22 Pri fixnom \(\epsilon\) sa pozeráme na čísla \(a_n \equiv P(|X_n - X| < \epsilon)\) len ako na nejakú postupnosť \(a_n\), ktorá sa mení s \(n\).

Špeciálnym prípadom je, ak je limitná náhodná premenná \(X\) rovná nejakej konštante, teda ak \(X_n \rightarrow_P c.\)

8.2 Markovova nerovnosť

Veta 8.1 Majme nezápornú náhodnú premennú \(X\) a číslo \(c \in \mathbb{R}.\) Potom platí

\[P(X \geq c) \leq \frac{\text{E}[X]}{c}.\]

Dôkaz. Skonštruujme náhodnú premennú \(Y\) nasledovne:

\[\begin{equation*} Y = \begin{cases} 0, & \text{ak}\ X < c,\\ c, & \text{ak}\ X \geq c. \end{cases} \end{equation*}\]

Z konštrukcie vyplýva, že \(Y \leq X\) preto platí \(\text{E}[Y] \leq \text{E}[X].\) Preto platí \[\text{E}[Y] = c \cdot P(X \geq c) + 0 \cdot P(X < c),\] a preusporiadaním dostaneme želanú nerovnosť.

Markovova nerovnosť je tesná, to znamená, že už ju nemôžeme vylepšiť. Ona totiž platí pre všetky nezáporné náhodné premenné, takže aj pre \(Y\) z dôkazu pre ktoré nastáva priamo rovnosť. Ak by sme chceli vylepšiť MN a nájsť menšiu hornú medzu ako \(\frac{\text{E}[X]}{c}\) pre všetky možné nezáporné náhodné premenné, došli by sme k sporu, lebo pre \(Y\) z dôkazu by neplatila.

8.3 Čebyševova nerovnosť

Veta 8.2 Majme náhodnú premennú so strednou hodnotou \(\mu\) a varianciou \(\sigma^2.\) Potom pre akékoľvek číslo \(k \in \mathbb{R}\) platí:

\[P(|X-\mu|\geq k \sigma) \leq \frac{1}{k^2}.\]

Alternatívnou formuláciou, ak zvolíme \(k=\frac{c}{\sigma}\) je

\[P(|X-\mu|\geq c) \leq \frac{\sigma^2}{c^2}.\]

Dôkaz. Označme \(Y = (X-\mu)^2,\) ktorá je nezárorná náhodná premenná a zároveň platí \(\text{E}[Y] = \sigma^2.\) Naviac platí \[P(|X-\mu|\geq k \sigma) = P((X-\mu)^2\geq k^2 \sigma^2) \leq \frac{\sigma^2}{k^2 \sigma^2} = \frac{1}{k^2},\] kde nerovnosť vyplýva z Markovovej nerovnosti.

Nezávisle od typu rozdelenia:

  • pravdepodobnosť, že sme viac ako 2 smerodajné odchýlky vzdialený od priemeru je menšia ako 1/4,
  • pravdepodobnosť, že sme viac ako 3 smerodajné odchýlky vzdialený od priemeru je menšia ako 1/9,
  • pravdepodobnosť, že sme viac ako 4 smerodajné odchýlky vzdialený od priemeru je menšia ako 1/16,
  • pravdepodobnosť, že sme viac ako 5 smerodajné odchýlky vzdialený od priemeru je menšia ako 1/25.

Toto je ale len horná medza. V skutočnosti môže byť táto pravdepodobnosť oveľa menšia. Prečo je tomu tak? No táto nerovnosť je len tak dobrá ako je dobrá Markovovská nerovnosť v dôkaze Čebyševovej nerovnosti.

8.4 Slabý Zákon Veľkých čísel

Veta 8.3 Majme postupnosť nezávislých náhodných premenných s rovnakou strednou hodnotou \(\mu\) a konečnou varianciou \(\sigma^2.\) Potom platí \[\bar X_n \equiv \frac{\sum_{i=1}^{n}X_i}{n} \rightarrow_P \mu.\]

Dôkaz. Nakoľko \(X_1,X_2,X_3,\cdots\) sú nezávislé platí \[\text{Var}\left[\sum_{i=1}^{n}X_i\right] = \sum_{i=1}^{n}\text{Var}[X_i] = n\sigma^2,\] preto \[\text{Var}\left[\sum_{i=1}^{n}X_i/n\right] = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}.\]

Použitím Čebyševovej rovnice dostávame

\[ P(|\bar X_n-\mu|\geq \epsilon ) \leq \frac{\epsilon\sigma^2}{n},\] a preto \(\lim_{n \rightarrow \infty }P(|\bar X_n-\mu|\geq \epsilon ) \rightarrow 0\), teda \(\lim_{n \rightarrow \infty }P(|\bar X_n-\mu| < \epsilon ) \rightarrow 1,\) čo sme chceli ukázať.

Tu je ilustrácia kde sa aritmetický priemer pre výrazne iné typy náhodných premenných blíži ku svojej skutočnej hodnote. Ak však vyskúšame Cauchyho rozdelenie, ktoré nemá strednú hodnotu, dostaneme nasledujúci obrázok.

Zákon veľkých čísel o tomto prípade nehovorí nič.

Príklad 8.2 Nech \(A\) je nejaká udalosť a nech \[\begin{equation*} 1_A(\omega) = \begin{cases} 1, & \text{ak}\ \omega \in A, \\ 0, & \text{inak}, \end{cases} \end{equation*}\] je identifikátorová funkcia udalosti \(A.\)

Potom platí \(\text{E}[1_A] = 1\cdot P(A) + 0\cdot P(A^C) = P(A).\)

Preto ak odsimulujeme na počítači 10000 simulácií a v nich \(A\) nastala 13 krát, odhadujeme, že \(P(A)\) je rovné \(0.0013.\) Tento odhad sa bude blížiť ku skutočnej hodnote pre stále väčšie množstvo simulácií. Je to kvôli ZVČ, lebo \(\bar{X}_n = \frac{0+ 0+ 1+ \cdots + 0}{10000} = 0.0013,\) kde \(X_i\) majú rovnaké pravdepodobnostné rozdelenie ako \(1_A\) a sú nezávislé.

Príklad 8.3 Chceli by sme simulačne vypočítať číslo \(\pi.\) Obsah štvrťkruhu so stredom v \([0,0]\) vo štvorci \([0,1] \times [0,1]\) je rovný \(\pi/4.\) Vygenerujeme mnoho čísel z \([0,1] \times [0,1]\) a pozrieme sa na proporciu tých, ktoré skončia vo štvrťkruhu. Nech \(X_i=1\) vtedy ak dané číslo patrí štvrťrkruhu. Potom

\[P \left(\left| \frac{X_1 + X_2 + \cdots X_n}{n} - \frac{\pi}{4}\right|\geq \epsilon \right) \leq \frac{Var(X_i)}{n \epsilon^2} = \frac{\frac{\pi}{4}(1-\frac{\pi}{4})}{n \epsilon^2}.\]

Nevieme však koľko je \(\frac{\pi}{4}(1-\frac{\pi}{4})\) (toto číslo chceme aproximovať) ale funkcia \(p(1-p)\) nadobúda svoje maximum v \(1/4.\) Preto

\[P \left(\left| \frac{X_1 + X_2 + \cdots X_n}{n} - \frac{\pi}{4}\right|\geq \epsilon \right) \leq \frac{1}{4 n \epsilon^2}.\]

Ak napríklad chceme dostať simulačný odhad na 3 desatinné miesta, teda s presnosťou \(1/1000,\) musíme zvoliť \(\epsilon = 1/4000.\) Ak si chceme byť istý, že náš odhad bude v tomto rozmedzí s pravdepodobnosťou \(1\%,\) potrebujeme aby \[\frac{4000^2}{4 n} = \frac{4,000,000}{n} \leq 0.01 \implies n \geq 400,000,000.\] Takže potrebujeme aspoň 400 miliónov simulácií.

8.5 Čo zákon o veľkých číslach nehovorí

Hádžeme férovou mincou. Za posledných 20 hodov nám nepadla ani raz hlava. Ale vieme, že platí ZVČ, preto by teraz malo padať viacej hláv, nie?

Veru nie. ZVČ hovorí o limitnom prípade (a nekonečno je o dosť viacej ako 20). Skutočnosť, že sa nám teraz nedarilo hádzať hlavy (alebo hádzať 6ku v doskovej hre) nijakovsky nesúví s tým, čo sa bude diať neskôr. Tie hody sú stále nezávislé a šanca uvidieť hlavu je rovnako veľká ako na začiatku hádzania.

8.6 Cvičenia

Cvičenie 8.1 Vymyslite takú trojicu náhodných premenných \(X_1, X_2, X_3\) aby

  • \(X_1, X_2\) boli nezávislé,
  • \(X_2, X_3\) boli nezávislé,
  • \(X_1, X_3\) boli nezávislé,
  • \(X_1, X_2, X_3\) neboli nezávislé.

Cvičenie 8.2 Porovnajte Markovovskú nerovnosť pre \(P(X \geq 4)\) so skutočnou hodnotou, ak \(X\sim \text{Exp}(1/2).\) Kedy je Markovovská nerovnosť neinformatívna?

Cvičenie 8.3 Majme náhodnú premennú pre ktorú platí \(P(X\geq 0) = 1\) a \(P(X \geq 10) = 1/5.\) Ukážte, že \(\text{E}[X] \geq 2.\)

Cvičenie 8.4 Majme náhodnú premennú pre ktorú platí \(\text{E}[X] = 10, P(X \leq 7) =0.2, P(X \geq 13)= 0.3.\) Dokážte, že \(\text{Var}[X] \geq 9/2.\)

Cvičenie 8.5 Akú veľkú musíme zvoliť vzorku nezávislých náhodných premenných (s konečnou strednou hodnotou a varianciou) aby bola pravdepodobnosť, že sa bude aritmetický priemer nachádzať bližšie ako dve smerodajné odchýlky od strednej hodnoty, aspoň \(99\%\)?

Cvičenie 8.6 Majme postupnosť \(X_1, X_2,\dots\) náhodných premenných so strednou hodnotou \(3.5\) a varianciou \(35/12\). Akú veľkú musíme nastaviť hodnotu \(n\), aby sme si boli istý, že \[P(3 < \bar{X}_n < 4) \geq 0.8.\]

Cvičenie 8.7 Majme postupnosť \(X_1, X_2,\dots\) náhodných premenných nezávislých hodov férovou kockou. Koľkokrát musíme hodiť hockou aby sme si boli istý, že \[P(3 < \bar{X}_n < 4) \geq 0.8.\] Porovnajte s predošlým výsledkom.

Cvičenie 8.8 Majme postupnosť \(X_1, X_2,\dots\) náhodných premenných, pre ktoré platí \(P(X_n = n^2) = 1/n\) a \(P(X_n=0)=1-1/n.\) Ukážte, že \(X_n \rightarrow_P 0\) a zároveň \(\lim_{n \rightarrow \infty} \text{E}[X] = \infty.\)

Domáca úloha 9

Cvičenie 8.9 (DÚ 9.1) Porovnajte Čebyševovu nerovnosť pre \(P(|X| \geq 2)\) s jej skutočnou hodnotou, ak \(X \sim N(0,1).\) V ktorých prípadoch je Čebyševova nerovnosť neinformatívna?

Cvičenie 8.10 (DÚ 9.2) Odvoďte variant Markovovskej nerovnosti pre náhodnú premennú \(X\) pre ktorú platí \(X > a,\) kde \(a>0.\) Ukážte, že táto nerovnosť je tesná.

Cvičenie 8.11 (DÚ 9.3) V prieskume sme sa opýtali 1500 ľuďí, či majú radšej zelené žuvačky alebo modré. Ak by bolo práve 27% ľudí, ktorí majú radi zelené žuvačky, o koľko najviac percent sa takýto prieskum môže vzďaľovať od 27% aby bola pravdepodobnosť toho, že bude prieskum dosť presný aspoň 90%?

Cvičenie 8.12 (DÚ 9.4) V tomto fascinujúcom livestreame (https://www.youtube.com/watch?v=rjYT3WUWq0s) sa hádzalo kockou 1024 krát (nemusíte ho pozerať úplne celý).

Číslo 5 padlo len 157krát. Ak bola kocka férová aká je pravdepodobnosť, že by padlo 157 krát alebo menej? Na základe Čebyševovej nerovnosti zostavte hornú hranicu pre pravdepodobnosť udalosti, že by pomer padnutí čísla 5 bol ešte vzdialenejší od \(\frac{1}{6}\) ako je \(\frac{157}{1024}\). Porovnajte túto hornú hranicu so skutočnou pravdepodobnosťou (uvažujte nezávislé hody a fixnú pravdepodobnosť \(\frac{1}{6}\)).

Aké čísla padli v posledných dvoch hodoch? Ako to súvisí so zákonom veľkých čísel?