10 Opakovanie

Prebrali sme tieto témy:

  • Interpretácia pravdepodobnosti,
  • Pravdepodobnostný priestor a jeho vlastnosti,
  • Podmienená pravdepodobnosť a Bayesova veta,
  • Náhodná premenná,
  • Diskrétne náhodné premenné,
  • Spojité náhodné premenné,
  • Súvis náhodných premenných,
  • Zákon veľkých čísel,
  • Centrálna limitná veta.

Zaviedli sme si nasledovné pojmy, ktorých definíciu musíme poznať. Nové pojmy boli vždy označované hrubým písmom:

  • Pravdepodobnostný priestor - množina potenciálnych dopadnutí experimentu \(\Omega\), množina udalostí \(\mathcal{F}\), pravdepodobnosť \(P\),
  • Rozklad množiny,
  • Nezávislosť udalostí,
  • Podmienená pravdepodobnosť,
  • Náhodná premenná,
  • Kumulatívna distribučná funkcia,
  • Pravdepodobnostná funkcia,
  • Funkcia hustoty pravdepodobnosti,
  • Stredná hodnota,
  • Variancia,
  • Smerodajná odchýlka,
  • Medián,
  • Združená kumulatívna distribučná funkcia,
  • Združená pravdepodobnostná funkcia,
  • Združená funkcia hustoty pravdepodobnosti,
  • Nezávislosť náhodných premenných,
  • Kovariancia,
  • Korelácia,
  • Konvergencia podľa pravdepodobnosti,
  • Konvergencia podľa distribúcie.

Taktiež musíme poznať vlastnosti týchto objektov a aké sú medzi nimi vzťahy. Je dôležité poznať tieto vzťahy:

  • Náhodná premenná a pravdepodobnostný priestor,
  • Kumulatívna distribučná funkcia a pravdepdodobnosť,
  • Kumulatívna distribučná funkcia a pravdepodobnostná funkcia,
  • Kumulatívna distribučná funkcia a funkcia hustoty,
  • Stredná hodnota, variancia a pravdepodobnosntná funkcia,
  • Stredná hodnota, variancia a funkcia hustoty,
  • Stredná hodnota a kovariancia.

Hovorili sme tiež o týchto vetách/tvrdeniach:

  • Bayesova veta,
  • Linearita strednej hodnoty: \(\text{E}[aX+bY] = a\text{E}[X] + b\text{E}[Y]\),
  • Vzťah pre varianciu: \(\text{Var}[X] = \text{E}[X^2] + (\text{E}[X])^2\),
  • Variancia lineárnej transformácie: \(\text{Var}[aX+b] = a^2\text{Var}[X]\),
  • Z nezávislosti náhodných premenných vyplýva, že sú nekorelované,
  • Markovova nerovnosť,
  • Čebyševova nerovnosť,
  • Zákon veľkých čísel,
  • Z konvergencie podľa pravdepodobnosti vyplýva konvergencia podľa distribúcie,
  • Centrálna limitná veta.

Dosť času sme strávili aj spoznávaním rôznych pravdepodobnostných distribúcií, či už diskrétne alebo spojite rozdelených:

  • Diskrétne: Rovnomerné, Bernoulliho, Binomické, Poissonovo, Geometrické, Hypergeometrické a Negatívne binomické,
  • Spojité: Rovnomerné, Normálne, Exponenciálne, Chí-kvadrát a Studentovo.

Ambíciou tohoto kurzu je zjednodušiť prechody medzi rôznymi spôsobmi popisu typu náhodnosti. Ak máme kompletnú informáciu o pravdepodobnostnom správaní, napríklad formou kumulatívnej distribučnej funkcie, musíme byť schopný odvodiť všetko ostatné. Napríklad funkciu hustoty alebo jej charakteristiky ako napríklad strednú hodnotu, varianciu, smerodajnú odchýlku alebo medián. Familiarita a plynulosť prechodu je to o čo sme sa snažili. Znalosť tohoto jazyka je nutnou podmienkou úspešného pokračovania v štúdiu pravdepodobnosti a štatistiky ako aj praktickej dátovej analýzy.

Cvičné otázky

  • Zadefinujte pravdepodobnostný priestor a náhodnú premennú, ktoré budú zodpovedať súčtu dvoch nezávisle hodených kociek.
  • Aká je stredná hodnota náhodnej premennej ktorá nadobúda hodnoty \(1,2,3,4,5\) s pravdepodobnosťami \(\frac{c}{1}, \frac{c}{2},\frac{c}{3},\frac{c}{4},\frac{c}{5},\) kde \(c\) je konštanta.
  • Načrtnite kumulatívnu distribučnú funkciu náhodnej premennej, ktorá označuje počet bodiek, ktorý padne na férovej kocke.
  • Vymyslite pravdepodobnostný priestor a dve funkcie \(\mathcal{F} \rightarrow \mathbb{R},\) také, že jedna z nich bude náhodná premenná ale druhá nebude.
  • Majme diagnostický test so špecificitou 90% a senzitivitou 99%. Vypočítajte pravdepodobnosť choroby v prípade, že test je pozitívny.
  • Majme dve náhodné premenné \(X\) a \(Y\) také, že \(P(X=0,Y=0)=0.06\), \(P(X=1,Y=0)=0.24\), \(P(X=0,Y=1)=0.14\), \(P(X=0,Y=)=0.56.\) Vypočítajte \(\text{Cov}[X,Y].\) Sú tieto náhodné premenné nezávislé?
  • Uvažujme náhodnú premennú \(Y\) o ktorej vieme, že \[\begin{eqnarray*} p_Y(1) &=& 0.2,\\ p_Y(2) &=& 0.3,\\ p_Y(3) &=& 0.5.\\ \end{eqnarray*}\] Vypočítajte \(\text{E}[Y], \text{Var}[Y], \text{sd}[Y].\)
  • Majme náhodnú premennú s nasledovnou funkciu hustoty pravdepodobnosti: \[\begin{equation*} f_X(x)= \begin{cases} c(x - \frac{x^3}{4}), & \text{ak}\ x \in (0,2), \\ 0, & \text{inak}. \end{cases} \end{equation*}\] Vypočítajte hodnotu konštanty \(c.\) Nájdite a načrtnite jej kumulatívnu distribučnú funkciu. Vypočítajte jej strednú hodnotu, varianciu, medián a \(P(|X-1| \leq 0.5)\)
  • Majme náhodné premenné \(X,Y\) s nasledovnou združenou funkciou hustoty \[\begin{equation*} f_{XY}(x,y)= \begin{cases} cy^3, & \text{ak}\ x \in [0,3], \ y \in [0,1],\\ 0, & \text{inak}. \end{cases} \end{equation*}\] Vypočítajte hodnotu konštanty \(c,\) \(P(X+Y > 2),\) \(P(X > Y),\) \(P(X = 3Y),\) \(\text{E}[Y],\) \(\text{Cov}[X,Y].\)
  • Aké je pravdepodobnostné rozdelenie počtu uhádnutých otázok na ABC teste z celkového počtu 10 otázok, ak vieme, že z prvých troch otázok otázok bola správne zodpovedaná práve jedna otázka?
  • Nech je pravdepodobnosť nárazu asteroidu na zem \(1/10000\) za rok. Aká je pravdepodobnosť, že za 200 rokov narazí asteroid práve jedenkrát?
  • Ktorým pravdepodobnostným rozdelením by ste modelovali: počet dopravných nehôd? dobu kým nastavne ďalšia dopravná nehoda? počet neúspešných žiadostí o grant, kým sa Vám to nepodarí? výšku afrických slonov? chybu merania? priemer z veľkého množstva nezávislých náhodných premenných?
  • Napíšte názov pravdepodobnostného rozdelenie, pre ktoré nemôžeme použiť Zákon veľkých čísel.
  • Skonštruujte dve nekorelované náhodné premenné, ktoré nie sú nezávislé.
  • Majme postupnosť \(X_1, X_2,\dots\) náhodných premenných so strednou hodnotou \(3\) a varianciou \(1\). Akú veľkú musíme nastaviť hodnotu \(n\), aby sme si boli istý, že \[P(3 < \bar{X}_n < 4) \geq 0.8.\] Porovnajte výsledky založené na základe Čebyševovej nerovnosti a Centrálnej limitnej vety.
  • Zo skúseností vieme, že na matematický ples sa lístky veľmi rýchlo vypredajú: každý človek v rade si kúpi v priemere 2.3 lístkov zo smerodajnou odchýlkou 2. Máme 250 voľných miest a v rade čaká 100 ľudí. Aproximujte pravdepodobosť, že sa každému ujde toľko lístkov, koľko chce. Explicitne pomenujte zjednodušujúce predpoklady, ktoré urobíte.
  • Majme 100 mužov na palube lietadla, hmotnosť každého z nich má strednú hodnotu 80 a smerodajnú odchýlku 10. Pomocou CLV aproximujte pravdepodobnosť, že ich celková hmotnosť nepresiahne 9000kg.

  1. Pozor predpoveď 71.4% neznamená, že Clinton mala získať v priemere 71.4% hlasov. Ide o úplne iné čísla.↩︎

  2. New York Times oslovil prominentných odhadovačov, dal im tie isté surové dáta z prieskumu v štáte Florida a požiadal ich o predikciu. Tieto predikcie boli výrazné iné. https://www.nytimes.com/interactive/2016/09/20/upshot/the-error-the-polling-world-rarely-talks-about.html↩︎

  3. Toto je samozrejme prudké zjednodušenie. Každá volebná predikcia zahŕňala nielen celkový výsledok ale aj výsledky v jednotlivých štátoch. Takže vyhodnotiť úspešnosť predikcie nie je úplne nemožné. Ale nedá sa to urobiť len pomocou jednej vyšlo/nevyšlo otázky.↩︎

  4. Viacej si prečítajte tu: Stark, P. B., et al. “What is the chance of an earthquake.” NATO Science Series IV: Earth and Environmental Sciences 32 (2003): 201-213.↩︎

  5. Z formálneho hľadiska \(\mathcal{F}\) musí byť \(\sigma-\)algebra podmnožín \(\Omega\). To znamená, že priraďovanie pravdepodobnosti musí byť vnútorne konzistentné. Technicky musia byť splnené tieto tri podmienky:
    1. Ak \(A \in \mathcal{F}\), teda ak viem priradiť udalosti \(A\) nejakú pravdepodobnosť, tak budem musieť vedieť priradiť pravdepodobosť aj udalosti \(A^C,\) teda, že \(A\) nenastala.
    2. Ak \(A_1,A_2, A_3, \dots \in \mathcal{F}\), potom aj \(\cup_{i=1}^{\infty} A_i \in \mathcal{F}\). Vysvetlíme si to na príklade dvoch množín: ak \(A,B \in \mathcal{F}\), potom aj \(A \cup B \in \mathcal{F}\), teda ak viem priradiť pravdepodobnosť udalostiam \(A\) a \(B\), potom musím vedieť priradiť pravdepodobnosť aj udalosti \(A \cup B\), teda že nastala udalosť \(A\) alebo udalosť \(B\).
    3. \(\Omega \in \mathcal{F},\) teda viem priradiť pravdepodobnosť udalosti, že niečo nastalo.

    V rámci tohoto kurzu sa nebudeme podrobne venovať \(\mathcal{F}\). Budeme predpokladať, že ide o korektnú \(\sigma-\)algebru. Do väčsích podrobností sa zahĺbite v rámci kurzov Teória miery a integrálu a Teória pravdepodobnosti.↩︎

  6. V matematike je dobrým zvykom pracovať s objektami o ktorých existencii niet pochýb.↩︎

  7. Najmä pri komplikovanejších prípadoch toto nie je vždy priamočiare. Pre potreby nášho kurzu to však bude postačujúce. Ak napríklad budeme uvažovať o pravdepodobnostnom priestore, ktorý zodpovedá tomu, že rovnomerne náhodne vyberieme nejaké číslo z intervalu \([0,1],\) nebudeme môcť uvažovať \(\mathcal{F} = 2^{[0,1]}.\) Takáto voľba \(\mathcal{F}\) by spôsobila, že nemôže existovať žiadna funkcia \(P\), ktorá by spĺňala všetky 3 vlastnosti funkcie pravdepodobnosti a zároveň by každému intervalu priradila jeho dĺžku, akoby sme intuitívne očakávali. Konštrukcia vhodnej \(\mathcal{F}\) je v tomto prípade veľmi prácna (8 krokový dôkaz) a výsledný pravdepodobnostný priestor sa nazýva Lebesgueova miera na \([0,1]\).↩︎

  8. Neskôr, ale v inom kurze sa dozvieme, že sa dá podmieňovať aj udalosťami, ktorých pravdepodobnosť je priamo nula. Toto je zaujímavé uvažovať vo finančných aplikáciách. Kým pravdepodobnosť, že v nejakom konkrétnom okamihu bude cena ropy presne 100$ za barel je nula, neznamená to, že je neužitočné uvažovať o tom, aká by bola pravdepodobnosť nejakej inej udalosti, ak by cena ropy naozaj bola práve 100$ za barel. A presne na to nám bude treba poznať trochu viacej štruktúry ako sa učíme teraz.↩︎

  9. Update 18.2.2022: Bronz nie je až taký márny.↩︎

  10. Akonáhle máme udalosti poriadne označené, polovicu riešenia máme za sebou. Tento prechod od písaného textu do matematického zápisu je kľúčový ale našťastie sa dá do veľkej miery natrénovať.↩︎

  11. Tieto čísla sú veľmi blízke tým zo skríningového testovania na školách na COVID19 v ČR v januári 2022.↩︎

  12. Skríningové testovanie sa odporúča aj pri niektorých typoch rakoviny, kde je skoré zachytenie dôležité pre dobrú prognózu. Vždy však treba brať do úvahy náklady spojené s množstvom falošne pozitívnych prípadov alebo s množstvom prípadov, kde pacient podstúpil náročnú liečbu napriek tomu, že by sa rakovina nemusela počas celého života pretaviť do problémov.↩︎

  13. Tento pravdepodobnostný priestor sa nazýva Lebesgueova miera na \([0,1]\) a v tomto prípade platí \(\mathcal{F} \neq 2^{\Omega}.\)↩︎

  14. Neskôr sa tiež dozvieme, že množina podmnožín \(\Omega\), teda \(\mathcal{F},\) môže byť pri podmieňovaní vo všeobecnosti menšia ako celá množina všetkých podmnožín \(2^{\Omega}.\)↩︎

  15. Pri diskrétnej množine \(\Omega\) nám stačilo uvažovať \(\mathcal{F} = 2^{\Omega}.\) Nemali sme problém. Pri spojitej množine \(\Omega\) toto nejde. Vo všeobecnosti platí, že čim väčšia je \(\mathcal{F}\), tým podrobnejšia môže byť náhodná premenná \(X.\) Viacej sa týmto budeme zaoberať na pokročilejšom kurze.↩︎

  16. Na dôkaz je potrebná veta o spojitosti pravdepodobnosti, ktorá hovorí, že pre postupnosť udalosti, pre ktorú platí \(A_n \subset A_{n+1}\) máme, že \[\lim_{n \rightarrow \infty} P(A_n) = P\left( \cup_{n=1}^{\infty} A_n \right).\]↩︎

  17. Túto podmienku potrebujeme na to, aby bola táto suma konvergentná. V prípade, že \(\mathcal{S}_X\) je konečná množina je táto podmienka splnená vždy. Pri nekonečnej spočitaťelnej množine \(\mathcal{S}_X\) však čiastočné súčty radu môžu divergovať.↩︎

  18. Všimnime si, že teraz budeme používať \(k\) namiesto \(x\), teda \(p_X(k)\) namiesto \(p_X(x)\). Zvykom je, že písmená ako \(k,l,m,n\) sa používajú na označenie prirodzených čísel, zatiaľčo \(x,y,z\) sú používané skôr na označenie reálnych čísel.↩︎

  19. Náhodný proces, ktorý modeluje takéto udalosti sa nazýva Poissonov proces a je dôležitým matematickým nástrojom v poisťovníctve. Budeme sa o ňom dopodrobna učiť neskôr.↩︎

  20. Binomické rozdelenie pri veľkom počte pokusov má aj tú nevýhodu, že sa ťažšie vyčísluje numericky. Pre \(X \sim \text{Bin}(1000,0.001)\) vypočítať napríklad \(p_X(20)= {1000 \choose 20} 0.001^{20} 0.999^{980}\) nie je jednoduché, lebo spolu násobíme obrovské aj maličké čísla.↩︎

  21. Ak táto existuje.↩︎

  22. Tých idenfikátorov je naozaj veľa. Plný zápis je nasledovný: \[\forall \epsilon >0: \forall \epsilon_1 >0: \exists n_0 \in \mathbb{N}: \forall n \geq n_0: |P \left( \{\omega \in \Omega: |X_n(\omega) - X(\omega)|< \epsilon \} \right) - 0| \leq \epsilon_1.\] Všimnite si, že rola týchto dvoch malých \(\epsilon\) a \(\epsilon_1\) je rôzna. Kým \(\epsilon\) kontroluje ako blízko je \(X_n\) of \(X\), \(\epsilon_1\) kontroluje ako blízko je hodnota \(P(|X_n - X| < \epsilon)\) od nuly.↩︎