Statystyka: wnioskowanie (absolutne minimum)

Absolutne podstawy rachunku prawdopodobieństwa

Doświadczenie losowe to doświadczenie (procedura), w którym możliwy jest więcej niż jeden wynik. Doświadczenie, w którym jest tylko jeden wynik nazywamy deterministycznym.

Możliwe wyniki doświadczenia losowego nazywa się zdarzeniami elementarnymi (ZE); wszystkie zdarzenia elementarne tworzą przestrzeń zdarzeń elementarnych (PZE).

ZE może zajść lub nie; jedno zajdzie na pewno; jeżeli jedno zajdzie, to pozostałe nie zajdą. Przykład: rzut kością. PZE może być skończona lub nieskończona a nawet nieprzeliczalna.

Prawdopodobieństwo \(P(E)\) to liczba rzeczywista o następujących własnościach:

\(0 \leq P(E) \leq 1\);
\(P(\Omega) = 1\) oraz \(P(\emptyset) = 0\) gdzie \(\Omega\) oznacza zdarzenie pewne a \(\emptyset\) zdarzenie niemożliwe;
Jeżeli zdarzenia \(E_1, E_2, E_3\) wzajemnie wykluczają się, to \(P(E_1 + E_2 + E_3 + ...) = P(E_1) + P(E_2) + P(E_3) + ...\)

Zmienna losowa: funkcja przypisująca zdarzeniom elementarnym liczby (bo tak jest wygodniej z matematycznego powiedzmy punktu widzenia): \(X(E) = R\) (\(E\) oznacza zbiór ZE a \(R\) zbiór liczb rzeczywistych; dla przypomnienia: \(E\) jest dziedziną, a \(R\) przeciwdziedziną funkcji.)

Jeżli przeciwdziedzina jest zbiorem przeliczalnym (lub skończonym) to zmienną nazywamy skokową; jeżeli przeciwdziedzina jest zbiorem nieprzeliczalnym to zmienną nazywamy ciągłą. Uproszczając jeżeli \(R\) jest zbiorem/podzbiorem liczb całkowitych to zmienna jest skokowa; jeżeli całkowitych, to zmienna jest ciągła.

Zmienne losowe są oznaczane dużymi literami, np. \(X\), \(Y\), \(Z\). Wartości przybierane przez zmienne (zwane realizacjami) są oznaczane małymi literami \((x, y, z)\)

Funkcję przyporządkowującą prawdopodobieństwa realizacjom zmiennej losowej nazywamy funkcją rozkładu prawdopodobieństwa \(P(X=x) = p\)

Dystrybuantą zmiennej losowej \(X\) nazywamy funkcję: \(F(x) = P(X<x)\)

Wartością oczekiwaną zmiennej losowej \(X\) nazywamy: \(E(X) = \sum_i x_i p_i\)

Wariancją zmiennej losowej \(X\) nazywamy \(D^2(X) = \sum (x-E(X))^2 p_i = E(X - E(X))^2\)

Dla zmiennej losowej ciągłej nie jest możliwe przypisanie wszystkim wartościom zmiennej dodatnich prawdopodobieństw sumujących się do 1 (z uwagi na nieprzeliczalność zbioru \(R\)). Można natomiast określić prawdopodobieństwo dla każdego przedziału \(x +\Delta x\)

Jeżeli istnieje granica \(f(x) = \lim_\limits{\Delta x \to 0} = \frac{P(x < X < x + \Delta x) }{\Delta x }\), to granicę tę nazywamy funkcją gęstości prawdopodobieństwa zmiennej losowej X

Dystrybuantą zmiennej losowej o gęstości \(f(x)\) nazywamy funkcję postaci: \(F(x) = P(X <x) = \int_\limits{-\infty}^x f(x)dx\)

Geometryczna interpretacja funkcji gęstości i dystrybuanty

Wartością oczekiwaną zmiennej losowej nazywamy liczbę \(E(X) = \int_\limits{-\infty}^{+\infty} x f(x) dx\)

Wariancję definiujemy podobnie:-)

Rozkład normalny zwykle oznaczany jako \(N(\mu, \sigma)\), to rozkład o funkcji gęstości danej wzorem: \(f(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp \big( -\frac{1}{2} (\frac{x -\mu }{\sigma^2})^2 \big)\)

Parametr \(\mu\) jest wartością oczekiwaną a \(\sigma^2\) jest wariancją.
W przedziale \(\mu \pm \sigma\) znajduje się 68% wartości; przedziale \(\mu \pm 2 \sigma\) znajduje się 95%; przedziale \(\mu \pm 3 \sigma\) znajduje się 99,7% (praktycznie wszystkie)

Jeżeli zmienna \(X\) ma rozkład \(N(\mu, \sigma)\) to \(Z = \frac{X - \mu}{\sigma}\) ma rozkład \(N(0,1)\) (nazywany standaryzowanym.) BTW wartości standaryzowane (nie tylko dla rozkładu normalnego), czasami określane w j. agielskim jako z-score, to wartości przekształcone w ten sposób, że odjęto od nich średnią, a wynik odejmowania podzielono przez odchylenie standardowe.

Prostą próbą losową o liczebności \(n\) z rozkładu \(X\) nazywamy ciąg niezależnych zmiennych losowych \(X_1, X_2, ... X_n\) takich że każda ma ten sam rozkład \(X\).

Przykład: losowanie ze zwracaniem (zmienne niezależne); losowanie bez zwracania (zmienne zależne)

Konkretny ciąg wartości \(x_1, x_2, ..., x_n\) nazywamy realizacją próby losowej

Statystyka z próby \(S_n\), to funkcja określona na próbie \(X_1, X_2, ... X_n\), tj. \(S_n = f(X_1, X_2, ... X_n)\)

Uwaga: statystyka z próby to zmienna losowa; w szczególności zatem ma swój rozkład

Przykład: średnią z próby \(n\)-elementowej (zwykle oznaczoną jako \(\bar X\)) nazywamy statystykę: \(\bar X = \frac{1}{n}\sum_\limits{i=1}^n X_i\)

Centralne twierdzenie graniczne: Niech \(X_1, X_2, ..., X_n\) będzie \(n\)-elementową prostą próbą losową z rozkładu \(X\) o wartości oczekiwanej \(\mu\) oraz wariancji \(\sigma^2\). Wówczas dla dużych wartości \(n\) zachodzi \(\bar X \to N(\mu, \frac{\sigma}{\sqrt{n}})\) (duże w praktyce oznacza \(n\geq 25\))

Wnioskowanie statystyczne

Wnioskowanie statystyczne (statistical inference) uogólnianie wyników otrzymanych z próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia. Metody wnioskowania:

estymacja (zwykle wybranych paramatrów rozkładu);
weryfikowanie hipotez (także zwykle odnośnie wybranych parametrów rozkładu)

Estymacja statystyczna (estimation)

Estymator parametru \(Q\), to statystyka \(Z_n\) z próby, której rozkład zależy od \(Q\). Przykładowo średnia z próby jest estymatorem średniej z populacji.

Pożądane właściwości estymatora: nieobciążoność (\(E(Z) = Q\)), zgodność (jeżeli \(n \to \infty\) to \(Z \to Q\), efektywność (\(D^2(Z)\)).

Estymacja punktowa

Punktową oceną parametru jest wartość estymatora (tego parametru) obliczona na na podstawie realizacji próby.

Estymacja przedziałowa

Przedział losowy (tj. przedział wyznaczony przez dwie zmienne losowe), który z zadanym prawdopodobienstwem (zwanym poziomem ufności), zawiera nieznany parametr populacji nazywany jest przedziałem ufności (confidence interval). Jak konkretnie wyznaczyć przedział, to zależy od tego co ten przedział ma estymować. Przykładowo przedział ufności dla średniej konstruuje się następująco.

Jeżeli zmienna \(X\) ma rozkład \(N(\mu, \sigma)\) to średnia z \(n\)-elementowej próby ma rozkład \(\bar X = N(\mu, \sigma \big/\sqrt{n})\). Przedział budujemy na podstawie warunku: \(P(|\bar X| < x_\alpha) = 1 - \alpha\), gdzie \(|.|\) oznacza wartość bezwzględną. Z uwagi na symetryczność rozkładu \(N\) można zapisać \(P(-x_\alpha < X < x_\alpha) = 1 - \alpha\).

Do obliczenie \(x_\alpha\) w przypadku \(1 - \alpha = 0,95\) można zastosować równość \(x_\alpha = 1,96 \cdot \sigma/\sqrt{n}\) (95% przedział ufności)

Weryfikowanie hipotez (hypothesis testing)

Postępujemy według schematu: weryfikowaną hipotezę nazywamy hipotezą zerową (oznaczamy jako \(H_0\)); hipotezą alternatywną (\(H_1\)) jest hipoteza którą jesteśmy skłonni przyjąć w przypadku odrzucenia hipotezy zerowej.

Hipotezę weryfikujemy za pomocą testu statystycznego \(Z_n\). Test statystyczny jest statystyką tj. zmienną losową określoną na \(n\)-elementowej próbie, której rozkład jesteśmy w stanie oszacować. Pewien zbiór wartości testu świadczy za przyjęciem \(H_0\) (obszar przyjęcia, \(W\)) a pewien zbiór za odrzuceniem \(H_0\) (obszar odrzucenia, \(w\))

Żeby sprawę ukonkretnić: zakładamy (\(H_0\)), że średnia waga czegoś wynosi 5; pobieramy próbę; niech testem jest średnia z próby, która wyniosła 5,3. Zdroworozsądkowo myśląc im większa różnica pomiędzy założeniem a realizacją tym większe nasze wątpliwości. Możemy przyjąć że niewielka różnica może się zdarzyć, ale gdyby średnia waga w próbie wyniosła 6,3 to nasze wątpliwości byłby większe nie mówiąc o sytuacji gdyby wyniosła 16,3.

Kontynuując nasze zdroworozsądkowe myślenie jeżeli różnica jest niewielka przyjmujemy a jak jest duża odrzucamy. Pytanie kiedy różnica staje się duża?

Błąd I rodzaju: odrzucenie hipotezy prawdziwej (oznaczony \(\alpha\)); sytuacja, w której różnica (w naszym przykładzie) pomiędzy średnia wagą czegoś a średnią z próby jest duża, ale jest to wynik przypadku (raz na jakiś czas się zdarza)

Błąd II rodzaju: przyjęcie hipotezy fałszywej (oznaczony \(\beta\)) sytuacja, w której różnica pomiędzy średnia wagą czegoś a średnią z próby jest mała, ale prawdziwa wartość średniej czegoś jest różna od tej która została założona w \(H_0\)

Idealnie by było \(\alpha, \beta \to \min\) ale jest to niemożliwe (minimalizowanie jednego zwiększa drugie). Zamiast tego przyjmuje się z góry pewien poziom \(\alpha\) (zwany poziomem istotności) i korzysta z testów zgodnych to jest takich, w których \(\beta \to 0\) jeżeli \(n \to \infty\) Tego typu podejście nosi nazwę testu istotności

W teście istotności \(\beta\) nie jest uwzględniane. W konsekwencji test pozwala na odrzucenie \(H_0\) (z prawdopodobieństwem \(\alpha\), ale nie pozwala na przyjęcie \(H_0\) (mówi się nie ma podstaw do odrzucenia \(H_0\)). Zwróćmy uwagę że odrzucenie \(H_0\) to przyjęcie \(H_1\). Innymi słowy odrzucenie \(H_0\) jest rezultatem konkretniejszym niż uzyskanie braku podstaw do odrzucenia (może tak a może nie); w rezultacie wiele testów jest konstruuowana w taki sposób aby odrzucić \(H_0\).

Etapy weryfikacji hipotezy statystycznej za pomocą testu istotności:

określenie \(H_0\) oraz \(H_1\); Przykładowo \(H_0\): średnia waga czegoś wynosi 5,0 kg. Wobec alternatywy \(H_1\): średnia waga czegoś jest różna od 5,0kg. W oparciu o dodatkowe pozastatystyczne informacje możemy formułować bardziej szczegółowe \(H_1\), na przykład: średnia waga czegoś jest mniejsza od 5,0kg.
przyjęcie poziomu istotności \(\alpha\) (zwykle 0,05 lub 0,01); Dla orientacji \(\alpha = 0,05\) w przybliżeniu to oznacza prawdopodobieństwo 4-krotnego wyrzucenia orła przy czterokrotnym rzucie monetą. Nie jest to zdarzenie aż tak niemożliwe.
wyznaczenie statystyki testu \(Z_n\); wyznaczenie obszaru krytycznego (\(w\)), który w zależności od postaci \(H_1\) może być dwustronny lub jednostronny. Przykładowo jeżeli \(H_1\) zakłada że średnia waga czegoś jest mniejsza od 5,0kg, to obszar krytyczny będzie lewostronny. Duże różnice na minus będą świadczyły przeciw \(H_0\). Formalnie: \(P(z_n < w_n) = \alpha\) tzn. obszar krytyczny (w przypadku testu jednostronnego na średnią wagę czegoś) to zbiór wartości które mogą się realizować z prawdopodobieństwem maksimum \(\alpha\). Ten sam test w wersji dwustronnej będzie miał obszar krytyczny określony następującą zależnością: \(P(|z_n| < w_n) = \alpha\)
obliczenie \(z_n\) na podstawie próby; jeżeli \(z_n \in w\) to \(H_0\) odrzucamy na poziomie istotności \(\alpha\); jeżeli \(z_n \in W\) to mówimy że nie ma podstaw do odrzucenia \(H_0\)

Współczesne programy komputerowe ułatwiają weryfikację hipotez podając wartość prawdopodobieństwa odpowiadającej \(P(|Z| > z_n) = p_n\); jeżeli \(p_n \leq \alpha\) to \(H_0\) należy odrzucić (dlaczego?)

Parametryczne testy istotności

Test dla wartości średniej. Populacja generalna ma rozkład \(X\) o skończonej średniej \(m\) i wariancji \(\sigma^2\). Wylosowano \(n\)-elementową dużą próbę (minimum 30) w celu zweryfikowania hipotezy \(H_0: m=m_0\), wobec hipotezy alternatywnej \(H_1: m \not=m_0\). Przy założeniu prawdziwości \(H_0\) średnia z próby ma rozkład \(N(m_0, s/\sqrt{N})\), gdzie \(s = \frac{1}{2} \sum_i (x-\bar x)^2\)

Test dla dwóch średnich. Dwie populacje generalne o skończonych nieznanych wariancjach \(\sigma^2_1\) oraz \(\sigma^2_2\). Losujemy dwie duże próby \(n_1\) oraz \(n_2\)-elementową, w celu zweryfikowania hipotezy \(H_0: m_1=m_2\), wobec hipotezy alternatywnej \(H_1: m_1 \not=m_2\).

Przy założeniu prawdziwości \(H_0\) statystyka \(U = (\bar x_1 - \bar x_2 )\) ma rozkład \(N \big(0, \sqrt{\sigma_1^2/n1 + \sigma_2^2/n_2}\big)\)

Test dla wskaźnika struktury.

Populacja generalna ma rozkład dwupuntowy z parametrem \(p\), tj. procent elementów wyróżnionych wynosi \(p\). Wylosowano dużą próbę (\(n>100\)) w celu zweryfikowania hipotezy \(H_0: p=p_0\).

Przy założeniu prawdziwości \(H_0\) statystyka \(U= m/n\) (\(m\) to liczba elementów wyróżnionych) ma rozkład \(N (p_0, \sqrt{p_0 (1 - p_0)/n})\)

Literatura

https://steemit.com/programming/@dkmathstats/creating-normal-distribution-plots-with-r-programming

https://towardsdatascience.com/statistical-tests-when-to-use-which-704557554740