Rozdział 5 Standaryzacja i rozkład normalny

5.1 Standaryzacja danych (z-score)

Niekiedy narzędzia statystyki matematycznej, uczenia maszynowego albo analizy danych wymagają standaryzacji danych ilościowych. Standaryzacja zbioru liczb polega na przekształceniu danych za pomocą następującego wzoru:

\[ z = \frac{x - \text{średnia}}{\text{odchylenie standardowe}}\]

Powstają w ten sposób wartości standaryzowane, „wyniki z” (po angielsku z scores).

5.2 Rozkład normalny

Rozkład normalny to narzędzie matematyczne, które przydaje sie w modelowaniu wielu zbiorów danych ilościowych. Rozkład normalny mają w przybliżeniu np. wzrost osoby, waga noworodka lub inne cechy biologiczne, odchylenia temperatury od długookresowej średniej, błędy pomiaru. Rozkład średniej z próby przy wielokrotnym próbkowaniu również zbliża się do rozkładu normalnego w miarę wzrostu liczebności próby.

W przypadku danych zbliżonych do rozkładu normalnego, histogram układa się w charakterystyczny kształt, przypominający dzwon (stąd określenie "krzywa dzwonowa").

5.3 Reguła empiryczna

W rozkładzie normalnym lub zbliżonym do normalnego³:

około 68% wartości jest oddalonych od średniej co najwyżej o jedno odchylenie standardowe,
około 95% wartości jest oddalonych od średniej co najwyżej o dwa odchylenia standardowe,
około 99,7% wartości (czyli prawie wszystkie) jest oddalonych od średniej o co najwyżej trzy odchylenia standardowe.

Reguła empiryczna sprawdza się dość dobrze w wielu zbiorach danych, ale nie we wszystkich.

W szczególności w wielu prawdziwych zbiorach danych można oszacować odchylenie standardowe na podstawie zasady 95%. Stąd najczęściej odchylenie standardowe interpretuje się poprzez regułę empiryczną.

5.4 Nierówność Czebyszewa

5.5 Generowanie danych z rozkładu normalnego (symulacja)

Niejednokrotnie pojawia się potrzeba symulacji danych o określonym rozkładzie.

5.6 Linki

Reguła empiryczna i krzywa normalna: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_4_1.html

Reguła empiryczna w praktyce: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_5.html

5.7 Zadania

Zadanie 5.1 Wybierz cechę ilościową w wybranym zbiorze danych i sprawdź, na ile dla tej cechy sprawdza się reguła empiryczna (68%, 95%, 99,7%)

Dla rozkładu normalnego te wartości wynoszą, z dokładnością do dwóch miejsc po przecinku: 68,27%, 95,45% i 99,73%.↩︎