Rozdział 5 Standaryzacja i rozkład normalny
5.1 Standaryzacja danych (z-score)
Niekiedy narzędzia statystyki matematycznej, uczenia maszynowego albo analizy danych wymagają standaryzacji danych ilościowych. Standaryzacja zbioru liczb polega na przekształceniu danych za pomocą następującego wzoru:
\[ z = \frac{x - \text{średnia}}{\text{odchylenie standardowe}}\]
Powstają w ten sposób wartości standaryzowane, „wyniki z” (po angielsku z scores).
5.2 Rozkład normalny
Rozkład normalny to narzędzie matematyczne, które przydaje sie w modelowaniu wielu zbiorów danych ilościowych. Rozkład normalny mają w przybliżeniu np. wzrost osoby, waga noworodka lub inne cechy biologiczne, odchylenia temperatury od długookresowej średniej, błędy pomiaru. Rozkład średniej z próby przy wielokrotnym próbkowaniu również zbliża się do rozkładu normalnego w miarę wzrostu liczebności próby.
W przypadku danych zbliżonych do rozkładu normalnego, histogram układa się w charakterystyczny kształt, przypominający dzwon (stąd określenie "krzywa dzwonowa").
5.3 Reguła empiryczna
W rozkładzie normalnym lub zbliżonym do normalnego3:
około 68% wartości jest oddalonych od średniej co najwyżej o jedno odchylenie standardowe,
około 95% wartości jest oddalonych od średniej co najwyżej o dwa odchylenia standardowe,
około 99,7% wartości (czyli prawie wszystkie) jest oddalonych od średniej o co najwyżej trzy odchylenia standardowe.
Reguła empiryczna sprawdza się dość dobrze w wielu zbiorach danych, ale nie we wszystkich.
W szczególności w wielu prawdziwych zbiorach danych można oszacować odchylenie standardowe na podstawie zasady 95%. Stąd najczęściej odchylenie standardowe interpretuje się poprzez regułę empiryczną.
5.5 Generowanie danych z rozkładu normalnego (symulacja)
Niejednokrotnie pojawia się potrzeba symulacji danych o określonym rozkładzie.
5.6 Linki
Reguła empiryczna i krzywa normalna: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_4_1.html
Reguła empiryczna w praktyce: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_5.html
Dla rozkładu normalnego te wartości wynoszą, z dokładnością do dwóch miejsc po przecinku: 68,27%, 95,45% i 99,73%.↩︎