Rozdział 5 Standaryzacja i rozkład normalny
5.1 Standaryzacja danych (z-score)
Niekiedy narzędzia statystyki matematycznej, uczenia maszynowego albo analizy danych wymagają standaryzacji danych ilościowych. Standaryzacja zbioru liczb polega na przekształceniu danych za pomocą następującej formuły:
\[ z = \frac{x - \text{średnia}}{\text{odchylenie standardowe}}\]
Powstają w ten sposób wartości standaryzowane, wartości z (po angielsku z scores).
5.2 Rozkład normalny
Rozkład normalny to narzędzie matematyczne, które przydaje sie w modelowaniu wielu zbiorów danych ilościowych. Rozkład normalny mają w przybliżeniu np. wzrost osoby, waga noworodka lub inne cechy biologiczne, odchylenia temperatury od długookresowej średniej, błąd pomiaru. Rozkład średniej z próby przy wielokrotnym próbkowaniu również zbliża się do rozkładu normalnego w miarę wzrostu próby.
W przypadku danych zbliżonych do rozkładu normalnego, histogram układa się w charakterystyczny kształt, przypominający dzwon (stąd określenie "krzywa dzwonowa").
5.3 Reguła empiryczna
W rozkładzie normalnym lub zbliżonym do normalnego:
około 68% wartości jest oddalonych od średniej co najwyżej o jedno odchylenie standardowe
około 95% wartości jest oddalonych od średniej co najwyżej o dwa odchylenia standardowe
około 99,7% wartości (czyli prawie wszystkie) jest oddalonych od średniej o co najwyżej trzy odchylenia standardowe
Reguła empiryczna sprawdza się dość dobrze w wielu zbiorach danych. W szczególności w wielu prawdziwych zbiorach danych można oszacować odchylenie standardowe na podstawie zasady 95%. Stąd najczęściej odchylenie standardowe interpretuje się poprzez regułę empiryczną.
5.4 Linki
Reguła empiryczna i krzywa normalna: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_4_1.html
Reguła empiryczna w praktyce: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_5.html