Rozdział 5 Standaryzacja i rozkład normalny

5.1 Standaryzacja danych (z-score)

Niekiedy narzędzia statystyki matematycznej, uczenia maszynowego albo analizy danych wymagają standaryzacji danych ilościowych. Standaryzacja zbioru liczb polega na przekształceniu danych za pomocą następującej formuły:

\[ z = \frac{x - \text{średnia}}{\text{odchylenie standardowe}}\]

Powstają w ten sposób wartości standaryzowane, wartości z (po angielsku z scores).

5.2 Rozkład normalny

Rozkład normalny to narzędzie matematyczne, które przydaje sie w modelowaniu wielu zbiorów danych ilościowych. Rozkład normalny mają w przybliżeniu np. wzrost osoby, waga noworodka lub inne cechy biologiczne, odchylenia temperatury od długookresowej średniej, błąd pomiaru. Rozkład średniej z próby przy wielokrotnym próbkowaniu również zbliża się do rozkładu normalnego w miarę wzrostu próby.

W przypadku danych zbliżonych do rozkładu normalnego, histogram układa się w charakterystyczny kształt, przypominający dzwon (stąd określenie "krzywa dzwonowa").

5.3 Reguła empiryczna

W rozkładzie normalnym lub zbliżonym do normalnego:

  • około 68% wartości jest oddalonych od średniej co najwyżej o jedno odchylenie standardowe

  • około 95% wartości jest oddalonych od średniej co najwyżej o dwa odchylenia standardowe

  • około 99,7% wartości (czyli prawie wszystkie) jest oddalonych od średniej o co najwyżej trzy odchylenia standardowe

Reguła empiryczna sprawdza się dość dobrze w wielu zbiorach danych. W szczególności w wielu prawdziwych zbiorach danych można oszacować odchylenie standardowe na podstawie zasady 95%. Stąd najczęściej odchylenie standardowe interpretuje się poprzez regułę empiryczną.

5.3.1 Nierówność Czebyszewa