Rozdział 1 Dane statystyczne

1.1 Badania obserwacyjne i eksperymenty

Skąd się biorą dane? Można powiedzieć, że są dwa podstawowe typy zbierania danych: badania obserwacyjne i eksperymenty.

Eksperymenty to sytuacje, kiedy badacz może zdecydować o pewnych zmiennych ("postępowaniach", ang. treatments) i zmierzyć odpowiedź (ang. response) na dane postępowanie. Eksperymenty ułatwiają identyfikację zależności przyczynowo-skutkowych.

Badanie obserwacyjne to sytuacje, w których badacz nie ma wpływu na zmienne, lecz po prostu rejestruje rzeczywistość. W takiej sytuacji trudniej wykazać zależność przyczynowo-skutkową (bez istotnych dodatkowych założeń jest to niemożliwe). Jeżeli jakieś zmienne i potencjalne odpowiedzi są powiązane, mówimy o korelacji, asocjacji ("skojarzeniu"), współzależności statystycznej.

1.2 Populacja i próba

1.3 Źródła danych statystycznych

1.4 Zmienne ilościowe i jakościowe

Dwa podstawowe typy cech statystycznych (zmiennych statystycznych) to zmienne ilościowe (liczbowe, numeryczne, "mierzalne", ang. quantitative) i jakościowe (ang. qualitative).

Zmienne ilościowe to zmienne, które przyjmują wartości liczbowe. Z matematycznego punktu zmienne ilościowe można postrzegać jako (i podzielić na) zmienne dyskretne (skokowe) albo zmienne ciągłe. Zmienne dyskretne to zmienne, które przyjmują konkretne wartości liczbowe i nic pomiędzy (przykład: liczba dzieci). Zmienne ciągłe to zmienne, które mogą przyjąć dowolną wartość z określonego przedziału (przykład: czas trwania rozmowy, udział okularników w grupie osób).

Zmienne jakościowe to zmienne, które przyjmują wartości inne niż liczbowe. Zmienna jakościowa pozostaje zmienną jakościową nawet, gdy do jej zapisu użyjemy cyfr (np. rasa psa to zmienna jakościowa, nawet jeżeli ponumerujemy różne rasy i będziemy zapisywać rasę za pomocą przyjętych liczb).

1.5 Skale pomiarowe

Przydatnym podziałem zmiennych jest podział ze względu na skale pomiarowe:

Zmienne jakościowe możemy podzielić na zmienne nominalne i porządkowe.

Zmienne ilościowe możemy podzielić na zmienne przedziałowe i ilorazowe.

  • Zmienne jakościowe nominalne (ang. nominal) to zmienne jakościowe, których wartości nie można traktować jako uporządkowanych.

Przykłady cech o skali nominalnej: kolor oczu, wyznanie, rasa psa.

  • Zmienne jakościowe porządkowe (ang. ordinal) to zmienne jakościowe, których wartości nie są liczbami, ale można je uporządkować.

Przykłady cech o skali porządkowej: wykształcenie, odpowiedzi na pytanie ankietowe w skali Likerta.

  • Zmienne ilościowe przedziałowe (interwałowe, ang. interval) to zmienne liczbowe, w przypadku których ma sens obliczać i intepretować różnice, ale proporcje (ilorazy) nie mają sensu. Często mówi się, że w ich przypadku zero jest wyznaczone uznaniowo -- jest to rzeczywiście dobry sposób na rozpoznanie zmiennych na skali przedziałowej.

Przykłady cech o skali przedziałowej: temperatura w stopniach Celsjusza, rok urodzenia.

  • Zmienne ilościowe ilorazowe (proporcjonalne, ang. ratio) to zmienne liczbowe, dla których proporcje (ilorazy) mają sens.

Przykłady cech o skali ilorazowej: liczba posiadanych samochodów, cena towaru, wzrost.

Szczególne przypadki: zmienne binarne (zerojedynkowe, np. odpowiedzi na pytanie Tak/Nie), zmienne na skali cyklicznej (miesiące w roku, dni w tygodniu, kąty).

Skale pomiarowe ułatwiają nam ustalenie, które narzędzia i miary statystyczne możemy stosować w przypadku poszczególnych cech. Na przykład:

  • Średnią, odchylenie standardowe, skośność itp. możemy stosować tylko dla cech ilościowych.

  • Współczynnik zmienności ma sens dla zmiennych ilorazowych.

  • Medianę i inne kwantyle możemy stosować dla zmiennych ilościowych oraz porządkowych.

  • Dominantę możemy wyznaczyć dla wszystkich zmiennych, nawet nominalnych.

  • Współczynnik korelacji Pearsona możemy stosować, jeżeli obie zmienne są ilościowe (wyjątek i przypadek szczególny: zmienne binarne)

  • Współczynnik korelacji Spearmana możemy stosować dla zmiennych porządkowych i ilościowych.

  • Histogram stosujemy dla zmiennych iloścowych pogrupowanych uprzednio w szereg rozdzielczy przedziałowy.

1.6 Liczby

1.6.1 Nazwy: krótka/długa skala

Należy uważać przy tłumaczeniu nazw wielkich liczb z polskiego na angielski, ukraiński itp. lub odwrotnie. Nawet Google translate może tutaj popełniać błędy.

pol. miliard = ang. billion

pol. bilion = ang. trillion

pol. biliard = ang. quadrillion

pol. trylion = ang. quintillion

Tabela 1.1: Nazwy dużych liczb
liczba polski angielski ukraiński
1 000 000 milion million мільйон
1 000 000 000 miliard billion мільярд
1 000 000 000 000 bilion trillion трильйон
1 000 000 000 000 000 biliard quadrillion квадрильйон
1 000 000 000 000 000 000 trylion quintillion квінтильйон

1.6.2 Symbol dziesiętny i separator tysięcy

Przy okazji tłumaczenia między językami warto zaznaczyć, że jako symbol dziesiętny w języku polskim używamy przecinka, natomiast w języku angielskim należy użyć kropki. Przecinek z kolei po angielsku stosujemy jako separator tysięcy -- po polsku tę rolę najczęściej pełni spacja (rzadziej kropka).

pol. 1 000,23 = ang. 1,000.23

pol. 1.000.000 = ang. 1,000,000

1.6.3 Notacja inżynierska/naukowa

1.23e8 oznacza \(1{,}23\cdot10^8\), czyli \(123\space000\space000\).

1.23e-6 oznacza \(1{,}23\cdot10^{-6}\), czyli \(0,00000123\).

Taka notacja (z "e" lub "E") może się pojawić w R lub w Excelu. Nie stosujemy jej jednak w artykułach czy pracach dyplomowych! W takiej sytuacji, jeżeli jest już to konieczne potrzebna jest notacja z potęgami 10.

1.6.4 Procenty

Procent ("%") oznacza "na sto" (por. "odsetki"). Stosujemy go (czasem wymiennie ze zwykłymi ułamkami), jeżeli chcemy przedstawić między innymi:

  • udziały w większej całości, częstości,

  • porównanie dwóch wielkości, stopień realizacji planu,

  • przyrosty względne, stopy procentowe, stopy zwrotu, stopy wzrostu, dyskonto, rabat itp.

  • prawdopodobieństwa (w tym przypadku preferewane są ułamki).

Gdy mówimy o procentach, ważne jest do jakiej podstawy odnosi się 100%. Na przykład: w zeszłym roku sprzedaż wynosiła 90 mln dolarów; planowaliśmy, że w tym roku sprzedaż wzrośnie o 10 mln dolarów do 100 mln dolarów. W rzeczywistości osiągnęliśmy 96 mln dolarów sprzedaży. Czy zrealizowaliśmy plan w 96% (96/100) czy w 60% (6/10)?

W szczególności należy zwracać uwagę między procentami a punktami procentowymi. Jeżeli stopy procentowe wzrosły z 6% do 9% to wzrosły o 50%, ale o 3 punkty procentowe.

Indeksy, na przykład indeks cen nieruchomości, często przedstawiane są w postaci procentowej, ale bez znaku "%".

1.7 Linki

Eksploracja i wizualizacja danych jakościowych - aplikacja webowa: https://istats.shinyapps.io/EDA_categorical/