Statystyka od strony czysto praktycznej to: dane + procedury (zbierania, przechowania, analizowania, prezentowania) + programy; Jeżeli statystyka kojarzy się komuś ze wzorami i liczeniem, to jak widać jest to zaledwie podpunkt procedury→analizowanie.
Statystyka (obiegowo): dział matematyki wzw z tym wiedza absolutnie pewna i obiektywna (nieprawda choćby z tego powodu, że nie jest działem matematyki)
Etapy analizy statystycznej: – przełóż obserwacje na postać liczbową – wnioskuj (zastosuj odpowiednie statystyki)
Populacja, zbiorowość statystyczna: zbiór obiektów (osób, przedmiotów, zdarzeń) logicznie ze sobą powiązanych (ale nie identycznych), poddany badaniu statystycznemu.
Jednostka statystyczna: jednostki statystyczne w danej populacji różnią się od innych jednostek spoza danej populacji poprzez swoje własności wspólne (cechy stałe), jednocześnie różnią się między sobą cechami (cechy zmienne), które są przedmiotem zainteresowania badacza.
Cechy statystyczne – właściwości jednostek statystycznych.
Cechy stałe – jednakowe dla wszystkich jednostek badania: rzeczowa (co? kto? jest badane/y) przestrzenna (gdzie?) czasowa (kiedy?)
Cechy zmienne – właściwości różnicujące jednostki jednostki z badanej populacji. Krótko zmienne
Analizujemy zmienne; cechy stałe definiują badaną populację
Pomiar – przyporządkowanie wariantom cechy zmiennej ustalonych liczb lub symboli. W naukach przyrodniczych (fizyka, chemia) pomiaru dokonuje przy zastosowaniu precyzyjnych/jednoznacznie określonych definicji miar. W naukach społecznych jest niestety inaczej: wiele definicji jest nieprecyzyjnych (turysta), a wiele miar przybliżonych. Przy czym brak precyzji pomiaru nie wynika z błędu pomiaru (źle przyłożona linijka), ale jest cechą użytej skali pomiarowej (nieprecyzyjna linijka).
Typy skal pomiarowych:
nominalna (nominal scale), klasyfikuje: płeć;
porządkowa (ordinal scale), klasyfikuje i porządkuje: stadia choroby,
liczbowa
Mówimy zmienna mierzalna albo zmienna ilościowa dla zmiennych mierzonych za pomocą skali liczbowej. Mówimy zmienna niemierzalna albo zmienna jakościowa dla zmiennych mierzonych za pomocą skali nominalnej/porządkowej.
Zmienne mierzalne dzielą się na skokowe oraz ciągłe. Skokowe są to cechy, które przyjmują skończoną liczbę wartości, zwykle są to liczby całkowite; Ciągłe są to cechy, które przyjmują dowolne wartości liczbowe z pewnego przedziału liczbowego np. dochody, długość ziarna fasoli.
Rodzaje danych
Przekrojowe
Czasowe: każda obserwacja ma przypisany czas
Przestrzenne : każda obserwacja ma przypisane miejsce na kuli ziemskiej (współrzędne geograficzne)
Sposoby analizy statystycznej zależą od rodzaju danych i sposobu pomiaru (jakie mamy dane takie możemy stosować metody):
analiza struktury: jedna zmienna/dane przekrojowe
analiza współzależności: analiza co najmniej dwóch zmiennych, głównym motywem tej analizy jest ustalenie związku pomiędzy zmiennymi (nadwaga powoduje cukrzycę)
analiza dynamiki zjawisk: dane czasowe
Inny podział:
Opis statystyczny – (proste) przedstawienie badanych zbiorowości/zmiennych tabel, wykresów lub parametrów (np. średnia, mediana) ; Opis statystyczny może dotyczyć: – struktury zbiorowości; – współzależności; – zmian zjawiska w czasie.
Wnioskowanie: wnioskowanie na temat całości na podstawie próby; wykorzystuje metody analizy matematycznej
Dane: pojęcie (zwykle) niedefiniowane na zasadzie jaki jest koń każden widzi. Mówiąc konkretnie: symbole w tym liczby.
Sposób pomiaru/organizacja badania ma zasadnicze znaczenie dla interpretacji wyników. Są dwa fundamentalne rodzaje pomiaru (sposobu zebrania danych) eksperyment vs obserwacja. Mówimy dane eksperymentalne albo obserwacyjne.
Przykład: spożywanie kawy w czasie sesji egzaminacyjnej skutkuje lepszą oceną. W celu oceny prawdziwości takiej tezy przeprowadzono badanie wśród studentów pytając ich o to ile kawy pili w czasie sesji i zestawiając te dane z wynikami egzaminów. Średnie wyniki w grupie studentów pijących dużo kawy były wyższe w grupie pijącej mało. Czy można powiedzieć że udowodniono iż picie dużej ilości kawy poprawia wynik egzaminu?
Rodzaje badań: eksperymentalne vs obserwacyjne. W naukach ekonomicznych dominują zdecydowanie badania obserwacyjne a eksperyment jest czymś absolutnie wyjątkowym.
Eksperyment kontrolowany (zrandomizowany lub nie): służy do weryfikacja związku przyczyna-skutek. Skutek może być rezultatem działania wielu czynników (zmiennych). Eksperymentator manipuluje wielkością przyczyn (zmiennych niezależnych) oraz mierzy wielkość skutku (zmiennej zależnej); Wszystkie pozostałe czynniki (zmienne ukryte) są kontrolowane (w tym sensie, że ich wpływ na skutek jest ustalony.
Pomiarowi/manipulacji podlega zbiór jednostek podzielonych losowo na dwie grupy: grupa eksperymentalna (experimental group) oraz grupa kontrolna (control group)
Przykład: można przypuszczać że oprócz kawy na wynik egzaminu ma wpływ np. wrodzone predyspozycje w dziedzinie intelektualnej; aby kontrolować ten czynnik można podzielić losowo grupę studentów; dzięki czemu średnia wielkość predyspozycji w obu grupach będzie podobna. Następnie zalecamy studentom w grupie eksperymentalnej picie 1l kawy dziennie a studentom w grupie kontrolnej podajemy 1l wody. Średnie wyniki w grupie studentów pijących 1l kawy były wyższe w grupie pijącej wodę. Czy można powiedzieć że udowodniono iż picie dużej ilości kawy poprawia wynik egzaminu?
W medycynie używa się terminu badania kliniczne czyli badania które dotyczą ludzi. Badania kliniczne także dzielą się na eksperymentalne vs obserwacyjne. Eksperyment nazywa się RCT (randomized clinical trial/randomizowane kontrolowane badania kliniczne.) Manipulacja określana jest jako ekspozycja (exposure) albo leczenie (treatment) Zmienne ukryte określa się mianem confunding factors (czynniki zakłócające)
Badania obserwacyjne można z kolei podzielić na analityczne i opisowe.
W badaniach analitycznych porówuje się grupę kontrolną z grupą poddaną ekspozycji/leczeniu; w badaniach przekrojowych nie ma grupy kontrolnej.
Badania analityczne dzielimy dalej na kohortowe, kliniczno-kontrolne oraz przekrojowe.
Badanie kohortowe (cohort study): wieloletnie badania na dużej grupie jednostek; następstwo czasu: od ekspozycji do wyniku (choroby) Problem: koszty (np. choroby rzadkie wymagają ogromnych kohort).
Badanie kliniczno-kontrolne (case-control study): restrospektywna ocena ekspozycji dla jednostek, u których stwierdzono wynik (chorobę); grupę kontrolną tworzą dopasowane jednostki u których wyniku nie stwierdzono (dopasowane w sensie: podobne) Problem: chorzy mają lepszą pamięć (recall bias) + trudności z dopasowaniem
Badanie przekrojowe (cross-sectional study): badanie związku między wynikiem a ekspozycją Problem: nie da się określić związku przyczyna-skutek bo w tym badaniu nie ma grupy kontrolnej tak lub inaczej zdefiniowanej.
Badanie ekologiczne: badanie (przekrojowe) zależności pomiędzy danymi zagregowanymi a nie indywidualnymi. Przykładowo zależność pomiędzy przecietną wielkością GDP a oczekiwaną długością życia np. na poziomie kraju. Problem: błąd ekologizmu (ecological fallacy)
Badania prospektywne: od przyczyny do skutku (cohort) badanie retrospektywne: od skutku do przyczyny (case-control)