Rmd source

Przedmiot, metody i organizacja badań statystycznych

Polecany podręcznik (jeden z wielu; do nabycia na Allegro w szczególności za kilka-kilkanaście PLN):

Przedmiot statystyki

Statystyka: nauka o ilościowych metodach badania zjawisk masowych (Sobczyk); albo [lepiej]: naukę zajmującą się opisywaniem i analizą zjawisk masowych [Górecki 2011] (bo metody niekoniecznie muszą być ilościowe)

Statystyka od strony czysto praktycznej to: dane + procedury (zbierania, przechowania, analizowania, prezentowania) + programy; Jeżeli statystyka kojarzy się komuś ze wzorami i liczeniem, to jak widać jest to zaledwie podpunkt procedury→analizowanie.

Statystyka (obiegowo): dział matematyki wzw z tym wiedza absolutnie pewna i obiektywna (nieprawda choćby z tego powodu, że nie jest działem matematyki)

Statystyka: analiza struktury, przedziały ufności i weryfikacja hipotez, analiza współzależności, analiza dynamiki zjawisk.

Etapy analizy statystycznej: – przełóż obserwacje na postać liczbową – wnioskuj (zastosuj odpowiednie statystyki)

Analiza eksploracyjna Exploratory research is the stage of the research process that aims at connecting ideas as to unveil the ``why’’s of potential cause/effect relationships. This occurs when researchers get started at understanding what they are actually observing when in the process of building cause/effect models.

Analiza konfirmacyjna Confirmatory research (a.k.a. hypothesis testing) is where researchers have a pretty good idea of what’s going on. That is, researcher has a theory (or several theories), and the objective is to find out if the theory is supported by the facts.

Opis statystyczny – liczbowe przedstawienie badanych zbiorowości lub zjawisk w postaci opisu: – tabelarycznego; – graficznego; – parametrycznego

Opis statystyczny może dotyczyć: – struktury zbiorowości; – współzależności; – zmian zjawiska w czasie.

Badanie statystyczne to zespół czynności zmierzających do uzyskania (za pomocą metod statystycznych) informacji charakteryzujących badaną zbiorowość lub zjawisko. Najważniejsze kryteria klasyfikacji badań: – zakres obserwacji badanych jednostek (pełne, częściowe); – częstotliwość: (ciągłe, okresowe, doraźne); – zasięg przestrzenny (międzynarodowe, krajowe, regionalne, środowiskowe, monograficzne); – dziedzina badań (demograficzne, społeczne, ekonomiczne, rolnicze, jakości środowiska naturalnego itp.

Populacja, zbiorowość statystyczna: zbiór obiektów (osób, przedmiotów, zdarzeń) logicznie ze sobą powiązanych (ale nie identycznych), poddany badaniu statystycznemu.

Jednostka statystyczna: jednostki statystyczne w danej populacji różnią się od innych jednostek spoza danej populacji poprzez swoje własności wspólne (cechy stałe), jednocześnie różnią się między sobą cechami (cechy zmienne), które są przedmiotem zainteresowania badacza.

Cechy statystyczne – właściwości jednostek statystycznych Cechy stałe – jednakowe dla wszystkich jednostek badania: rzeczowa (co? kto? jest badane/y) przestrzenna (gdzie?) czasowa (kiedy?)

Cechy zmienne – właściwości różnicujące jednostki jednostki z badanej populacji, tj. takie które mogą posiadać więcej niż 1 wariant (jeżeli posiadają jeden mamy do czynienia z przypadkiem trywialnym). Cechy zmienne dzielimy na: – jakościowe (płeć, rok studiów) – ilościowe (wiek)

Pomiar – przyporządkowanie wariantom cechy zmiennej ustalonych liczb lub symboli. W naukach przyrodniczych (fizyka, chemia) pomiaru dokonuje przy zastosowaniu precyzyjnych/jednoznacznie określonych definicji miar. W naukach społecznych jest niestety inaczej: wiele definicji jest nieprecyzyjnych (turysta), a wiele miar przybliżonych. Przy czym brak precyzji pomiaru nie wynika z błędu pomiaru (źle przyłożona linijka), ale jest cechą użytej skali pomiarowej (nieprecyzyjna linijka).

Rodzaje skal pomiarowychnominalna (nominal scale), klasyfikuje: płeć; – porządkowa (ordinal scale), klasyfikuje i porządkuje: zdolność kredytowa firmy, stadia choroby, – przedziałowa (interval scale), posiada jeszcze stałą jednostkę miary (ów przedział) oraz umowne zero (temperatura) – ilorazowa (rational scale), posiada to co przedziałowa plus naturalne zero (wiek, wzrost, obrót, temperatura).

Skala Kelvina temperatury jest ilorazowa, skala Celsiusza jest przedziałowa. Zero w skali Kelvina to zero bezwzględne, 200K jest 2 razy mniejsze niż 400K podczas gdy 200C nie jest dwa razy mniejsze niż 400C. Na skali przedziałowej nie można w bezpieczny sposób dokonywać dzielenia. Na liczbach w skali porządkowej nie można dokonywać nawet dodawania. Wszystkie operacje arytmetyczne są bezpieczne tylko dla skali ilorazowej.

Cecha statystyczna mierzalna (ilościowa) – określana jest za pomocą liczb np. oceny, płace. Cechy mierzalne dzielą się na skokowe i ciągłe. Skokowe są to cechy, które przyjmują skończoną liczbę wartości, zwykle są to liczby całkowite; Ciągłe są to cechy, które przyjmują dowolne wartości liczbowe z pewnego przedziału liczbowego np. dochody, długość ziarna fasoli.

Pojęcia stosowane w statystyce publicznej https://stat.gov.pl/metainformacje/slownik-pojec/pojecia-stosowane-w-statystyce-publicznej/lista.html

Rodzaje badań statystycznych

Pełne (spis, rejestracja), częściowe (reprezentacyjne), szacunki interpolacyjne i ekstrapolacyjne (ustalenie wartości na podstawie znanych wartości podobnych/poprzednich/sąsiednich; wbrew pozorom często stosowana metoda).

Ciągłe (ewidencja urodzeń), okresowe (spisy rolne, spis powszechny), doraźne (sondaż poparcia w wyborach prezydenckich)

Spis gromadzenie danych na potrzeby badania; Rejestracja gromadzenie danych przy okazji wykonywania innych działań (ewidencja ludności, działanie wymiaru sprawiedliwości, gromadzenie danych pogodowych itp…)

Reprezentacyjne badanie oparte na próbie pobrane ze zbiorowości w taki sposób, że wyniki uzyskane dla tej próby można uogólnić na całą populację (wymaga to odpowiedniego sposobu wybrania jednostek do próby; nie każda próba jest reprezentacyjna)

Organizacja badań statystycznych

Etapy wstępne badania statystycznego:

  • ustalenie celu i metody (pełne częściowe);

  • określenie zbiorowości i jednostki badania;

  • określenie cech/wartości cech podlegających gromadzeniu (*definiowanie/klasyfikacja**) oraz sposobu pomiaru;

  • zdefiniowanie jednostki sprawozdawczej (od kogo pozyskamy dane).

Klasyfikacja to ustalenie (wyodrębnienie) wariantów cechy. Cechy/wartości cech nie mogą być wymyślane ad hoc ale (w imię porównywalności) powinny być definiowane z użyciem powszechnie stosowanych słowników/taksonomii/klasyfikacji (TERYT, PESEL, EKD)

Kto to jest turysta? Co to jest hotel? Co to jest las?

Pomiar (obserwacja). Materiał pierwotny (dane zgromadzone specjalnie dla celów badania), materiał wtórny (dane zgromadzone z innych powodów ale przydatne do badania statystycznego; dane rejestrowane). Wg Sobczaka: większą wartość mają materiały pierwotne, ponieważ są aktualne, gromadzone z określoną dokładością i nie są obciążone zbytecznymi informacjami. Powyższe można uznać za mocno nieaktualne. Współcześnie dane z rejestrów są coraz zarówno lepsze jakościowo jak i dominują ilościowo (Facebook/Google, którego wszyscy się boją:-)).

Dane statystyczne

Dane pojęcie zwykle niedefiniowane na zasadzie jaki jest koń każden widzi. Mówiąc konkretnie: symbole w tym liczby.

Dane statystyczne to dane dotyczące różnych sfer życia; a że życie jest skomplikowane to należy te dane jakoś uporządkować. To porządkowanie nazywa się klasyfikowaniem

Classifications group and organize information meaningfully and systematically into a standard format that is useful for determining the similarity of ideas, events, objects or persons. The preparation of a classification means the creation of an exhaustive and structured set of mutually exclusive and well-described categories, often presented as a hierarchy that is reflected by the numeric or alphabetical codes assigned to them.

Klasyfikacje grupują i organizują dane dotyczące pojęć, obiektów, czy ludzi w sposób sensowny, systematyczny i standardowy. Klasyfikacja musi być wyczerpująca (każda jednostka musi być sklasyfikowana); wzajemnie wykluczające się (jednostka nie może być zakwalifikowana do więcej niż jeden raz.)

Standard statistical classifications are needed to define and describe economic and social processes.

Ze względu na strukturę klasyfikacje mają dwie postacie: płaskie (płeć) lub hierarchiczną (działalności gospodarczej NACE)

Statystyka medyczna: sposoby pomiaru danych / organizacja badania

Sposób pomiaru/organizacja badania ma zasadnicze znaczenie dla interpretacji wyników.

Przykład: spożywanie kawy w czasie sesji egzaminacyjnej skutkuje lepszą oceną. W celu oceny prawdziwości takiej tezy przeprowadzono badanie wśród studentów pytając ich o to ile kawy pili w czasie sesji i zestawiając te dane z wynikami egzaminów. Średnie wyniki w grupie studentów pijących dużo kawy były wyższe w grupie pijącej mało. Czy można powiedzieć że udowodniono iż picie dużej ilości kawy poprawia wynik egzaminu?

Rodzaje badań: eksperymentalne vs obserwacyjne

Eksperyment kontrolowany (zrandomizowany lub nie): służy do weryfikacja związku przyczyna-skutek. Skutek może być rezultatem działania wielu czynników (zmiennych). Eksperymentator manipuluje wielkością przyczyn (zmiennych niezależnych) oraz mierzy wielkość skutku (zmiennej zależnej); Wszystkie pozostałe czynniki (zmienne ukryte) są kontrolowane (w tym sensie, że ich wpływ na skutek jest ustalony.

Pomiarowi/manipulacji podlega zbiór jednostek podzielonych losowo na dwie grupy: grupa eksperymentalna (experimental group) oraz grupa kontrolna (control group)

Przykład: można przypuszczać że oprócz kawy na wynik egzaminu ma wpływ np. wrodzone predyspozycje w dziedzinie intelektualnej; aby kontrolować ten czynnik można podzielić losowo grupę studentów; dzięki czemu średnia wielkość predyspozycji w obu grupach będzie podobna. Następnie zalecamy studentom w grupie eksperymentalnej picie 1l kawy dziennie a studentom w grupie kontrolnej podajemy 1l wody. Średnie wyniki w grupie studentów pijących 1l kawy były wyższe w grupie pijącej wodę. Czy można powiedzieć że udowodniono iż picie dużej ilości kawy poprawia wynik egzaminu?

Badania kliniczne także dzielą się na eksperymentalne vs obserwacyjne. Eksperyment nazywa się RCT (randomized clinical trial/randomizowane kontrolowane badania kliniczne.) Manipulacja określana jest jako ekspozycja (exposure) albo leczenie (treatment) Zmienne ukryte określa się mianem confunding factors (czynniki zakłócające)

Badania obserwacyjne można z kolei podzielić na analityczne i opisowe.

W badaniach analitycznych porówuje się grupę kontrolną z grupą poddaną ekspozycji/leczeniu; w badaniach opisowych nie ma grupy kontrolnej.

Badania analityczne dzielimy dalej na kohortowe, kliniczno-kontrolne oraz przekrojowe.

Badanie kohortowe (cohort study): wieloletnie badania na dużej grupie jednostek; następstwo czasu: od ekspozycji do wyniku (choroby) Problem: koszty (np. choroby rzadkie wymagają ogromnych kohort).

Badanie kliniczno-kontrolne (case-control study): restrospektywna ocena ekspozycji dla jednostek, u których stwierdzono wynik (chorobę); grupę kontrolną tworzą dopasowane jednostki u których wyniku nie stwierdzono (dopasowane w sensie: podobne) Problem: chorzy mają lepszą pamięć (recall bias) + trudności z dopasowaniem

Badanie przekrojowe (cross-sectional study): badanie związku między wynikiem a ekspozycją Problem: nie określa związku przyczyna-skutek

Badanie ekologiczne: badanie (przekrojowe) zależności pomiędzy danymi zagregowanymi a nie indywidualnymi. Przykładowo zależność pomiędzy przecietną wielkością GDP a oczekiwaną długością życia np. na poziomie kraju. Problem: błąd ekologizmu (ecological fallacy)

Badania prospektywne/retrospektywne

Badania niestatystyczne: przegląd systematyczny, metaanaliza

Typy danych

Nominalne (w tym binarne)

Kwestionariusze i skale pomiarowe

Przykład: wypalenie zawodowe

http://oipip.gda.pl/wiedza-i-rozwoj/badania-ankiety/ankieta-dotyczaca-wypalenia-zawodowego-wsrod-personelu-pielegniarskiego-w-trakcie-pandemii-covid/

Komputerowa reprezentacja danych

Format tekstowy: dane składają się ze znaków alfanumerycznych podzielonych na wiersze (za pomocą umownego znaku końca wiersza.) Odpowiednik elektronicznego maszynopisu. Formaty inne niż tekstowe nazywa się binarnymi.

Dane w statystycznych bazach danych są udostępniane w zasadzie w trzech formatach CSV (tekstowy); arkusza kalkulacyjnego Excel oraz JSON.

Dane surowe i czyste (raw vs tidy data)

Kropka dziesiętna vs przecinek

Odstępy oddzielające grupy cyfr (1 000)

Dane brakujące

Różnego rodzaju dopiski i wyjaśnienia

Ujednolicenie klasyfikacji (Chiny)

Zbędne agregaty

Format długi i szeroki

Typowo dane w każdym pakiecie statystycznym mają postaci tabeli składającej się z wierszy i kolumn, czyli coś jak w arkuszu kalkulacyjnym, tyle że konkretnie co te wiersze zawierają to już może być różnie. Przykładowo wyobraźmy sobie tabelę dotyczącą otyłości mierzonej jako udział osób z BMI większym od 30 dla Polski w latach 1975–2016. Pierwsza kolumna zawierać może numer roku, a druga to odsetek osób. Dwie kolumny wystarczą. A jak zamiast dla Polski ogółem dane mają dotyczyć województw? A wtedy zamiast 2 kolumn potrzeba 16 kolumn dla województw no i tej pierwszej z numerem roku. A jak zbiór ma zawierać dane dla kobiet i mężczyzn osobno? Wtedy oczywiście tabela będzie zawierać 32 + 1 = 33 kolumny.

Można też inaczej/bardziej ogólnie: każdy (statystyczny) zbiór liczb ma trzy wymiary: czasowy, przestrzenny i przedmiotowy (kiedy/gdzie/co) Jeżeli na każdy wymiar przeznaczymy jedną kolumnę + jedną na wartość liczbową odpowiadającą kombinacji wartości wymiarów, to zamiast dodawania kolumn będziemy wypełniać wiersze: rok, województwo, bmi (3 kolumny zamiast 17) lub rok, województwo, płeć, bmi (4 kolumny zamiast 33) itd…

Pierwszy układ określa się jako wide (kolumny odpowiadają wartościom wymiarów); drugi jako long (kolumny odpowiadają wymiarom)

W zależności od tego do czego chcemy dane później wykorzystać, to lepiej nadaje się format wide albo long.

Bazy danych

Eurostat

Punkt startu: https://ec.europa.eu/eurostat/data/database baza główna/komplet danych znajduje się w dziale Database by themes (Tables by themes i poniższe działy zawierają wybrane ważniejsze dane z bazy głównej)

Aby dotrzeć do danych trzeba przeklikać się przez obszary/działy/poddziały tematyczne. Przykładowo może to być Population and Social conditionsDemography and MigrationMortality Trzy ikony na początku wiersza oznaczają, że dotarliśmy do tabeli danych. Kliknięcie w żółtą ikonę ZIP powoduje pobranie kompletnej tabeli (może być duża); kliknięcie w ikonę Eksplorera (ikona z lupą) spowoduje wyświetlenie danych z możliwością wyboru tego co chcemy oglądać. Po ikonach jest tytuł tabeli a po tytule (w nawiasach) Identyfikator tabeli

Po kliknięciu w ikonę Eksplorera wyświetlone zostanie okno podobne do tego:

Okno podzielone jest na 4 panele: menu (duże ikony nad poziomą niebieską kreską), wybór zawartości (*table customization), treść oraz objaśnienia. Panel wyboru zawartości zawiera pola wyboru pozwalające na określenie co ma być wyświetlone (klikamy w ikonę niebieskiego plusa żeby wyświetlić formularz wyboru możlwiych wartości). Tyle jest pól wyboru ile jest wymiarów danych; w przykładzie powyżej są cztery wymiary: kiedy (time), gdzie (geo), co (month) oraz miara (unit). Dla każdej kombinacji wymiarów wyświetlony zostanie stosowny zbiór wartości (proszę spróbować), który następnie może zostać pobrany (ikona download z panelu menu)

Kompletną bazę można pobrać bez potrzeby klikania podając identyfikator bazy (znajdujący się na górze po prawej stronie panelu wyboru zawartości w nawiasach kwadratowych). Przykładowo:

## identyfikator bazy to demo_mmonth
curl 'https://ec.europa.eu/eurostat/estat-navtree-portlet-prod/BulkDownloadListing?file=data/demo_mmonth.tsv.gz'

Baza WHO

Punkt startu: World Health Data Platform /GHO /Themes /Topics /Indicator Groups (https://www.who.int/data/gho/data/themes/topics/indicator-groups/); Lista wskaźników: https://www.who.int/data/gho/data/indicators/

Przykładowo: https://www.who.int/data/gho/data/indicators/indicator-details/GHO/gho-ghe-life-tables-lx-number-of-people-left-alive-at-age-x. Opis każdego wskaźnika jest w zakłace Metadata. Zestawienie wszystkich opisów: https://www.who.int/data/gho/indicator-metadata-registry

Jest też API ale kiepsko opisane i chyba nie do końca funkcjonalne. W szczególności: pobranie zestawienia wskaźników (bez opisów ale są etykiety do tabel):

## Api ODATA API (json)
curl https://ghoapi.azureedge.net/api/Indicator
## albo (Athena API)
curl https://apps.who.int/gho/athena/api/GHO
## Id wskaźnika + tytuł (żeby się połapać co to jest):
curl https://apps.who.int/gho/athena/api/GHO?format=csv&profile=text

Z tego zestawienia można wykoncypować, że lx-number-of-people-left-alive-at-age-x to tablica identyfikowana jako LIFE_0000000031:

curl 'https://apps.who.int/gho/athena/api/GHO/LIFE_0000000031?format=csv > WHO_LT_lx.csv
## zwraca zero bo (Przypuszczalnie) za dużo naraz
## dodanie warunku pomaga:
curl 'https://apps.who.int/gho/athena/api/GHO/LIFE_0000000031?format=csv&filter=COUNTRY:POL' > WHO_LT_lx_PL.csv
## ale dalej zapytanie, które generuje dużo danych skutkuje błędem:
curl 'https://apps.who.int/gho/athena/api/GHO/LIFE_0000000031?format=csv&filter=YEAR:2019' > WHO_LT_lx_2019.csv

Opis API jest tutaj https://www.who.int/data/gho/info/athena-api oraz https://www.who.int/data/gho/info/athena-api-examples. Baza wszakże wygląda na mocno dysfunkcjonalną skoro pobranie większej ilości danych wygląda na niemożliwe.

FAO

Agenda ONZ zajmująca się rolnictwem i wyżywieniem. Punkt startu: http://www.fao.org/faostat/en/#home

Można pobrać całość w postaci archiwum zip (1Gb) kilkając w prostokąt z napisem Bulk Download. Klikając w Explore data przechodzimy do strony–spisu treści działów bazy FAO.

Ciekawym działem jest FoodBalance czyli Bilans Żywnościowy. Pomijając (na razie) na ile są to wiarygodne dane FB zawiera szczegółowe dane dotyczące spożycia różnych kategorii żywoności w poszczególnych krajach świata.

Pierwsza pozycja New Food Balances to bilans żywności wg nowej metodologii (stosowanej od 2014 roku); druga to bilans liczony wg starej metodologii (do 2013 roku)

GUS

Punkt startu: http://demografia.stat.gov.pl/bazademografia/ a także Bank Danych Lokalnych https://bdl.stat.gov.pl/BDL/dane/podgrup/temat

Aby dotrzeć do danych trzeba klikać w obszary/działy/poddziały aż duży niebieski guzik ze słowem Dalej stanie się klikalny:

Wtedy klikamy w Dalej przechodząc do formularza wyboru zawartości (tego co ma być wyświetlone):

i wybieramy co chcemy oglądać (wymiary) deklarując stosowne wartości w wyświetlonych listach wyboru (w przykładzie Lata/Płeć/Wiek). Po zadeklarowaniu każdego wymiaru guzi dalej stanie się klikowalny. Po jego naciśnięciu przechodzimy do formularza wyboru wymiaru przestrzennego: poziomu agregacji danych (Polska, województwa, powiaty a nawet gminy). Kilkamy dalej:

Dane zostają wyświetlone a naciskając guzik Eksport można jest pobrać w jednym z kilku proponowanych formatów.

GUS udostępnia także szczegółowe i aktualne dane na temat zgonów ze strony Zgony według tygodni (https://stat.gov.pl/obszary-tematyczne/ludnosc/ludnosc/zgony-wedlug-tygodni,39,2.html) Dane nt zgonów są udostępniane w formacie ogromnego arkusza Excela (XLSX), a bezpośredni link do arkusza to https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultaktualnosci/5468/39/2/1/zgony_wedlug_tygodni_v2.zip

US Census Bureau (dane demograficzne)

Czyli Amerykański Urząd ds Spis Ludności, ale udostępniający także różne inne ciekawe dane, w szczególności International Data Base (IDB) Population estimates and projections for 228 countries and areas https://www.census.gov/data-tools/demo/idb/#/country?YR_ANIM=2021

Ciekawostkowo ponieważ w USA mieszka trochę obywateli pochodzenia polskiego są strony w języku polskim (oprócz chińskiego, koreańskiego, wietnamskiego, rosyjskiego, francuskiego, portugalskiego, hiszpańskiego, arabskiego, filipińskiego, kreolskiego; nie ma włoskiego i niemieckiego natomiast:-)) a jakże: https://www.census.gov/newsroom/press-releases/2020/2020-census-data-collection-ending/2020-census-data-collection-ending-polish.html

Google Public Data Explorer

Eksplorator danych publicznych Google (Google Public Data Explorer) https://en.wikipedia.org/wiki/Google_Public_Data_Explorer

Google Public Data Explorer provides public data and forecasts from a range of international organizations and academic institutions including the World Bank, OECD, Eurostat and the University of Denver. These can be displayed as line graphs, bar graphs, cross sectional plots or on maps. The product was launched on March 8, 2010 as an experimental visualization tool in Google Labs.

In 2011 the Public Data Explorer was made available for anyone to upload, share and visualize data sets. To facilitate this, Google created a new data format, the Dataset Publishing Language (DSPL).

https://developers.google.com/public-data/docs/dspltools

https://github.com/google/dspl

DBnomics

DBnomics is a free platform to aggregate publicly-available economic data provided by national and international statistical institutions, but also by researchers and private companies. The value-added is a unique economic database with wide, systematic coverage of economic data.

https://db.nomics.world/

OWiD

Our World in Data to projekt edukacyjny mający na celu pokazanie research and data to make progress against the world’s largest problems (badań i danych w obszarze przeciwdziałania największym światowym problemom: głód, choroby, nierówność społeczna i inne; https://en.wikipedia.org/wiki/Our_World_in_Data albo https://pl.wikipedia.org/wiki/Our_World_in_Data) Nawiasem mówiąc takie postawienie sprawy powoduje zdaniem niektórych, że projekt nie tyle jest edukacyjny co indoktrynacyjny. Ma mianowicie pokazać, że świat idzie szybko w dobrą stronę. (Mocna krytyka tego projekt z tego punktu widzenia znajduje się tutaj: https://www.lareviewofbooks.org/article/pinkers-pollyannish-philosophy-and-its-perfidious-politics/ (Pinker’s Pollyannish Philosophy and Its Perfidious Politics) oraz tutaj: https://www.theguardian.com/commentisfree/2019/nov/22/progressive-politics-capitalism-unions-healthcare-education (It’s not thanks to capitalism that we’re living longer, but progressive politics))

OWiD udostępnia między innymi zbiory danych wyróżniające się wielkością. Są to z definicji dane dla wszystkich krajów świata, a do tego w horyzoncie czasowym idącym w setki lat, co w wielu przypadkach jest oczywistą lipą (obliczenie GDP dla Polski pod zaborami na przykład https://ourworldindata.org/economic-growth)

Mając to na uwadze i nie wchodząc w spory ideologiczne czemu służy projekt, po prostu korzystajmy z danych (zwłaszcza tych w miarę nowych, które dają większą gwarancję że są prawdziwe a nie szacowane–czytaj zgadywane)

Uwaga: OWiD to nie jest baza danych tylko zbiór dokumentów czyli stron WWW. W tych dokumentach znajdują się efektowne interaktywne wykresy plus komentarze i opisy tego co jest na wykresach oczywiście. Na dole każdego wykresu znajduje się zestaw guzików do wyboru tego co ma być wyświetlone ora guzik download służący do pobrania danych.

Punkt startu: https://ourworldindata.org/

Statistics vs Data science

Data science (DS) also known as data-driven science, is an interdisciplinary field of scientific methods, processes, algorithms and systems to extract knowledge or insights from data in various forms, either structured or unstructured.

Statistics: whether theoretically constructed model is confired by data. If confired OK. Data Science which model predicts data best (putting theory aside)

Data Science: huge data sets, often simple models; Statistics modest-size data but complicated models…

Data wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one raw data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics.

Statystyczny łańcuch wartości (SVC)

Serious statistical analysis is not one-off job. There is a value-chain as well as a life cycle of statistical analysis. Value chain means that there are distinct stages while life cycle that the same data/models are used for years and most statistical analysis do not start from the scrach but are based on data from the past augmented with new data. The problem is that the new data and model modifications should be in-sync with the past.

Arkusz kalkulacyjny a SVC

Arkusz kalkulacyjny != statystyka (jak widać; ale może być)

you go into data analysis with the tools you know, not the tools you need (oczywiste.) spreadsheets combine: data + logic (aka procedures) results (figures, formatted tables aka raport) + reactivity (pojęcie odnoszące się do interfejsu tj sposobu obsługi programu https://pl.qaz.wiki/wiki/Reactive_user_interface )

W tym sensie statystka = excel; ale to patologia jest

Karl W. Broman, Kara H. Woo (2017): Data organization in spreadsheets, The American Statistician, DOI: 10.1080/00031305.2017.1375989

http://www.eusprig.org/

https://bookdown.org/martin_monkman/DataPreparation_EssentialSteps/validation.html#elements-of-dirty-data

Afera Enrona (https://pl.wikipedia.org/wiki/Enron) https://people.engr.ncsu.edu/ermurph3/papers/icse-seip-15.pdf

Alternatywne narzędzia

github

R

Rstudio

Alternatwne podejścia: Reproducible research

google:“reproducible+research” (474 000 wyników 27/02/2021)

Replicability: independent experiment targetting the same question will produce a result consistent with the original study. Reproducibility: ability to repeat the experiment with exactly the same outcome as originally reported [description of method/code/data is needed to do so].

Literate programming concept: Code and description in one document. Create software as works of literature, by embedding source code inside descriptive text, rather than the reverse (as in most programming languages), in an order that is convenient for human readers.

A program is like a WEB tangled and weaved (turned into a document), with relations and connections in the program parts. We express a program as a web of ideas. WEB is a combination of – a document formatting language and – a program language.

General idea of Literate statistical programming mimics Knuth’s WEB system.

Statistical computing code is embedded inside descriptive text. Literate statistical program is weaved (turned) into report/paper by executing code and inserting the results obtained. data/method changes.

Prezentacja danych

Szereg statystyczny to zbiorowość statystyczna (populacja) uporządkowana (szereg szczegółowy) lub uporządkowana i pogrupowana (Szereg rozdzielczy) według określonych kryteriów (wariantów cechy).

Wg GUS (cf https://stat.gov.pl/metainformacje/slownik-pojec/pojecia-stosowane-w-statystyce-publicznej/2793,pojecie.html) Ciąg wielkości statystycznych, otrzymanych w wyniku obserwacji statystycznej lub pomiaru, uporządkowanych według określonych kryteriów (cech) – podstawowa forma prezentacji danych statystycznych.

Wg Sobczaka (s. 24): szereg rozdzielczy to zbiór wartości liczbowych uporządkowanych według wariantów badanej cechy mierzalnej lub niemierzalnej (?), przy czym poszczególnym wariantom zmiennej (?) przyporządkowne są odpowiadające im liczebności…

Jednocześnie Sobczak (s. 32) definiuje: rozkład empiryczny zmiennej to przyporządkowanie kolejnym wartościom zmiennej odpowiadających im liczebności. Rozkład odwierciedla strukturę badanej zbiorowości z punktu widzenia określonej cechy (TP: ze względu na chyba byłoby zręczniej)

Z teo wynika że rozkład emiryczny = ** szereg rozdzielczy ** = struktura zbiorowści (z dokładnością do wariant/wartość :-)).

Wyróżnia się następujące szeregi statystyczne: szereg szczegółowy, szereg rozdzielczy (strukturalny), szereg przestrzenny (geograficzny) i szereg czasowy (dynamiczny).

Szereg strukturalny – opis zbiorowości statystycznej w określonym momencie czasu (wiek nowożeńców w powiecie kwidzyńskim w 2019 roku); szereg czasowy – opis zbiorowości w pewnych okresach (strumieni) lub momentach (stan) czasu.

Liczba urodzeń w powiecie kwidzyńskim w latach 2000–2019 to szereg czasowy okresów (strumieni); w szczególności można dodać liczbę urodzeń w poszczególnych latach otrzymując łączną liczbę urodzonych w tym okresie.

Liczba zarejestrowanych pojazdów w powiecie kwidzyńskim w latach 2000–2019 to szereg momentów (stan); nie można sumować liczby zarejestrowanych samochodów, bo taka suma nie ma merytorycznie sensu. Można podać średnią–przeciętny stan zarejestrowanych samochodów w latach 2000–2019.

Szereg przestrzenny (geograficzny) – przedstawia rozmieszczenie wielkości statystycznych według podziału administracyjnego (gmina, powiat, województwo, itd).

Szereg strukturalny: rozkład wartości cechy; szereg czasowy: zmiana wartości w czasie; szereg przestrzenny rozkład cechy na powierzchni Ziemi.

Szereg rozdzielczy przestawia się zwykle w postaci tablicy statystycznej.

Szereg szczegółowy (przykład):

Gospodarstwa domowe wg liczby samochodów

0 0 0 0 0 0 0 ... 1 1 1 1 1 1 1 1 ...

Szereg rozdzielczy dla cechy niemierzalnej:

Tablica 1. Struktura próby mieszkańców wg wykształcenia

Wykształcenie liczba osób odsetek w %
-------------------------------------
podstawowe i gimnazjalne 130  13,0
zawodowe                 272  27,2
średnie                  444  44,5
wyższe                   153  15,3
Ogółem                   999 100,0

Szereg rozdzielczy punktowy:

Gospodarstwa domowe wg liczby samochodów

Liczba samochodów    Liczba gospodarstw
---------------------------------------
0                      230
1                      280
2                       70
3 i więcej               5
Razem                  585

Szereg rozdzielczy przedziałowy:

Studenci według czasu wolnego

Czas wolny w min.     Liczba osób
--------------------------------
30,1 - 60                      3
60,1 - 90                      4
90,1 - 120                     6
120,1 - 150                    5
150,1 - 180                    3
180,1 - 210                    1
Razem                         22

Budowa tablic statystycznych: 1. Część liczbowa (kolumny i wiersze); 2. Część opisowa: – tytuł tablicy; nazwy wierszy; nazwy kolumn; – źródło danych; – ewentualne uwagi odnoszące się do danych liczb.

Rozkład empiryczny

Przypomnijmy: : rozkład empiryczny zmiennej to przyporządkowanie wartościom zmiennej odpowiadających im liczebności.

Jak taki rozkład wygląda?

Rozkład wiek laureatów nagrody Nobla (od 1901 roku do 2018, N=934). Rozkład wieku zawodników którzy brali udział w turniejach o Puchar Świata w Rugby w latach 1999-2019 (N= 3649).

Rozkłady powiatów w Polsce wg powierzchni (stan na 2017, N=380); bez powiatów miejskich po prawej (N=380 - 66)

Rozkład powiatów Polsce wg liczby hoteli (stan na 2017, N=380) Rozkład elektrowni w Niemczech/Francji/Wlk Brytanii wg mocy (Mgw, stan na 2019, N=4586)

Wizualizacja danych i wykresy

Wykresy statystyczne są graficzną formą prezentacji materiału statystycznego, są mniej precyzyjne i szczegółowe niż tablice, natomiast bardziej sugestywne.

Rodzaje wykresów (podział ze względu na zastosowanie):

Jedna cecha

szeregi strukturalne: punktowe, słupkowe, histogram, pudełkowe, kołowe; szeregi czasowe: liniowe, słupkowe, punktowe; szeregi przestrzenne: kartogramy.

Dwie cechy

wykres rozrzutu (scatter-plot), liniowy

Analiza struktury

Pojęcia wstępne

Analiza struktury – opisane zbiorowości ze względu na obserwowane w badaniu cechy zmienne.

Podstawę do oceny struktury zbiorowości stanowią dane w postaci szeregu szczegółowego, bądź też pogrupowane (szereg rozdzielczy)

Analizę prowadzić można na podstawie wykresów, szeregów rozdzielczych oraz (najczęściej) za pomocą odpowiednio obliczonych charakterystyk, zwanych parametrami (dla populacji) lub statystykami (dla próby).

Rozkład cechy – przyporządkowanie liczby wystąpień (liczebności, częstości lub prawdopodobieństwa) odpowiednim wartościom cechy zmiennej.

Analiza struktury obejmuje: określenie tendencji centralnej (tzw. miary położenia / wartość przeciętna, mediana, dominanta); zróżnicowanie wartości (rozproszenie); asymetrię (rozłożenie wartości wokół średniej); koncentrację (podział wartości cechy pomiędzy jednostki)

Wykresy

Celem jest pokazanie rozkładu wartości cechy w populacji: jakie wartości występują często a jakie rzadko, jak bardzo wartości różnią się między sobą. Jak różnią się rozkłady dla różnych ale logicznie powiązanych populacji (np rozkład czegoś-tam w kraju A i B albo w roku X, Y i Z). Do tego celu stosuje się: histogram (albo wykres słupkowy dla skal nominalnych), wykres punktowy, wykres pudełkowy oraz kołowy. Omówimy je na przykładach

Przykład 1: Dzietność kobiet na świecie

Współczynnik dzietności – przeciętna liczba urodzonych dzieci przypadających na jedną kobietę w wieku rozrodczym (15–49 lat). Przyjmuje się, iż FR między 2,10–2,15 zapewnia zastępowalność pokoleń.

Plik fertility_rate_2003_2018.csv (źródło: https://ourworldindata.org/grapher/fertility-rate-complete-gapminder) zawiera wartości współczynnika w roku 2003 oraz 2018 (czyli po 15 latach) dla 202 krajów.

Do oceny rozkładu wartości zmiennej służy histogram (por https://pl.wikipedia.org/wiki/Histogram). Jeżeli umieścimy obok siebie dwa (lub więcej) histogramy, możemy w ten sposób porównać (wizualnie) dwa rozkłady:

Kształt histogramu zależy od wyboru rozpiętości przedziału; im przedział węższy tym więcej słupków (ale ich wysokość będzie mniejsza). Poniżej przedstawiono ten sam rozkład dla rozpiętości przedziału równej odpowiednio 0,1, 0,25 oraz 0,5:

Dlatego jeżeli porównujemy różne rozkłady za pomocą umieszczonych obok siebie histogramów to powinny one mieć: tę samą rozpiętość przedziałów, te same skale na obu osiach.

Istnieją wzory na optymalną liczbę przedziałów ale nalepszą metodą jest metoda prób i błędów.

Czasami jeżeli liczebność populacji nie jest za duża można spróbować przedstawić rozkład cechy na wykresie punktowym:

Porównanie wielu rozkładów

Jeżeli używamy histogramu to w zasadzie jedyną opcją jest wykreślenie każdego histogramu oddzielnie a następnie umieszczenie ich obok siebie. Wyjątkowo można spróbować wykreślić dwa na jednym wykresie (jeżeli program, którym się posługujemy umożliwia rysowanie kolorem przeźroczystym):

Łącznie na jednym wykresie (wykres punktowy):

Przykład 2: Wykresy kołowe (Pie charts), wykresy punktowe (dot plots), histogram

Dane pochodzą z bazy danych Eurostatu są dostępne pod adresem https://appsso.eurostat.ec.europa.eu/nui/show.do?dataset=tour_occ_nim&lang=en

Nights spent at tourist accommodation establishments by non residents (id tabeli: tour_occ_ninat) czyli po polsku Noclegi udzielone w turystycznych obiektach noclegowych (https://ec.europa.eu/eurostat/web/products-datasets/-/tin00175; https://stat.gov.pl/metainformacje/slownik-pojec/pojecia-stosowane-w-statystyce-publicznej/1233,pojecie.html; https://stat.gov.pl/en/metainformations/glossary/terms-used-in-official-statistics/1233,term.html) Poniższy rysunek przedstawia typową tabelę (wielowymarową) z danymi dotyczącymi wykorzystania miejsc noclegowych w krajach UE.

Nagłówek tabeli: TIME, GEO, Unit of measure, Classification of economic activities, Country of residencie definiuje cechy stałe zbiorowści statystycznej. Dla każdej cechy zwykle możliwy jest wybór z kilku dostępnych wariantów. Tabela na rysunku przedstawia dane roczne, dla krajów UE, dotyczące liczby noclegów w hotels, holidays and other short-stay accomodations, camping grounds, recreational vehicle parks and trailes parks (Hotele, Obiekty noclegowe turystyczne i miejsca krótkotrwałego zakwaterowania, Pola kempingowe, włączając pola dla pojazdów kempingowych i pola namiotowe; https://ec.europa.eu/eurostat/ramon/nomenclatures/index.cfm). Skrót NACE oznacza klasyfikację działalności gospodarczej, która służy do określenia jakie miejsca noclegowe są uważane za turystyczne (bo to nie jest oczywiste).

Liczbę noclegów dla 10 najczęściej odwiedzanych przez turystów krajów (oraz dla reszty oznaczonej jako Rest28) przestawiono na wykresie kołowym (https://pl.wikipedia.org/wiki/Diagram_ko%C5%82owy). Wielkość każdego wycinka koła (pole tego wycinka albo, kąt) jest proporcjonalna do liczby noclegów w danym kraju. Stąd wykres kołowy wizualizuje udział (popularnie zwany procentem) każdego wycinka w całości. Możemy dodać etykiety zawierające albo ów udział (prawy wariant na przykładzie poniżej); albo oryginalne liczby.

Wykres pokazuje dobitnie wszystkie wady wykresu kołowego: niemożliwe jest określnie różnic pomiędzy wycinkami, chybna że różnice te są ogromne. Np niemożliwe jest ustalenie czy jak bardzo różni się udział w UK i Francji. Albo czy liczba noclewgów w Austrii jest mniejsza/większa/równa niż w Niemczech, itd… Jeżeli dodamy liczby to sprawa się wyjaśni (prawy wariant) tylko po co wtedy rysunek?

Znacznie bardziej efektywne są wykresy punktowe (lewy) lub słupkowe (prawy):

Dużo lepiej widać różnice pomiędzy krajami. Niepotrzebna jest legenda. Nazwy krajów są na osi OY, liczba noclegów na osi OX. Na wykresie kołowym albo w wycinku mieściła się nazwa kraju albo procent nie było miejsca dla obu, stąd potrzebna była legenda (utrudniająca interpretację)

Wniosek: każdy wykres kołowy można i TRZEBA zamienić na słupkowy. Wykresów kołych nie należy stosować bo są znacznie gorszym sposobem wizualizacji informacji niż słupkowe.

Przykład 3: Wykres pudełkowy

Uwaga: poniższy opis wykresu pudełkowego zawiera pojęcia jeszcze nie wyjaśnione (kwartyle, mediana, rozproszenie i IQR), które opisano dokładanie dalej, w punktach miary położenia/miary zmienności.

Konstrukcja pudełka na wykresie: górny/dolny bok równy kwartylom, a linia pozioma w środku pudełka równa medianie; linie pionowe (zwane wąsami) mają długość równą Q1 minus 1,5 IQR oraz Q3 plus IQR (Q1, Q3 to kwartyle, IQR to odstęp między kwartlowy; co to jest kwartyl, mediana i odstęp międzykwartylowy jest wyjaśnione poniżej); Linia pozioma w połowie pudełka określa przeciętny poziom zjawiska; wysokość pudełka/wąsów określa zmienność (im większe wąsy/wysokość tym większa zmienność). Obserwacje nietypowe (czyli takie których wartość jest albo mniejsza od \(Q1 - 1,5IQR\) albo większa od \(Q3 + 1,5IQR\))są zaznaczana indywidualnie jako kropki nad/pod wąsami.

Ze strony komiteu Noblowskiego pobrano listę Laureatów Nagrody Nobla Wiek laureatów nagrody Nobla w momencie przyznania nagrody (ponad 900 laureatów; plik nobel_laureates3.csv):

Najstarsi przeciętnie: ekonomia; najmłodsi przeciętnie: fizyka. Najmniejsze zróżnicowanie: ekonomia; największe zróżnicowanie: fizyka. Nie ma szans na nobla (koniec dolnego wąsa) przed pięćdziesiątką w ekonomii, przed 40-tką w literaturze, przed trzydziestką w chemii, medycynie i nagrodzie pokojowej.

Wykres niezwykle użyteczny do porównywania różnic w rozkładach wartości cechy.

Przykład 4: Zaufanie do Politykow

CBOS realizuje co najmniej 12 razy w roku sondaż “Aktualne problemy i wydarzenia”, na reprezentatywnej ok. 1000-osobowej próbie dorosłych mieszkańców Polski. (cf https://www.cbos.pl/PL/trendy/trendy.php?)

Częścią tych badań jest badanie zaufania do Polityków. Które to zaufanie jest mierzone w taki sposób, że respondenci odpowiadają na jedno pytanie, które brzmi: Ludzie aktywni publicznie – swoim zachowaniem, tym, co mówią, do czego dążą – budzą mniejsze lub większe zaufanie. Przedstawimy teraz Panu(i) listę osób aktywnych w życiu politycznym naszego kraju. O każdej z nich proszę powiedzieć, w jakim stopniu budzi ona Pana(i) zaufanie. Odpowiadając, proszę posłużyć się skalą, na której –5 oznacza, że osoba ta budzi w Panu(i) głęboką nieufność, 0 – że jest ona Panu(i) obojętna, a +5 oznacza, że ma Pan(i) do tej osoby pełne zaufanie. Oczywiście może się Pan(i) posługiwać innymi ocenami tej skali. Jeżeli kogoś Pan(i) nie zna, proszę powiedzieć

Odsetki badanych wyrażających zaufanie – wskazania punktów od +1 do +5, nieufność – wskazania punktów od –1 do –5, obojętność – 0

W zestawieniu CBOS pomija odpowiedzi „trudno powiedzieć” i odmowy odpowiedzi.

Analiza CBOS (przykład raportu jest w pliku zaufanie_do_politykow_CBOS_2019.pdf) posługuje się skumulowanym wykresem słupkowym (stacked barchart):

Skumulowany wykres słupkowy jest w zasadzie jest wykresem kołowym, tyle że zamiast kółek są prostokąty (cf https://eagereyes.org/techniques/stacked-bars-are-the-worst). Można łatwo porównywać łączną wartość albo wartość przedstawioną za pomocą pierwszego słupka (bo mają wspólną linię dla wartości zero, common baseline). Pozostałe słupki nie są oparte o wspólną linię zerowej wartości i w związku z tym porównanie ich wartości jest trudne. W przykładzie każdy słupek ma 3 kategorie a już jest trudno wskazać czy nieufność do Pawła Kukiza jest większa czy mniejsza od nieufności do Roberta Biedronia. Gorzej wykres sugeruje, że nieufność do Biedronia jest większa niż do Kukiza, podczas gdy w rzeczywistości jest odwrotnie. Podobnie trudno jest określić dla konkretnego polityka czy zaufanie jest większe od nieufności albo o ile jest większe (lub mniejsze)..

Można trochę poprawić wykres jeżeli wartości podzielimy na ujemne/dodatnie (wykres po prawej). Można ale po co? Najlepiej po prostu wykreślić oddzielne wykresy słupkowe dla każdej kategorii czyli wykreślić słupki z każdej kategorii oddzielniem na wspólnej linii zera:

Wykres kołowy kolejny raz jest najmniej przydatny. Niemożliwe albo bardzo trudne jest zorientowanie się w różnicach odsetka zaufania/nieufności/nieznajmości dla poszczególnych kandydatów:

Można spróbować połączyć wykres punktowy z wykresem słupkowym:

Patrząc na słupki można ocenić nieznajomość; patrząc na kropki zaufanie/nieufność. W porówaniu do skumulowanego wykresu słupkowego zarówno łatwe jest porównanie poziomów każdego czynnika dla wszystkich ocenianych polityków, jak i porównanie dla konkretnego polityka (czy zaufanie jest większe od nieufności albo o ile jest większe/mniejsze). Ale uwaga jeżeli liczba wymiarów będzie większa niż trzy wykres straci na przejrzystości zamieniając się w chmurę różnokolorowych kropek.

Przykład 5: Marimekko mosaic chart

Analiza parametryczna

Miary położenia

Miary przeciętne charakteryzują średni lub typowy poziom wartości cechy. Są to więc takie wartości, wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy.

Na rysunku po lewej mamy dwa rozkłady różniące się poziomem przeciętnym (czerwony ma przeciętnie mniejsze wartości niż turkusowy). Są to rozkłady jednomodalne, tj. wartości skupiają się wokół jednej wartości. Dla takich rozkładów ma sens obliczanie średnich.

Na rysunku po prawej mamy rozkłady nietypowe: wielomodalne (turkusowy) lub niesymetryczne (wartości skupiają się nie centralnie ale po prawej/lewej od środka przedziału zmienności).

W świecie rzeczywistym zdecydowana większość rozkładów jest jednomodalna.

Klasyczne (średnia arytmetyczna) i pozycyjne (mediana, dominanta, kwartyle, kwantyle, decyle).

Średnia artmetyczna (Mean, Arithmetic mean). Oblicznie średniej dla szeregu prostego (suma wartości podzielona przez liczbę składników sumy): \[ \bar x = \frac{\sum_{i=1}^N x_i} {N} \]

Mediana (Median, kwartyl drugi) dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me. Stąd też mediana bywa nazywana wartością środkową.

Właśności mediany – odporna na wartości nietypowe (w przeciwieństwie do średniej)

Przykład: współczynnik dzietności na świecie w roku 2018

Średnia wartość współczynnika 2.6778607; mediana – 2.2. Interpretacja średniej: wartość współczynnika dzietności wyniosła 2.6778607 dziecka. Uwaga: średnia dzietność na świecie nie wynosi 2.6778607 (bo kraje różnią się liczbą ludności). Interpretacja mediany: dzietność kobiet w połowie krajów na świecie wynosiło 2.2 i mniej. Uwaga: dzietność połowy kobiet na świecie wyniosła 2.2 i mniej jest niepoprawną interpretacją (różne wielkości krajów.)

Generalna uwaga: interpretacja średniej-średnich często jest nieoczywista i należy uważać. (a współczynnik dzietości jest średnią: średnia liczba dzieci urodzonych przez kobietę w wieku rozrodczym. Jeżeli liczymy średnią dla 202 krajów, to mamy średnią-średnich). Inny przykład: odsetek ludności w wieku poprodukcyjnym wg powiatów (średnia z czegoś takiego nie da nam odsetka ludności w wieku poprodukcyjnym w Polsce, bo powiaty różnią się liczbą ludności.)

Dominanta (Mode, Moda, wartość modalna, wartość najczęstsza) jest to wartość cechy statystycznej, która w szeregu empirycznym występuje najczęściej. W szeregach prostych i rozdzielczych jest to wartość cechy, której odpowiada największa liczebność (częstość).

Kwartyle (Q, quartile, \(Q_1\), \(Q_3\)) – wartości cechy dla jednostek dzielących populację na cztery równe części. Kwartyl pierwszy dzieli populację w proporcji 25/75%, kwartyl drugi w proporcji 50/50%, a kwartyl trzeci w proporcji 75/25%. kwantyle (D, wartości dziesiętne), podobnie jak kwartyle, tyle że dzielą na 10 części. Centyle (P, wartości setne), podobnie jak kwantyle tyle że dzielą na 100 części. Przykładowo wartość 99 centyla i mniejszą ma 99% jednostek w populacji.

Miary zmienności

Wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności (Pearsona)

Wariancja (variance) jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej zbiorowości.

Oblicznie wariancji dla szeregu prostego:

\[ S^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \bar x)^2 \]

często zamiast dzielenie przez \(N\) dzielimy przez \(N-1\).

Odchylenie standardowe (standard deviation, sd) jest pierwiastkiem kwadratowym z wariancji. Parametr ten określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej.

Współczynniki pozycyjne. Odchylenie ćwiartkowe (Q, midhinge): \[ Q = \frac{Q_3 - Q_1}{2} \] i rozstęp ćwiartkowy (interquartile range, IQR): \[ R_Q = Q_3 - Q_1 \]

Współczynnik zmienności jest ilorazem bezwzględnej miary zmienności cechy i średniej wartości tej cechy. W analizie struktury korzysta się z różnych miar położenia i zmienności, dlatego są współczynniki zmienności klasyczne i pozycyjne.

Współczynniki klasyczne:

\[ V_s = \frac{s}{\bar x}\qquad \textrm{lub}\qquad V_d = \frac{d}{\bar x} \] pozycyjne \[ V_Q = \frac{Q_3 - Q_1}{\textrm{Me}} \] albo (Quartile coefficient of dispersion): \[ V_Q = \frac{Q_3 - Q_1}{Q_3 + Q_1} \]

Współczynnik zmienności jest wartością niemianowaną. Wartości liczbowe współczynników zmienności najczęściej są podawane w procentach. Przyjmuje się, że jeżeli współczynnik zmienności jest poniżej 10%, to cechy wykazują zróżnicowanie statystycznie nieistotne. Duże wartości tego współczynnika świadczą o dużym zróżnicowaniu, a więc niejednorodności zbiorowości.

Współczynnik zmienności stosuje się zwykle w porównaniach, gdy chce się ocenić zróżnicowanie: kilku zbiorowości pod względem tej samej cechy, tej samej zbiorowości pod względem kilku różnych cech.

UWAGA: ten współczynnik może dawać dziwne rezulataty jeżeli średnia wynosi zero (niezdefiniowany), jest ujemna lub jest bliska zera; zwłaszcza jeżeli użyjemy skali przedziałowej. Przykład:

Średnie temperatury miesięczne. Sopot, Polska

mc   2010    2011    2012    2013    2014    2015    2016    2017    2018    2019       Tm  Sm      Vm
01  -5.36   -0.41   -0.37   -1.77   -2.27    1.53   -2.39   -1.16    0.62   -0.31   -0.74   2.23 -299.54
02  -1.08   -3.19   -3.31   -0.13    2.55    1.44    2.72   -0.08   -2.56    3.27   -0.04   2.36 -6658.52
03   3.65    2.83    5.04   -0.87    6.09    4.91    4.09    5.04   -0.07    5.26   3.60    2.21    61.57
04   7.47    9.47    7.59    6.55    9.37    7.94    8.30    6.70   10.43    8.62   8.25    1.19    14.37
05  10.85   12.78   13.11   14.10   12.82   12.01   14.37   12.77   15.40   11.56   12.98   1.29    9.95
06  16.06   17.65   14.91   17.15   15.37   15.36   17.62   16.18   17.51   20.03   16.78   1.45    8.65
07  20.49   18.11   18.07   18.53   20.51   17.52   18.51   16.84   20.20   17.17   18.59   1.29    6.94
08  18.71   17.58   17.66   18.11   17.70   19.47   17.36   17.53   19.46   18.65   18.22   0.76    4.15
09  13.03   14.79   13.91   12.38   14.41   14.16   15.53   13.47   15.04   13.69   14.04   0.90    6.44
10   6.24    9.27    8.23    9.93    8.78    7.78    7.76   10.05   10.17    9.70   8.79    1.21    13.81
11   4.54    4.54    5.03    5.50    4.89    6.01    3.51    4.76    4.88    5.27   4.89    0.63    12.83
12  -5.03    3.00   -1.70    3.40    1.02    4.56    2.67    2.18    2.05    3.54   1.57    2.73    174.09

Tm -- średnia dla lat 2010-2019
Sm -- odchylenie standardowe dla lat 2010--2019
Vm -- współczynnik zmienności tj Vm = Sm / Tm * 100

Dla lutego współczynnik zmienności przymuje absurdalną wartość 6 tysięcy (procent). Do tego na minus.

Miary asymetrii

Asymetria (skewness), to odwrotność symetrii. Szereg jest symetryczny jeżeli jednostki są rozłożone ,,równomiernie’’ wokół wartości średniej: \[ \bar x = \textrm{Me} = D \] Asymetria prawostronna, lewostronna; wskaźnik asymetrii (skośności), współczynniki asymetrii (skośności).

Moment trzeci centralny – średnia arytmetyczna z podniesionych do potęgi trzeciej odchyleń wartości cechy od średniej arytmetycznej \[ \mu_3 = \frac{1}{N} \sum_{i=1}^N (x_i - \bar x)^3 \] jeżeli \(\mu_3 = 0\) szereg symetryczny, \(\mu_3 > 0\) asymetria dodatnia (prawostronna), \(\mu_3 < 0\) asymetria ujemna (lewostronna)

Moment trzeci względny określa siłę i kierunek asymetrii: \[ g_1 = \frac{\mu_3}{s^3} \] Na podstawie badań empirycznych: \(-2 < g_1 < 2\), w skrajnych przypadkach może przekraczać ten przedział.

Współczynnik asymetrii (skośności) oparty na odległościach między średnimi (K. Pearson). \[ W_s = \frac{\bar x - D}{s} \] rzadziej używa się: \[ W_s = \frac{\bar x - \textrm{Me}}{s} \] Współczynnik asymetrii (skośności) oparty na odległościach między kwartylami lub decylami: \[ W_{sq} = \frac{(Q_3 - Q_2) - (Q_2 - Q_1)}{Q_3 - Q_1} \]

Miary koncentracji

Koncentracja – nierównomierny podział wartości cechy w zbiorowości.

Współczynnik Giniego i Krzywa Lorenza

Krzywa Lorenza jest funkcją określoną na zbiorze liczb dodatnich L(Cn), gdzie Cn jest kumulowaną liczebnością zaś L kumulowaną wartość cechy. Zwykle wartości kumulowane są przedstawione w procentach co pozwala na zgrabną interpretację w stylu: 20% jednostek ma 5% łącznej wartości cechy albo 50% rolników posiada 15% łacznych areałów, itp.

przekątna łącząca lewy-dolny, prawy-górny wierzchołek jest nazywana linią równomiernego rozkładu (koncentracji równomiernej, line of equality). Współczynnik Giniego to iloraz pola A do sumy pół A+B.

Im większa koncentracji, tym krzywa Lorenza jest bardziej wygięta, a wartość współczynnika Ginego większa (maksymalną wartością jest 1)

Współczynnik HH

Innym współczynnikiem koncentracji jest współczynnik Herfindahla-Hirschmana (HH-Index, https://en.wikipedia.org/wiki/Herfindahl%E2%80%93Hirschman_Index):

\[HH = \sum_{i=1}^N x_i^2, \quad\mathrm{gdzie}: \sum_{i=1}^N x_i =100%\] Maksymalną wartością tego współczynnika jest 10000, wartości większe od 1800 świadczą o znacznej koncentracji.