Loading [MathJax]/jax/output/HTML-CSS/jax.js

Rmd source

Pojęcia i definicje

Szereg czasowy (time series), to ciąg wartości w kolejnych jednostkach czasu. Co oznacza, że nie jest to zbiór tylko właśnie ciąg (tj. zbiór uporządkowany)

Szereg czasowy: momentów/okresów. Szeregi momentów rejestrują pewien stan (liczba chorych w szpitalu na ostatni dzień miesiąca) szeregi czasowe rejestrują pewien zasób (liczba przyjętych do szpitala w miesiącu).

Częstotliwość szeregu czasowego: dzienna, tygodniowa, miesięczna, kwartalna, roczna. Mogą być dane rejestrowane jeszcze częściej: godzinowe albo nawet minutowe.

Analiza

Porównanie dynamiki (najprostsza analiza): kiedy rośnie/kiedy spada. Jak rośnie/jak spada (szybciej/wolniej/cyklicznie itd.) Należy zwrócić uwagę na: 1) porównujemy to samo (w długim okresie czasu zjawisko może być różnie definiowane/mierzone); 2) porównujemy jednakowe przedziały czasowe (realnie nie formalnie – luty/marzec to różnica 10% z definicji jeżeli chodzi o liczbę dni); 3) uwzględniamy naturalne cykle dynamiki zjawiska (lato/jesień; grudzień/styczeń; wakacje itd)

Poziom przeciętny średnia (szereg czasowy okresów); średnia chronologiczna (szereg czasowy momentów.) Średnia chronologiczna jest liczona jak normalna średnia z tą różnicą, że pierwszy/ostatni element średniej jest dzielony przez 2 (czyli dodajemy pół pierwszego/ostatniego elementu a nie cały) oraz że nie dzielimy przez N tylko przez N1.

Przyrosty absolutne (Pa): różnica między poziomem zjawiska w okresie badanym do okresu podstawowego (bazowego); Pa=PtP0 gdzie Pt oznacza wielkość w okresie badanym a P0 wielkość w okresie podstawowym. Np. liczba pacjentów na oddziala wzrosła w grudniu w porównaniu do listopada 40 (albo spadła o 31)

Można liczyć Pa biorąc za podstawę wybrany okres/moment – takie Pa nazywa się jednopodstawowe (fixed base); lub biorąc za podstawę poprzedni okres/moment – łańcuchowe (chain).

Przyrosty względne (Pw) : względna różnica czyli iloraz Pa do poziomu w okresie podstawowym, zwykle w procentach; Pw=(PtP0)/P0. Liczba pacjentów wzrosła 15% w porównaniu do okresu podstawowego.

Mogą być łańcuchowe jak jednopodstawowe.

Wskaźniki dynamiki (Wd) zwane też indeksami:względna miara dynamiki – iloraz poziomu zjawiska w okresie badanym do poziomu w okresie podstawowym, zwykle w procentach; Wd=Pt/P0 Zachodzi zależność: Wd=100+Pw.

Interpretacja (oczywista): odejmujemy od wartości Wd 100%. Jeżeli wartość jest mniejsza od zera interpretujemy jako spadek.

Np. liczba pacjentów na oddziala wzrosła o 15% w grudniu w porównaniu do listopada. (Interpretacja jest ta sama co przyrostów względnych)

Objaśnienia w języku (fixed-base index vs chain index): https://ec.europa.eu/eurostat/statistics-explained/index.php/Glossary:Chain_index

Średnie tempo zmian

Coś w rodzaju średniej wartości indeksów; interpretowane jako przeciętna zmiana wartości. Pierwiastek stopnia N1 z iloczyny Pw1Pw2...PwN; takie coś nazywa się także średnią geometryczną.

Liczba pacjentów na oddziale w pierwszym półroczy rosła przeciętnie o 5% z miesiąca na miesiąc.

Indeksy agregatowe

Chcemy porównać zmiany wydatków na żywność. Prosta sprawa: W=w1+w2+...+wn gdzie wk (k=1,...,n) jest wartością wydatków na określony produkt. Oczywiście iw=Wt/W0 będzie wskaźnikiem dynamiki. Ale…

W=pq (gdzie p oznacza cenę a q ilość):

iw=(q1tp1t+q2tp2t+...qntpnt)/(q10p10+q20p20+...qn0pn0)

Albo używając znaku sumowania :

iw=(qtpt)/(q0p0)

Jeżeli chcemy oszacować oddzielny wpływ zmian cen i ilości to musimy przyjąć stałą wielkość tego czynnika, którego wpływ chcemy pominąć.

Przykładowo badając wpływ zmiany cen ustalamy jednakową wielkość ilości.

Dwa najcześciej stosowane sposoby to przyjęcie poziomu cen/ilości z okresu bazowego (indeks Laspeyresa; https://pl.wikipedia.org/wiki/%C3%89tienne_Laspeyres) lub badanego (indeks Paaschego; https://pl.wikipedia.org/wiki/Hermann_Paasche). Każdy z wariantów ma dwa indeksy: ilości i ceny.

Agregatowy indeks Laspeyresa ceny:

ILp=(q0pt)/(q0p0)100

(zmienia się cena; ilość jest ta sama na poziomie okresu bazowego)

Interpretacja: odejmujemy od wartości Iw, Ip, Iq 100%. Jeżeli wartość jest mniejsza od zera interpretujemy jako spadek.

Przykładowo: przy założeniu, że ilości w okresie badanym są identyczne jak w okresie podstawowym, wydatki na żywność wzrosły o x% z powodu zmiany cen.

Podobnie: przy założeniu, że ceny w okresie badanym są identyczne jak w okresie podstawowym, wydatki na żywność wzrosły o x% z powodu zmiany ilości kupowanych produktów.

Można udowodnić że: Iw=ILpIPq oraz Iw=IPpILq (Indeks agregatowy jest iloczynem indeksów ilości oraz ceny liczonych według różnych formuł)

Wykresy

W przypadku szeregów czasowych wykres liniowy (ewentualnie punktowy lub słupkowy) jest najpopularniejszy. Przykład: z bazy danych WHO (https://www.who.int/data/gho) pobrano informacje nt odsetka osób dorosłych z nadwagą (BMI 30 i więcej; Prevalence of obesity among adults…) dla Polski w latach 1975–2016.

Uwaga: WHO podaje wskaźniki surowe (crude) i standaryzowane; pobrano surowe

Wykres liniowy

Interpretacja: czy zjawisko rośnie czy spada; jak szybko rośnie jak szybko spada.

Uwaga: można manipulować wykresem poprzez zmianę proporcji (współczynnika proporcji czyli po angielsku aspect ratio)

Teraz (optycznie) wolniej rośnie (proporcja wysokość/szerokość jest większa)…

Oraz (albo raczej pośrednio) zakresem na osi OY;

Jeżeli oś OY nie zaczyna się od zera to krzywa będzie bardziej stroma bo efektywnie wykres będzie miał większe proporcje wysokość/szerokość:

Puryści uważają że każdy wykres powinien zaczynać się od zera. Są przykłady zeznań przed komisją senacją w USA gdzie dowody prezentowane na wykresach z niezerową linią bazową były dyskwalifikowane jako manipulacja.

Słynna książka How to lie with statistics zawiera rozdział na temat zatytułowany The Gee-Whiz Graphs; https://en.wikipedia.org/wiki/Misleading_graph

Można umieścić wiele krzywych celem porównania:

Jeżeli krzywe się dobrze zachowują (czytaj: nie przecinają się) na to sens; w innym przypadku trudno jest porównać krzywe. Nie należy też przesadzać z liczbą krzywych na wykresie. Na pewno coś co wygląda jak splątany makaron będzie bezużyteczne…

Punktowy:

Nie uważam za dobry pomysł. Nie podkreśla ciągłości zjawisk w czasie

Słupkowy:

Jest OK. Ale wielosłupki zamiast wielu linii prowadzą do problemów:

Oba dla mnie nieczytelne a do tego ten drugi wykres daje mylne wrażenie że łącznie otyłych jest 3/4 ludności (jak ktoś nieuważnie czyta)

Model wahań w czasie

W szeregu czasowym można zwykle wyróżnić długookresową tendencję (trend); powtarzalne wahania (sezonowość); resztę traktuje się jako wartości przypadkowe. Reasumując:

TS=T+S+E

lub

TS=TSE

Pierwszy wariant nazywa się addytywny drugi multiplikatywny. W wariancie addytywnym zmiany (trendu/sezonowości) okres/okres są stałe; w wariancie multiplikatywnym tempo zmiany jest stałe, tj. zjawisko okres/okres rośnie/spada o x%. W jednostkach bezwzględnych oznacza to, że rośnie/spada coraz szybciej.

Problem: oszacowanie T oraz S

Szacowanie trendu

metoda mechaniczna MA

Średnia ruchoma (moving average MA). Idea tego wygładzania jest prosta: sumujemy kolejne wartości szeregu i dzielimy przez liczbę elementów sumy (średnia k-okresowa); Ile elementów sumujemy jest dobieramy metodą prób/błędów…

Przykład dzienne dane nt. liczby zgonów z powodu COVID (w okresie 1.10.2020–5.2.2021; źródło komunikaty MZ via Twitter a od 28.01.2021 https://www.gov.pl/web/koronawirus/wykaz-zarazen-koronawirusem-sars-cov-2; strona reklamowana przez Google!):

Na powyższym wykresie mamy 4 średnie ruchome 3, 7, 14, 28 okresową. Średnia trzy okresowa jest za mało wygładzona. Średnie 7, 14, 28 są podobne ale każda kolejna jest krótsza.

Najlepsza średnia ruchoma: 7 okresów. (Dostatecznie wygładza trend i jest najdłuższa)

metoda analityczna

Polega na dopasowaniu określonej funkcji matematycznej; w najprostszym przypadku prostej przy użyciu metody najmniejszych kwadratów, czyli zakłada się że trend jest postaci:

Y=a+bt+e

gdzie e oznacza składnik losowy; Parametry a i b są wyznaczane w taki sposób aby suma kwadratów różnic pomiędzy punktami na prostej a odpowiadającymi im obserwacjami empirycznymi była jak najmniejsza. Wielkość tej sumy (lub pierwiastek kwadratowy z sumy) jest miarą dokładności dopasowania (wariancja składnika losowego; albo średni błąd składnika losowego/resztowego–dla pierwiastka kwadratowego)

Udział wariancji składnika losowego w całości wariancji zmiennej Y jest inną miarą dopasowania (znaną jako współczynnik determinacji Φ2; por. wykład nt korelacji/regresji); im ten udział jest mniejszy tym lepiej (lub jeżeli współczynnik zdefiniujemy jako 1 minus ww udział to im większy tym lepiej – współczynnik zbieżności czyli R2)

Przykład Dane nt zgonów z powodu COVID w okresie 1.10.2020–5.2.2021 (linia niebieska trend dopasowany metodą NK)

Współczynnik kierunkowy trendu liniowego wynoszący 1.5583885 jest interpretowany jako przeciętna zmiana z okresu na okres. Równanie prostej można zapisać jako:

zgony = 1.5583885 czas + 182.7417569

Interpretacja: w omawianym okresie przeciętnie umierało 1,5 osoby więcej dziennie. Ale dopasowanie linii prostej do danych jest słabe co widać oraz o czym świadczą wartości R2 (9.2613784%, tj. 9.2613784% zmienności jest objaśniane przez model) oraz średni błąd składnika losowego Se (181.6602058). Ten błąd warto porówać do średniej wartości zmiennej objaśmnianej (liczby zgonów), która w omawianym okresie wynosi 283.2578125. Zatem błąd jaki popełniamy stanowi 64.1324609% średniej. Dużo (coś jakby średnio 1 ± 0,6)

Inny przykład (nadwaga w PL):

Współczynnik kierunkowy trendu liniowego wynoszący 0.3502796 jest interpretowany jako przeciętna zmiana z okresu na okres. Równanie prostej można zapisać jako:

nadwaga = 0.3502796 czas + 9.8785134

Interpretacja: w omawianym okresie przeciętnie przybywało 0.3502796% osób z nadwagą rocznie. Dopasowanie linii prostej do danych jest bardzo dobre co widać oraz o czym świadczą wartości R2 (99.4245443%, tj. 99.4245443% zmienności jest objaśniane przez model) oraz średni błąd składnika losowego Se (0.3309818). Ten błąd warto porówać do średniej wartości zmiennej objaśmnianej (liczby zgonów), która w omawianym okresie wynosi 17.4095238. Zatem błąd jaki popełniamy stanowi 1.9011537% średniej.

Szacowanie sezonowości

Plik MZM.csv zawiera dane miesięczne dotyczące liczby zwiedzających Muzeum Zamkowe w Malborku w podziale na ogółem oraz gości krajowych i zagranicznych. Przy czym podział na krajowych/zagranicznych jest mocno umowny–wg wyjaśnień pracownika MZM zwiedzający jest pytany przy zakupie biletu na tę okoliczność.

Dane zostały udostępnione przez biuro MZM w kwietniu 2019 roku.

Szacujemy linię trendu liniowego

Interpretacja: w omawianym okresie miesięczna liczba zwiedzających rosła o 174.4149321 osób. Dopasowanie linii prostej jest bardzo słabe (R2 = 0.3610404% oraz Se = 43511.4403132).

Sezonowość uwzględniamy dodając do równania d1 zmiennych zero-jedynkowych, gdzie d jest liczbą podokresów (dla danych kwartalnych d=4, dla miesięcznych d=12). Dla k-tej zmiennej zero-jedynkowej:

z=1 jeżeli podokres jest równy k, albo zero w każdej innej sytuacji

Czyli pierwsza zmienna zerojedynkowa będzie miała wartość 1 dla stycznia, druga wartość 1 dla lutego itd…

Wygląda to dość pracochłonnie ale np. jeżeli korzystamy z Gretla jest banalnie proste (Gretl sam się połapie ile wynosi d i doda do równiania tyle zmiennych ile trzeba i jeszcze je odpowiednio przekoduje)

Wynik jest taki:

## 
## Call:
## lm(formula = razem ~ trend + miesiac, data = z0)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -16360  -3824   -794   3377  21154 
## 
## Coefficients:
##              Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)  -5018.67    3945.68  -1.272              0.21112    
## trend          353.06      65.76   5.369         0.0000041754 ***
## miesiac01      455.48    4596.24   0.099              0.92158    
## miesiac02     2076.82    4592.01   0.452              0.65365    
## miesiac03     1685.77    4588.71   0.367              0.71538    
## miesiac04    16594.69    4861.00   3.414              0.00154 ** 
## miesiac05    77617.14    4854.33  15.989 < 0.0000000000000002 ***
## miesiac06    71807.58    4848.53  14.810 < 0.0000000000000002 ***
## miesiac07   112205.03    4843.63  23.166 < 0.0000000000000002 ***
## miesiac08   113808.97    4839.61  23.516 < 0.0000000000000002 ***
## miesiac09    33420.17    4836.48   6.910         0.0000000326 ***
## miesiac10    11508.11    4834.24   2.381              0.02241 *  
## miesiac11     1193.81    4832.90   0.247              0.80623    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6834 on 38 degrees of freedom
## Multiple R-squared:  0.9809, Adjusted R-squared:  0.9749 
## F-statistic:   163 on 12 and 38 DF,  p-value: < 0.00000000000000022

Interpretacja: w omawianym okresie miesięczna liczba zwiedzających rosła o 353.0555556 osób. Dopasowanie linii prostej jest znakomite (R2 = 98.0937719% oraz Se = 6834.1190407).

Przypominamy: do równania dodajemy d1 zmiennych (jak dodamy d to równanie nie da się oszacować); W powyższym przykładzie dodano zmienne styczeń–listopad (miesiac01miesiac12) a nie ma zmiennej grudzień.

Jeżeli wszystkie zmienne zero-jedynkowe mają wartość zero, to równanie opisuje grudzień. Zatem interpretacja współczynników przy zmiennych miesiac01miesiac12 sprowadza się do porównania względem grudnia, np. W styczniu jest przeciętnie 455.48 osób więcej niż w grudniu a sierpniu 113808.97 osób więcej niż w grudniu. (Por wydruk powyżej)

Oczywiście jeżeli grudzień nam nie pasuje jako baza do porównań możemy wybrać inny miesiąc czyli usunąć go z równania a dodać zamiast niego grudzień.