Rozdział 2 Statystyka opisowa
2.1 Rozkład jednej cechy
W modelowaniu rynku kapitałowego narzędzia statystyki opisowej są potrzebne, żeby opisać kształtowanie się stóp zwrotu w przeszłości. Z kolei, na podstawie danych z przeszłości można wnioskować o rozkładzie prawdopodobnych stóp zwrotu w przyszłości. Poniżej opisano sposób opisu rozkładu jednej stopy zwrotu, w kolejnej sekcji pokazano miary współzmiennności stóp zwrotu.
2.1.1 Średnie
Średnia arytmetyczna to najprostsze i podstawowe narzędzie opisu rozkładu stóp zwrotu.
Średnia prosta stopa zwrotu netto za okresy od \(1\) do \(n\) wynosi:
\[\begin{equation} \bar{R} = \frac{\sum_{i=1}^n R_i}{n} \tag{2.1} \end{equation}\]
Analogicznie, średnia stopa zwrotu brutto:
\[\begin{equation} \bar{\boldsymbol{\mathcal{R}}} = \frac{\sum_{i=1}^n \boldsymbol{\mathcal{R}}_i}{n} = 1 + \bar{R} \tag{2.2} \end{equation}\]
Średnia stopa logarytmiczna:
\[\begin{equation} \bar{r} = \frac{\sum_{i=1}^n r_i}{n} \tag{2.3} \end{equation}\]
W arkuszach kalkulacyjnych korzystamy z funkcji ŚREDNIA (AVERAGE) - arkusze Google, Excel
2.1.2 Średnia geometryczna, CAGR
Generalna definicja średniej geometrycznej dla \(m\) dodatnich liczb \(x_1 - x_n\):
\[\begin{equation} G = \sqrt[n]{\prod_{i=1}^n x_i} = \sqrt[n]{x_1\cdot x_2\cdot \cdot \cdot x_n} = (x_1\cdot x_2\cdot \cdot \cdot x_n)^{1/n} \tag{2.4} \end{equation}\]
Stopy netto mogą być ujemne, więc generalna definicja nie ma zastosowania. W matematyce finansowej i w praktyce terminu “średnia geometryczna stopa zwrotu (netto)” używa się niekiedy mając na myśli coś nieco innego – geometryczną średnią ze stóp zwrotu brutto w następujących po sobie okresach pomniejszoną o 1 (DeFusco et al. 2007):
\[\begin{equation} R_G = \left(\prod_{i=1}^t \boldsymbol{\mathcal{R}}_i\right)^{\frac{1}{t}} - 1 = \left[\prod_{i=1}^t (1+R_i)\right]^{\frac{1}{t}} - 1 \tag{2.5} \end{equation}\]
W przypadku braku dywidend:
\[\begin{equation} R_G = \left(\frac{P_t}{P_0} \right)^{\frac{1}{t}} - 1 \tag{2.6} \end{equation}\]
Jak widać, gdy nie ma dywidend i pojedynczy okres stopy zwrotu wynosi jeden rok, to średnią geometryczną stopę zwrotu netto można utożsamiać ze skumulowanym rocznym wskaźnikiem wzrostu (CAGR).
Dla logarytmicznych stóp zwrotu nie liczymy średniej geometrycznej. Warto jednak zauważyć, że:
\[\begin{equation} R_G = e^{\bar{r}}-1 \tag{2.7} \end{equation}\]
W arkuszach kalkulacyjnych nie ma gotowej formuły na CAGR, mogą się jednak przydać funkcje ŚREDNIA.GEOMETRYCZNA (GEOMEAN) – arkusze Google, Excel oraz ILOCZYN (PRODUCT) – arkusze Google, Excel.
2.1.3 Wariancja i odchylenie standardowe
Wzór na wariancję pojawia się w dwóch wersjach: dla populacji i dla próby.
Wzór na wariancję dla populacji o liczebności \(N\), na przykładzie prostych stóp zwrotu netto:
\[\begin{equation} \sigma^2_R = \frac{\sum_{i=1}^N \left(R_i-\bar{R}\right)^2}{N} \tag{2.8} \end{equation}\]
Na wariancję dla próby o liczebności \(n\):
\[\begin{equation} s^2_R = \frac{\sum_{i=1}^n \left(R_i-\bar{R}\right)^2}{n-1} \tag{2.9} \end{equation}\]
Ponieważ będziemy często traktować wyznaczone dane historyczne jako próbę pozwalającą wnioskować o przyszłości, w obliczeniach praktycznych będziemy stosować wzór (2.9).
W arkuszach kalkulacyjnych korzystamy z funkcji WARIANCJA (VAR) – arkusze Google, Excel, która jest równoznaczna z funkcją WARIANCJA.PRÓBKI (VAR.S) – arkusze Google, Excel.
Aby obliczyć wariancję w populacji można wykorzystać funkcję WARIANCJA.POPUL/WARIANCJA.POP (VARP/VAR.P) – arkusze Google, Excel.
Odchylenie standardowe to pierwiastek z wariancji. Analogicznie, mamy wzór dla populacji i dla próby:
\[\begin{equation} \sigma_R = \sqrt{\sigma^2_R} = \sqrt{\frac{\sum_{i=1}^N \left(R_i-\bar{R}\right)^2}{N}} \tag{2.10} \end{equation}\]
\[\begin{equation} s_R = \sqrt{s^2_R} = \sqrt{\frac{\sum_{i=1}^n \left(R_i-\bar{R}\right)^2}{n-1}} \tag{2.11} \end{equation}\]
W arkuszach kalkulacyjnych odchylenie standardowe dla próby wyznaczamy za pomocą funkcji ODCH.STANDARDOWE (STDEV) – arkusze Google, Excel lub (równoznacznie) ODCH.STANDARD.PRÓBKI (STDEV.S) – arkusze Google, Excel.
Odchylenie standardowe dla populacji można obliczyć za pomocą funkcji ODCH.STANDARD.POPUL (STDEVP) – arkusze Google, Excel albo ODCH.STAND.POPUL (STDEV.P)– arkusze Google, Excel.
2.1.4 Skośność/asymetria
Współczynnik asymetrii oparty na momentach oblicza się w następujący sposób:
\[\begin{equation} g_{1(R)} = \frac{1}{n}\sum_{i=1}^n\left(\frac{R_i-\bar{R}}{\sigma_R}\right)^3 \tag{2.12} \end{equation}\]
Powyższą formułę można uznać za analogiczną do formuł na wariancję i odchylenie standardowe populacji.
Zmodyfikowany współczynnik asymetrii ma następującą formułę:
\[\begin{equation} G_{1(R)} = \frac{\sqrt{n(n-1)}}{n-2}g_{1(R)} \tag{2.13} \end{equation}\]
Współczynnik asymetrii mierzy, które ramię rozkładu: lewe – poniżej średniej (ujemne wartości współczynnika) czy prawe – powyżej średniej (wartości dodatnie) jest bardziej wyciągnięte. Można stwierdzić, że przypadku stóp zwrotu ujemny współczynnik wskazuje na większe prawdopodobieństwo skrajnych strat, zaś dodatni na większe prawdopodobieństwo skrajnych zysków.
W arkuszach kalkulacyjnych zmodyfikowany współczynnik asymetrii (\(G_1\)) można obliczyć za pomocą funkcji SKOŚNOŚĆ (SKEW) – arkusze Google, Excel, zaś współczynnik \(g_1\) uzyskamy stosując funkcję SKOŚNOŚĆ.P (SKEW.P) – arkusze Google, Excel.
2.1.5 Kurtoza
Współczynnik ekscesu nazywany też kurtozą nadwyżkową/względną wyznacza się za pomocą następującej formuły:
\[\begin{equation} g_{2(R)} = \frac{1}{n}\sum_{i=1}^n\left(\frac{R_i-\bar{R}}{\sigma_R}\right)^4-3 \tag{2.14} \end{equation}\]
Powyższą formułę można traktować jako formułę dla populacji. Formuła dla próby ma najczęściej następującą postać:
\[\begin{equation} G_{2(R)} = \frac{n-1}{(n-2)(n-3)}\left[(n+1)g_{2(R)}+6\right] \tag{2.15} \end{equation}\]
W niektórych pakietach statystycznych spotyka się również formułę:
\[\begin{equation} b_{2(R)} = \frac{1}{n}\sum_{i=1}^n\left(\frac{R_i-\bar{R}}{s_R}\right)^4-3 \tag{2.16} \end{equation}\]
W arkuszach kalkulacyjnych funkcja KURTOZA (KURT) oblicza współczynnik \(G_2\) zgodnie ze wzorem (2.15) – arkusze Google, Excel. Współczynniki \(g_2\) i \(b_2\) można obliczyć stosując funkcję na średnią i odchylenie standardowe oraz formuły tablicowe.
Kurtoza (współczynnik ekscesu) mierzy intensywność wartości skrajnych w porównaniu z wartościami skrajnymi w rozkładzie normalnym.
2.2 Współzależność cech
2.2.1 Kowariancja
Wzór na kowariancję dla populacji o liczebności \(N\), na przykładzie dwóch szeregów danych (np. stóp zwrotu) \(R_i\) i \(S_i\):
\[\begin{equation} \sigma_{RS} = \frac{\sum_{i=1}^N \left(R_i-\bar{R}\right)\left(S_i-\bar{S}\right)}{N} \tag{2.17} \end{equation}\]
Jest to wzór “dla populacji”.
W arkuszach można zastosować funkcję KOWARIANCJA (COVAR) – arkusze Google, Excel lub KOWARIANCJA.POPUL (COVARIANCE.P) – – arkusze Google, Excel.
Dla próby analogiczny wzór wygląda następująco:
\[\begin{equation} s_{RS} = \frac{\sum_{i=1}^n \left(R_i-\bar{R}\right)\left(S_i-\bar{S}\right)}{n-1} \tag{2.18} \end{equation}\]
W arkuszach używamy funkcji KOWARIANCJA.PRÓBKI (COVARIANCE.S) – arkusze Google, Excel.
2.2.2 Korelacja
Korelacja to zestandaryzowana wariancja. Można ją policzyć zarówno na podstawie wzorów na kowariancję i wariancję z populacji:
\[\begin{equation} \rho_{RS} = \frac{\sigma_{RS}}{\sigma_R \sigma_S} \tag{2.19} \end{equation}\]
jak i na kowariancję/wariancję z próbki:
\[\begin{equation} r_{RS} = \frac{s_{RS}}{s_R s_S} \tag{2.20} \end{equation}\]
Otrzymane wyniki są takie same. W arkuszach kalkulacyjnych stosujemy funkcję WSP.KORELACJI (CORREL) – arkusze Google, Excel lub identyczną w działaniu funkcję PEARSON – arkusze Google, Excel.
2.3 Ćwiczenia
Zadanie 2.1 (Linton 2019) W 2017 roku Warren Buffett przewidział, że indeks Dow Jones przekroczy milion w ciągu stu lat. Biorąc pod uwagę, że w momencie wygłaszania tej prognozy wartość indeksu DJIA wynosiła 22375, jaką zakładał roczną stopę zwrotu?
Zadanie 2.2 SBBI to raport przygotowywany przez CFA Institute, który pokazuje stopy zwrotu rynku amerykańskiego dla dużych spółek (Large-Cap Stocks), mniejszych spółek (Small-Cap Stocks), obligacji korporacyjnych (Long-term Corp Bonds), długoterminowych obligacji rządowych (Long-term Gov’t Bonds), średnioterminowych obligacji rządowych (Inter-term Gov’t Bonds), krótkoterminowych bonów skarbowych (U.S. Treasury Bills) oraz wskaźnik inflacji (Inflation).
Roczne stopy zwrotu dla lat 1926-2015 są dostępne pod poniższym linkiem: https://docs.google.com/spreadsheets/d/1rfE78O1POHpQl15AQU2gtp15cV7h9JLNeAkRN66TNqE/edit?usp=sharing
Dla każdej z tych grup aktywów wyznacz dla okresu 1926-2015:
średnią prostą stopę zwrotu netto
średnią geometryczną prostą stopę zwrotu netto (CAAGR)
odchylenie standardowe prostych stóp zwrotu netto
skośność i kurtozę prostych stóp zwrotu netto
średnią logarytmiczną stopę zwrotu
odchylenie standardowe logartymicznych stóp zwrotu
skośność i kurtozę logarytmicznych stóp zwrotu
Zadanie 2.3 Dla wybranej spółki ściągnij dane z bazy yahoo i wyznacz statystyki określone w poprzednim zadaniu dla dziennych stóp zwrotu i miesięcznych stóp zwrotu. Użyj cen adjusted close.
Zadanie 2.4 Dla wybranej spółki sprawdź, czy dzienne stopy zwrotu obejmujące weekend są średnio wyższe niż dzienne stopy zwrotu w inne dni tygodnia. Czy odchylenie standardowe dziennych stóp zwrotu obejmujących weekend jest wyższe?
Zadanie 2.5 Sprawdź korelację pomiędzy stopami zwrotu netto dwóch wybranych spółek na podstawie (a) miesięcznych (b) dziennych stóp zwrotu netto.