Hoofdstuk 3 Beschrijvende statistieken
3.1 Beschrijvende statistieken versus exploratieve plots
- Plots zijn vooral sterk om patronen in de data te visualiseren.
- Plots zijn minder geschikt om de ‘sterkte’ of ‘grootte’ van een patroon uit te drukken.
- Beschrijvende statistieken laten dit wel toe aangezien aspecten van de patronen in een exploratieve plot in exacte getallen worden gegoten.
- Er kunnen hoofdzakelijk 3 soorten beschrijvende statistieken worden onderscheiden:
- Centrummaten
- Spreidingsmaten
- Associatiematen
- Centrummaten en spreidingsmaten zijn univariate statistieken en hebben als doel de verdeling van 1 variabele data samen te vatten in 2 cijfers.
- Associatiematen zijn typisch bivariate statistieken en hebben als doel de samenhang tussen twee variabelen samen te vatten.
3.2 Notatie
- \(n\): aantal observaties.
- \(X, Y\): variabelen.
- \(x_i, y_i\): de waarden voor variabelen \(X\) en \(Y\) voor observatie \(i\).
- \(x_{(i)}\): de \(i\)-de waarde voor \(X\) na rangschikking van klein naar groot.
3.3 Data
luchthaven | maatschappij | datum | vertrek_vertraging | aankomst_vertraging | afstand | vliegtijd | vluchttype |
---|---|---|---|---|---|---|---|
EWR | United Air Lines Inc. | 2013-01-01 05:15:00 | 2 | 11 | 1400 | 227 | normaal |
LGA | United Air Lines Inc. | 2013-01-01 05:29:00 | 4 | 20 | 1416 | 227 | normaal |
JFK | American Airlines Inc. | 2013-01-01 05:40:00 | 2 | 33 | 1089 | 160 | kort |
LGA | Delta Air Lines Inc. | 2013-01-01 06:00:00 | -6 | -25 | 762 | 116 | kort |
EWR | United Air Lines Inc. | 2013-01-01 05:58:00 | -4 | 12 | 719 | 150 | kort |
EWR | JetBlue Airways | 2013-01-01 06:00:00 | -5 | 19 | 1065 | 158 | kort |
LGA | ExpressJet Airlines Inc. | 2013-01-01 06:00:00 | -3 | -14 | 229 | 53 | kort |
JFK | JetBlue Airways | 2013-01-01 06:00:00 | -3 | -8 | 944 | 140 | kort |
LGA | American Airlines Inc. | 2013-01-01 06:00:00 | -2 | 8 | 733 | 138 | kort |
JFK | JetBlue Airways | 2013-01-01 06:00:00 | -2 | -2 | 1028 | 149 | kort |
3.4 Univariate statistieken
3.4.1 Categorische variabele
Frequentietabel
- De absolute frequentie \(f\) geeft aan hoe vaak een waarde voorkomt.
- De relatieve frequentie \(f/n\) geeft aan welk aandeel deze frequentie heeft in het totaal aantal elementen \(n\).
- De cumulatieve frequentie \(F_n(x)\) van een bepaalde waarde \(x\) geeft aan hoeveel observaties kleiner zijn dan of gelijk zijn aan \(x\).
- De cumulatieve relatieve frequentie \(F_n(x)/n\) van een bepaalde waarde \(x\) geeft aan hoeveel percent van de observaties kleiner zijn dan of gelijk zijn aan \(x\).
- Een frequentietabel laat voor alle mogelijke waarden van een categorische variabele de absolute en relatieve frequentie zien (zowel normaal als cumulatief).
- Een frequentietabel laat zien waar een bepaalde waarde zich precies in de verdeling bevindt en hoe uitzonderlijk het is een specifieke waarde in de data te zien (of een waarde groter/kleiner dan) .
luchthaven | freq | rel_freq | cum_freq | cum_rel_freq |
---|---|---|---|---|
EWR | 119282 | 0.36 | 119282 | 0.36 |
JFK | 105230 | 0.32 | 224512 | 0.68 |
LGA | 104662 | 0.32 | 329174 | 1.00 |
Centrummaten
- Modus
- Meest voorkomende waarde.
- Enige centrummaat voor nominale variabele.
- Ook bruikbaar voor ordinale variabele.
- Een variabele kan meerdere modi hebben.
- De modus is robuust tegen uitschieters.
- De modus kan je aflezen als de eerste rij in een frequentietabel als je deze ordent van de meest voorkomende tot de minst voorkomende waarde.
- Mediaan
- De middelste waarde na rangschikken van de gegevens.
- Voor ordinale variabelen definiëren we de mediaan aan de hand van de relatieve cumulatieve frequentie. De mediaan is de kleinste waarde waar 50% van de observaties kleiner dan of gelijk aan is.
- De mediaan is robuust tegen uitschieters.
vluchttype | freq | rel_freq | cum_freq | cum_rel_freq |
---|---|---|---|---|
kort | 245666 | 0.75 | 245666 | 0.75 |
normaal | 31813 | 0.10 | 277479 | 0.85 |
lang | 50980 | 0.15 | 328459 | 1.00 |
intercontinentaal | 715 | 0.00 | 329174 | 1.00 |
variabele | mediaan |
---|---|
vluchttype | kort |
Spreidingsmaten
- Kwantielen.
- Kwantielen (of percentielen) zijn gebaseerd op de cumulatieve relatieve frequentie.
- Het p% kwantiel is de kleinste waarde waar p% van de observaties kleiner dan of gelijk aan is.
- Het 50% kwantiel komt overeen met de mediaan.
- Veel voorkomende kwantielen om de spreiding van de data weer te geven zijn het 25% en 75% kwantiel.
variabele | Q25 | Q50 | Q75 |
---|---|---|---|
vluchttype | kort | kort | normaal |
3.4.2 Continue variabele
Centrummaten
- Modus
- Vaak minder bruikbaar bij een continue variabelen omdat iedere waarde zeer weinig voorkomt. Bijgevolg zijn er vaak zeer veel modi met telkens slechts enkele observaties.
- Mediaan
- De middelste waarde na rangschikking van de gegevens.
- In geval van een oneven aantal observaties, komt dit overeen met \(x_{\frac{(n+1)}{2}}\).
- In geval van een even aantal observaties zijn er twee ‘middelste’ observaties en is de mediaan gelijk aan \(\frac{1}{2}( x_{\frac{n}{2}}+x_{\frac{n}{2}+1})\)
- De mediaan is robuust tegen uitschieters.
- (Rekenkundig) Gemiddelde
- \(\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\)
- Het gemiddelde is gevoelig voor uitschieters.
- Dit is de centrummaat die mensen intuïtief selecteren indien mogelijk.
variabele | gemiddelde | mediaan |
---|---|---|
afstand | 1026.98 | 820 |
Spreidingsmaten
- Kwantielen
- Bereik
- Dit is het verschil tussen de grootste en kleinste waarde.
- Zeer gevoelig voor uitschieters.
- Is slechts gebaseerd op 2 observaties en bevat dus weinig informatie. Hiermee bedoelen we dat de spreiding van 2 variabelen sterk kan verschillen terwijl ze toch hetzelfde bereik hebben.
- Interkwartielafstand (IQR)
- Dit is het verschil tussen Q75 en Q25.
- Zelfde principe als het bereik, maar minder gevoelig voor uitschieters.
- IQR is ook slechts gebaseerd op 2 observaties.
- Gemiddelde absolute afwijking (average absolute deviation)
- Dit is de gemiddelde afwijking ten opzichte van het gemiddelde over alle observaties.
- \(\frac{1}{n}\sum_{i=1}^{n}\lvert x_i - \bar{x} \rvert\).
- Variantie
- \(s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2\).
- Vergelijkbaar met gemiddelde absolute afwijking, maar nu wordt het kwadraat gebruikt om te voorkomen dat de verschillen ten opzichte van het gemiddelde elkaar opheffen.
- Vanuit analytisch standpunt is deze spreidingsmaat interessanter (geen absolute waardes, waardoor afgeleiden bijvoorbeeld eenvoudiger worden om te berekenen).
- Wel gevoelig voor uitschieters en door het kwadraat wordt het effect van deze uitschieters ook nog eens vergroot.
- De wortel van de variantie wordt de standaardafwijking genoemd. De standaardafwijking heeft het voordeel dat het indezelfde eenheid uitgedrukt wordt als de oorspronkelijke data.
- Median Absolute Deviation (MAD)
- Dit is de middelste afwijking ten opzichte van de mediaan over alle observaties.
- \(\operatorname{MAD} = \operatorname{median}\left(\ \left| X_{i} - \operatorname{median} (X) \right|\ \right)\).
- Deze maatstaf is robuster tegen outliers.
variabele | minimum | Q25 | Q50 | Q75 | maximum | bereik | IQR | var | sd |
---|---|---|---|---|---|---|---|---|---|
afstand | 17 | 502 | 820 | 1372 | 4983 | 4966 | 870 | 542630.2 | 736.6344 |
3.5 Bivariate statistieken
3.5.1 Continu versus Continu
## `geom_smooth()` using method = 'gam'
Correlatie
- Covariantie
- \(cov(x,y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar(x))(y_i-\bar(y))\).
- Bij een positieve associatie tussen twee variabelen zal de covariantie positief zijn.
- Bij een negatieve associatie tussen twee variabelen zal de covariantie negatief zijn.
- De covariantie is echter afhankelijk van de maateenheid van de variabelen, waardoor ze weinig bruikbaar is om de sterkte van de associatie weer te geven.
- Pearson correlatiecoëfficiënt
- Herschaalt de covariantie naar de schaal \([-1,1]\)
- Laat toe om de sterkte van een associatie te evalueren.
- \(r(x,y) = \frac{cov(x,y)}{s_x s_y}\)
- \(r(x,y) = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2 \sum_{i=1}^{n}(y_i-\bar{y})^2}}\)
- Meet lineaire associatie tussen 2 variabelen.
- Twee variabelen kunnen positief geassocieerd zijn, maar in een niet-lineaire wijze, waardoor de correlatiecoëfficiënt naar nul gaat.
- Meest gebruikelijke correlatiecoëfficiënt voor continue variabelen.
- Daarom best altijd samen met een puntenwolk bekijken.
- Spearman’s rangcorrelatiecoëfficiënt.
- Zelfde principe als Pearson’s, maar dan gebaseerd op de rangorde van de waarden in plaats van de waarden zelf.
- \(r_i\): rangorde van waarde \(x_i\). Bijvoorbeeld \(r_i = 4\) betekent dat de waarde \(x_i\) de vierde kleinste waarde is.
- \(s_i\): rangorde van waarde \(y_i\).
- \(\rho(x,y) = \frac{\sum_{i=1}^{n}(r_i-\bar{r})(s_i-\bar{s})}{\sqrt{\sum_{i=1}^{n}(r_i-\bar{r})^2 \sum_{i=1}^{n}(s_i-\bar{s})^2}}\)
- Meet associatie tussen 2 variabelen, dus niet specifiek lineaire associatie.
- Kendall’s correlatiecoëfficiënt
- Ook wel Kendall’s tau genoemd.
- De methode is gebaseerd door alle mogelijke observatieparen \((x_i, y_i)\) en \((x_j,y_j)\) te bestuderen.
- Net als Spearman’s aanpak gebaseerd op rangorde \((r_i, s_i)\) en niet de feitelijke waarden.
- Indien \(r_i > r_j\) en \(s_i > s_j\) (of \(r_i < r_j\) en \(s_i < s_j\)) dan zijn observaties \(i\) en \(j\) concordant.
- Indien \(r_i > r_j\) en \(s_i < s_j\) (of \(r_i < r_j\) en \(s_i > s_j\)) dan zijn observaties \(i\) en \(j\) discordant.
- Notatie: \(C\) en \(D\) zijn respectievelijk het aantal concordante en discordante paren.
- \(\tau = \frac{C-D}{\frac{1}{2}n(n-1)}\)
- Net als Spearman’s correlatiecoëfficiënt, focust Kendall’s tau op de associatie (positief of negatief) en niet specifiek op lineaire associatie.
- Kendall’s tau heeft ook een intuïtieve interpretatie. Immers \(\tau + \frac{1}{2}{1-\tau}\) is het percentage van observatieparen dat concordant is.
- Het nadeel van Kendall’s tau is dat je alle observatieparen moet bestuderen en het aantal kan snel exploderen bij veel observaties. Immers het aantal paren is \(\frac{n!}{2!(n-2)!}\). Hierdoor kan je Kendall in de praktijk niet gebruiken als je veel observaties hebt.
variabelenpaar | pearson | spearman |
---|---|---|
afstand-vliegtijd | 0.99 | 0.98 |
Vergelijking correlatiecoëfficiënten
- Rangcorrelatiecoëfficiënten meten associatie, terwijl Pearson correlatiecoëfficiënt lineaire associatie meet!
x | y |
---|---|
1 | 0.0 |
2 | 4.0 |
3 | 5.0 |
4 | 5.5 |
5 | 7.0 |
6 | 15.0 |
7 | 15.6 |
8 | 16.0 |
9 | 50.0 |
10 | 1000.0 |
variabelenpaar | pearson | spearman | kendall |
---|---|---|---|
x-y | 0.55 | 1 | 1 |
3.5.2 Categorisch versus Continu
Univariate statistieken per categoriewaarde
- Je toont de relevante centrum- en spreidingsmaten voor de afhankelijke categorische variabele per waarde van de onafhankelijke categorische variabele.
luchthaven | gemiddelde | mediaan |
---|---|---|
EWR | 1049.58 | 872 |
JFK | 1247.16 | 1028 |
LGA | 779.84 | 762 |
luchthaven | var | min | Q25 | Q50 | Q75 | max | bereik | IQR | sd |
---|---|---|---|---|---|---|---|---|---|
EWR | 536177.0 | 17 | 529 | 872 | 1372 | 4963 | 4946 | 843 | 732.2411 |
JFK | 842460.4 | 94 | 425 | 1028 | 2248 | 4983 | 4889 | 1823 | 917.8564 |
LGA | 138132.3 | 96 | 502 | 762 | 1035 | 1620 | 1524 | 533 | 371.6615 |
Correlatie
- Enkel toepasbaar als de categorische variabele ordinaal is.
- Pearson’s correlatiecoëfficiënt kan je NIET toepassen.
- Spearman rangcorrelatiecoëfficiënt (\(\rho\)).
- Kendall’s rangcorrelatiecoëfficiënt (\(\tau\)) kan theoretisch wel toegepast worden, maar is in de praktijk vaak niet haalbaar.
variabelenpaar | spearman |
---|---|
vluchttype-vliegtijd | 0.76 |
3.5.3 Categorisch versus Categorisch
Univariate statistieken per categoriewaarde
- Je toont de relevante centrum- en spreidingsmaten voor de afhankelijke categorische variabele per waarde van de onafhankelijke categorische variabele.
luchthaven | variabele | mediaan |
---|---|---|
EWR | vluchttype | kort |
JFK | vluchttype | kort |
LGA | vluchttype | kort |
luchthaven | variabele | Q25 | Q50 | Q75 |
---|---|---|---|---|
EWR | vluchttype | kort | kort | normaal |
JFK | vluchttype | kort | kort | lang |
LGA | vluchttype | kort | kort | kort |
Referenties
- Tekst Beleidsstatistiek (Hoofdstukken 1 en 2 en secties 4.2 en 4.3)
- Spearman’s rangcorrelatiecoëfficiënt
- Kendall’s rangcorrelatiecoëfficiënt
- Spearman versus Kendall’s correlatiecoëfficiënt