Hoofdstuk 3 Beschrijvende statistieken

3.1 Beschrijvende statistieken versus exploratieve plots

  • Plots zijn vooral sterk om patronen in de data te visualiseren.
  • Plots zijn minder geschikt om de ‘sterkte’ of ‘grootte’ van een patroon uit te drukken.
  • Beschrijvende statistieken laten dit wel toe aangezien aspecten van de patronen in een exploratieve plot in exacte getallen worden gegoten.
  • Er kunnen hoofdzakelijk 3 soorten beschrijvende statistieken worden onderscheiden:
    • Centrummaten
    • Spreidingsmaten
    • Associatiematen
  • Centrummaten en spreidingsmaten zijn univariate statistieken en hebben als doel de verdeling van 1 variabele data samen te vatten in 2 cijfers.
  • Associatiematen zijn typisch bivariate statistieken en hebben als doel de samenhang tussen twee variabelen samen te vatten.

3.2 Notatie

  • \(n\): aantal observaties.
  • \(X, Y\): variabelen.
  • \(x_i, y_i\): de waarden voor variabelen \(X\) en \(Y\) voor observatie \(i\).
  • \(x_{(i)}\): de \(i\)-de waarde voor \(X\) na rangschikking van klein naar groot.

3.3 Data

Table 3.1: Uitgaande vluchten NYC 2013
luchthaven maatschappij datum vertrek_vertraging aankomst_vertraging afstand vliegtijd vluchttype
EWR United Air Lines Inc. 2013-01-01 05:15:00 2 11 1400 227 normaal
LGA United Air Lines Inc. 2013-01-01 05:29:00 4 20 1416 227 normaal
JFK American Airlines Inc. 2013-01-01 05:40:00 2 33 1089 160 kort
LGA Delta Air Lines Inc. 2013-01-01 06:00:00 -6 -25 762 116 kort
EWR United Air Lines Inc. 2013-01-01 05:58:00 -4 12 719 150 kort
EWR JetBlue Airways 2013-01-01 06:00:00 -5 19 1065 158 kort
LGA ExpressJet Airlines Inc. 2013-01-01 06:00:00 -3 -14 229 53 kort
JFK JetBlue Airways 2013-01-01 06:00:00 -3 -8 944 140 kort
LGA American Airlines Inc. 2013-01-01 06:00:00 -2 8 733 138 kort
JFK JetBlue Airways 2013-01-01 06:00:00 -2 -2 1028 149 kort

3.4 Univariate statistieken

3.4.1 Categorische variabele

Frequentietabel

  • De absolute frequentie \(f\) geeft aan hoe vaak een waarde voorkomt.
  • De relatieve frequentie \(f/n\) geeft aan welk aandeel deze frequentie heeft in het totaal aantal elementen \(n\).
  • De cumulatieve frequentie \(F_n(x)\) van een bepaalde waarde \(x\) geeft aan hoeveel observaties kleiner zijn dan of gelijk zijn aan \(x\).
  • De cumulatieve relatieve frequentie \(F_n(x)/n\) van een bepaalde waarde \(x\) geeft aan hoeveel percent van de observaties kleiner zijn dan of gelijk zijn aan \(x\).
  • Een frequentietabel laat voor alle mogelijke waarden van een categorische variabele de absolute en relatieve frequentie zien (zowel normaal als cumulatief).
  • Een frequentietabel laat zien waar een bepaalde waarde zich precies in de verdeling bevindt en hoe uitzonderlijk het is een specifieke waarde in de data te zien (of een waarde groter/kleiner dan) .
Table 3.2: Aantal vluchten per luchthaven
luchthaven freq rel_freq cum_freq cum_rel_freq
EWR 119282 0.36 119282 0.36
JFK 105230 0.32 224512 0.68
LGA 104662 0.32 329174 1.00

Centrummaten

  • Modus
    • Meest voorkomende waarde.
    • Enige centrummaat voor nominale variabele.
    • Ook bruikbaar voor ordinale variabele.
    • Een variabele kan meerdere modi hebben.
    • De modus is robuust tegen uitschieters.
    • De modus kan je aflezen als de eerste rij in een frequentietabel als je deze ordent van de meest voorkomende tot de minst voorkomende waarde.
  • Mediaan
    • De middelste waarde na rangschikken van de gegevens.
    • Voor ordinale variabelen definiëren we de mediaan aan de hand van de relatieve cumulatieve frequentie. De mediaan is de kleinste waarde waar 50% van de observaties kleiner dan of gelijk aan is.
    • De mediaan is robuust tegen uitschieters.
Table 3.3: Aantal vluchten per vluchttype
vluchttype freq rel_freq cum_freq cum_rel_freq
kort 245666 0.75 245666 0.75
normaal 31813 0.10 277479 0.85
lang 50980 0.15 328459 1.00
intercontinentaal 715 0.00 329174 1.00
Table 3.4: Centrummaten voor vluchttype
variabele mediaan
vluchttype kort

Spreidingsmaten

  • Kwantielen.
    • Kwantielen (of percentielen) zijn gebaseerd op de cumulatieve relatieve frequentie.
    • Het p% kwantiel is de kleinste waarde waar p% van de observaties kleiner dan of gelijk aan is.
    • Het 50% kwantiel komt overeen met de mediaan.
    • Veel voorkomende kwantielen om de spreiding van de data weer te geven zijn het 25% en 75% kwantiel.
Table 3.5: Kwantielen voor vluchttype
variabele Q25 Q50 Q75
vluchttype kort kort normaal

3.4.2 Continue variabele

Centrummaten

  • Modus
    • Vaak minder bruikbaar bij een continue variabelen omdat iedere waarde zeer weinig voorkomt. Bijgevolg zijn er vaak zeer veel modi met telkens slechts enkele observaties.
  • Mediaan
    • De middelste waarde na rangschikking van de gegevens.
    • In geval van een oneven aantal observaties, komt dit overeen met \(x_{\frac{(n+1)}{2}}\).
    • In geval van een even aantal observaties zijn er twee ‘middelste’ observaties en is de mediaan gelijk aan \(\frac{1}{2}( x_{\frac{n}{2}}+x_{\frac{n}{2}+1})\)
    • De mediaan is robuust tegen uitschieters.
  • (Rekenkundig) Gemiddelde
    • \(\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\)
    • Het gemiddelde is gevoelig voor uitschieters.
    • Dit is de centrummaat die mensen intuïtief selecteren indien mogelijk.
Table 3.6: Afstand (centrummaten)
variabele gemiddelde mediaan
afstand 1026.98 820

Spreidingsmaten

  • Kwantielen
  • Bereik
    • Dit is het verschil tussen de grootste en kleinste waarde.
    • Zeer gevoelig voor uitschieters.
    • Is slechts gebaseerd op 2 observaties en bevat dus weinig informatie. Hiermee bedoelen we dat de spreiding van 2 variabelen sterk kan verschillen terwijl ze toch hetzelfde bereik hebben.
  • Interkwartielafstand (IQR)
    • Dit is het verschil tussen Q75 en Q25.
    • Zelfde principe als het bereik, maar minder gevoelig voor uitschieters.
    • IQR is ook slechts gebaseerd op 2 observaties.
  • Gemiddelde absolute afwijking (average absolute deviation)
    • Dit is de gemiddelde afwijking ten opzichte van het gemiddelde over alle observaties.
    • \(\frac{1}{n}\sum_{i=1}^{n}\lvert x_i - \bar{x} \rvert\).
  • Variantie
    • \(s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2\).
    • Vergelijkbaar met gemiddelde absolute afwijking, maar nu wordt het kwadraat gebruikt om te voorkomen dat de verschillen ten opzichte van het gemiddelde elkaar opheffen.
    • Vanuit analytisch standpunt is deze spreidingsmaat interessanter (geen absolute waardes, waardoor afgeleiden bijvoorbeeld eenvoudiger worden om te berekenen).
    • Wel gevoelig voor uitschieters en door het kwadraat wordt het effect van deze uitschieters ook nog eens vergroot.
    • De wortel van de variantie wordt de standaardafwijking genoemd. De standaardafwijking heeft het voordeel dat het indezelfde eenheid uitgedrukt wordt als de oorspronkelijke data.
  • Median Absolute Deviation (MAD)
    • Dit is de middelste afwijking ten opzichte van de mediaan over alle observaties.
    • \(\operatorname{MAD} = \operatorname{median}\left(\ \left| X_{i} - \operatorname{median} (X) \right|\ \right)\).
    • Deze maatstaf is robuster tegen outliers.
Table 3.7: Afstand (spreidingsmaten)
variabele minimum Q25 Q50 Q75 maximum bereik IQR var sd
afstand 17 502 820 1372 4983 4966 870 542630.2 736.6344

3.5 Bivariate statistieken

3.5.1 Continu versus Continu

## `geom_smooth()` using method = 'gam'

Correlatie

  • Covariantie
    • \(cov(x,y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar(x))(y_i-\bar(y))\).
    • Bij een positieve associatie tussen twee variabelen zal de covariantie positief zijn.
    • Bij een negatieve associatie tussen twee variabelen zal de covariantie negatief zijn.
    • De covariantie is echter afhankelijk van de maateenheid van de variabelen, waardoor ze weinig bruikbaar is om de sterkte van de associatie weer te geven.
  • Pearson correlatiecoëfficiënt
    • Herschaalt de covariantie naar de schaal \([-1,1]\)
    • Laat toe om de sterkte van een associatie te evalueren.
    • \(r(x,y) = \frac{cov(x,y)}{s_x s_y}\)
    • \(r(x,y) = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2 \sum_{i=1}^{n}(y_i-\bar{y})^2}}\)
    • Meet lineaire associatie tussen 2 variabelen.
    • Twee variabelen kunnen positief geassocieerd zijn, maar in een niet-lineaire wijze, waardoor de correlatiecoëfficiënt naar nul gaat.
    • Meest gebruikelijke correlatiecoëfficiënt voor continue variabelen.
    • Daarom best altijd samen met een puntenwolk bekijken.
  • Spearman’s rangcorrelatiecoëfficiënt.
    • Zelfde principe als Pearson’s, maar dan gebaseerd op de rangorde van de waarden in plaats van de waarden zelf.
    • \(r_i\): rangorde van waarde \(x_i\). Bijvoorbeeld \(r_i = 4\) betekent dat de waarde \(x_i\) de vierde kleinste waarde is.
    • \(s_i\): rangorde van waarde \(y_i\).
    • \(\rho(x,y) = \frac{\sum_{i=1}^{n}(r_i-\bar{r})(s_i-\bar{s})}{\sqrt{\sum_{i=1}^{n}(r_i-\bar{r})^2 \sum_{i=1}^{n}(s_i-\bar{s})^2}}\)
    • Meet associatie tussen 2 variabelen, dus niet specifiek lineaire associatie.
  • Kendall’s correlatiecoëfficiënt
    • Ook wel Kendall’s tau genoemd.
    • De methode is gebaseerd door alle mogelijke observatieparen \((x_i, y_i)\) en \((x_j,y_j)\) te bestuderen.
    • Net als Spearman’s aanpak gebaseerd op rangorde \((r_i, s_i)\) en niet de feitelijke waarden.
    • Indien \(r_i > r_j\) en \(s_i > s_j\) (of \(r_i < r_j\) en \(s_i < s_j\)) dan zijn observaties \(i\) en \(j\) concordant.
    • Indien \(r_i > r_j\) en \(s_i < s_j\) (of \(r_i < r_j\) en \(s_i > s_j\)) dan zijn observaties \(i\) en \(j\) discordant.
    • Notatie: \(C\) en \(D\) zijn respectievelijk het aantal concordante en discordante paren.
    • \(\tau = \frac{C-D}{\frac{1}{2}n(n-1)}\)
    • Net als Spearman’s correlatiecoëfficiënt, focust Kendall’s tau op de associatie (positief of negatief) en niet specifiek op lineaire associatie.
    • Kendall’s tau heeft ook een intuïtieve interpretatie. Immers \(\tau + \frac{1}{2}{1-\tau}\) is het percentage van observatieparen dat concordant is.
    • Het nadeel van Kendall’s tau is dat je alle observatieparen moet bestuderen en het aantal kan snel exploderen bij veel observaties. Immers het aantal paren is \(\frac{n!}{2!(n-2)!}\). Hierdoor kan je Kendall in de praktijk niet gebruiken als je veel observaties hebt.
Table 3.8: Correlatie tussen afstand en vliegtijd
variabelenpaar pearson spearman
afstand-vliegtijd 0.99 0.98

Vergelijking correlatiecoëfficiënten

  • Rangcorrelatiecoëfficiënten meten associatie, terwijl Pearson correlatiecoëfficiënt lineaire associatie meet!
Table 3.9: Fictieve dataset
x y
1 0.0
2 4.0
3 5.0
4 5.5
5 7.0
6 15.0
7 15.6
8 16.0
9 50.0
10 1000.0

Table 3.10: Correlatiecoëfficiënten fictieve dataset
variabelenpaar pearson spearman kendall
x-y 0.55 1 1

3.5.2 Categorisch versus Continu

Univariate statistieken per categoriewaarde

  • Je toont de relevante centrum- en spreidingsmaten voor de afhankelijke categorische variabele per waarde van de onafhankelijke categorische variabele.
Table 3.11: Afstand-Luchthaven (centrummaten)
luchthaven gemiddelde mediaan
EWR 1049.58 872
JFK 1247.16 1028
LGA 779.84 762
Table 3.12: Afstand-Luchthaven (spreidingsmaten)
luchthaven var min Q25 Q50 Q75 max bereik IQR sd
EWR 536177.0 17 529 872 1372 4963 4946 843 732.2411
JFK 842460.4 94 425 1028 2248 4983 4889 1823 917.8564
LGA 138132.3 96 502 762 1035 1620 1524 533 371.6615

Correlatie

  • Enkel toepasbaar als de categorische variabele ordinaal is.
  • Pearson’s correlatiecoëfficiënt kan je NIET toepassen.
  • Spearman rangcorrelatiecoëfficiënt (\(\rho\)).
  • Kendall’s rangcorrelatiecoëfficiënt (\(\tau\)) kan theoretisch wel toegepast worden, maar is in de praktijk vaak niet haalbaar.
Table 3.13: Correlatie tussen vluchttype en vliegtijd
variabelenpaar spearman
vluchttype-vliegtijd 0.76

3.5.3 Categorisch versus Categorisch

Univariate statistieken per categoriewaarde

  • Je toont de relevante centrum- en spreidingsmaten voor de afhankelijke categorische variabele per waarde van de onafhankelijke categorische variabele.
Table 3.14: Centrummaten voor vluchttype-luchthaven
luchthaven variabele mediaan
EWR vluchttype kort
JFK vluchttype kort
LGA vluchttype kort
Table 3.15: Kwantielen voor vluchttype-luchthaven
luchthaven variabele Q25 Q50 Q75
EWR vluchttype kort kort normaal
JFK vluchttype kort kort lang
LGA vluchttype kort kort kort