3 Deskriptive Statistik
3.1 Messen von Variablen
3.1.1 Was sind Daten?
``Data are what we hear, see, smell, taste, touch, and more. Data can even be what we sense. Data can represent anything and everything that we can discriminate well enough to distinguish from something else. In short, if it can be perceived, it can be coded and used as data.’’
Sprich, wir meinen damit alles was uns hilft zwischen den Einheiten zu unterscheiden bzw. diese gleich zu setzen.
3.1.2 Warum benötigen Daten einen Kontext?
Ein Datenpunkt benötigt eine Referenz um etwas zu bedeuten. Wir verstehen den Inhalt von Daten nur wenn wir den Kontext verstehen. So können wir zB die Protestaktivität im Sudan besser beurteilen, wenn wir die Protestaktivität in anderen afrikanischen Staaten wissen. Der Kontext ist wichtig um Daten interpretieren zu können.
3.1.3 Was können wir messen?
``If you can perceive it, you can measure it. A measurement is an assigned value for a single characteristic. The way a characteristic is captured and, therefore, the way its data should be interpreted determine the measure being used to address the question at hand.’’
Wir müssen uns überlegen, welche Ausprägungen unsere Messung annehmen kann.
Hier ein Beispiel:
- Teilnehmer_innenanzahl: 0-…
- Ort: Seoul, Changwon, Dagjin, Gimje, …
- Thema: Arbeitsstandards, Umweltaspekte, Migration, Investionen, …
- Datum: 1985-01-01, … 2018-11-18, 2018-11-19, …, 2019-03-06
- Alter: 0-130
- Gender: m,f
- Mitglied in Gewerkschaft: ja,nein
Die Ausprägungen geben Aufschluss über die Struktur der Daten. Strukturen bestimmen wie etwas verwendet werden darf. Man bewegt sich zum Beispiel bei der Stiege anders fort als auf der Achterbahn. Um die Streckenmitte auf der Stiege zu bestimmen benötigt man eine andere Methode (zählen von Treppen) als beim bestimmen der Streckenmitte auf der Achterbahn (zählt man die mm). Dies ist dasselbe beim Messen von Daten.
Man nennt diese unterschiedlichen Strukturen der Daten Skalenniveaus. Das Skalenniveau bestimmt auch was wir mit den Daten machen können.
3.1.4 Worauf muss beim Messen noch geachtet werden?
- Wir sollten Messfehler vermeiden.
[MESSFEHLER] ist der Unterschied zwischen dem tatsächlichen und dem gemessenen Wert.
Beispiel: Das Alter in Korea wird anders gemessen als in Europa. In Korea wird jeder am Neujahrstag nach dem Mondkalendar 1 Jahr älter. So kann es vorkommen, dass man sogar 2 Jahre älter als das echte Alter ist.
Hier ein Beispiel: Wird ein Kind an Silvester (31.12.) geboren, ist es 1 Jahr alt. Im Neujahr wird in Korea jeder ein Jahr älter, also ist das an Silvester geborene Kind am 1. Januar schon 2 Jahre alt, obwohl es in Wirklichkeit nur 2 Tage alt ist.
Grundsätzlich ist unser Ziel sowohl die Validität als auch die Reliabilität zu maximieren.
[VALIDITÄT] sagt, ob eine Messung das misst, was es sagt, dass es misst.
[RELIABILITÄT] sagt, ob bei einer wiederholten Messung dasselbe rauskommt.
3.2 Deskriptive Statistik: Was ist das?
Datensätze können sehr unübersichtlich sein. Die deskriptive („beschreibende“) Statistik stellt ein Bündel an Verfahren, Grafiken und Parametern bereit, welche es ermöglichen, die Informationen soweit zu verdichten, dass man sich schnell einen Eindruck über die Daten verschaffen kann. Eine deskriptive Auswertung sollte am Anfang jeder statistischen Analyse stehen. Sie vermittelt dem/der Forscher/-in ein Gefühl für die Daten und hilft ggf., vorhandene Fehler und unplausible Werte (z.B. Ausreisser/ Outlier) zu entdecken. Wichtig hierfür ist die Kenntnis über das Skalenniveau der Daten, die untersucht werden sollen, da die Wahl des Mittels zur Beschreibung eines Datensatzes von diesem abhängt.
Beginnt man mit der Auswertung einer empirischen Studie so ist es sinnvoll, sich zuerst einen Überblick über den vorliegenden Datensatz zu verschaffen, bevor die angestrebten Auswertungsmethoden angewandt werden. Hierbei geben Lage- und Skalenparameter erste Informationen zu dem Datensatz. Die Visualisierung der Daten ist für das bessere Verständnis des Datensatzes erforderlich. Durch diese kann ein Eindruck von der Verteilung der Merkmale oder dem Zusammenhang zwischen unterschiedlichen Merkmalen gewonnen werden.
DESKRIPTIVE STATISTIK…
- …ordnet Daten
- …vereinfacht Daten
- …beschreibt Daten
- …hilft Daten zu verstehen
- …hilft Fehler in den Daten zu erkennen
- …hilft Muster zu erkennen
3.3 Häufigkeitstabellen
Häufigkeitstabellen sind die erste Variante, welche wir uns ansehen, um Daten darzustellen. Dies ist ein sehr einfacher und schneller Weg einen Überblick über die Daten zu erlangen.
Nehmen wir das Beispiel des Paris Abkommens. Dies galt als eines der erfolgreichsten Internationalen Treffen im Bezug auf Umweltschutz. 195 Staaten unterschrieben das Abkommen im Dezember 2015. Staaten konnten zwar Ihre individuellen Ziele festlegen aber diese waren bindend. Ein wichtiger Datenpunkt ist daher wie hoch diese Zugeständnisse der Staaten waren. Hier hat man die Dokumente, welche die Staaten geschickt hat analyiert und herausgelesen welche Ziele diese haben. Das reicht von vollkommen unzureichend zum Vorbild. Die Erderwärmung auf 1.5 Grad zu reduzieren ist das in Paris als erstrebenswert vorgeschlagenes Ziel. Wir müssen zunächst die Daten sortieren. Hier das Resultat. Dann müssen wir zählen. Wieviel Länder haben welches Ziel hineingeschrieben? Und dann haben wir auch schon unsere erste Häufigkeitstabelle. Dies umfasst die absolute Häufigkeit. Gibt uns ein erstes Gefühl aber besser ist es wenn wir dies relativ zu den anderen Beobachtungen sagen können. Hierzu benötigen wir die relativen Häufigkeiten. Dazu dividieren wir die absoluten Häufigkeiten durch die totale Anzahl der Beobachtungen. Relative Häufigkeiten, die wir 𝑓𝑖 nennen, sind die Anteile, die auf jede Ausprägung fallen.
Dann gibt es noch kumulierte Häufigkeiten. In ihr werden die relativen Häufigkeiten aufsummiert. Die kumulierte Häufigkeitstabelle wird meist nur mit relativen Häufigkeiten gebildet—mit absoluten Häufigkeiten findet sie eigentlich nirgends Verwendung. Die kumulierte Häufigkeit ist sehr praktisch da man auf einem Blick sagen kann ab wann eine bestimmte Grenze überschritten wird.
Bei nominalen und ordinalen Variablen sind die Kategorien bereits natürlich definiert. Bei intervall- und verhälntiss-skalierten Daten müssen die Kategorien definiert werden. Dazu werden Intervallbreiten berechnet und die Variable dann in Kategorien geteilt.
\(\text{Invervallbreite} = \frac{\text{Höchster Wert-Niedrigster Wert}}{\text{Anzahl der gewünschten Intervalle}}\)
Was ist wenn wir aber keine Kategorien bilden wollen? Dann können wir auf eine sogenannte Dichtefunktion zurückgreifen. Eine Dichtefunktion sagt uns die Wahrscheinlicheit für einen bestimmten Wert, wenn wir dies nicht in Kategorien einteilen. Wenn wir nämlich keine Kategorien haben ist es sehr schwierige jeden Prozentsatz zu berechnen.
Bei kontinuierlichen Variablen ist der Modus da wo die Dichtefunktion das Maximum hat.
3.4 Statistisches Modell
Ein statistisches Modell dient dazu Daten vorhersagen zu können. Manche Modelle sind besser und manche schlechter. Wir lernen Qualitäten von statistischen Modellen abzuschätzen. Im Grunde hat ein statistisches Modell aber immer dieselbe Struktur:
\(\text{Ergebnis}_i = \beta_0 + \text{Fehlerterm}_i\)
\(\text{Ergebnis}_i = \beta_0 + \beta_1 X_i + \text{Fehlerterm}_i\)
Es umfasst das Ergebnis auf der linken Seite der Gleichung und Modellterme (wie zB \(\beta_0\) oder \(\beta_1\)) als auch den Fehlerterm auf der rechten Seite. Den Fehlerterm können wir auch so berechnen, dass wir die Modellterme vom Ergebnis substrahieren. Je größer der Fehlerterm desto ungenauer ist unser statistisches Modell.
3.4.1 Zentrale Tendenz
Bekannte und sehr einfache statischen Modelle sind zentrale Tendenzen. Hier unterscheiden wir insbesondere drei Maße: 1) Modus, 2) Median, 3) Arithmetische Mittel.
Der MODUS auch Modalwert genannt ist ein Lageparameter in der deskriptiven Statistik. Er ist definiert als der häufigste Wert, der in der Stichprobe vorkommt. Und was ist wenn wir zwei Kategorien mit der gleichen Anzahl an Beobachtungen haben? Dann haben wir zwei Modalwerte.
Der MEDIAN oder auch Zentralwert genannt ist derjenige Messwert, der genau in der Mitte steht, wenn man die Messwerte der Größe nach sortiert. Im ersten Schritt müssen wir die Daten ordnen. Danach den Wert welcher in der Mitte steht auswählen. Bei 31 Beobachtungen ist die Mitte 31+1/2 = 16. Der Median ist besonders für ordinale und metrische Variablen nützlich.
Das ARITHMETISCHES MITTEL, auch arithmetischer Mittelwert genannt berechnet sich wie folgt: Summe der betrachteten Zahlen geteilt durch ihre Anzahl. Dieses Maß ist sehr nützlich für metrische Variablen. Wir haben eine leicht unterschiedliche Notation wenn wir den Mittelwert von einer Stichprobe bzw. von der Grundgesamtheit berechnen.
Mittelwert der Grundpopulation:
\(\mu = \frac{\sum^n_{i=1}x_i}{N}\)
Mittelwert der Stichprobe:
\(\bar{X} = \frac{\sum^n_{i=1}x_i}{n}\)
Da wir meist Mittelwerte für Stichproben berechnen ist besonders die zweite Notation für Sie relevant.
3.4.2 Modellqualität
Worin unterscheiden sich die verschiedenen Maße nun?
- Nicht alle Maße sind für alle Datentypen geeignet.
- Ausreißer haben unterschiedlichen Einfluss auf das Ergebnis. Beim Mittelwert haben Außreiser einen viel größeren Einfluss als beim Median und Modus. Ist jetzt der Median besser als der Mittelwert? Nicht unbedingt, da der Mittelwert repräsentativer ist als der Median (er inkludiert alle Datenpunkte).
Die nächsten Fragen die sich stellen ist wie gut ein statistischen Modell denn jetzt ist. Wie gut kann die Schätzung die wir gerade gemacht haben die einzelnen Datenpunkte repräsentieren?
Wie oben bereits erwähnt kann uns der Fehlerterm bzw. das Aggregat davon Aufschluss geben.
\(\text{Fehler-Quadratsumme}=\sum_{i=1}^n (x_i-Vorhersage_i)^2\)
, wobei \(x_i\) jeden Beobachtungswert darstellt und die Vorhersage die Modellvorhersage meint. Wir nehmen das ganze zum Quadrat um zu vermeiden, dass sich negative und positive Fehlerterme aufheben.
Wenn wir als statistisches Modell den Mittelwert verwenden würde dies für die Grundpopulation wie folgt aussehen:
\(\text{Fehler-Quadratsumme (SSE)}=\sum_{i=1}^n (x_i-\mu)^2\)
Ausgehend von der Summe können wir nun auch die mittlere Fehler-Quadratsumme berechnen.
\(\text{Mittlere Fehler-Quadratsumme}=\frac{SSE}{N}=\frac{\sum_{i=1}^n (x_i-Vorhersage_i)^2}{N}\)
Wenn das Modell der Mittelwert ist dann hat dies einen speziellen Namen, nämlich Varianz.
\(\text{Varianz}(\delta^2)=\frac{SSE}{N}=\frac{\sum_{i=1}^n (x_i-\mu)^2}{N}\)
Aber wie wir wissen repräsentiert mu die Grundpopulation. Hier ist es wichtig einen Unterschied zwischen Grundpopulation und Stichprobe zu machen. Jetzt wird es kurz etwas komplizierter.
Der Grund ist dass wir wenn wir die Varianz für die Grundpopulation anhand von einer Stichprobe vorhersagen die Varianz unterschätzt wird. Um diese Unterschätzung zu vermeiden ziehen wir von der Anzahl der Objekte (\(n\)) 1 ab. Man nennt diese Zahl auch Freiheitsgrade (\(n-1\)).
\(\text{Mittlere Fehler-Quadratsumme}=\frac{SSE}{n-1}=\frac{\sum_{i=1}^n (x_i-Vorhersage_i)^2}{n-1}\)
Auch die Formel der Varianz für die Stichprobe beachtet dies:
\(\text{Varianz}(\delta^2)=\frac{SSE}{n-1}=\frac{\sum_{i=1}^n (x_i-\bar{X})^2}{n-1}\)
Ein Problem haben wir noch mit der Varianz. Nämlich, dass die Relation nicht klar ist. Was bedeutet diese Zahl. Das Verhältnis ist schwer herzustellen, da die Zahl quadriert ist. Deshalb müssen wir die Wurzel ziehen und das nennen wir dann Standardabweichung:
Grundpopulation: \(\text{Standardabweichung}= \sqrt{\delta^2}=\sqrt{\frac{SSE}{N}=\frac{\sum_{i=1}^n (x_i-\mu)^2}{N}}\)
Stichprobe: \(\text{Standardabweichung}=\sqrt{s^2}=\sqrt{\frac{SSE}{n-1}=\frac{\sum_{i=1}^n (x_i-\bar{X})^2}{n-1}}\)
Es geht aber noch viel einfacher, nämlich mit der Spannweite. Allerdings beeinflussen Ausreißer dieses Ergebniss dramatisch. Daher ist es besser wir nehmen den Interquartilsabstand.
Beim Interquartilsabstand müssen wir das 1. Quartil vom 3. Quartil abziehen.
Hier die Berechnung für die Stichprobe 1. Hier erhalten wir einen Interquartilsabstand von 50. Bei Stichprobe 2 haben wir einen Interquartilsabstand von 64.24.
Das Ganze lässt sich auch sehr gut in einem Boxplot abbilden.
Was sehen wir in einem Boxplot:
- Median
- oberes quartil (1.Quartil) und unteres quartil (3.Quartil) grenzen die mittleren 50 prozent ein.
- Whiskers:
- top 25 prozent ohne extreme werte (die extremen Werte sind Werte die größer sind als das obere Quartil plus 1.5 mal die Spannweite)
- untere 25 prozent ohne extreme Werte (die extremen Werte sind Werte die kleiner sind als das untere Quartil minus 1.5 mal die Spannweite)
- Ausreißer/extreme Werte