2 Einführung

2.1 Geschichte

Sobald Zahlen in der Sprache vorkamen, wurde Statistik relevant.
- Bereits 6000 vor Christus wurde Tauschhandel gemacht.
- Im 17. Jahrhundert wurde zum ersten Mal die Bevölkerung gezählt.
- Die ersten Felder, welche Statistik verwendet hatten, waren Landwirtschaft, Astronomie und Politik.

Starten wir mit ein paar Fun facts zur Geschichte der Statistik…

431 before Chr: Bei der Attacke von Plataiai im Peloponnesischen Krieg zählte man die Höhe der Mauer durch das Zählen der Ziegel. Verschiedene Soldaten zählten dies. Man wählte die Zahl, die am häufigsten vorkam, um die Länge der Leitern zum Überwinden der Mauer zu ermitteln. Dies ist der Ursprung des Medians.
800 n. Chr.: Der Islamische Mathematiker Al-Kindi führte die Häufigkeitsanalyse ein. Er verwendete sie, um einen Code zu entschlüsseln. Er führte auch die arabischen Nummern in Europa ein.
1346: In diesem Jahr gab es die ersten Handelsstatistik (selbstverständlich in Florenz, Zentrum der wirtschaftsstarken Region Toskana).
1560: Gerolamo Cardano (italienischer Humanist) berechnete Wahrscheinlichkeiten beim Würfelspielen.
1570: Der Astronom Tycho Brahe verwendete das arithmethische Mittel, um die Position der Sterne und Planeten zu berechnen.
1693: Edmund Halley bereitete die erste Tabelle vor, in der das gegenwärtige Alter der Wahrscheinlichkeit zu sterben gegenübergestellt wurde. Sprich, es wurde die Lebenserwartung berechnet. Dies bildet den Ursprung der Lebensversicherung.
1854 (depressives Zeitalter): John Snow entdeckte durch statistische Vorgehensweisen, warum die Pest in einigen Stadtteilen von London stärker vorhanden war als in anderen (Ursprung war verschmutztes Wasser).
1849: Das erste Computerprogramm entstand (Zweck war eine statistische Auswertung).
1859: Florence Nightingale (Siehe Hauptfigur in Pflichtliteratur) verwendet Statistik, um die Opferzahlen des Krimkrieges (oder 9. Russisch-Türkischen Krieges) aufzuzeigen und so die öffentliche Meinung zu beeinflussen. Sie verwendete dazu ein Kreisdiagramm (man nannte es die Nightingale rose). Sie war die erste Frau, welche Mitglied der Royal Statistical Society und der American Statistical Association wurde.
1900: Louis Bachelier zeigt, dass die Bewegungen auf dem Aktienmarkt gleich aussehen wie das zufällige Bewegen von Molekülen.
1908: William Sealy Gosset - Chef von Guiness in Dublin - beschreibt den t-test (werden wir noch kennenlernen), um zu überprüfen, ob alle gebrauten Biere gleich gut schmecken.
1935: Fischer schreibt “Design of Experiments” und gibt so die Basis für Signifikanztests und Kausalitätsüberprüfungen.
1945-45: Alan Turing und Bletchley Park knackten das Mysterium um den Code, welchen die Deutschen zur Kriegszeit verwendet hatten (sie verwendeten Bayessche Statistik), und erschufen den ersten programmierbaren Computer.
1993: R, eine Programmiersprache, von welcher Sie auch ein bisschen was im Laufe des Semesters mitbekommen werden, wurde veröffentlicht.
2002: Die digitale Informationsmenge überstieg erstmals die analoge Informationsmenge.
2008: Google Chef sagte, dass Statistiker/in einer der wichtigsten Jobs sei.

2.2 Was ist Statistik?

STATISTIK ist Informationsorganisation und -verarbeitung.

STATISTIK dient der Überprüfung von Hypthesen. (Wir lernen gleich was eine Hypothese ist.)

STATISTIK dient als Entscheidungshilfe.¹

“STATISTICS are filters on how we see the world. They FOCUS our vision, and they help us to see through the fog. In doing so, they also prevent us from seeing some of what else is there. Stay aware of what is being FILTERED out, too.” (Keller 2016)

$\rightarrow$ Hier sieht man, dass Statisik einen großen Vorteil hat, nämlich unseren Fokus auszurichten, aber zugleich auch einen Nachteil, nämlich dass wir nicht alles sehen können.

$\rightarrow$ Die Gefahr, falsch bzw. manipulativ zu filtern, besteht. Wer mehr dazu wissen will sollte einen Blick in die folgenden zwei Bücher werfen:

Huff (1973)

Best (2010)

2.3 Notation

$\sum_{i=1}^n{x_i}$ - Summe aller x-Elemente ( $x_1$ + $x_2$ + $x_3$ +…)
$\sum_{i=2}^n{x_i}$ - Summe aller x-Elemente, welche nach $x_1$ kommen ( $x_2$ + $x_3$ + $x_4$ …)
$\frac{\sum_{i=1}^n{(x_i)^2}}{\sum_{i=1}^n (k_i)}$ - Summe aller quadrierten x-Elemente ( $x_1^2$ + $x_2^2$ + $x_3^2$ +…) dividiert durch die Summe aller k-Elemente ( $k_1$ + $k_2$ + $k_3$ +…)

2.4 Forschungsprozess

2.4.1 Interessensgebiet definieren

Bevor Sie mit dem Forschungsprozess beginnen, müssen Sie sich für ein Interessensgebiet entscheiden.

Betrachten wir ein Beispiel: Nehmen wir an, wir haben einen Bericht zu Protesten in diversen afrikanischen Staaten gelesen. Uns ist aufgefallen, dass es eine starke Erhöhung an Investitionen im Bauwerksektor in Afrika gab und wir fragen uns, ob dies zu Unstimmigkeiten in der Bevölkerung führte. Hierzu gab es kürzlich in International Organization einen Artikel, “Concession Stands: How Mining Investments Incite Protest in Africa,” von Darin Christensen.

2.4.2 Forschungsfrage definieren

Nachdem Sie das Interessensgebiet definiert haben, muss eine Forschungsfrage formuliert werden. Eine Forschungsfrage dient der/dem Forschenden dazu, das Ziel des Forschungsprozesses abzustecken und klar zu definieren. Sie bestimmt, mit welchen Mitteln und mit welchem Aufwand ein Projekt ausgeführt wird. Gute Fragestellungen sind sogenannte W-Fragen: Wie? Warum? Was? Weshalb?

Unser Beispiel: Welche Ursachen hat die Protestaktivität in Afrika? Unter welchen Umständen führt die Errichtung von Bergbauwerken zu vermehrter Protestaktivität in Afrika?

Eine statistische Fragestellung erkennt man durch folgende Charakteristika:

Die Fragestellung impliziert die Sammlung von Daten. (Achtung: Datensammlung alleine ist nicht Statistik, zusätzlich muss eine Analyse der Daten stattfinden.)
Die Fragestellung impliziert Varianz in den Daten.
Die Fragestellung erfordert eine objektive und nicht-subjektive Evaluierung.

2.4.3 Theorie

Wenn die Forschungsfrage definiert wurde, wird eine Theorie und in Folge eine Hypothese² zum kausalen Mechanismus formuliert. In diesem Kontext wird auch die Population³ definiert, sprich für wen, was, und wann die Theorie gelten sollte.

Unser Beispiel:

Theoriebildung:

Errichtung von Bauwerken generiert evtl. …

…Unsicherheit der Bevölkerung,

…Ungleichheit in der Bevölkerung,

…und Umweltbedenken der Menschen

und kann somit zu vermehrter Protestaktivität führen.

Hypothese Die Errichtung von Bergbauwerken erhöht die Wahrscheinlichkeit von Protestaktivität in Afrika.

Die Population im vorliegenden Fall wären Regionen in Afrika. Die Autorin Christensen verwendet 5x5 km Grids in Afrika als Einheit.

2.4.4 Variablen identifizieren

Mit der Hypothese wurde bereits definiert, was die erklärende und was die unabhängige Variable⁴ ist.

Unser Beispiel: Abhängige Variable: Protestaktivität.

Erklärende Variable: Anzahl der errichteten Bauwerke.

2.4.5 Daten sammeln

Daten für die erklärende und die abhängige Variable müssen nun gesammelt werden. Da wir oben definiert hatten, dass die Population Regionen in Afrika umfasst, müssen diese Daten für jene Beobachtungseinheit gesammelt werden. In anderen Worten wollen wir Zahlen zu Protestaktivitäten und der Anzahl der errichteten Bauwerken pro 5km x 5km Zelle in Afrika erhalten. Die Autorin Christensen beruft sich hier auf Sekundärdaten⁵.

Abhängige Variable: Protestzahlen sind online verfügbar (zB unter Event Project (ACLED); the Social Conflict Database).

Erklärende Variable: Private Archive, wie IntierraRMG, SNL Metals and Mining und Mining eTrack, zeichnen die Errichtung von allen Bergbauwerken auf.

EXKURS: DATEN SAMMELN

Wenn wir Daten für unsere Forschung verwenden, müssen wir drei Fragen beantworten:

Was ist das Subjekt unserer Forschung und zu welchem Zeitpunkt wollen wir dieses messen?
Woher kommen unsere Daten?
Wie wurden/werden unsere Daten gesammelt?

Zu Frage 1: Was ist das Subjekt unserer Forschung und zu welchem Zeitpunkt wollen wir dieses messen?

Hier gibt es drei Möglichkeiten:

Wir messen dasselbe Subjekt vor und nach einem bestimmten Ereignis. Dies wird Within-Group-Design genannt. In unserem konkreten Beispiel würden wir die Protestaktivität in Regionen in Afrika vor der Errichtung und nach der Errichtung von Bergbauwerken messen.
Wir messen Subjekte, wobei in einigen dieser Subjekte ein bestimmtes Ereignis stattgefunden hat und in anderen nicht. Dies wird Between-Group Design genannt. In unserem konkreten Beispiel würden wir die Protestaktivität in Regionen messen, wo ein Bergbauwerk errichtet wurde, und diese mit der Protestaktivität von Regionen vergleichen, wo kein Bergbauwerk gebaut wurde.
Wir messen Subjekte vor und nach einem bestimmten Ereignis und vergleichen diese Werte mit Subjekten, wo das bestimmte Ereignis nicht stattgefunden hat. Dies wird Difference-in-Difference Design genannt. In unserem konkreten Beispiel würden wir den Unterschied in der Protestaktivität von Region A zum Zeitpunkt $t$ und zum Zeitpunkt $t-1$ mit dem Unterschied in der Protestaktivität von Region B zum Zeitpunkt $t$ und zum Zeitpunkt $t-1$ vergleichen. In Region A wurde zwischen Zeitpunkt $t-1$ und $t$ ein Bergbauwerk errichtet. In Region B wurde kein Bergbauwerk errichtet.

Zu Frage 2: Woher kommen unsere Daten?

Wenn wir Glück haben, gibt es bereits Daten, welche wir für unsere Analyse benötigen. Oftmals finden wir bereits existierende Daten in Online-Archiven. Häufig gibt es aber keine bereits bestehenden Daten (Sekundärdaten) und wir müssen Primärdaten sammeln.

Zu Frage 3: Wie wurden/werden unsere Daten gesammelt?

Im Großen und Ganzen gibt es drei Methoden zur Datensammlung:

Beobachtung/Observation: Hier beobachten wir das Verhalten von Subjekten ohne diese zu beeinflussen. Zum Beispiel können wir beobachten, wie oft Personen das Wort “Grippe” via Google suchen. Dies kann uns helfen Grippeepedemien vorherzusagen. Oder wir könnten beobachten, wie Parlamentarier_innen über ein bestimmtes Thema abstimmen. Beobachtungsdaten sind sehr vielseitig und können in verschiedenen Formen auftreten (Zahlen, Texte, Bilder, etc.).
Umfrage/Interview: Im Rahmen von Umfragen/Interviews werden Personen kontaktiert und ihnen werden Fragen gestellt. Die Antworten zu diesen Fragen dienen dann als Messung in der Analyse.
Experiment: Bei Experimenten werden bewusst gewisse Ereignisse manipuliert. Manche Experiment-Teilnehmer_innen erhalten/erleben dieses Ereignis, andere nicht. Wer dafür ausgewählt wird, ist zufällig. Experiment-Teilnehmer_innen (Proband_innen) werden dann in Ihrer Reaktion zu diesen (Nicht-)Ereignissen beobachtet.

2.4.6 Daten analysieren

Nachdem wir die Daten gesammelt haben, folgt die Datenanalyse. In diesem Schritt analysieren wir die Varianz⁶ in den Daten.

Datenanalyse: Inwiefern kann die Varianz in der erklärenden Variable die Varianz in der abhängigen Variable erklären (systematische Varianz⁷) und wieviel der Varianz in der abhängigen Variable bleibt unerklärt (unsystematische Varianz⁸).

Es gibt zwei Arten der Datenanalyse:

Die deskriptive Statistik, welche mit Hilfe von Tabellen, Grafiken, und Kennzahlen Muster in den Daten beschreibt.
Die inferentielle Statistik, welche zur Überprüfung der Hypothese dient. Hier wird überprüft, inwiefern der gefundene Zusammenhang in den Daten nur zufällig ist bzw. inwiefern dieser Zusammenhang nicht nur zufällig, sondern statistisch signifikant⁹ ist.

In unserem Beispiel würden wir im Rahmen der deskriptiven Statistik die Anzahl der Proteste pro Jahr und pro Region abbilden. Wir würden diese Zahlen mit den Zahlen der Bergwerksbaue vergleichen. In den Daten sehen wir zum Beispiel, dass der Mittelwert von Protesten in Regionen mit Bergbauwerk bei 2.1 pro Jahr liegt. In Regionen ohne Bergbauwerk findet im Durchschnitt nur 1 Protest pro Jahr statt. Dies hilft uns, einen ersten Eindruck zu gewinnen. Im zweiten Schritt und im Rahmen der inferentiellen Statistik untersuchen wir mit Hilfe von statistischen Verfahren, welche Sie in dieser Vorlesung erlernen, ob der Unterschied zwischen den Regionen mit Bergbauwerk und jenen ohne Bergbauwerk signfikant oder rein zufällig ist. Tatsächlich konnte in den Daten gefunden werden, dass Regionen mit Bergbauwerken signifikant mehr Protestaktivität erleben als Regionen ohne Bergbauwerke.

2.4.7 Schlussfolgerung

Zum Schluss werden nochmals die Resultate zusammengefasst und in den Kontext gebracht. Es wird auch versucht die substantiellen Effekte zu beschreiben. Zum Beispiel könnten wir schlussfolgern, dass sich Proteste in Regionen Afrikas mehr als verdoppeln, wenn Bergbauwerke errichtet werden. Zudem wird nochmals die Generalisierbarkeit bewertet und aufgezeigt, was die gesellschaftliche Relevanz der Forschung ist. In unserem Beispiel zeigen die Autoren inwiefern Proteste aufgrund von wirtschaftlichen Investitionen entstehen können.

2.4.8 Elemente eines Forschungspapieres

Titel: Präziser Titel, welcher alleinstehend und voll erklärend ist
Abstract: Zusammenfassung (Motivation, Forschungsfrage, Hypothese, Methode, Ergebnis, Schlussfolgerung)
Einleitung: Warum ist diese Forschung wichtig? Was ist die Forschungsfrage? Und nochmals eine kurze Zusammenfassung des Forschungsdesigns
Literaturüberblick: Was sind die Forschungslücken?
Theorie: Herleitung der Hypothese(n)
Methoden zur Datensammlung und Datenanalyse: Wie wurde das alles gemacht?
Resultate: Interpretation und Präsentation der Ergebnisse (was wurde gefunden?)
Schlussfolgerung (für wen ist das relevant?, was hat die Gesellschaft davon?, etc.)
Referenzen/Bibliographie: Nachweis

References

Best, Joel. 2010. Tatort Statistik: wie Sie zweifelhafte Daten und fragwürdige Interpretationen erkennen. Spektrum, Akad. Verl.

Huff, Darrell. 1973. “How to Lie with.” Applied Statistics 22 (3): 401. https://doi.org/10.2307/2346789.

Keller, Dana K. 2016. The tao of statistics: a path to understanding (with no math). London: Sage Publishing. https://us.sagepub.com/en-us/nam/the-tao-of-statistics/book243881.

(1974 Gottfried Achenwall führte das Wort Statistik im Deutschen Sprachgebrauch ein und meinte damit die Information, die man benötigt, um einen Nationalstaat zu führen). Dies ist nach wie vor so. Jeder Staat sammelt Zahlen und kreiiert Statistiken.↩︎
Eine HYPOTHESE ist eine logische und überprüfbare Aussage.↩︎
POPULATION ist die Ansammlung aller Objekte, für welche die Theorie formuliert wurde.↩︎
Eine abhängige Variable (Y Variable) ist eine Variable, deren Wert wir erklären wollen. Eine erklärende Variable (X Variable), auch manchmal unabhängige Variable genannt, ist eine Variable, welche potentiell erklären kann, inwiefern sich die abhängige Variable ändert. Zum Beispiel könnte man erwarten, dass wenn die erklärende Variable steigt, auch die abhängige Variable steigt.↩︎
Sekundärdaten sind Daten, welche von Dritten gesammelt wurden. Diese sind zum Beispiel in (online-)Archiven zu finden.↩︎
Varianz spiegelt die Unterschiedlichkeit in den Datenpunkten wider.↩︎
Systematische Varianz beschreibt die Unterschiede, welche durch Varianz in den erklärenden Variablen erklärt werden können.↩︎
Unsystematische Varianz beschreibt die Unterschiede, welche NICHT durch Varianz in den erklärenden Variablen erklärt werden können.↩︎
Statistische Signifikanz ist gegeben, wenn Stichprobendaten ein eindeutiges Muster aufweisen, sodass die Hypothese sehr wahrscheinlich richtig ist.↩︎