2 Einführung

2.1 Geschichte

  • Sobald Zahlen in der Sprache vorkam wurde Statistik relevant.
    • Bereits 6000 vor Christus wurde Tauschhandel gemacht.
    • Im 17 Jahrhundert wurde zum ersten Mal die Bevölkerung gezählt.
    • Die ersten Felder welche Statistik verwendet hattten waren Landwirtschaft, Astronomie, und Politik.

Starten wir mit ein paar Fun facts zur Geschichte der Statistik…

  • 431 before Chr: Bei der Attacke von Plataiai im Peloponnesischen Krieg zählte man die Höhe der Mauer durch das Zählen der Ziegel. Verschiedene Soldaten zählten dies. Man wählte die Zahl die am Häufigsten vorkam um die Länge der Leitern zum Überwinden der Mauer zu verwenden. Dies ist der Ursprung des Medians.

  • 800 n. Chr.: Der Islamische Mathematiker Al-Kindi führte die Häufigkeitsanalyse ein. Er verwendete es um einen Code zu entschlüsseln. Er führte auch die arabischen Nummern in Europa ein.

  • 1346: gab es die ersten Handelsstatistik (selbstverständlich in Florenz, Zentrum der wirtschaftsstarken Region Toskana).

  • 1560: Gerolamo Cardano (italienischer Humanist) berechnete Wahrscheinlichkeiten beim Würfelspielen.

  • 1570: Astronome Tycho Brahe verwendet das arithmethische Mittel um die Position der Sterne und Planeten zu berechnen.

  • 1693: Edmund Halley bereitete die erste Tabelle vor, wo das Alter der Wahrscheinlichkeit zu sterben gegenübergestellt wurde. Sprich es wurde die Lebenserwartung berechnet. Dies bildet den Ursprung der Lebensversicherung.

  • 1854 (depressives Zeitalter): John Snow hat durch statistische Vorgehensweise entdeckt warum die Pest in eineigen Stadtteilen von London stärker vorhanden war als in anderen (Ursprung war verschmutztes Wasser).

  • 1849: das erste Computerprogramm enstand (Zweck war eine statistische Auswertung).

  • 1859: Florence Nightingale (Siehe Hauptfigur in Pflichtliteratur) verwendet Statistik um die Opferzahlen des Krimkrieges (oder 9. Russisch-Türkischen Krieg) aufzuzeigen und so die öffentliche Meinung zu beeinflussen. Sie verwendete dazu ein Kreisdiagramm (man nannte es die Nightingale rose). Sie war die erste Frau welche Mitglied der Royal Statistical Society und der American Statsitical Association.

  • 1900: Louis Bachelier zeigt dass die Bewegungen auf dem Aktienmarkt gleich aussehen wie das zufällige Bewegen von Molekülen.

  • 1908: William Sealy Gosset - Chef von Guiness in Dublin - beschreibt den t-test (werden wir noch kennen lernen) um zu Überprüfen ob alle gebrauten Biere gleich gut schmecken.

  • 1935: Fischer schreibt “Design of Experiments” und gibt so die Basis für Signifikanztests und Kausalitätsüberprüfungen.

  • 1945-45: Alan Turing und Bletchley Park knackte das Mysterium um den Code, welchen die Deutschen zur Kriegszeit verwendet hatten (sie verwendeten Baysian Statistik) und erschaffen den ersten programmierbaren Computer.

  • 1993: R eine Programmiersprache, von welcher Sie auch ein bisschen was im Laufe des Semesters mitbekommen, wurde veröffentlicht.

  • 2002: die digitale Informationsmenge überstieg die analoge Informationsmenge

  • 2008: Google Chef sagt dass Statistiker/in einer der wichtigsten Jobs ist.

2.2 Was ist Statistik?

STATISTIK ist Informationsorganisation und -verarbeitung.

STATISTIK dient der Überprüfung von Hypthesen. (Wir lernen gleich was eine Hypothese ist.)

STATISTIK dient als Entscheidungshilfe.1

STATISTICS are filters on how we see the world. They FOCUS our vision, and they help us to see through the fog. In doing so, they also prevent us from seeing some of what else is there. Stay aware of what is being FILTERED out, too.” (Keller 2016)

\(\rightarrow\) Hier sieht man dass Statisik einen großen Vorteil hat, nämlich unseren Fokus auszurichten, aber zugleich auch einen Nachteil, nämlich dass wir nicht alles sehen können.

\(\rightarrow\) Die Gefahr falsch bzw. manipulativ zu filtern besteht. Wer mehr dazu wissen will sollte einen Blick in die folgenden zwei Bücher werfen:

Huff (1973)

Best (2010)

2.3 Notation

  • \(\sum_{i=1}^n{x_i}\) - Summe aller x-Elemente (\(x_1\)+\(x_2\)+\(x_3\)+…)
  • \(\sum_{i=2}^n{x_i}\) - Summe aller x-Elemente, welche nach \(x_1\) kommen (\(x_2\)+\(x_3\)+\(x_4\)…)
  • \(\frac{\sum_{i=1}^n{(x_i)^2}}{\sum_{i=1}^n (k_i)}\) - Summe aller quadrierten x-Elemente (\(x_1^2\)+\(x_2^2\)+\(x_3^2\)+…) dividiert durch die Summe aller k-Elemente (\(k_1\)+\(k_2\)+\(k_3\)+…)

2.4 Forschungsprozess

2.4.1 Interessensgebiet definieren

Bevor Sie mit dem Forschungsprozess beginnen müssen Sie sich für ein Interessensgebiet entscheiden.

Nehmen wir ein Beispiel: Nehmen wir an wir haben einen Bericht zu Protesten in diversen afrikanischen Staaten gelesen. Uns ist aufgefallen dass es eine starke Erhöhung an Investitionen im Bauwerksektor in Afrika gab und wir fragen uns ob dies zu Unstimmigkeiten in der Bevölkerung führt. Hierzu gab es kürzlich in International Organization einen Artikel “Concession Stands: How Mining Investments Incite Protest in Africa” von Darin Christensen.

2.4.2 Forschungsfrage definieren

Nachdem Sie das Interessensgebiet definiert haben, muss eine Forschungsfrage formuliert werden. Eine Forschungsfrage dient der Forschenden/dem Forschenden das Ziel des Forschungsprozesses abzustecken und klar zu definieren. Sie bestimmt mit welchen Mitteln und Aufwand ein Projekt ausgeführt wird. Gute Fragestellungen sind sogenannte W-Fragen: Wie? Warum? Was? Weshalb?

Unser Beispiel: Welche Ursachen hat die Protestaktivität in Afrika? Unter welchen Umständen führt die Errichtung von Bergbauwerken zu vermehrter Protestaktivität in Afrika?

Eine statistische Fragestellung erkennt man durch folgende Charakteristika:

  • die Fragestellung impliziert die Sammlung von Daten. (Achtung Datensammlung alleine ist nicht Statistik, sondern die Analyse)

  • die Fragestellung impliziert Varianz in den Daten.

  • die Fragestellung erfordert eine objektive und nicht subjektive Evaluierung.

2.4.3 Theorie

Wenn die Forschungsfrage definiert wurde, wird eine Hypothese2 und eine Theorie zum kausalen Mechanismus formuliert. In diesem Kontext wird auch die Population3 definiert, sprich für wen, was, und wann die Theorie gelten sollte.

Unser Beispiel: Hypothese Die Errichtung von Bergbauwerken erhöht die Wahrscheinlichkeit von Protestaktivität in Afrika.

Danach folgt die Theoriebildung:

Errichtung von Bauwerken generiert evtl. …

…Unsicherheit der Bevölkerung,

…Ungleichheit in der Bevölkerung,

…und Umweltbedenken der Menschen

und kann somit zu vermehrter Protestaktivität führen.

Die Population im vorliegenden Fall wären Regionen in Afrika. Die Autorin Christensen verwendet 5x5 km Grids in Afrika als Einheit.

2.4.4 Variablen identifizieren

Mit der Hypothese wurde bereits definiert was die erklärende und was die unabhängige Variable4 ist.

Unser Beispiel: Abhängige Variable: Protestaktivität.

Erklärende Variable: Anzahl der errichteten Bauwerke.

2.4.5 Daten sammeln

Daten für die erklärende und die abhängige Variable müssen nun gesammelt werden. Da wir oben definiert hatten, dass die Population Regionen in Afrika umfasst, müssen diese Daten für jene Beobachtungseinheit gesammelt werden. In anderen Worten, wollen wir Zahlen zu Protestaktivitäten und der Anzahl der errichteten Bauwerken pro 5km x 5km Zelle in Afrika. Die Autorin Christensen beruht hier auf Sekundärdaten5.

Abhängige Variable: Protestzahlen sind online verfügbar (zB unter Event Project (ACLED); the Social Conflict Database)

Erklärende Variable: Private Archive, wie IntierraRMG, SNL Metals and Mining, und Mining eTrack, zeichnen die Errichtung von allen Bergbauwerken auf.

EXKURS: DATEN SAMMELN

Wenn wir Daten für unsere Forschung verwenden, müssen wir drei Fragen beantworten:

  1. Was ist das Subjekt unserer Forschung und zu welchem Zeitpunkt wollen wir dieses messen?
  2. Woher kommen unsere Daten?
  3. Wie wurden/werden unsere Daten gesammelt?

Zur Frage 1: Was ist das Subjekt unserer Forschung und zu welchem Zeitpunkt wollen wir dieses messen?

Hier gibt es drei Möglichkeiten:

  1. Wir messen dasselbe Subjekt vor und nach einem bestimmten Ereignis. Dies wird Within-Group-Design genannt. In unserem konkreten Beispiel würden wir die Protestaktivität in Regionen in Afrika vor der Errichtung und nach der Errichtung von Bergbauwerken messen.

  2. Wir messen Subjekte, wobei in einigen dieser Subjekte ein bestimmtes Ereignis stattgefunden hat und in anderen nicht. Dies wird Between-Group Design genannt. In unserem konkreten Beispiel würden wir die Protestaktivität in Regionen messen, wo ein Bergbauwerk errichtet wurde und diese mit der Protestaktivität von Regionen vergleichen, wo kein Bergbauwerk gebaut wurde.

  3. Wir messen Subjekte vor und nach einem bestimmten Ereignis und vergleichen diese Werte mit Subjekten wo das bestimmte Ereignis nicht stattgefunden hat. Dies wird Difference-in-Difference Design genannt. In unserem konkreten Beispiel würden wir den Unterschied in der Protestaktivität von Region A zum Zeitpunkt \(t\) und zum Zeitpunkt \(t-1\) mit dem Unterschied in der Protestaktivität von Region B zum Zeitpunkt \(t\) und zum Zeitpunkt \(t-1\) vergleichen. In Region A wurde zwischen Zeitpunkt \(t-1\) und \(t\) ein Bergbauwerk errichtet. In Region B wurde kein Bergbauwerk errichtet.

Zur Frage 2: Woher kommen unsere Daten?

Wenn wir Glück haben, gibt es bereits Daten, welche wir für unsere Analyse benötigen. Oftmals finden wir bereits existierende Daten in Online-Archiven. Oftmals gibt es aber keine bereits bestehenden Daten (Sekundärdaten) und wir müssen Primärdaten sammeln.

Zur Frage 3: Wie wurden/werden unsere Daten gesammelt?

Im Großen und Ganzen gibt es drei Methoden zur Datensammlung:

  • Beobachtung/Observation: Hier beobachten wir das Verhalten von Subjekten ohne diese zu beeinflussen. Zum Beispiel können wir beobachten wie oft Personen das Wort “Grippe” via Google suchen. Dies kann uns helfen Grippeepedemie vorherzusagen. Oder wir könnten beobachten wie Parlamentarier_innen über ein bestimmtes Thema abstimmen. Beobachtungsdaten sind sehr vielseitig und können in verschiedenen Formen auftreten (Zahlen, Texte, Bilder, etc.).

  • Umfrage/Interview: Im Rahmen von Umfragen/Interviews werden Personen kontaktiert und ihnen werden Fragen gestellt. Die Antworten zu diesen Fragen dienen dann als Messung in der Analyse.

  • Experiment: Bei Experimenten werden bewusst gewisse Ereignisse manipuliert. Manche Experimente-Teilnehmer_innen erhalten/erleben dieses Ereigniss, andere nicht. Wer dafür ausgewählt wird ist zufällig. Experimente-Teilnehmer_innen (Probanden) werden dann in Ihrer Reaktion zu diesen (Nicht-)Ereignissen beobachtet.

2.4.6 Daten analysieren

Nachdem wir die Daten gesammelt haben, folgt die Datenanalyse. In diesem Schritt analysieren wir die Varianz6 in den Daten.

Datenanalyse: Inwiefern kann die Varianz in der erklärenden Variable, Varianz in der abhängigen Variable erklären (systematische Varianz7) und wieviel der Varianz in der abhängigen Variable bleibt unerklärt (unsystematische Varianz8).

Es gibt zwei Arten der Datenanalyse:

  • Die deskriptive Statistik, welche mit Hilfe von Tabellen, Grafiken, und Kennzahlen Muster in den Daten beschreibt.

  • Die inferentielle Statistik, welche zur Überprüfung der Hypothese dient. Hier wird überprüft inwiefern der gefundene Zusammenhang in den Daten nur zufällig ist bzw. inwiefern dieser Zusammenhang nicht nur zufällig sondern statistisch signifikant9 ist.

In unserem Beispiel würden wir im Rahmen der deskriptiven Statistik die Anzahl der Proteste pro Jahr und pro Region abbilden. Wir würden diese Zahlen mit den Zahlen der Bergwerksbaue vergleichen. In den Daten sehen wir zum Beispiel, dass der Mittelwert von Protesten in Regionen mit Bergbauwerk bei 2.1 pro Jahr liegt. In Regionen ohne Bergbauwerk findet im Durchschnitt nur 1 Protest pro Jahr statt. Dies hilft uns einen ersten Eindruck zu gewinnen. Im zweiten Schritt und im Rahmen der inferentiellen Statistik untersuchen wir mit Hilfe von statistischen Verfahren, welche wir in dieser Vorlesung lernen, ob der Unterschied zwischen den Regionen mit Bergbauwerk und jenen ohne Bergbauwerk signfikant oder rein zufällig ist. Tatsächlich konnte in den Daten gefunden werden, dass Regionen mit Bergbauwerken signifikant mehr Protestaktivität erleben als Bergbauwerke ohne Proteste.

2.4.7 Schlussfolgerung

Zum Schluss, werden nochmals die Resultate zusammengefasst und in den Kontext gebracht. Es wird auch versucht die substantiellen Effekte zu beschreiben. Zum Beispiel könnten wir schlussfolgern, dass sich Proteste in Regionen Afrikas mehr als verdoppeln, wenn Bergbauwerke errichtet werden. Zudem wird nochmals die Generalisierung betont und aufgezeigt was die gesellschaftliche Relevanz der Forschung ist. In unserem Beispiel zeigen die Autoren inwiefern Proteste aufgrund von wirtschaftlichen Investitionen entstehen können.

2.4.8 Elemente eines Forschungspapieres

  1. Titel: Preziser Titel, welcher alleinstehend und voll erklärend ist
  2. Abstract: Zusammenfassung (Motivation, Forschungsfrage, Hypothese, Methode, Ergebnis, Schlussfolgerung)
  3. Einleitung: Warum ist diese Forschung wichtig? Was ist die Forschungsfrage? und nochmals kurze Zusammenfassung
  4. Literaturüberblick: Was sind die Forschungslücken
  5. Theorie: Herleitung der Hypothese
  6. Methoden zur Datensammlung und Datenanalyse: wie wurde das alles gemacht
  7. Resultate: Interpretation und Präsentation der Ergebnisse (was wurde gefunden)
  8. Schlussfolgerung (für wen ist das relevant, was hat die Gesellschaft davon, etc.)
  9. Referenzen/Bibliographie: Nachweis

References

Best, Joel. 2010. Tatort Statistik: wie Sie zweifelhafte Daten und fragwürdige Interpretationen erkennen. Spektrum, Akad. Verl.

Huff, Darrell. 1973. “How to Lie with.” Applied Statistics 22 (3): 401. https://doi.org/10.2307/2346789.

Keller, Dana K. 2016. The tao of statistics: a path to understanding (with no math). London: Sage Publishing. https://us.sagepub.com/en-us/nam/the-tao-of-statistics/book243881.


  1. (1974 Gottfried Achenwall hat das Wort Statistik im Deutschen Sprachgebrauch eingeführt und meinte damit die Information die man benötigt um einen Nationalstaat zu führen). Dies ist nach wie vor so. Jeder Staat sammelt Zahlen und kreiiert Statistiken.

  2. Eine HYPOTHESE ist eine logische und überprüfbare Aussage.

  3. POPULATION ist die Ansammlung aller Objekte für welche die Theorie formuliert wurde.

  4. Eine abhängige Variable (Y Variable), deren Wert wir erklären wollen. Eine erklärende Variable (X Variable), auch manchmal unabhängige Variable gennant, ist eine Variable, welche potentiell erklären kann inwiefern sich die abhängige Variable ändert. Zum Beispiel könnte man erwarten, dass wenn die erklärende Variable steigt, dass auch die abhängige Variable steigt.

  5. Sekundärdaten sind Daten, welche von Dritten gesammelt wurden. Diese sind zum Beispiel in (online-)Archiven zu finden.

  6. Varianz spiegelt die Unterschiedlichkeit in den Datenpunkten wider.

  7. Systematische Varianz beschreibt die Unterschiede, welche durch Varianz in den erklärenden Variablen erklärt werden kann.

  8. Unsystematische Varianz beschreibt die Unterschiede, welche NICHT durch Varianz in den erklärenden Variablen erklärt werden kann.

  9. Statistische Signifikanz ist wenn Stichprobendaten ein eindeutiges Muster aufweisen sodass die Hypothese sehr wahrscheinlich richtig ist.