Häufigkeitsdaten: Chi²-(Vierfelder-)Test
Statistik: Übungen
1 Aufgabe
- Lesen Sie über die folgende URL eine csv-Datei ein (Separator-Zeichen: “,” – also: 
read.csv()): https://goo.gl/j6lRXD (alternativ finden sie die Datei hier) - Speichern Sie das Ergebnis in der Variablen 
data_frame_roh. - Rufen Sie die Funktion 
table()mit den beiden Spaltentreatmentundimprovementdes Dataframes als Parameter auf (data_frame_roh$treatmentbzw.data_frame_roh$improvement). Das Ergebnis ist eine Kreuztabelle mit den Häufigkeiten in den vier Zellen.. - Speichern Sie das Ergebnis in der Variable 
data_frame_chi. - Geben Sie den neuen Dataframe aus.
 - Führen Sie mit der Funktion 
chisq.test()einen Chi²-Test durch; Parameter istdata_frame_chi. Setzen Sie im Funktionsaufruf den ParametercorrectaufFALSE. - Interpretieren Sie das Ergebnis. Sind die beiden Merkmale voneinander unabhängig?
 - Wie stark ist der Effekt (also der Zusammenhang zwischen den beiden Merkmalen)? Berechnen Sie dazu Cramer’s V (Funktion: 
cramerV(); Parameter istdata_frame_chi). Installieren Sie dazu die Libraryrcompanion. - Validieren Sie den Test mit Hilfe des Excel-Chi²-Rechners.
 
Die Kreuztabelle sollte so aussehen:
             
              improved not-improved
  not-treated       26           29
  treated           35           15
2 Aufgabe
Der Vierfelder-Test lässt sich leicht erweitern. Hier betrachten wir 2 x 3 Felder.
Wir führen ein Experiment mit zwei Versuchsbedingungen durch (z. B. Diät A vs. B). In jeder Bedingung nehmen 100 Personen teil. Jede Person kann eindeutig einer von drei Kategorien (z. B. BMI niedrig, mittel, hoch) zugeordnet werden. In Bedingung A ist die Verteilung über die Kategorien 20, 20, 60; unter Bedingung 2 ist die Verteilung 35, 30, 35.
Hängen Diät und BMI zusammen?
- Erzeugen Sie mit der Funktion 
c()je einen Vektor für die die zwei Diäten mit den drei Häufigkeiten in den Kategorien. - Verbinden Sie die beiden Vektoren (eigentlich DataFrames) zu einem neuen DataFrame. Verwenden Sie dazu die Funktion 
cbind()mit den beiden Vektoren als Parameter. Speichern Sie das Ergebnis in der Variablenkreuztabelle. - Geben Sie den drei Kategorien in der Kreuztabelle mit Hilfe der Funktion 
rownames()sprechende Namen:rownames(kreuztabelle) <- c( 'BMI_n', 'BMI_m', 'BMI_h' ). - Geben Sie die Kreuztabelle aus.
 - Testen Sie die Unabhängigkeit der beiden Variablen Diät und BMI.
 - Wie groß ist der Effekt?
 
Anhang
| df | Krit.Werte | 
|---|---|
| 1 | 3.841459 | 
| 2 | 5.991465 | 
| 3 | 7.814728 | 
| 4 | 9.487729 | 
| 5 | 11.070498 | 
| 6 | 12.591587 | 
| 7 | 14.067140 | 
| 8 | 15.507313 | 
| 9 | 16.918978 | 
| 10 | 18.307038 |