Häufigkeitsdaten: Chi²-(Vierfelder-)Test
Statistik: Übungen
1 Aufgabe
- Lesen Sie über die folgende URL eine csv-Datei ein (Separator-Zeichen: “,” – also:
read.csv()): https://goo.gl/j6lRXD (alternativ finden sie die Datei hier) - Speichern Sie das Ergebnis in der Variablen
data_frame_roh. - Rufen Sie die Funktion
table()mit den beiden Spaltentreatmentundimprovementdes Dataframes als Parameter auf (data_frame_roh$treatmentbzw.data_frame_roh$improvement). Das Ergebnis ist eine Kreuztabelle mit den Häufigkeiten in den vier Zellen.. - Speichern Sie das Ergebnis in der Variable
data_frame_chi. - Geben Sie den neuen Dataframe aus.
- Führen Sie mit der Funktion
chisq.test()einen Chi²-Test durch; Parameter istdata_frame_chi. Setzen Sie im Funktionsaufruf den ParametercorrectaufFALSE. - Interpretieren Sie das Ergebnis. Sind die beiden Merkmale voneinander unabhängig?
- Wie stark ist der Effekt (also der Zusammenhang zwischen den beiden Merkmalen)? Berechnen Sie dazu Cramer’s V (Funktion:
cramerV(); Parameter istdata_frame_chi). Installieren Sie dazu die Libraryrcompanion. - Validieren Sie den Test mit Hilfe des Excel-Chi²-Rechners.
Die Kreuztabelle sollte so aussehen:
improved not-improved
not-treated 26 29
treated 35 15
2 Aufgabe
Der Vierfelder-Test lässt sich leicht erweitern. Hier betrachten wir 2 x 3 Felder.
Wir führen ein Experiment mit zwei Versuchsbedingungen durch (z. B. Diät A vs. B). In jeder Bedingung nehmen 100 Personen teil. Jede Person kann eindeutig einer von drei Kategorien (z. B. BMI niedrig, mittel, hoch) zugeordnet werden. In Bedingung A ist die Verteilung über die Kategorien 20, 20, 60; unter Bedingung 2 ist die Verteilung 35, 30, 35.
Hängen Diät und BMI zusammen?
- Erzeugen Sie mit der Funktion
c()je einen Vektor für die die zwei Diäten mit den drei Häufigkeiten in den Kategorien. - Verbinden Sie die beiden Vektoren (eigentlich DataFrames) zu einem neuen DataFrame. Verwenden Sie dazu die Funktion
cbind()mit den beiden Vektoren als Parameter. Speichern Sie das Ergebnis in der Variablenkreuztabelle. - Geben Sie den drei Kategorien in der Kreuztabelle mit Hilfe der Funktion
rownames()sprechende Namen:rownames(kreuztabelle) <- c( 'BMI_n', 'BMI_m', 'BMI_h' ). - Geben Sie die Kreuztabelle aus.
- Testen Sie die Unabhängigkeit der beiden Variablen Diät und BMI.
- Wie groß ist der Effekt?
Anhang
| df | Krit.Werte |
|---|---|
| 1 | 3.841459 |
| 2 | 5.991465 |
| 3 | 7.814728 |
| 4 | 9.487729 |
| 5 | 11.070498 |
| 6 | 12.591587 |
| 7 | 14.067140 |
| 8 | 15.507313 |
| 9 | 16.918978 |
| 10 | 18.307038 |