Formelsammlung

_Statistik

Author

Prof. Dr. Armin Eichinger

Published

12.07.2024

Deskriptive Statistik 1

  • Varianz: \(s² = \hat{\sigma}² = \frac{\sum\limits_{i=1}^{n}(x_i - \overline{x})²}{n-1}\)
  • Standardabweichung: \(s = \hat{\sigma} = \sqrt{\hat{\sigma}²} = \sqrt{\frac{\sum\limits_{i=1}^{n}(x_i - \overline{x})²}{n-1}}\)
  • Variationskoeffizient: \(\operatorname {VarK}(X)={\frac {{\mathrm {Standardabweichung}}(X)}{{\mathrm {Erwartungswert}}(X)}}={\frac {{\sqrt {\operatorname {Var}(X)}}}{\operatorname {E}(X)} = \frac{\textit{SD}}{\overline{x}}}\)
  • Mittlere absolute Abweichung: \(\textit{MAD} = {\displaystyle d_{\overline {x}}(x)={\frac {1}{n}}\sum _{i=1}^{n}|x_{i}-{\overline {x}}|}\)
  • Interquartilsabstand = Abstand zwischen 25. und 75. Perzentil: \(\textit{IQA} = \textit{IQR} =x_{0{.}75}-x_{0{.}25}\)
  • Spannweite: \({\displaystyle R=x_{\mathrm {max} }-x_{\mathrm {min} }}\)

Deskriptive Statistik 2

  • Standardfehler: \(\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\)
  • z-Transformation: \(z_i={\frac {x_i-\bar{x} }s}\)
  • 95%-KI(z): \(\bar{x} ± z_{97.5\%} \cdot \textit{SE}\)
  • 95%-KI(t): \(\bar{x} ± t_{97.5\%}(\textit{df}) \cdot \textit{SE}\)

Unterschiedstests

  • Gauß-Test – Teststatistik: \(z={\frac {{\bar x}-\mu _{0}}{\sigma/\sqrt{n}}}\)
  • Einstichproben-t-Test – Teststatistik: \(t={\frac {{\bar x}-\mu _{0}}{s/\sqrt{n}}}\)
  • t-Test für unabhängige Stichproben – Teststatistik: \(t(n_1+n_2-2)={\frac {{\bar x_1}-{\bar x_2}}{s \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}}\),
    wobei: \(s = \sqrt{{\frac {(n_1-1)s_{1}^{2}+(n_2-1)s_{2}^{2}}{n_1+n_2-2}}}\) (gepoolte Standardabweichung)
  • t-Test für abhängige Stichproben – Teststatistik: \(t(n-1) = \frac{\overline{x}_{d}}{s_{d}/\sqrt{n}}\),
    wobei \(\overline{x}_{d} = {\frac {1}{n}}\sum _{i=1}^{n}x_{1i} - x_{2i} = {\frac {1}{n}}\sum _{i=1}^{n}d_{i}\)
    und \(s_{d}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(d_{i}-{\overline{x}_{d}})^{2}}}\)
  • Maß für die Effektstärke: \(r = \sqrt\frac{t^2}{t^2+\textit{df}}\)

Häufigkeitsdaten

  • \(\chi²\)-Vierfeldertest – Teststatistik: \(\chi^{2}=\sum _{{j=1}}^{2}\sum _{{i=1}}^{2}{\frac {(n_{{ij}}-E_{{ij}})^{2}}{E_{{ij}}}}\)
  • \(\chi²\)-Test (auch für mehr als 2 Kategorien) – Teststatistik: \(\chi^{2}=\sum _{{j=1}}^{k}\sum _{{i=1}}^{m}{\frac {(n_{{ij}}-E_{{ij}})^{2}}{E_{{ij}}}}\)
  • Effektstärke – Cramer’s V: \(V = \sqrt{\frac{\chi²}{n(k - 1)}}\), mit k = min(Kategorienzahl)

Korrelation

  • Kovarianz: \(Cov(x,y) = \frac{\sum\limits_{i=1}^{n}(x_{i} - \overline{x})(y_{i} - \overline{y})}{n-1}\)
  • Korrelationskoeffizient: \(r(x,y) = \frac{Cov(x,y)}{s_x \cdot s_y}\)
  • Transformation: \((Fisher\text{-})z = 0.5 \cdot ln{\frac{1 + r}{1 - r}}\)
  • Rücktransformation: \(r = \frac{e^{2z}-1}{e^{2z}+1}\)
  • Standardfehler Fisher-z: \(\textit{SE}_z = \frac{1}{\sqrt{n - 3}}\)
  • Teststatistik: \(t(n-2) = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}}\)

Regressionsanalyse

  • Geradensteigung: \(b_1 = r \cdot \sigma_y/\sigma_x\)
  • Achsenabschnitt: \(b_0 = \bar{y} - \bar{x} \cdot b_1\)
  • \(QS_{tot} = QS_{mod} + QS_{res}\)
  • \(QS_{tot} = \sum_{i}(y_i - \bar{y})^2\)
  • \(QS_{res} = \sum_{i}(y_i - \hat{y_i})^2\)
  • \(QS_{mod} = \sum_{i}(\hat{y_i} - \bar{y})^2\)
  • Freiheitsgrade des Modells: \(df_{mod}\) = Anzahl Prädiktoren
  • Mittlere Modell-Quadratsumme: \(MQS_{mod} = QS_{mod}/df_{mod}\)
  • Freiheitsgrade der Residuen: \(df_{res}\) = n - Anzahl Prädiktoren - 1
  • Mittlere Residualquadratsumme: \(MQS_{res} = QS_{res}/df_{res}\)
  • Determinationskoeffizient/Bestimmtheitsmaß: \(R² = QS_{mod}/QS_{tot}\)
  • Adjustiertes Bestimmtheitsmaß: \(R^2_{adj} = 1 - (1-R^2)(\frac{n-1}{n-k-1})\)
  • Teststatistik: \(F = MQS_{mod}/MQS_{res}\)
  • Effektstärkemaß: \(f^2 = \frac{R^2}{1-R^2}\)

ANOVA, einfaktoriell ohne MW

  • \(QS_{tot} = \sum_{i}^{n}(x_i - \bar{x})^2\)
  • \(QS_{mod} = \sum_{l}^{k} n_l(\bar{x}_l - \bar{x})^2\)
  • \(QS_{res} = \sum_{l}^{k}\sum_{i}^{n_l}(x_{li} - \bar{x}_l)^2\)
  • Freiheitsgrade des Modells: \(\textit{df}_{mod}\) = Anzahl Faktorstufen - 1
  • Mittlere Modell-Quadratsumme: \(MQS_{mod} = QS_{mod}/\textit{df}_{mod}\)
  • Freiheitsgrade der Residuen: \(\textit{df}_{res}\) = n - Anzahl Faktorstufen
  • Mittlere Residualquadratsumme: \(MQS_{res} = QS_{res}/\textit{df}_{res}\)
  • Teststatistik: \(F = MQS_{mod}/MQS_{res}\)
  • Effektstärke: \(\eta^2 = \frac{QS_{mod}}{QS_{tot}} = R^2\)
  • Effektstärke: \(\omega^2 = \frac{QS_{mod} - df_{mod}MQS_{res}}{QS_{tot}+MQS_{res}}\)

ANOVA, einfaktoriell mit MW

  • \(QS_{tot} = \sum_{i=1}^{n}(x_i - \bar{x})^2\) (analog zur ANOVA ohne MW)
  • \(QS_{mod} = \sum_{l=1}^{k} n(\bar{x}_l - \bar{x})^2\) (analog zur ANOVA ohne MW)
  • \(QS_{pers} = \sum_{p=1}^{n} k(\bar{x}_{p} - \bar{x})^2\) (das ist neu!)
  • \(QS_{res} = QS_{tot} - QS_{mod} - QS_{pers}\)
    oder
  • \(QS_{res} = \sum_{l=1}^{k}\sum_{p=1}^{n} (x_{lp} - (\bar{x}_{l} + \bar{x}_{p} - \bar{x}))^2\)
  • Freiheitsgrade des Modells: \(\textit{df}_{mod}\) = Anzahl Faktorstufen - 1
  • Mittlere Modell-Quadratsumme: \(MQS_{mod} = QS_{mod}/\textit{df}_{mod}\)
  • Freiheitsgrade der Residuen: \(\textit{df}_{res}\) = (n - 1)(k - 1)
  • Mittlere Residualquadratsumme: \(MQS_{res} = QS_{res}/\textit{df}_{res}\)
  • Teststatistik: \(F = MQS_{mod}/MQS_{res}\)
  • Effektstärke: \(\eta^2_p = \frac{QS_{mod}}{QS_{mod} + QS_{res} }\)
  • Tukey HSD \(= q_{(\alpha, k, \textit{df}_{res})} \sqrt{\frac{MQS_{res}}{n}}\)

ANOVA, zweifaktoriell ohne MW

  • \(QS_{tot} = \sum_{i}^{n}(x_i - \bar{x})^2\) (analog zur einfaktoriellen ANOVA)
  • \(QS_{A} = \sum_{a}^{A} n_a(\bar{x}_a - \bar{x})^2\) (Haupteffekt A)
  • \(QS_{B} = \sum_{b}^{B} n_b(\bar{x}_b - \bar{x})^2\) (Haupteffekt B)
  • \(QS_{A\times B} = \sum_{a}^{A}\sum_{b}^{B} n_{ab}(\bar{x}_{ab} - (\bar{x}_{a} + \bar{x}_b - \bar{x})) ^2\) (Interaktionseffekt)
  • \(QS_{res} = \sum_{a}^{A}\sum_{b}^{B} \sum_{i}^{n_{ab}} (x_i - \bar{x}_{ab})^2\) oder
  • \(QS_{res} = QS_{tot} - QS_{A} - QS_{B} - QS_{A \times B}\)
  • Freiheitsgrade Faktor A: \(\textit{df}_{A}\) = Anzahl Faktorstufen - 1
  • Freiheitsgrade Faktor B: \(\textit{df}_{B}\) = Anzahl Faktorstufen - 1
  • Freiheitsgrade Interaktionseffekt \(\textit{df}_{A \times B}\) = \(\textit{df}_{A} \times \textit{df}_{B}\)
  • Freiheitsgrade der Residuen: \(\textit{df}_{res}\) = \(n - \textit{df}_{A} - \textit{df}_{B} - \textit{df}_{A \times B} - 1\)
  • \(MQS_{A} = QS_{A}/\textit{df}_{A}\)
  • \(MQS_{B} = QS_{B}/\textit{df}_{B}\)
  • \(MQS_{A \times B} = QS_{A \times B}/\textit{df}_{A \times B}\)
  • \(MQS_{res} = QS_{res}/\textit{df}_{res}\)
  • Teststatistik 1: \(F_{A} = MQS_{A}/MQS_{res}\)
  • Teststatistik 2: \(F_{B} = MQS_{B}/MQS_{res}\)
  • Teststatistik 3: \(F_{A \times B} = MQS_{A \times B}/MQS_{res}\)