2.1 Logistička regresija
Logistička regresija je inačica linearne regresije u kojoj je zavisna varijabla isključivo dihotomna, tj. može poprimiti binarne vrijednosti \(0\) ili \(1\)
Binarne vrijednosti, pridružene nominalnoj varijabli, označavaju pojavu nekog događaja ili prisutnost nekog atributa
Binarna logistička regresija ne pretpostavlja linearnu zavisnost između zavisne i nezavisnih varijabli
Najmanje jedna nezavisna varijabla je numerička kontinuirana, ostale mogu biti i kategorijalne varijable
Binarna logistička regresija ne pretpostavlja da zavisna varijabla ili greške relacije slijede normalnu distribuciju
Ako se primjerice u model jednostruke (jednostavne) linearne regresije
\[y_i=\beta_0+~\beta_1 x_i+\varepsilon_i\]
uvrsti zavisna varijabla \(y=\{0,~1\}\) dobiva se
\[\begin{align} \varepsilon_i&=0-\beta_0-\beta_1 x_i \\ \varepsilon_i&=1-\beta_0-\beta_1 x_i \end{align}\]
Procijenjen model \(\hat{y}_i=-0.59369+0.01062 x_i\) daje očekivane vrijednosti manje od nula i veće od jedan
Očekivane bi vrijednosti trebale biti između \(0\) i \(1\), pri čemu se interpretiraju kao vjerojatnosti
\[\begin{align} y_i&=1~~~\text{ako je događaj nasupio (uspjeh) s vjerojatnosti } p \\ y_i&=0~~~\text{ako događaj nije nasupio (neuspjeh) s vjerojatnosti } q=(1-p) \end{align}\]