2.1 Logistička regresija

  • Logistička regresija je inačica linearne regresije u kojoj je zavisna varijabla isključivo dihotomna, tj. može poprimiti binarne vrijednosti \(0\) ili \(1\)

  • Binarne vrijednosti, pridružene nominalnoj varijabli, označavaju pojavu nekog događaja ili prisutnost nekog atributa

  • Binarna logistička regresija ne pretpostavlja linearnu zavisnost između zavisne i nezavisnih varijabli

  • Najmanje jedna nezavisna varijabla je numerička kontinuirana, ostale mogu biti i kategorijalne varijable

  • Binarna logistička regresija ne pretpostavlja da zavisna varijabla ili greške relacije slijede normalnu distribuciju

  • Ako se primjerice u model jednostruke (jednostavne) linearne regresije

\[y_i=\beta_0+~\beta_1 x_i+\varepsilon_i\]

uvrsti zavisna varijabla \(y=\{0,~1\}\) dobiva se

\[\begin{align} \varepsilon_i&=0-\beta_0-\beta_1 x_i \\ \varepsilon_i&=1-\beta_0-\beta_1 x_i \end{align}\]

Linearna regresija  s zavisnom varijablom $y_i=\{0,1\}$

Slika 2.1: Linearna regresija s zavisnom varijablom \(y_i=\{0,1\}\)

  • Procijenjen model \(\hat{y}_i=-0.59369+0.01062 x_i\) daje očekivane vrijednosti manje od nula i veće od jedan

  • Očekivane bi vrijednosti trebale biti između \(0\) i \(1\), pri čemu se interpretiraju kao vjerojatnosti

\[\begin{align} y_i&=1~~~\text{ako je događaj nasupio (uspjeh) s vjerojatnosti } p \\ y_i&=0~~~\text{ako događaj nije nasupio (neuspjeh) s vjerojatnosti } q=(1-p) \end{align}\]