2.8 Specijalni slučajevi

  • Podešavanjem postavki familiy i link unutar naredbe glm(), osim logističke regresije, mogu se dobiti drugi specijalni slučajevi

  • Općenito se GLM definira glm(formula,podaci,familiy=xxx(link="xxx"))

  • Formula je prvi argument naredbe glm() koja se pak definira kao aditivni model y~x+z+...

  • Podaci (data) su drugi argument koji se odnose na spremnik podataka u kojem se nalaze varijable y, x, z,...

  • Treći se argument odnosi na “familiju” slučajnih varijabli, tj. pripadnih distribucija vjerojatnosti, primjerice gaussian, binomial, poisson, Gamma, itd.

  • Izbor distribucije vjerojatnosti zahtjeva i odgovarajuću veznu funkciju link

  • Uobičajene su ove postavke:

familiy=gaussian(link="identity")

familiy=binomial(link="logit")

familiy=poisson(link="log")

familiy=Gamma(link="inverse")

  • Ako je zavisna varijabla kontinuirana, tj. \(y_i\) može poprimiti bilo koje realne brojeve iz intervala (\(-\infty,~+\infty\)), najčešće se pretpostavlja da je normalno distribuirana \(y \sim N(\mu_i~,~~\sigma^2)\), a vezna funkcija (link) između njene očekivane vrijednosti i linearnog prediktora je identiteta:

\[\begin{align} g\bigg( \underbrace {E(y_i)}_{\text{očekivana} \\ \text{vrijednost}}\bigg) &= \underbrace {\beta_0+\beta_1 x_i+\beta_2 z_i+...}_{\text{linearni prediktor}}+\varepsilon_i \\ g(\mu_i) &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \\ \mu_i &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \end{align}\]

  • Očekivana vrijednost normalno distribuirane varijable jednaka je parametru \(\mu\). Takvih “mi-ova” (sredina) ima \(n\). Kada je vezna funkcija \(g(\cdot)\) identiteta onda sredine normalno distribuiranih varijabli linearno ovise o prediktorima \(x,~z,~...\) (model višestruke regresije)

  • Ako je zavisna varijabla dihotomna \(y_i=\{0,~1\}\) tada je očekivana vrijednost takve Bernoullijeve varijable jednaka parametru \(p\) (interpretira kao vjerojatnost nastupa nekog događaja). Ako se promatra vjerojatnost nastupa nekog događaja u \(n\) jedinica tada zavisna varijabla slijedi Binomnu distribuciju, također s vjerojatnosti \(p\). Takvih vjerojatnosti ima \(n\):

\[\begin{align} g\bigg( \underbrace {E(y_i)}_{\text{očekivana} \\ \text{vrijednost}}\bigg) &= \underbrace {\beta_0+\beta_1 x_i+\beta_2 z_i+...}_{\text{linearni prediktor}}+\varepsilon_i \\ g(p_i) &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \\ log\bigg( \dfrac{p_i}{1-p_i} \bigg) &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \end{align}\]

  • Potrebna je vezna funkcija koja će vrijednosti linearnog prediktora (\(-\infty,~+\infty\)) preslikati u vrijednosti iz intervala \([0,~1]\). Takva vezna funkcija \(g(\cdot)\) je logistička funkcija (model binarne logističke regresije).

  • Ako zavisna kontinuirana varijabla slijedi Gamma distribuciju, tj. \(y_i\) može poprimiti bilo koje realne brojeve iz intervala (\(0,~+\infty\)), tada je očekivana vrijednost takve varijable jednaka umnošku parametara \(\alpha \gamma\). Takvih umnožak (sredina) \(\alpha \gamma\) ima \(n\):

\[\begin{align} g\bigg( \underbrace {E(y_i)}_{\text{očekivana} \\ \text{vrijednost}}\bigg) &= \underbrace {\beta_0+\beta_1 x_i+\beta_2 z_i+...}_{\text{linearni prediktor}}+\varepsilon_i \\ g(\alpha_i \gamma_i) &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \\ \dfrac{1}{\alpha_i \gamma_i} &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \end{align}\]

  • Potrebna je vezna funkcija za preslikavanje iz intervala (\(-\infty,~+\infty\)) u interval (\(0,~+\infty\)). Takva vezna funkcija \(g(\cdot)\) je recipročna odnosno inverzna funkcija.