2.8 Specijalni slučajevi
Podešavanjem postavki
familiy
ilink
unutar naredbeglm()
, osim logističke regresije, mogu se dobiti drugi specijalni slučajeviOpćenito se GLM definira
glm(formula,podaci,familiy=xxx(link="xxx"))
Formula je prvi argument naredbe
glm()
koja se pak definira kao aditivni modely~x+z+...
Podaci (data) su drugi argument koji se odnose na spremnik podataka u kojem se nalaze varijable
y, x, z,...
Treći se argument odnosi na “familiju” slučajnih varijabli, tj. pripadnih distribucija vjerojatnosti, primjerice
gaussian
,binomial
,poisson
,Gamma
, itd.Izbor distribucije vjerojatnosti zahtjeva i odgovarajuću veznu funkciju
link
Uobičajene su ove postavke:
familiy=gaussian(link="identity")
familiy=binomial(link="logit")
familiy=poisson(link="log")
familiy=Gamma(link="inverse")
- Ako je zavisna varijabla kontinuirana, tj. \(y_i\) može poprimiti bilo koje realne brojeve iz intervala (\(-\infty,~+\infty\)), najčešće se pretpostavlja da je normalno distribuirana \(y \sim N(\mu_i~,~~\sigma^2)\), a vezna funkcija (link) između njene očekivane vrijednosti i linearnog prediktora je identiteta:
\[\begin{align} g\bigg( \underbrace {E(y_i)}_{\text{očekivana} \\ \text{vrijednost}}\bigg) &= \underbrace {\beta_0+\beta_1 x_i+\beta_2 z_i+...}_{\text{linearni prediktor}}+\varepsilon_i \\ g(\mu_i) &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \\ \mu_i &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \end{align}\]
Očekivana vrijednost normalno distribuirane varijable jednaka je parametru \(\mu\). Takvih “mi-ova” (sredina) ima \(n\). Kada je vezna funkcija \(g(\cdot)\) identiteta onda sredine normalno distribuiranih varijabli linearno ovise o prediktorima \(x,~z,~...\) (model višestruke regresije)
Ako je zavisna varijabla dihotomna \(y_i=\{0,~1\}\) tada je očekivana vrijednost takve Bernoullijeve varijable jednaka parametru \(p\) (interpretira kao vjerojatnost nastupa nekog događaja). Ako se promatra vjerojatnost nastupa nekog događaja u \(n\) jedinica tada zavisna varijabla slijedi Binomnu distribuciju, također s vjerojatnosti \(p\). Takvih vjerojatnosti ima \(n\):
\[\begin{align} g\bigg( \underbrace {E(y_i)}_{\text{očekivana} \\ \text{vrijednost}}\bigg) &= \underbrace {\beta_0+\beta_1 x_i+\beta_2 z_i+...}_{\text{linearni prediktor}}+\varepsilon_i \\ g(p_i) &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \\ log\bigg( \dfrac{p_i}{1-p_i} \bigg) &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \end{align}\]
Potrebna je vezna funkcija koja će vrijednosti linearnog prediktora (\(-\infty,~+\infty\)) preslikati u vrijednosti iz intervala \([0,~1]\). Takva vezna funkcija \(g(\cdot)\) je logistička funkcija (model binarne logističke regresije).
Ako zavisna kontinuirana varijabla slijedi Gamma distribuciju, tj. \(y_i\) može poprimiti bilo koje realne brojeve iz intervala (\(0,~+\infty\)), tada je očekivana vrijednost takve varijable jednaka umnošku parametara \(\alpha \gamma\). Takvih umnožak (sredina) \(\alpha \gamma\) ima \(n\):
\[\begin{align} g\bigg( \underbrace {E(y_i)}_{\text{očekivana} \\ \text{vrijednost}}\bigg) &= \underbrace {\beta_0+\beta_1 x_i+\beta_2 z_i+...}_{\text{linearni prediktor}}+\varepsilon_i \\ g(\alpha_i \gamma_i) &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \\ \dfrac{1}{\alpha_i \gamma_i} &= \beta_0+\beta_1 x_i+\beta_2 z_i+...+\varepsilon_i \end{align}\]
- Potrebna je vezna funkcija za preslikavanje iz intervala (\(-\infty,~+\infty\)) u interval (\(0,~+\infty\)). Takva vezna funkcija \(g(\cdot)\) je recipročna odnosno inverzna funkcija.