model =lm(lwage ~ jc + univ + exper, data = twoyear)summary(model)
Call:
lm(formula = lwage ~ jc + univ + exper, data = twoyear)
Residuals:
Min 1Q Median 3Q Max
-2.10362 -0.28132 0.00551 0.28518 1.78167
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.4723256 0.0210602 69.910 <2e-16 ***
jc 0.0666967 0.0068288 9.767 <2e-16 ***
univ 0.0768762 0.0023087 33.298 <2e-16 ***
exper 0.0049442 0.0001575 31.397 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.4301 on 6759 degrees of freedom
Multiple R-squared: 0.2224, Adjusted R-squared: 0.2221
F-statistic: 644.5 on 3 and 6759 DF, p-value: < 2.2e-16
7.2 모형 가정
7.2.1 모집단 수준
설명변수: \(X_{1}, X_{2}, \cdots, X_{p}\)
반응변수: \(Y\)
\(X_{1}=x_1, X_{2}=x_2, \cdots, X_{p}=x_p\)일 때의 \(Y\)의 조건부 기댓값이 \(x_i (i=1,\ldots,p)\)들의 선형식이라고 가정한다. 여기서 \(\beta_0, \ldots, \beta_p\)는 알려지지 않았으나 고정된 실수 (모수) 이다.
\(X_{ij}\) (또는 \(x_{ij}\)): \(j\)번째 설명변수의 \(i\)번째 관찰값에 대응하는 확률변수). 이론적으로는 \(X_{ij}\)들이 확률변수라고 가정하는 것이 가장 엄밀하나, \(X_{ij}\)들이 nonrandom임을 가정하고 식을 유도하여도 이론적으로 지장이 없다.
7.2.3 계수의 해석
\(\beta_{0}\): \(Y\)절편 (intercept)
\(\beta_{j}\): \(Y\) 와 \(X_{j}\) 간의 기울기. 다른 설명변수들의 값들이 고정되었을 때, \(X_{j}\)가 한단위만큼 차이나는 집단간의 \(Y\) 의 평균값은 \(\beta_{j}\) 만큼 차이나게 된다. 즉 다음이 성립한다 (일반성을 잃지 않고 \(\beta_1\)에 대하여만 적었다).
인과적 해석은 주의할 것: 물론 위 식은 “다른 설명변수들의 값들이 고정되었을 때 \(X_{j}\) 가 한 단위 증가하면 \(Y\) 의 평균값은 \(\beta_{j}\) 만큼 변하게 된”’는 뜻처럼 보일 수도 있다. 특히 사회과학적 자료들에서는 설명변수들의 값이 같이 연동되어 움직이게 된다. 가령, \(X_1\)를 한단위 증가시키면 다른 변수들도 따라서 움직이게 되므로, \(X_1\)을 한단위 증가시킬 경우 \(\beta_1\)만큼 증가하는 것이 아니다. 따라서 각 회귀계수 \(\beta_j\)에 직접적으로 인과적인 의미를 붙여 해석하면 안된다.
반대로 말하면, 회귀분석을 통하여 “\(X_1\)의 영향 = \(\beta_1\)”이 되도록 모델링하고 싶은 경우, 다른 변수들은 “\(X_1\)을 변화시켜도 따라 변하지 않도록” 설계하여야 한다. 좀더 깊은 논의는 인과추론(causal inference) 분야에서 다룬다.
상관계수를 이용한 해석: 만일 모든 변수가 표준화 되어있다면, \(\beta_{j} = {\rm Corr}(Y, X_j | X_1, \ldots, X_{j-1}, X_{j+1}, \ldots, X_p)\)이다. 즉 다른 변수들이 고정되었을 때의 조건부 상관계수이다.
7.2.4 행렬을 이용한 표현
회귀분석 문제에서 행렬표현은 손품을 줄이고, 추정량 계산작업에서 컴퓨터-효율적이고 의사소통-효율적인 표현을 가능케 한다.
\(\frac{\partial S}{\partial \boldsymbol{\beta}} = {\bf 0}\)을 풀면, 그 해가 목적함수의 최솟값이 된다 (\(\because\)\(S(\boldsymbol{\beta})\)의 이계도미분(Hessian)이 positive definite임을 쉽게 보일 수 있고, 따라서 \(S(\boldsymbol{\beta})\)은 아래로 볼록한 빗살무늬토기 모양의 함수이다). 그러므로 \(\boldsymbol{\beta}\) 의 최소제곱추정량 \(\widehat{\boldsymbol{\beta}}\) 은
\(\boldsymbol{\beta}\)의 추정은 \(p+1\)의 스칼라를 추정하는 작업이므로 잔차제곱합은 \((n-p-1)\) 개의 자유도를 가진다(이 말은 외우자). 그래서, 아래와 같이 잔차제곱합을 자유도로 나눈 \(s^2\)은 \(\sigma^{2}\) 의 비편향추정량이다 (즉 \({\rm E}(s^{2}) = \sigma^2\)):
가우스-마르코프(Gauss-Markov) 정리: \(\widehat{\boldsymbol{\beta}}\)은 최량선형비편향추정량(BLUE, best linear unbiased estimator)임. 다시 말해서 선형비편향추정량들 중에서 제일 작은 분산을 가짐.
7.4 모형의 평가와 통계적 추론
7.4.1 (수정) 결정 계수
변동의 분해는 여전히 중요하다: Recall
\[
\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}=\sum_{i=1}^{n}\left(Y_{i}-\widehat{Y}_{i}\right)^{2}+\sum_{i=1}^{n}\left(\widehat{Y}_{i}-\bar{Y}\right)^{2};
\]\[
SST = SSR + SSE.
\]
\(SST\): 총 변동, \(S S R\): 추정회귀식에 의하여 설명되는 변동, \(S S E\): 추정회귀식에 의하여 설명되지 않은 변동
회귀모형에 설명변수들을 추가하면 반응변수 \(Y\) 의 변동을 더 많이 설명할 수 있으므로, \(S S R\)의 값은 계속 증가, \(S S E\) 의 값은 감소한다.
설명력을 높이려면 많은 설명변수를 모형에 포함시키면 된다. 단 설명변수들의 개수가 많아지면 회귀모형이 복잡해지므로 모형의 해석성이 떨어진다. 회귀분석에서는 간결하면서도 설명력이 높은 모형이 우선 선호된다 (간결함의 원칙(principle of parsimony))
결정 계수(R-square):
\[
R^{2}=\frac{S S R}{S S T} = 1 - \frac{S S E}{S S T}
\]
\(0 \leq R^2 \leq 1\)이다. \(R^2=1\)일 경우 모든 적합값이 관찰값과 동일하다. \(R^2=0\)일 경우 모든 적합값이 동일값이다.
회귀모형에 포함된 설명변수의 개수가 많아질수록 \(S S R\) 은 항상 증가하므로, \(R^2\)도 항상 증가한다.
따라서 결정 계수에 따르면 설명변수의 개수가 많은 모형이 항상 좋은 모형이 되는데, 이러한 단점을 보완한 지표가 아래 수정 결정 계수(adjusted R-square)이다.
\[
R_{\rm adj}^{2}= 1 - \frac{S S E / (n-p-1)}{S S T / (n-1)}
\]
7.4.2 회귀모형의 적합도 검정
귀무가설 및 대립가설
\[
\begin{aligned}
& H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{p}=0 \\
& H_{1}:(p-1) \text { 개의 회귀계수 중 적어도 하나는 } 0 \text { 이 아니다 }
\end{aligned}
\]
즉, \(H_0\)은 “모든 설명변수들과 반응변수가 서로 관련성이 없다”는 뜻이다.
검정통계량: 귀무가설 \(H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{p}=0\) 하에서 다음 통계량을 고려해 보자. \[
F_{0}=\frac{S S R /(p-1)}{S S E /(n-p)}=\frac{M S R}{M S E}
\]
만일 귀무가설 \(H_0\)이 참이라 가정하면, 오차항 \(\varepsilon_i\)들에 대한 정규성/독립성/등분산성 가정 하에서 \(F_{0}\)은 자유도가 \((p-1)\) 과 \((n-p)\) 인 F 분포를 따름을 유도할 수 있다.
위 사실에 기반하여, \(F_{0}>F(\alpha ; p-1, n-p)\) 이면 귀무가설을 유의수준 \(\alpha\) 하에서 기각할 수 있다.
예제 revisited
> summary(model)
...
Residual standard error: 0.4301 on 6759 degrees of freedom
Multiple R-squared: 0.2224, Adjusted R-squared: 0.2221
F-statistic: 644.5 on 3 and 6759 DF, p-value: < 2.2e-16
7.4.3 각 회귀계수에 대한 통계적 추론
7.4.3.1 수학적 원리
오차항 \(\varepsilon_i\)들에 대한 정규성/독립성/등분산성 가정이 성립하면, \(\boldsymbol{\varepsilon} \sim N_{n} \left(0, \sigma^{2} \mathbb{I}_{n}\right)\)으로부터 다음 분포를 유도할 수 있다.
위에서 모수 \(\sigma^2\) 자리에 추정량을 \(\widehat{\sigma^2}=s^2\)으로 끼워넣으면, \(\widehat{\beta}_{j}\)의 표준편차는 \(c_{jj} s\)로 추정할 수 있다. 표준편차의 추정량은 표준오차(standard error) 라 부른다. 그러므로 \(\widehat{\beta}_{j}\)의 표준오차는 \(c_{jj} s\)이다. 아무튼 위 사실과 표준오차를 이용하면 \(\beta_j\)의 신뢰구간을 유도할 수 있으리라 예상할 수 있다.
Fact. 아래 \(t_j\)가 자유도 \((n-p-1)\) 인 \(t\)-분포를 따른다. \[
t_{j}=\frac{\widehat{\beta}_{j}-\beta_{j}}{ c_{jj} \cdot s}, \quad j=0,1,2, \cdots, p
\]
7.4.3.2 신뢰구간
따라서, 회귀계수 \(\beta_{j}\) 에 대한 \(100(1-\alpha) \%\) 신뢰구간은
\[
\widehat{\beta}_{j} - t_{\frac{\alpha}{2} ; n-p-1} \cdot c_{jj} \cdot s <\beta_{j}<\widehat{\beta}_{j} + t_{\frac{\alpha}{2} ; n-p-1} \cdot c_{jj} \cdot s
\]
여기서 \(t_{\frac{\alpha}{2} ; n-p-1}\)은 자유도가 \(n-p-1\)인 분포의 상위 \(\alpha/2\) 분위수를 뜻한다.
반응변수의 조건부 기댓값에 대한 신뢰구간과는 별도로, \({\bf X} = {\bf x}_0\)으로 주어졌을 때의 \(Y\)의 조건부 분포 자체에 관심이 있을 수 있다. 예를 들어 조건부 기댓값의 신뢰구간은 대학 졸업자들의 평균소득의 95% 신뢰구간을 계산하고, 그와 달리 반응변수의 예측구간은 대학 졸업자들의 소득 분포의 95% 범위를 제공한다.