model =lm(lwage ~ jc + univ + exper, data = twoyear)summary(model)
Call:
lm(formula = lwage ~ jc + univ + exper, data = twoyear)
Residuals:
Min 1Q Median 3Q Max
-2.10362 -0.28132 0.00551 0.28518 1.78167
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.4723256 0.0210602 69.910 <2e-16 ***
jc 0.0666967 0.0068288 9.767 <2e-16 ***
univ 0.0768762 0.0023087 33.298 <2e-16 ***
exper 0.0049442 0.0001575 31.397 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.4301 on 6759 degrees of freedom
Multiple R-squared: 0.2224, Adjusted R-squared: 0.2221
F-statistic: 644.5 on 3 and 6759 DF, p-value: < 2.2e-16
2.2 모형 가정
2.2.1 모집단 수준
설명변수:
반응변수:
일 때의 의 조건부 기댓값이 들의 선형식이라고 가정한다. 여기서 는 알려지지 않았으나 고정된 실수 (모수) 이다.
동치 표현 (단, for all )
2.2.2 관찰자료 수준
설명변수: ,
반응변수: ,
위 식에서 는 오차를 나타내는 확률변수이다.
가장 약하게는 for all , , 가정이 필요하다.
보통은 (단순선형회귀에서와 마찬가지로, 회귀계수 및 예측값에 대한 통계적 추론을 위해) 아래와 같이 정규성/등분산성/독립성을 가정한다.
(또는 ): 번째 설명변수의 번째 관찰값에 대응하는 확률변수). 이론적으로는 들이 확률변수라고 가정하는 것이 가장 엄밀하나, 들이 nonrandom임을 가정하고 식을 유도하여도 이론적으로 지장이 없다.
2.2.3 계수의 해석
: 절편 (intercept)
: 와 간의 기울기. 다른 설명변수들의 값들이 고정되었을 때, 가 한단위만큼 차이나는 집단간의 의 평균값은 만큼 차이나게 된다. 즉 다음이 성립한다 (일반성을 잃지 않고 에 대하여만 적었다).
인과적 해석은 주의할 것: 물론 위 식은 “다른 설명변수들의 값들이 고정되었을 때 가 한 단위 증가하면 의 평균값은 만큼 변하게 된”’는 뜻처럼 보일 수도 있다. 특히 사회과학적 자료들에서는 설명변수들의 값이 같이 연동되어 움직이게 된다. 가령, 를 한단위 증가시키면 다른 변수들도 따라서 움직이게 되므로, 을 한단위 증가시킬 경우 만큼 증가하는 것이 아니다. 따라서 각 회귀계수 에 직접적으로 인과적인 의미를 붙여 해석하면 안된다.
반대로 말하면, 회귀분석을 통하여 “의 영향 = ”이 되도록 모델링하고 싶은 경우, 다른 변수들은 “을 변화시켜도 따라 변하지 않도록” 설계하여야 한다. 좀더 깊은 논의는 인과추론(causal inference) 분야에서 다룬다.
상관계수를 이용한 해석: 만일 모든 변수가 표준화 되어있다면, 이다. 즉 다른 변수들이 고정되었을 때의 조건부 상관계수이다.
2.2.4 행렬을 이용한 표현
회귀분석 문제에서 행렬표현은 손품을 줄이고, 추정량 계산작업에서 컴퓨터-효율적이고 의사소통-효율적인 표현을 가능케 한다.
계수들의 벡터:
번째 관측점에서의 설명변수들의 벡터: 로 정의하자.
식 (3)은 아래와 같이 재표현된다:
위 식을 부터 까지 일렬로 나열하면, 모든 관측점에서의 식을 하나의 행렬로 나타낼 수 있다:
여기서
이름들
: 반응벡터(response vector)
: 계획행렬 또는 디자인행렬(design matrix), size는
: 오차벡터(error vector)
(예) 위 예제의 자료에서 처음 다섯 개만을 사용하여 행렬로 나타내어 보면,
재표현된 기본 모형 가정
(물론 가 확률변수라라 가정하면 )
오차항의 정규성/등분산성/독립성 가정이 추가된 경우,
2.3 최소제곱법을 이용한 회귀계수와 오차분산의 추정
2.3.1 최소제곱 해의 정의
2.3.2 최소제곱 해를 closed-form (대수적 표현이 가능한 형태)로 유도하기
(4)의 행렬표현에서 출발하자. 최소화의 목적함수를 라 하면,
을 풀면, 그 해가 목적함수의 최솟값이 된다 (의 이계도미분(Hessian)이 positive definite임을 쉽게 보일 수 있고, 따라서 은 아래로 볼록한 빗살무늬토기 모양의 함수이다). 그러므로 의 최소제곱추정량 은
(예) 당연하게도 위 행렬 표현은 인 경우 단순선형회귀에서의 해와 일치한다. (먼저 아래의 산식들을 유도해 보라)
2.3.3 예측값 predicted value (적합값 fitted value)
이제 임의의 input 에 대하여, 조건부 기댓값 을 아래와 같이 추정할 수 있다.
대개 을 “”의 예측값이라고 부르며, 그 의미에서 라고 부른다. 즉,
번째 관찰값들에 대한 예측값(적합값):
적합값들의 벡터:
잔차:
잔차벡터:
2.3.4 오차항의 분산 의 추정
오차항 들에 대하여 독립성 및 등분산성이 가정된 경우, 오차분산 의 추정을 위하여는 (단순선형회귀에서와 마찬가지로) 잔차들의 제곱합을 사용한다.
먼저 잔차 제곱합은 다음과 같이 계산 가능하다.
의 추정은 의 스칼라를 추정하는 작업이므로 잔차제곱합은 개의 자유도를 가진다(이 말은 외우자). 그래서, 아래와 같이 잔차제곱합을 자유도로 나눈 은 의 비편향추정량이다 (즉 ):
2.3.5 최소제곱추정량의 성질
기댓값
분산
가우스-마르코프(Gauss-Markov) 정리: 은 최량선형비편향추정량(BLUE, best linear unbiased estimator)임. 다시 말해서 선형비편향추정량들 중에서 제일 작은 분산을 가짐.
2.4 모형의 평가와 통계적 추론
2.4.1 (수정) 결정 계수
변동의 분해는 여전히 중요하다: Recall
: 총 변동, : 추정회귀식에 의하여 설명되는 변동, : 추정회귀식에 의하여 설명되지 않은 변동
회귀모형에 설명변수들을 추가하면 반응변수 의 변동을 더 많이 설명할 수 있으므로, 의 값은 계속 증가, 의 값은 감소한다.
설명력을 높이려면 많은 설명변수를 모형에 포함시키면 된다. 단 설명변수들의 개수가 많아지면 회귀모형이 복잡해지므로 모형의 해석성이 떨어진다. 회귀분석에서는 간결하면서도 설명력이 높은 모형이 우선 선호된다 (간결함의 원칙(principle of parsimony))
결정 계수(R-square):
이다. 일 경우 모든 적합값이 관찰값과 동일하다. 일 경우 모든 적합값이 동일값이다.
회귀모형에 포함된 설명변수의 개수가 많아질수록 은 항상 증가하므로, 도 항상 증가한다.
따라서 결정 계수에 따르면 설명변수의 개수가 많은 모형이 항상 좋은 모형이 되는데, 이러한 단점을 보완한 지표가 아래 수정 결정 계수(adjusted R-square)이다.
2.4.2 회귀모형의 적합도 검정
귀무가설 및 대립가설
개의회귀계수중적어도하나는이아니다
즉, 은 “모든 설명변수들과 반응변수가 서로 관련성이 없다”는 뜻이다.
검정통계량: 귀무가설 하에서 다음 통계량을 고려해 보자.
만일 귀무가설 이 참이라 가정하면, 오차항 들에 대한 정규성/독립성/등분산성 가정 하에서 은 자유도가 과 인 F 분포를 따름을 유도할 수 있다.
위 사실에 기반하여, 이면 귀무가설을 유의수준 하에서 기각할 수 있다.
예제 revisited
> summary(model)
...
Residual standard error: 0.4301 on 6759 degrees of freedom
Multiple R-squared: 0.2224, Adjusted R-squared: 0.2221
F-statistic: 644.5 on 3 and 6759 DF, p-value: < 2.2e-16
2.4.3 각 회귀계수에 대한 통계적 추론
2.4.3.1 수학적 원리
오차항 들에 대한 정규성/독립성/등분산성 가정이 성립하면, 으로부터 다음 분포를 유도할 수 있다.
이 사실을 이용하면 각 에 대한 신뢰구간 및 가설검정 절차의 수식 유도가 가능하다. 예를 들어, 의 번째 대각성분을 라 하면,
위에서 모수 자리에 추정량을 으로 끼워넣으면, 의 표준편차는 로 추정할 수 있다. 표준편차의 추정량은 표준오차(standard error) 라 부른다. 그러므로 의 표준오차는 이다. 아무튼 위 사실과 표준오차를 이용하면 의 신뢰구간을 유도할 수 있으리라 예상할 수 있다.
Fact. 아래 가 자유도 인 -분포를 따른다.
2.4.3.2 신뢰구간
따라서, 회귀계수 에 대한 신뢰구간은
여기서 은 자유도가 인 분포의 상위 분위수를 뜻한다.
2.4.3.3 가설검정
임의의 고정 값 에 대하여, 다음 가설을 고려하자.
검정통계량:
이를 이용하여 아래와 같은 t 검정을 할 수 있다. 세번째는 “양측검정(two-sided test)”라 불린다. 대부분의 통계 소프트웨어는 기본적으로 양측검정의 결과를 출력하며, 대부분의 연구에서 양측검정의 결과를 사용하면 충분하다.
반응변수의 조건부 기댓값에 대한 신뢰구간과는 별도로, 으로 주어졌을 때의 의 조건부 분포 자체에 관심이 있을 수 있다. 예를 들어 조건부 기댓값의 신뢰구간은 대학 졸업자들의 평균소득의 95% 신뢰구간을 계산하고, 그와 달리 반응변수의 예측구간은 대학 졸업자들의 소득 분포의 95% 범위를 제공한다.