[ISLR] James, Witten, Hastie, and Tibshirani (2021). An Introduction to Statistical Learning: with Applications in R (2nd Edition). Springer. – 4장 “Classification”
김기영, 전명식, 강현철, 이성건 번역 (2015). Chatterjee and Hadi 지음. 예제를 통한 회귀분석 (5판). 자유아카데미.
보조 출처
Wooldridge (2016). Introductory Econometrics: A Modern Approach (6th Edition). Cengage Learning.
4.1 반응변수가 0/1인 경우
질적 변수
입시, 입사 등 선발과정: ‘잘함(good)’ vs ‘못함(poor)’
건강 연구: 반응변수는 암 발병 여부(yes vs. no), 설명변수는 나이, 성별, 흡연, 다이어트, 가족의 의료기록 등
금융: 반응변수는 회사의 지불능력(파산 vs. 지불능력 있음), 예측변수들은 회사와 관련된 다양한 금융 정보들
에 대한 확률 모형이 필요함.
4.2 로지스틱 회귀분석의 확률모형
4.2.1 로지스틱 선형모형
및 가정하고, 라 쓰면,
또는
로짓함수 (logit function):
의 단조증가함수
4.2.2 웬 비선형 변환?
먼저 인 경우 임을 기억하자. 마찬가지로 이다.
따라서, 지난 7,8장에서 다룬 선형회귀분석 모형을 적용하자면 식의 모형을 고려할 수 있고, 이 모형에서의 계수추정은 이미 7,8장에서 다룬 바 있다. 이 모형을 이진반응변수에 적합하면 안 되는 걸까?
결론적으로 “완벽히 안 된다”라고 말할 수는 없지만, 여러 가지 문제가 발생한다. 가장 큰 문제는 조건부확률의 적합값에서 발생한다. 의 좌변은 확률이니 의 값에 상관없이 늘 0과 1사이에 있어야 한다. 그런데 항은 의 값에 따라 0보다 작을 수도 있고 1보다 클 수도 있다. 즉, 선형회귀분석 모형에서는 의 적합값이 0보다 작거나 1보다 클 수도 있다는 문제점이 있다. (아래 그림의 첫번째)
의 적합값이 반드시 0과 1사이에 오게 하는 방법이 있다. 어떤 알려진 변환 에 대하여 라고 가정하는 것이다. 이때 함수는 를 선형함수인 와 연결시키는 함수로서 ‘연결함수’(link function)라 한다.
로지스틱 회귀분석모형의 link function은 logit function 이다.
다른 대표적 link function은 probit function 으로, 의 역함수로 정의된다 (단, 는 표준정규분포의 확률밀도함수). 계량경제학에서 가격에 따른 선택을 연구할 때 많이 사용한다.
로짓 함수와 프로빗 함수 모두 정의역은 이고 치역은 모든 실수이다.
본 장에서는 logit link function을 중점적으로 다룬다.
FIGURE 4.2 in [ISLR]. Left: 파란색 선은 선형회귀분석(즉 최소제곱법)으로 추정한 확률값이다. 추정된 확률값이 음수도 된다! 오렌지색 점들은 자료에서의 값 () 들이다. Right: 로지스틱 회귀분석으로 추정한 확률값이다. 모든 확률값들이 0과 1사이에 있다.
4.2.3 로지스틱 선형모형에서 계수의 의미
오즈(odds) (또는 의 오즈): 클래스 0 에 속할 확률에 대한 클래스 1 에 속할 확률의 비율로 정의된다. 어떤 질병이 걸릴 위험을 묘사할 때 절대위험차이(absolute risk difference), 상대위험비(relative risk ratio)와 함께 대표적으로 사용되는 지표이다.
로지스틱 다중회귀모형에서 의 해석: (1)에서 가 한 단위 증가하면 의 오즈는 배만큼 증가한다 (다른 독립변수들이 모두 일정하다는 가정 하에). 즉 값을 의 평균적 증분으로 해석할 수 있는 선형회귀분석(7,8장)보다는 조금 우회적으로 해석이 된다.
요컨대,
로지스틱 단순선형회귀모형에서 은 unadjusted odds ratio
로지스틱 다중선형회귀모형에서 은 adjusted odds ratio (adjusted for )가 된다.
4.2.4 예제
Coefficient
Std. error
Z-statistic
P-value
Intercept
-10.8690
0.4923
-22.08
balance
0.0057
0.0002
24.74
income
0.0030
0.0082
0.37
0.7115
student[Yes]
-0.6468
0.2362
-2.74
0.0062
TABLE 4.3 in [ISLR]. 로지스틱 회귀 모델의 추정 계수들의 예시. 이 모델의 설명변수는 계좌 잔액(balance), 소득(income), 그리고 학생여부(student yes)이다. 반응변수는 채무 불이행(default)이다. 소득은 천 달러 단위로 측정되었다.
카드 청구예정금액(balance)이 이고 연간수입(income) 이 인 학생 (student[Yes])에 대한 채무불이행(Default) 확률 추정값은?
Exercises
카드 청구예정액 및 연간수입이 위와 동일한 비-학생의 채무불이행(디폴트) 확률 추정값은?
비-학생에 대한 학생의 디폴트 확률 오즈비의 추정값은?
4.3 모형 적합과 예측
모형 계수 의 추정에는 최대가능도법 (maximum likelihood)이 사용된다.
최대가능도법은 확률모형에서 가장 보편적으로 사용되는 모수 추정법이다. 간단히 말해서, 최대가능도법으로 얻어진 모수의 추정량은 주어진 자료를 관찰할 확률을 가장 크게 한다. 7,8장의 최소제곱추정법은 (가 정규분포임을 가정할 때) 최대가능도법과 동치이다.
R에서의 문법
glm(y ~ x, family = binomial(link="logit"))
glm(y ~ x, family = binomial(link="probit"))
# glm은 일반화선형모형(generalized linear model)의 줄임말이다.
최대가능도법으로 얻어진 계수의 추정량을 라 쓰자.
새로운 피처 에 대하여, 로짓모형은 먼저 일 조건부확률을 아래와 같이 추정할 수 있다.
사전 지정된 cutoff value 에 따라 의 예측값을 1/0으로 가를 수 있다.
e.g. ,
4.4 예제: 한치록 예제 17.2
Mroz가 1987년 Econometrica 논문에서 사용한 자료(미국의 결혼한 여성 753 명의 경제활동에 관한 자료)