Chapter 2 Introduction
과학이란, 굉장히 포괄적인 행위라 한 마디로 정의하는 것이 어렵지만, 공통적인 특징으로는 자연을 관측한 결과를 분석하여 정해진 모델로 분류한다는 것이 있습니다. 이를 수학에서의 표현방식을 빌려와서 나타내면 다음과 같습니다.
- Observation: \(x\in \mathbb{R}^d\)
- Class(or Category): \(y \in \left\{ 1,2,\cdots,M\right\}\)
- Classifier: \(g: \mathbb{R}^d \rightarrow \{ 1, 2, \cdots, M\}\)
- Error: Quantity to measure difference between \(g(x), ~y\)
우리의 궁극적인 목적은 관측값을 적절한 모델로 분류하는 분류기인 \(g\)를 찾는 것입니다. 모든 상황에 통용되는 \(g\)를 찾을 수 있다면 좋겠지만 안타깝게도 그런 \(g\)는 존재하지 않습니다. 하나의 관측 값이 항상 하나의 모델에만 대응되는 것도 아닐뿐더러, 관측 상황조차 같지 않기 때문이죠. 따라서 분류기에는 항상 error가 존재합니다. 즉, 우리의 관측은 비결정론적(Undeterministic)이고, 이를 표현하기 위해서는 기존의 데카르트 방식인 결정론적 수학을 넘어서야 합니다. 우리는 이러한 이론을 확률론(Probabilistic Theory)이라 부릅니다.
확률론을 적용하기 위하여 변수를 단순히 일차원적으로 보는 것이 아니라 변수와 모델을 엮은 하나의 Pair를 메인 변수로 볼 것입니다. 이렇게 하면 보다 쉽게 Error의 정도를 명시할 수 있습니다.
- Random pair: \((X, Y) \in \mathbb{R}^d \times \{1,2,\cdots,M\}\)
- Probability of Error: \(L(g) = \mathbf{P}\{g(X) \neq Y\}\)
그리고 이를 활용해 가장 이상적인 분류기를 정의내릴 수 있습니다.
\[g^* = \underset{g:\mathbb{R}^d \rightarrow \{1,2,\cdots,M\}}{\text{argmin}}L(g)\]
위 수식은 데이터를 모델로 분류하는 분류기들 중에 Error 확률을 가장 최소로 만드는 분류기를 택한다는 것으로 해석할 수 있습니다. 그러나 안타깝게도 우리는 전체 분류기 집단을 알지도 못할 뿐더러 \((X,Y)\)에 대한 확률분포조차 주어져있지 않습니다. 하지만 다행히 수 많은 연구자들이 많은 데이터를 손수 분류해놓았고 우리는 지금까지 누적된 이러한 데이터들로 분류기를 만들 수 있습니다. 물론, 데이터들의 원래 분포도 알 수 없거나 알기 힘들어서 사용하는데에 지장이 많지만 아주 강력하지만 효율적인 조건을 사용하면 이를 쉽게 해결할 수 있다는 것이 입증되어 있습니다. 바로 Independent Identically Distributed (i.i.d) 가정입니다. 이제 이를 좀 더 수학적으로 모델링하겠습니다.
- Pre-classified data: \(\{(X_i, Y_i)\}^n_{i=1}\)
- Classifier (Trained): \(g_n: \mathbb{R}^d \times (\mathbb{R}^d \times \{1,\cdots, M\})^n \rightarrow \{1,\cdots,M\}\)
- Conditional probability of error: \(L_n = L(g_n) = \mathbf{P}\left\{g_n\left(X;\left\{(X_i, Y_i)\right\}_{i=1}^n\right) \neq Y \, |\, \left\{(X_i, Y_i) \right\}_{i=1}^n\right\}\)
- Average of \(L_n\): \(\mathbf{E}L_n\)
위에서 마지막에 소개한 \(L_n\)의 평균값은 앞으로 우리가 주로 다룰 중요한 변수입니다. 앞으로 우리가 데이터를 다룰 방법은 통계적 방법인데, 이 방법 하에서는 개개인의 에러는 중요하지 않고 전체적인 에러의 평균만이 중요합니다. 따라서 \(L_n\)의 평균값을 이용하여 각 분류기의 성능을 평가할 것입니다.
이제 기계학습의 기초에 대한 수학적 서술은 대강 끝났습니다. 앞으로의 목표는 \(\mathbf{E}L_n\)을 최소화 시키는 것이고 이를 위해 확률론을 사용할 것입니다. 다만, 확률론을 공부하기 위해서는 필수로 공부해야 하는 학문이 있는데, 바로 측도론(Measure Theory)입니다.