2.12 相関係数

共分散は2つの確率変数のばらつき具合の連動性(正確には線型性)を見る指標であったが, 確率変数の実現値のスケールによって値が数値計算の結果に与える影響が大きい. 例えば,年収という100万円単位のデータと,体重という数十単位のデータでは年収の増減の方が数値的に大きく, 共分散の値占める割合が大きくなってしまう.

そこで,実現値のスケールを合わせた上で共分散を計算する方が有用であると考えられる. これが,相関係数(correlation)と呼ばれる量である. スケールを合わせるという手順は既に紹介した標準化・基準化を持って行うものとすれば, 標準化した変数を\(Z_X, Z_Y\)とそれぞれ置いてこれを

\[\begin{align} Z_X = \dfrac{X-\mu_X}{\sigma_X} \\ Z_Y = \dfrac{Y-\mu_Y}{\sigma_Y} \end{align}\]

としておく.これらの共分散は\(\rm Cov(Z_X, Z_Y) = \rm Cov(X,Y) / \sigma_X \sigma_Y\)となる. これを\(X,Y\)の相関係数と呼び,まとめると

である.

2.12.1 相関係数の値が取りうる範囲

二つの確率変数\(X,Y\)についての相関係数\(r_{XY}\)が取る値は\(-1 \leq r_{XY} \leq 1\)であることが知られている. これは次のように示すことができる.

まずコーシー・シュバルツの不等式より

\[\begin{align} E[|XY|] \leq \sqrt{E[X^2]} \sqrt{E[Y^2]} \end{align}\]

が成り立つ.また絶対値については\(|E[X]| \leq E[|X|]\)が成立することから,

\[\begin{align} |\rm Cov(X,Y)| &= |E[(X-\mu_X)(Y-\mu_Y)]| \leq E[|(X-\mu_X)(Y-\mu_Y)|] \\ &= \sqrt{E[(X-\mu)^2]} \sqrt{E[(Y-\mu_Y)^2]} = \sigma_X \sigma_Y \end{align}\]

である.すなわち,

\[\begin{align} |r_{XY}| = |\dfrac{\rm Cov(X,Y)}{\sigma_X \sigma_Y}| \leq 1 \end{align}\]

であり,\(-1 \leq r_{XY} \leq 1\)が示された.

ここでの相関係数はデータに対しては単純な線形関係の強さを表すだけであり, 何らかの因果関係があるかどうかについては言及していない. このように,統計で用いられる指標についての数学的な背景を知っておくことは非常に重要である.