2.9 同時分布

ここからは二つの確率変数を同時に扱う場合について見ていこう.まずは離散型の確率変数を2つ考えこれらを\(X,Y\)とおく.それぞれの実現値は\(x_i, i=1,\ldots,k\)\(y_i, j=1,\ldots,l\)であるとする.これらの確率変数を要素に持つベクトル\((X,Y)\)を考え,この実現値を同様にベクトルとして\(e_{ij} =(x_i, y_j), i=1,\ldots,k, j=1,\ldots,l\)とおこう.

\(k,l\)ともに有限であれば,\(kl\)も有限で実現値は全部で\(kl\)個である.全ての\(e_{ij}\)に対して確率\(P(e_{ij})\)を与える関数\(P\)があり, \[\begin{align} \tag{2.7} 0 & \leq P(e_{ij})\\ & \sum_{i=1}^{k} \sum_{j=1}^{l} P(e_{ij}) = 1 \end{align}\] を満たすとする(ただし\(\leq 1, i=1,\ldots,k, j=1,\ldots,l\)).このようにして一変数の場合と同様に,\(e_{ij}\)を要素とする全体集合と,その部分集合に対して確率を定義することができる.これを\(X,Y\)同時確率分布と呼ぶ. また,同時確率分布について,確率を返す関数を\(P(X=x, Y=y) = P(x,y)\)のように表し,同時確率関数と呼ぶ.これは\(X=x\)かつ\(Y=y\)を意味し, 「または」でないことに注意されたい.また,以降で扱う条件付き確率や周辺確率などと区別を明確にするために\(P_{X,Y}\)などと書く場合もある. 改めて,(2.7)式より \[\begin{align} \tag{2.8} 0 & \leq P(x_i, y_j)\\ & \sum_{i=1}^{k} \sum_{j=1}^{l} P(x_i, y_j) = 1 \end{align}\] が成立する(ただし\(\leq 1, i=1,\ldots,k, j=1,\ldots,l\)).

同時分布として2つの確率変数\(X,Y\)を考えることと,それぞれ個別に\(X,Y\)を扱うこととは,どのような違いがあるのだろうか.例えば,\(X=x\)という事象は,\(X=x\)かつ\(Y=y_j\)という事象を全ての\(j=1,\ldots,l\)について集めた集合として考えることができる. つまり確率変数\(Y\)を無視するということは,\(Y\)がどのような値を取っても良い,と考えることと同じなのである.これは

\[\begin{align} X=x \Leftrightarrow \bigcap_{j=1}^{l} X=x \text{ and } Y=y_j \end{align}\]

と表せる.またさらに確率関数を用いて表現すれば

\[\begin{align} P(X=x) &= \sum_{j=1}^{l} P(X=x, Y=y_j) \\ &= \sum_{j=1}^{l} P(x, y_j) = \sum_{y} P(x,y) \end{align}\]

となり,同時確率関数\(P(x,y_j)\)の値を\(y\)について全て足し上げたものと表現できる. このように\(X,Y\)の同時確率から一方のみに着目して確率分布を考えたものを周辺分布(marginal distribution)と呼ぶ.

さてここで周辺分布が確率の性質(2.3)式を満たすような確率関数を持つかという点について確認が必要だが,これについては課題で扱うこととする.

Exercise 2.6 (同時確率と周辺分布) 確率変数\(X,Y\)について,\(X\)の実現値を\(\{ 1,2 \}\)\(Y\)の実現値を\(\{ 1,2,3 \}\)とする. また\(X,Y\)の同時確率関数\(P(X,Y)\)が以下で与えられているとする.

\(y=1\) \(y=2\) \(y=3\)
\(x=1\) \(\dfrac{1}{12}\) \(\dfrac{3}{12}\) \(\dfrac{4}{12}\)
\(x=2\) \(\dfrac{2}{12}\) \(\dfrac{1}{12}\) \(\dfrac{1}{12}\)

このとき\(X\)\(Y\)の周辺確率確率関数をそれぞれ求めよ.