2.9 同時分布
ここからは二つの確率変数を同時に扱う場合について見ていこう.まずは離散型の確率変数を2つ考えこれらをX,Yとおく.それぞれの実現値はxi,i=1,…,kとyi,j=1,…,lであるとする.これらの確率変数を要素に持つベクトル(X,Y)を考え,この実現値を同様にベクトルとしてeij=(xi,yj),i=1,…,k,j=1,…,lとおこう.
k,lともに有限であれば,klも有限で実現値は全部でkl個である.全てのeijに対して確率P(eij)を与える関数Pがあり, 0≤P(eij)k∑i=1l∑j=1P(eij)=1 を満たすとする(ただし≤1,i=1,…,k,j=1,…,l).このようにして一変数の場合と同様に,eijを要素とする全体集合と,その部分集合に対して確率を定義することができる.これをX,Yの同時確率分布と呼ぶ. また,同時確率分布について,確率を返す関数をP(X=x,Y=y)=P(x,y)のように表し,同時確率関数と呼ぶ.これはX=xかつY=yを意味し, 「または」でないことに注意されたい.また,以降で扱う条件付き確率や周辺確率などと区別を明確にするためにPX,Yなどと書く場合もある. 改めて,(2.7)式より 0≤P(xi,yj)k∑i=1l∑j=1P(xi,yj)=1 が成立する(ただし≤1,i=1,…,k,j=1,…,l).
同時分布として2つの確率変数X,Yを考えることと,それぞれ個別にX,Yを扱うこととは,どのような違いがあるのだろうか.例えば,X=xという事象は,X=xかつY=yjという事象を全てのj=1,…,lについて集めた集合として考えることができる. つまり確率変数Yを無視するということは,Yがどのような値を取っても良い,と考えることと同じなのである.これは
X=x⇔l⋂j=1X=x and Y=yj
と表せる.またさらに確率関数を用いて表現すれば
P(X=x)=l∑j=1P(X=x,Y=yj)=l∑j=1P(x,yj)=∑yP(x,y)
となり,同時確率関数P(x,yj)の値をyについて全て足し上げたものと表現できる. このようにX,Yの同時確率から一方のみに着目して確率分布を考えたものを周辺分布(marginal distribution)と呼ぶ.
さてここで周辺分布が確率の性質(2.3)式を満たすような確率関数を持つかという点について確認が必要だが,これについては課題で扱うこととする.
Exercise 2.6 (同時確率と周辺分布) 確率変数X,Yについて,Xの実現値を{1,2},Yの実現値を{1,2,3}とする. またX,Yの同時確率関数P(X,Y)が以下で与えられているとする.
y=1 | y=2 | y=3 | |
---|---|---|---|
x=1 | 112 | 312 | 412 |
x=2 | 212 | 112 | 112 |
このときXとYの周辺確率確率関数をそれぞれ求めよ.