第4部への序章
第4部は主に理論に関する内容で,ここでは統計的推論の考え方について説明します。ここから先の3つの章では,確率(第7章),標本と推定(第8章),そして統計的仮説検定(第9章)の基本的な考え方について説明することを目的としています。ですが,それらの説明に入る前に,まずはもっと全体的な部分についてお話をしておきたいと思います。基本的に,統計的推論とはデータから学ぶことです。その目的は,単にデータを記述するだけでなく,データを使って世界についての結論を導き出すことにあるのです。そこでの議論に関心を持ってもらうために,ここで「帰納の謎」として知られる少し哲学的な話をしておこうと思います。なぜならこれは,本書の中で何度も繰り返し現れる部分,つまり統計的推測が仮定に基づくものであるということと深く関連しているからです。仮定に基づく推測と聞くと,何だか悪いことにように思えますね。日常生活では,「推測で決めつけるな」などとよく言われますし,心理学の授業の中では,人間の思い込みやバイアスは避けるべき悪いものとしてしばしば取りあげられるからです。私はといえば,個人的な苦い体験から,哲学者のそばでそんなことを口にするものではないということを身に染みて学びました。
論理的推論の限界
軍事のすべては丘の向こうを知ることにある。
つまり,すでにわかっていることから
まだわからないことについて知るところにあるのだ。
— アーサー・ウェルズリー 初代ウェリントン公爵
上記の言葉は,田舎中を馬車で走り廻った結果として発せられたものだとされています50。彼とその同伴者のJ・W・クロカーは,丘にさしかかるたびにその向こうに何があるのかを推測するというゲームをしていました。そしてそのゲームでは,何度やってもウェルズリーが勝ち,クロカーは負けてばかりでした。それから何年か経った後,そのゲームについて尋ねられたウェルズリーは,「軍事のすべては丘の向こうを知ることにある」と説明したのです。実際,これは軍事に限ったことではありません。人生とは,すべてが次から次へと続く推測ゲームであり,日々を生き抜くためには良い推測が必要だからです。では,私たちも推測ゲームをすることにしましょう。
あなたと私がウェルズリーとクロカーのゲームを観察しているとしましょう。そして丘を3つ越えるごとに,次のゲームでウェルズリーとクロカーのどちらが勝つかを予測するとします。ここではウェズリーの勝ちを「W」,クロカーの勝ちを「C」として表しましょう。3つの丘を越えた後,データセットは次のようになっていました。
WWW
これを見た私たちは次のような会話をします。
その結果,あなたは賭けに勝利しました。さらに丘を3つ超えたとき,その3つすべてでウェルズリーが勝利したのです。ゲームは次のラウンドに入ります。得点は1-0であなたがリードしています。データセットは次の通りです。
WWW WWW
なお,ここでは3つの丘ごとに結果をひとまとまりにしました。そうすることで,私たちのゲームの各段階で,私たちにとって明らかだった結果がどの部分かがわかりやすくなるからです。この新しいデータを見た後に,私たちの会話は次のように続きます。
2度目もあなたが勝ち,私は負けでした。ウェルズリーは次の3つの丘でも連勝し,ウェルズリー対クロカーの成績は9-0になったのです。この時点のデータセットは次のようになります。
WWW WWW WWW
そして私たちの会話は次のように続きます。
WWW WWW WWW W
という結果も可能性の1つではあるけど,それをいうならWCC CWC WWC C
やWWW WWW WWW C
,それにCCC CCC CCC C
だってそう。何が起こるのかについてまったくわからなかったわけだから,これらはどれも同じだけ可能性があったことになる。違う? つまり,「わからない」とはそういうことだよね?
WWW WWW WWW C
かWWW WWW WWW W
という可能性以外は論理的に排除されることになる。ここまでの観察結果と完璧に一致しているのはこの2つだけだからね。
そしてウェルズリーはその次の3つの丘でも連勝しました。ウェルズリー対クロカーのゲームの成績は12-0で,私たちのゲームの成績は3-0です。4ラウンド目にさしかかるとき,私たちの手元にあるデータは次のようになっています。
WWW WWW WWW WWW
そして会話は続きます。
WWW WWW WWW WWW C
とWWW WWW WWW WWW W
の2つしかないから,さっきとまったく同じだし。ゲームを始めた時点では,すべてのパターンがどれも同程度にあり得るものだったわけだから,この2つも同程度の可能性を持っていることになる。ということは,どちらか一方を除外すべきではないよね。ウェルズリーの連勝記録はすごいということには同意するけど,その連勝がこれからも続くという論理的根拠はどこにあるの?
君君君
のようになっているはずだ。論理的には,これはウェルズリー対クロカーのゲームの最初のラウンドとまったく同じ結果だ。3勝しただけでは十分な根拠じゃないんだろう? だったら君の戦略が私のものより優れているとする根拠はないじゃないか。WWW
という結果が彼らのゲームでウェルズリーの方がクロカーより優れていることを示す十分な証拠にならないなら,君君君
という結果だったからと言って,それだけでは私たちのゲームで君の方が私より優れているということの十分な証拠にはならないよね?
仮定なしの学習など現実にはあり得ない
この会話にはいろんな切り口があり得ますが,本書は心理学の学生に向けた統計の教科書で,哲学の入門書でもなければ論理的思考の心理学の入門書でもありませんので,話はできるだけ短くしておきます。先ほど取りあげた会話は,帰納の謎と呼ばれるものです。ウェルズリーが12回連続で勝利したという結果から,13回目も彼が勝利するだろうと考えることはとても合理的なように思えます。ですが,これはこの信念を支持する正当な論理的根拠とは言えません。それどころか,このように答えが明らかであるにもかかわらず,論理的な正当性がまったくない何らかの仮定を用いない限り,ウェルズリーに賭けることを正当化することはできないのです。
帰納の謎は主にデイヴィッド・ヒューム,より最近ではネルソン・グッドマンの哲学的著作と深く関連したものですが,こうした問題の例は,文学(ルイス・キャロル)や機械学習(「ノーフリーランチ定理」)など,さまざまな分野に登場します。「すでにわかっていることからまだわからないことについて知る」というのは,じつに奇妙なことなのです。ここで重要な部分は,私たちが世界について何かを知りたければ,仮定やバイアス(先入観)は避けられないということです。これから逃れるすべはありません。そして統計的推論もまた,人間の推論と同じです。先の会話では,私はどう見ても常識的なあなたの推論に異を唱えていましたが,あなたが頼りにした常識に基づく推論は,統計学者が使用するものと何ら変わるものではありません。この会話におけるあなたの「常識」は,潜在的な「仮説」に依存しています。それは,ウェルズリーとクロカーにはスキルに差があるのではないかという仮説です。そしてあなたは,2人の間のスキルの差がどの程度であるのかを見極めようとしましした。私の「論理的分析」はこの仮定を完全に排除しています。私が受け入れようとしたことは,そこには一連の勝ち負けという結果があるということだけで,私はそれ以降の勝敗について判断することができませんでした。この会話全体を通しての私の主張は,ウェルズリー対クロカーのゲームの開始時において論理的に考え得る勝敗の組み合わせにはすべて等しく可能性があるというものでした。そして,それらの可能性のうち,すでに観察された事実と一致しないものを排除するという方法でのみ,自分の信念を修正していったのです。
この部分だけを見れば,これは非常に賢明な判断のようにも聞こえます。実際,これこそが演繹的推論の手本であるというような感じすらするかもしれません。なぜなら,私のとったアプローチは,まるでシャーロック・ホームズのように,真実であり得ないものを除外していくというものだったからです。しかし私たちが見たように,あり得ないものを除外するという方法ではけっして予測はできません。この会話の中の私の発言は,それ自体は完全に正しいことなのです。つまり,私が予測できなかったのは,「仮定しない」ことによる論理的結果なのです。最終的に私がゲームに負けたのは,あなたが何らかの仮定をし,その仮定が正しいということが判明したためです。ゲームのスキルというものが実際にあり,そしてそのスキルの存在を信じたおかげで,あなたはウェルズリーがクロカーよりもはるかにスキルが高いということを知ることができました。もしあなたが賢明とは言えない仮定に頼っていたとしたら,あなたはゲームに勝っていなかったかもしれません。
この話の要点は,究極的には2つあります。1つめは,先ほど言ったように,データから何かを知りたいのであれば,仮定をすることは避けられないということです。しかし2つめに,仮定が必要であると認識したうえで,正しい仮定を行っていることが重要だということがあります。わずかな仮定しか用いないデータ分析の方が多数の仮定を行う分析より優れているわけでは必ずしもありません。結局,それはそれらの仮定があなたのデータにとって適切なものであるかどうかにすべてかかっているのです。本書の以降の部分では,統計的手法の根拠となる仮説について,また,その仮説が理にかなったものであるかどうかをチェックする方法について,たびたび指摘することになるでしょう。