第16章 エピローグ

「初めから始めよ」王様は厳かにそう言いました。
「そして最後まで読み続けよ。そこで終わりである。」

     — ルイス・キャロル

この章を書くのは何だか不思議な感じです。それに,少しばかり不適切な感じもします。エピローグは本が完成したときに書くもので,本書はまだ完成していないからです。本書には足りない部分がまだまだ山のようにあります。本書には索引がありません。引用文献もまだまだ足りません。「自習用」の練習問題もありません。もっと一般的な部分では,説明方法や内容,そして構成においてもよくない部分がたくさんあると感じます。なので,「ちゃんとした」エピローグを書く気にはなれません。未執筆の内容もたくさんありますし,ここでまとめをすることに意味があるとは思えないのです。とはいえ,本書は学生向けにオンラインで公開されており,印刷されたものを購入することもできるでしょう。ということで,ひとまずという形で締めくくりをしておこうと思います。さて,では始めましょうか。

16.1 扱われていない統計手法

まずは,できれば今回の版に入れたかったというものから見ていきましょう。そこから,統計の世界には他にどんな考え方があるのかというところを感じ取ってもらえたらと思います。本書がもっと完成版に近くなったとしても,これは重要なことでしょう。学生たちはよく勘違いしてしまうのですが,統計法入門の授業というのは単なる入門でしかありません。より広い世界で実際のデータ分析をしたいのであれば,たくさんの新たなツールについて学び,講義の中で学んだことを拡張していかなければなりません。授業で習っていないからといって,それが不可能だとは考えないでください。また,授業で習ったからそれが正しいことだとも思わないようにしてください。皆さんがそうした罠に陥ることがないよう,本書で扱わなかったさまざまな考え方について大まかにまとめておきたいと思います。

16.1.1 本書が扱うトピックの中で省略された部分

本書で取りあげたトピックの中でもたくさんのことが省略されており,将来的には何とかしたいと考えています。純粋に統計に関するもの(jamoviに関するものでなく)だけでも,今後追加したいと考えている主なもの(全部ではありません)として以下のものがあげられます。

  • 他の種類の相関 第4章では,ピアソンとスピアマンという2種類の相関について取りあげました。相関を評価するこれら2つの方法は,どちらも連続変数が2種類ある場合に利用でき,変数間の関係を見ることができます。ではその2つの変数がどちらも名義尺度変数だったらどうすればよいでしょうか。あるいは,一方が名義尺度変数でもう一方が連続変数の場合はどうでしょうか。そのような場合に相関を計算する方法というのもあるのです(たとえばポリコリック相関などがそうです)。これらの相関も含められるといいなと思います。

  • 効果量の詳細 全体的に,本書では効果量の扱い方がちょっと雑なように思います。ほぼすべての場合で,取りあげて説明した効果量は1種類(たいていは一番有名なもの)だけでした。しかし,ほぼすべての検定やモデルには,効果量を捉える方法が複数あります。将来的には,これらについてもっと詳しく説明したいと思います。

  • 前提条件違反への対処 本書のそこかしこで,検定(モデル)の前提が満たされていない場合にどうすればよいかという話をしました。ですが,それらについてももう少し説明を加えるべきだと感じます。とくに,問題を修正するための変数変換についてはもっと詳しく説明したかったところです。変数変換についてはセクション6.3やセクション6.4で少しだけ触れましたが,そこでの説明はまだ十分だとは言えません。

  • 回帰分析の交互作用 第14章では,分散分析には交互作用を含めることができると説明し,そして分散分析は線形回帰モデルの一種としても解釈可能だと説明しました。ですが,第12章で回帰分析について説明した際,そこでは交互作用については一切触れませんでした。でも,回帰モデルに交互作用を含めてはならない理由というのはありません。ただ,回帰分析に交互作用を含める方法は複数あり,そして予測変数が連続変数の場合にはその「交互作用」が一体何を意味するのかということを理解するのが複雑になるというだけです。それでも,これについても少しばかり説明を加えたいところです。

  • 計画的比較法 第14章で説明したように,事前にはっきりとした(限定的な)比較計画がある場合には,テューキーのHSDのような方法で事後検定補正を行うのは適切とは言えません。将来的にはこの説明も加えたいと思っています。

  • 多重比較法 事後検定や多重比較についてももっと詳しく説明したいところです。本書で取りあげた方法はごくわずかですので,それ以外のものについても扱いたいと思います。

16.1.2 本書で扱われていない統計モデル

統計学は広大な領域です。私が本書で取りあげた中核的なツール(\(\chi^2\)検定,\(t\)検定,回帰分析,分散分析)は,データ分析では日常的に広く用いられている基本ツールです。そして,これらの分析はほとんどの統計法の入門教科書でも中心的な部分になっています。しかし,それ以外の統計手法も山ほどあります。データ分析においてこうしたツールでは扱いきれない場面というのはたくさんありますので,他にどのような方法がどれくらいあるのかという感覚をつかんでおくのは役立つでしょう。たとえば,本書に含まれていない分析手法には次のようなものがあります。

  • 共分散分析 第14章では,分散分析と回帰分析の関係について少し時間をかけて説明しました。そこでは,分散分析モデルが一種の回帰分析モデルとして表現できるということを説明しています。もっと一般的にいうと,この2つの分析は線形モデルと呼ばれるものの仲間です。そして,この2つの分析をもっと一般化した線形モデルというのもあるのです。その古典的な例が「共分散分析(ANCOVA)」です。これは予測変数の一部が(回帰分析のように)連続変数で,残りが(分散分析のように)カテゴリー変数であるという分析手法です。

  • 非線形回帰分析 第12章では回帰モデルについて説明しましたが,そこでは予測変数と結果変数の間に直線関係を仮定していました。一方で,第4章で見た相関係数の問題のところで説明したように,変数間の非線形関係を扱えるツール(たとえばスピアマンの順位相関係数)というのもあるわけです。統計学には,非線形回帰分析を行うためのツールはたくさんあります。たとえば,非線形回帰分析には,予測変数と結果変数の関係が単調関係であることを仮定するもの(単調回帰など),平滑であるが単調とは限らないと仮定するもの(Lowess回帰など),非線形の既知の形になっていると仮定するもの(多項式回帰など)などがあります。

  • ロジスティック回帰 結果変数が2値変数で予測変数が連続変数の場合には,また別のタイプの回帰分析が用いられます。たとえば,あなたがSNSに関する調査を行っていて,誰かがツイッターをやっているかどうかということを,収入や年齢,その他さまざまな変数から予測できるかどうかに関心があったとします。これは基本的には回帰モデルですが,通常の線形回帰分析を使用することはできません。なぜなら結果変数が2値(ツイッターをやっているかどうか)だからです。結果変数は2値なので,残差が正規分布する可能性はありません。このような状況に応用できるツールはたくさんありますが,もっともよく知られているものはロジスティック回帰です。

  • 一般化線形モデル(GLM) 一般化線形モデルというのは,実際にはロジスティック回帰や線形回帰,(いつくかの)非線形回帰,分散分析などを含めた分析グループの名称です。その基本的な考え方は線形モデルの基礎にあるものと基本的に同じですが,一般化線形モデルはデータが正規分布でない場合も扱えるようになっており,そのおかげで予測変数と結果変数の関係が非線形であっても分析が可能です。一般化線形モデルの一部として実行できる分析には非常に便利なものがたくさんありますので,この分析について知っておくことはとても役に立ちます。

  • 生存分析 第2章では,ある一定の傾向で参加者が研究から脱落してしまう「脱落バイアス」について話しました。その際,そこではこれが方法論的な懸念事項になり得ると言いましたが,こうした現象そのものが研究の関心であるというような状況もたくさんあります。たとえば,コンピューターゲームの1回のセッションにおけるプレー時間が,ゲームタイプの違いによって異なるかということに関心があったとします。一人称視点シューティングゲーム(FPS)よりリアルタイム戦略ゲーム(RTS)の方がプレー時間は長くなるのでしょうか。そこで次のような研究をデザインしました。人々に研究室に来てもらい,ゲームを好きなだけプレーしてもらいます。プレーが終わったところで,そのプレー時間の長さを記録します。ただし,倫理的な制限のため,実験で2時間を超えてプレーさせることは禁じられているとします。大部分の参加者は2時間の制限時間内にプレーを終了しますので,それらの参加者についてはゲームのプレー時間を正確に測定することができます。しかし,一部の参加者は2時間の時間制限にかかり,そこでプレーを中断させられました。この場合,そのまま継続した場合に彼らが何時間プレーしたかということはわかりません。その結果,あなたのデータには体系的な打ち切りが発生することになります。データにはそうした長時間の観測値が一切含まれないことになるのです。このデータをうまく分析する方法はあるでしょうか。こうした問題は生存分析で解決できます。生存分析はこうした状況に特化して設計されている分析手法で,実験の打ち切りによって「一方の」データが体系的に失われているような場面に使用できます。この手法は健康医療分野の研究で非常によく用いられており,そこでは文字通り対象者の生存を分析するのに使用されています。たとえば,あなたが特定のタイプの癌に罹患した患者を追跡しているとしましょう。それらの患者のうち一部は治療Aを,残りは治療Bを受けています。ただし,追跡のための研究資金は5年分しかありません。その研究の終了時,患者の一部は生存していましたが,一部は亡くなっていました。このような場合,生存分析はどちらの治療がより効果的であったのかを判断するのに役立ちます。また,対象患者の時間経過に伴う死亡リスクについても知ることができます。

  • 反復測定分散分析 各参加者が複数の条件で測定を行っている場合,データは反復測定の構造になっています。こうしたデータに対しては通常の分散分析は使用できません。なぜなら,反復測定であるということは独立性に違反している(つまり同じ参加者の測定値の間には別の参加者の測定値との間よりも強い関連がある)ということだからです。反復測定分散分析は,このような構造を持つデータに利用できる分析ツールです。その基本的な考え方として,反復測定分散分析では参加者ごとに異なる全体平均値がありうるという事実を考慮した分析を行います。つまり,反復測定デザインでは,結果変数のばらつきの一部が個人差と見なされるのです。

  • 混合モデル 反復測定分散分析は,同じ実験単位の中で複数回の観測を行うような状況でよく用いられます。その典型的な例は,個人を追跡して複数の時点で測定を行うような場合です。たとえば2名を対象に複数の時点で幸福度を測定したとしましょう。アーロンの幸福度は最初は10点で,そこから8点になり,6点に落ちました。ベリンダの幸福度は最初は6点で,そこから8点に上昇して最後には10点になりました。この2人では,幸福度の全体平均値は同じです(3つの時点の平均値は8点)。そのため,反復測定分散分析ではアーロンとベリンダは同じように扱われます。ですが,これは明らかに誤りです。アーロンの幸福度は徐々に減少しているのに,ベリンダの幸福度は上昇しているからです。もし時間ごとの変化が個人ごとに異なるデータを最適に分析したいなら,反復測定分散分析より強力なツールが必要です。こうした問題の解決に使用されるツールは,「混合」モデルと呼ばれています。なぜなら,これは個別の実験単位(時間ごとの個人の幸福度など)だけでなく,全体的な効果(時間ごとの幸福度に対するお金の影響など)についても知ることができるようデザインされているからです。反復測定分散分析は,混合モデルの中ではおそらくもっとも単純なものといえます。混合モデルであれば,反復測定分散分析にはできないようなこともいろいろと可能になります。

  • 信頼性分析 第2章では,測定における好ましい特徴の1つとして信頼性を取りあげました。そこで説明した信頼性の1つに項目間の内的一貫性があります。たとえば,人のパーソナリティ(外向性など)を測定する調査をデザインする場合,一般的には異なる複数の質問で構成された質問紙が用いられます。それらの質問項目は,基本的に同じ概念を別の形で質問しているのです。この場合,これらの質問への回答ははお互いに相関していることが期待されます。なぜなら,それらは同じ構成概念を測定しているからです。そしてこれが実際にその通りになっているかどうかを確認するためのツールというのもたくさんあります(クロンバックの\(\alpha\)などがそうです)。

  • 因子分析 クロンバックの\(\alpha\)のような信頼性測度における大きな欠点は,観測変数がすべて単一の構成概念を測定したものであると仮定していることです。ですが,それは一般的にはあてはまりません。数多くのパーソナリティ質問紙やIQテスト,あるいはたくさんの測定項目を用いているものなら何でもいいのですが,それらは一度に複数の構成概念を測定しているはずです。たとえば,IQを測定する際に使用される複数のテストはどれもお互いに相関している傾向にありますが,それらテスト間の相関パターンには,複数の「何か」がデータに含まれていることが示されています。因子分析(および主成分分析や独立成分分析のような関連ツール)は,それらが何であるのかを知るための手助けをしてくれるツールです。大まかにいえば,これらのツールは,変数間のすべての組み合わせで算出した相関係数を含む大きな相関行列を分析し,その相関のパターンをより少数の潜在変数で説明しようとするのです。因子分析は非常に便利なツールで,それぞれの変数がお互いにどう関連しているのかを見る素晴らしい方法ですが,適切に使用するのは少しばかり難しいかもしれません。因子分析で潜在変数が見つかったとき(パーソナリティ質問紙の得点を因子分析したら潜在変数として外向性因子が抽出されるなど),多くの人はそれが実際の「何か」に対応しているに違いないと考えてしまうという間違いを犯します。ですが,そうとは限らないのです。それでも,因子分析はとても便利な分析法ですから,これについて知っておくのは(とくに心理学者にとっては)とてもよいことです。なので,今後の改訂版では本書でもこの分析を取りあげたいと思います。

  • 多次元尺度法 因子分析は「教師なし学習」モデルの例といえます。これがどういうことかというと,私が本書で説明してきたさまざまな「教師あり学習」ツールとは違い,因子分析には予測変数と結果変数という区分がないのです。回帰分析は教師あり学習で,因子分析は教師なし学習です。ただし,教師なし学習の分析手法は因子分析だけではありません。たとえば,因子分析では変数間の相関を分析することに関心があります。ですが,個人や対象,項目の類似性や非類似性に関心があるという場合もあるでしょう。そのような状況で使用できるツールもたくさんありますが,その中でもっともよく知られているのは多次元尺度法(MDS)です。多次元尺度法の考え方は,項目間の関係を「幾何学的」に表現するというものです。各項目は何らかの空間に点として「付置」され,そして2点間の距離がその2つの項目の非類似性の指標となります。

  • クラスタリング 教師なし学習モデルのもう1つの例として,クラスタリング(クラスター分析)をあげることができます。これは,手元にあるすべての項目を,似たものが同じグループになるようにして意味のある小数のグループに分類する方法です。クラスタリングの多くは教師なしです。つまり,そのグループがどのようなものなのかということについての事前の知識はありませんので,その結果については分析者が解釈する必要があるのです。なお,クラスタリングには「教師あり」のものもあり,その場合には何らかの変数を基準にグループの構成要素を予測しなくてはなりません。またその場合,グループの構成要素は実際に観測可能なものです。そのようなツールの典型的な例がロジスティック回帰分析です。グループの構成要素についてはっきりした知識がない場合には,別の方法を使用しなければなりません(\(k\)平均法など)。状況によっては,「半教師ありクラスタリング」と呼ばれるものが用いられることもあります。これはいくつかの項目についてはどのグループに分類されるのかがわかっているけれども,残りの項目についてはそうでないといった場合に用いられる方法です。ご想像の通り,クラスタリングは非常に大きなトピックで,知っておくと便利な分析方法です。

  • 因果モデル 本書の中であまり触れられていないものの1つに,統計モデリングを使った変数間の因果関係の分析があります。たとえば,銃殺刑の過程について,次の3つの変数の関係に関心があったとします。測定するのは処刑命令が下されたかどうか(変数A),射手が発砲したかどうか(変数B),そして死刑囚が被弾したかどうか(変数C)です。これら3つの変数はどれもお互いに相関しています(たとえば,銃が発射されることと人に弾が当たることには相関があります)。ですが,単にそうした相関関係について話すのではなく,もっと強い説明をしたいのです。因果関係について話したいのです。ここでは,処刑命令(A)が射手の発砲(B)を引き起こし,そしてそれが被弾(C)につながるということを言いたいのです。これは,矢印を使って次のように表現することができます。つまり\(A \rightarrow B \rightarrow C\)です。この「因果の連鎖」と,同じ出来事に対して射手の発砲が被弾につながり(\(B \rightarrow C\)),それが「遡及的に」処刑執行官に処刑命令を出させる(\(B \rightarrow A\))とする説明とは根本的に異なっています。後者の「共通効果」モデルでは,AとCはどちらもBによって引き起こされると説明されています。この違いがわかりますね。最初の因果モデルでは,執行官の命令を阻止できれば(Aを変えるように介入すれば),銃殺は生じません。2つめのモデルでは,どっちにしろ銃殺は行われます。なぜなら,射手は処刑命令に従っているわけではないからです。統計学の論文には,変数間の因果関係を理解しようとするものがたくさんあります。そしてデータに関するさまざまな因果モデルの検証に使えるツールも多数存在しています。そうしたツールの中で(少なくとも心理学の中では)もっともよく用いられているものが構造方程式モデリング(SEM)で,将来的には本書でもこれについての説明を加えたいと思います。

以上のリストでもまだまだ不完全です。時系列分析や項目反応理論,マーケットバスケット分析,CARTアルゴリズムによる決定木分析その他,ここで取りあげていない分析法はたくさんあります。これは,本書での私の「やりたいことリスト」だと思ってください。そう,これらを含めたら本書の分量は倍になるでしょう。ですが,これらが実現すれば,心理学領域の応用研究者にとって必要な手法のほとんどをカバーできることになります。

16.1.3 その他の推論方法

本書が不完全であるというのにはもう1つの意味があり,それは本書の視点は推測統計の中でもかなり狭く,また古くさいものであるということです。第8章では,不偏推定値や標本分布などの考え方について説明しました。第9章では,帰無仮説検定の理論と\(p\)値について説明しました。こうした考え方は20世紀初頭からあるもので,本書での説明はその時代の理論にかなり強く依存しています。私は義務的にそうした視点から外れないようにしてきました。なぜなら,科学におけるデータ分析の大部分もまた,こうした考え方に依存しているからです。ですが,統計理論はこのような考え方だけではありません。実際的な重要性からこうした考え方については全員が知っておく必要があるのですが,多くの点でこうした考え方は現代のデータ分析においては最善策とはいえないのです。私が本書でとくに嬉しく感じているのは,これを少しだけ超えられたということです。現在の版では,第15章でベイズ主義の視点をある程度説明することができました。ただ,全体としては本書はまだかなり従来型の頻度主義的分析に重きを置いています。なお,推論のためのアプローチというのはこれ以外にもたくさんあります。それらについても少しだけ触れておきましょう。

  • ブートストラップ法 本書全体を通じて,仮説検定の話をするときには何度も「○○の標本分布は\(t\)分布です」のような仮定を行ってきました。いくつかのケースでは,こうした仮定の正当性すら説明しました。たとえば,第10章で\(\chi^2\)検定について話したとき,私は正規分布と\(\chi^2\)分布の関係を用いて推論を行い(第7章参照),適合度統計量の標本分布は最終的に\(\chi^2\)になると考えられるという風に説明しました。ですが,こうした標本分布の仮定は多くの場合間違いです。\(\chi^2\)検定がそのよい例です。この検定はデータの分布に関する仮説を元にしていますが,その仮説は標本サイズが小さい場合には間違いであることがわかっています。20世紀の初頭には,こうした状況に対してできることはあまりありませんでした。そして統計学者たちは,「データについて○○であると仮定すると,標本分布は○○に近似する」というような数学的な方法を開発してきたのです。その当時にできることとしてはこれが最大限でした。そのような方法が見つからなかった場合というのもたくさんあります。数学的な解決法が見つからず,必要な標本分布もわからないというデータ分析場面はたくさんあったのです。そして20世紀後半まで,そうした状況では利用できる検定が存在しないか検定がうまく機能しませんでした。しかし,コンピューターによってすべてが変わりました。今では,そうした問題を回避するための素晴らしい技(中にはそこまででもないのもありますが)が多数開発されているのです。そうしたものの中でもっとも単純なものがブートストラップ法で,そのもっとも基本的な方法はあきれるほど単純です。この方法は,(a)帰無仮説は真であるという仮定と,(b)未知の母集団分布と生データの分布は非常によく似ているという仮定を用いて実験結果を何度も何度もシミュレーションするだけです。つまり,データが(たとえば)正規分布であると仮定する代わりに,母集団が標本に似た分布をしていると仮定して,コンピューターを使ってその仮定が成り立つような条件で検定統計量の標本分布をシミュレーションするのです。(母集団の分布が標本と同じであるという)少しばかり怪しげな仮定を用いているにもかかわらず,ブートストラップ法は素早く簡単にできる方法で,さまざまなデータ分析の場面で非常にうまく機能することが知られています。

  • 交差検証法 私の統計法の授業でたびたび出てくる質問の1つで,しかもたいていは挑発的な学生がしてくる質問に,「なぜ推測統計をやる必要があるのか。標本の説明をすればそれでよいのではないか」というものがあります。この質問に対する私の答えはたいてい,「それは,科学者としての私たちの真の関心が,過去に観測した特定の標本にではなく,未来に観測されるであろうデータの予測にあるからだ」といったものです。統計的推論の問題の多くは,私たちがつねに「未来と過去は似ているけれどもまったく同じではない」と期待しているという事実から生まれます。もっと一般的にいえば,新しいデータは古いデータと完全には一致しないということです。多くの状況で私たちがやっていることは,新しいデータにとって正しいであろう推論を行う手助けとなる数学的規則を見つけ出すことであり,古いデータを最大限に説明することではありません。たとえば,AとBという2つのモデルがあって,データXを集めたとします。そして,これを元に,明日測定予定の新しいデータYをもっともうまく説明できるモデルを選びたいとします。このような場合,この過程をシミュレーションしてみるというのもいいでしょう。それが交差検証法です。その場合,まずデータXを2つの小規模データX1とX2に分割します。そしてX1で(回帰係数を推定するなどして)モデルを訓練し,そしてもう1つのデータX2でそのモデルの精度を評価するのです。この方法では,そのモデルが古いデータから新しいデータにどれだけ一般化可能であるかということを教えてくれます。そしてこれは多くの場合,データX全体をモデルにあてはめた場合よりも,モデルの良さを示すうえで良い指標となります。

  • ロバスト統計 この世は乱雑で,何事も想定通りにはいきません。これは統計でも同じです。データを分析しようとしたとき,私たちはしばしばさまざまな問題で行き詰まります。想定よりもデータがずっと乱雑であるせいです。正規分布すると想定されていた変数は実際には正規分布しておらず,線形であると想定していた関係は実際には線形でなく,データに含まれる観測値のいくつかはゴミ(想定したものが測定されていない)だったりするわけです。こうしたごちゃごちゃの部分は,私が本書で説明した統計理論の多くでは無視されています。しかし,問題を無視したところで解決にはなりません。ですが,こうしたごちゃごちゃを無視してよい場合というのもあるのです。なぜなら,統計ツールの中には「頑健(ロバスト)」なものもあるからです。そうしたツールは,データが理論的前提を満たしていなかったとしても,その影響を受けないのです。ですがそうでない統計ツールは頑健ではありません。そして理論的前提からのわずかなずれでも破綻をきたします。ロバスト統計はこうした問題に関する統計部門で,統計量の「破綻点」のようなものについて論じます。つまり,データがどれくらいごちゃごちゃだと統計量が信頼できなくなるのかということです。これについては本書でもところどころで触れました。たとえば,平均値は変数の中心傾向に対する頑健な推定値ではありませんが中央値は頑健です。私に親友が5人いて,その5人の年齢は34歳,39歳,31歳,43歳,4003歳だとします。彼らの平均年齢は何歳でしょうか。この場合,真の母集団平均値は何歳でしょうか。ここで母集団平均値の推定値として平均値を使用したら,その答えは830歳ということになります。ですが,母集団平均値の推定値として標本の中央値を使用すると,その答えは39歳となります。2つめの計算は(平均値の推定に中央値を使っているので)「技術的」には間違いったことをしているのですが,答えとしてはこちらの方が適切でしょう。ここでの問題は,観測値の1つがどう見ても嘘だと言うことです。私には4003歳の友人なんていません。これはタイプミスで,本当は43歳と書きたかったのです。ですが,もしここで43を53や34と打ち間違えていたらどうでしょう。これがタイプミスだという確信が持てるでしょうか。データの誤りの中にはこうした微妙なものが含まれていることもあって,そうした場合にはデータを視認したところで誤りを見抜くことはできません。ですが,それらが誤りであることには違いなく,そうした誤りはデータを汚染し,あなたの結論に影響を及ぼします。ロバスト統計は,知らないうちにデータが汚染されていたというような状況で,いかに安全な推論が可能かということに関連したものなのです。これはなかなか面白い分野です。

16.1.4 その他のトピック

  • 欠損値 運動量と体重の関係に関心があり調査を行ったとしましょう。あなたは4人に調査票を送りました。アダムは自分はたくさん運動していて肥満ではないと言います。ブリオニーは自分はたくさん運動していて肥満ではないと言います。キャロルは自分は運動はしないといい,肥満だと言います。ダニー(私)は自分は運動しないといい,体重の質問には回答を拒否しました。エレインは調査に返答してくれませんでした。ということで,欠損値の問題が生じました。完全なデータの欠損が1件,1つの質問だけ答えがないものが1件です。あなたはどうしますか。一般的に,欠損値を無視するのはよいことではありません。ダニーの調査結果について考えてみましょう。まず,私の回答はアダムやブリオニーよりキャロルに近いと考えられる点に注意してください(キャロルも私もどちらも運動していません)。つまり,もしどうしてもあなたが私の体重を推測しなくてはならないとしたら,あなたは私の体重は彼女と近いのではないかと考えることでしょう。でももしかしたら,アダムと私は男性でブリオニーとキャロルは女性だからということを考慮して値を修正するかもしれませんね。こうした推測のことを,統計では「代入(imputation)」といいます。代入を安全に行うのは難しいですが,とくに欠損値が体系的な形で生じている場合には,代入は重要な手続きです。多くの場合,(公衆衛生キャンペーンのおかげで)肥満の人は自分の体型に対して悪いイメージを持たされているため,回答しない人は回答してくれた人よりも肥満である可能性が高いという疑いが生じます。そしてダニーの体重を代入すると,同じ標本における肥満者の数は(ダニーを除けば)3人中1人から(ダニーの体重を代入した場合)4人中2人になります。これは明らかに重要です。ですが,これを意味がある形で行おうとすると思った以上に複雑です。先ほどは,私の体重はキャロルと同じ位と考えればよいといいました。なぜなら,私たちは運動の質問に対して同じ回答をしているからです。ですが,これは正しくありません。2人の間には体系的な差があるからです。彼女は質問に答えましたが,私は答えていません。肥満の人々が感じている社会的圧力を考慮すれば,私がキャロルよりさらに肥満であるということは考えられないでしょうか。それに,あなたがまるで私の体重を知っているかのように,1つの値を私の体重として代入するのは賢明ではありません。ですから,ここは考え得る値の範囲を代入するという方法をとり(これは多重代入法と呼ばれています),キャロルの体重と違って私の体重には不確かさがあるという事実を取り込むようにしなければならないのです。それから,エレインが調査に回答してくれなかったことによる問題について話すのはここではやめておきましょう。お分かりのとおり,欠損値の扱いは非常に重要なトピックになってきています。実際,私はいくつかの領域で学術誌に論文投稿した際に「欠損値に何らかの意味のある多重代入法が用いられていない研究は受理できない」と言われたことがあります。

  • 検定力分析 第9章では検定力(実際に存在する効果を検出できる力)という考え方について論じ,検定力分析についても取りあげました。検定力分析は,その研究にどれだけ検定力があるかを評価するのに便利なツール群です。検定力分析は研究を計画する際(たとえば,その研究にどれくらいの標本が必要かを知りたい場合など)に便利なツールですが,すでに収集済みのデータを分析する際にも役立ちます。たとえば,分析結果が有意で効果量を推定したとしましょう。すると,その情報を使ってその研究の検定力がどれくらいであったのかを推定することができるのです。これはとくに効果量が大きくなかった場合に役立ちます。たとえば,\(p<.05\)で帰無仮説を棄却したとしましょう。そして検定力分析を行ってみたところ,そこから推定される検定力が\(.08\)しかなかったとします。結果が有意であったということは,帰無仮説が実際には真である場合,このようなデータが得られる可能性は5%であるということを意味します。ですが,検定力が低いということが何を意味しているかというと,たとえ有意性検定が示すように帰無仮説が誤りであり,そしてその結果に見られるように非常に小さい効果量があったとしても,今回のようなデータが得られる確率はわずか8%しかないということなのです。これはつまり,あなたはかなり慎重に判断しなくてはならないということです。なぜなら,この結果は何らかの形で偶然に生じたものであるという可能性がかなり高いからです。

  • 理論に基づくモデルを用いたデータ分析 本書の中では,ところどころで反応時間データについて言及しました。反応時間とは,(単純な判断などの)何かをするのにかかった時間を記録したものです。そして,反応時間データは大半は正規分布になっておらず,歪度が正の値であることが多いとも言いました。さらに,反応時間には早さと正確さのトレードオフと呼ばれる現象があります。素早く反応しようとすると(反応時間の向上),間違った判断をしてしまいやすくなるのです(正確さの低下)。つまり,もし参加者の判断にかかる反応時間と正確さを両方測定したとしたら,そこでは早さと正確さに関連が見られることになるでしょう。もちろん,話はそんなに単純ではありません。どんなに素早く反応しても,何人かの人は他の人よりもよい判断をするのです。さらに,反応速度は認知処理(思考にかかる時間)だけでなく身体的なもの(筋肉の反応時間)による影響も受けています。こう聞くと,このデータの分析はとても複雑なことに思えてきます。まあ,実際そうなのです。ただ心理学の研究論文をいろいろ読んでいくとわかるのですが,じつは人が単純な判断をする場合については,先ほどあげた多数の要因を考慮した数学モデル(「逐次サンプリングモデル」と呼ばれます)というのがすでに存在するのです。ですが,こうした理論に基づくモデルは標準的な統計の教科書には記載されていません。標準的な統計の教科書は標準的な統計ツールについての説明するものであって,心理学だけでなくさまざまな領域に応用できるツールについて説明するものだからです。たとえば,分散分析は心理学だけでなく薬学などでも利用可能な標準的なツールです。逐次サンプリングモデルはそうではありません。これは多かれ少なかれ心理学固有のものです。ですが,だからといって役に立たないというわけではありません。実際,もしあなたが素早い判断が求められるような実験で反応時間を測定したのであれば,データの分析には逐次サンプリングモデルを使うべきでしょう。分散分析や回帰分析などではうまく機能しません。なぜなら,その理論的な背景にあるものがデータにうまく一致していないからです。それに比べ,逐次サンプリングモデルは元から反応時間という特定タイプのデータを分析するために設計されているので,その理論的仮定がデータとかなり一致するのです。

16.2 基礎を学ぶ,jamoviで学ぶ

さて,ずいぶん長いリストでした。ですが,これでもまだ不完全なのです。統計には本書で扱ってこなかった考え方が本当にたくさんあります。数百ページの教科書を読み終えて,これはまだ始まりだと言われるとがっかりするかもしれません。とくに,自分が読んできた内容の半分が間違っているのかもしれないと疑い始めているならなおさらでしょう。たとえば,古典的な分散分析モデルを分析に使用することに対して強く反対する人はたくさんいます。ですが,私はそれを説明するために2章も使いました。標準的な分散分析は,ベイズ統計の視点から攻撃されています。あるいはロバスト統計の視点から,あるいは「それ間違いだから(混合モデルを使用すべきところで分散分析を使う人がすごく多いのです)」的な視点から攻撃されているのです。ではなぜこれを学ぶのでしょう。

私が思うに,その根拠は主に2つです。1つめは,純粋に実用的な部分です。良かれ悪しかれ,分散分析は広く用いられています。科学論文を理解したければ,分散分析を理解する必要があるのです。2つめに「追加知識」という論点です。多元配置分散分析を学ぶ前に1要因分散分析について学ぶのが役立つのと同じように,分散分析を理解することはより高度な分析ツールについて学ぶうえで役立ちます。なぜなら,それらのツールの多くが基本的な分散分析を何らかの形で拡張したり修正したりしたものだからです。たとえば,混合モデルは分散分析や回帰分析よりはるかに便利なツールですが,分散分析や回帰分析について学ばずに,最初から混合モデルを学んだという人を聞いたことがありません。這い這いもできないうちから山に登るようなことはできないのです。

この点についてもう少し強調しておきたいと思います。本書の中で,私は原理や基本についてかなりの量を説明してきました。確率論の説明にはかなりの時間を費やしました。推定の理論や仮説検定の理論についても必要以上に詳しく話しました。なぜこんなことをしたのでしょう。今振り返ってみると,確率分布の話にあそこまで時間をかける必要が本当にあったのか,確率密度のセクションなんて本当に必要だったのかと思う人もいるかもしれません。本書の目的が\(t\)検定や分散分析の方法を教えることだとしたら,あれは本当に全部必要だったのでしょうか。膨大な時間の無駄だったのではないでしょうか。

皆さんも同意してくれるといいのですが,その答えは「いいえ」です。統計法入門の目的は分散分析を教えることではありません\(t\)検定や回帰分析,ヒストグラムや\(p\)値を教えることではないのです。統計法入門の目的は,皆さんがデータ分析家になるための道を開くことにあります。技能を持った分析家になるためには,分散分析や\(t\)検定,回帰分析やヒストグラムができるだけでは足りません。データについて正しく考えることができなくてはならないのです。先ほどのセクションにあげたような高度な統計モデルを学べるようにもならなければなりません。そしてその基礎にある理論を理解しなければなりません。それに,そうした高度な分析ツールを使用できるソフトウェアも必要です。少なくとも私の考えでは,私が基礎の説明に費やしてきた必要以上の時間については,こうしたところで元がとれるはずです。確率論を理解していれば,頻度主義からベイズ主義に切り替えることは簡単です。

つまり,こうした形で統計を学ぶことの最大の利益は拡張性だと思うのです。データ分析の基本中の基本だけ扱うような本の中にあって,本書には確率論の学習といったかなり負担となる部分が含まれています。本書で扱われている分析以外にも学ばなくてはならないことはたくさんあります。もし皆さんの目標が最短の時間で分散分析をできるようになるということであれば,本書はよい選択とは言えないでしょう。ですが,皆さんの目標はそんなものではありませんよね。皆さんはデータ分析の方法を学びたいのではないでしょうか。はそう思います。そしてもしそれが皆さんの本当の目標だったとしたら,統計法入門の授業で学んだ知識は自然に,そして楽々と,現実世界でのデータ分析に必要なより複雑なモデルへと拡張することが可能です。皆さんは実際のデータ分析家が使用するのと同じツールを使用する方法を学び,彼らと同じことを学べるようになりたいはずです。確かに,今は(あるいは本書を読み始めた時点では)まだ皆さんは初心者かもしれません。ですが,だからといって確率密度の話や。不釣り合い型多元配置分散分析の悪夢の話を省いたようなお子様向けの説明でよいということにはなりません。初心者だからまともな分析ツールでなくて子供のおもちゃでよいということにはならないのです。初心者はただ知識が少ないだけであって馬鹿なわけじゃありません。必要なことは,実際のデータ分析における複雑さを包み隠すことではありません。必要なのは,実世界で皆さんを待ち伏せるそうした複雑さに出くわしたとき,それに立ち向かえるような知識とツールなのです。

本書が(あるいはいつの日か本書が完成したあかつきには)そうした形で皆さんのお役に立てれば嬉しく思います。