第2章研究デザインの初歩

実験が終わった後に統計学者に相談するというのは死体解剖を依頼するようなものだ。
そこでわかるのはおそらく実験が失敗した理由だろう。

　　　　— サー・ロナルド・フィッシャー⁶

この章では，研究をデザインし，データを集め，データ収集がうまくいっているかをチェックする手続きの基本的な部分について考えてみることにしましょう。本章の情報だけで自分自身の研究をデザインできるようにはなりませんが，他人が行った研究を評価する上で必要な基本部分は知ることができるはずです。ただし，本書の中心はデータの収集よりも分析の方にありますので，ここでは短く要点を述べるだけにします。この章は2つの意味で「特別」です。まず，本章はこれ以後の章に比べてかなり心理学に特化した内容になっています。2つめに，本章は研究方法における科学的な問題を中心的に扱っており，データの分析における統計的な問題にはあまり触れていません。とはいえ，この2つの問題はお互いに関連しており，統計の教科書がこの問題に少し詳しく触れるというのは昔からよくあることです。本章は，研究デザインについては主にCampbell and Stanley (1963)に，測定尺度については主にStevens (1946)に基づいて話を進めます。

2.1 心理測定の初歩

まず最初に理解しておくべきことは，データ収集というのは測定の一種だということです。つまり，私たちがしようとしていることは，人間の行動や心についての何かを測定することなのです。では「測定」とは何なのでしょうか。

2.1.1 心理測定について考えてみる

測定という概念は捉えにくいものですが，結局のところはある「モノ」に対して数値やラベル，あるいはきちんと定義された何らかの説明を割り当てる方法を見つけ出すということです。つまり，以下に示したようなものはいずれも心理測定であると考えることができます。

私の年齢は33歳です。
アンチョビが好きかと聞かれれば，答えはいいえです。
私の染色体の性は男性です。
私が自己認識している性は男性です⁷。

上記のリストでは，太字の部分が「測定の対象となるもの」であり，赤字の部分が「測定結果」ということになります。では，これをもう少し拡張して，それぞれのケースで得られる可能性がある測定結果について考えてみましょう。

私の年齢（単位：歳）は，0, 1, 2, 3 …のような値になるでしょう。私の年齢の上限はやや曖昧ですが，現実問題として上限は150としておけば問題ないでしょう。そこまで長生きできた人はこれまでいないからです。
アンチョビが好きかという質問に対しては，はいかいいえ，もしくは好きでも嫌いでもないやどちらかといえば好きといった答えになるかもしれません。
染色体の性はまずほとんどの場合男性（XY）または女性（XX）のはずですが，わずかながら他の可能性もあります。たとえば，クラインフェルター症候群（XXY）がそうです。これはどちらかといえば女性よりも男性に近い状態です。これ以外の可能性もあり得るでしょう。
自己認識している性もおそらく大半は男性または女性でしょうが，これは必ずしも染色体の性と一致するとは限りません。どちらでもないといった答えや，あるいはよりはっきりとトランスジェンダーであるという答えもあるでしょう。

このように，対象によってはどのような測定値が得られるかが比較的明確なもの（たとえば年齢）もあればかなりややこしいものもあるのです。なお，年齢のようなものであっても場合によっては非常に捉えにくくなる場合があることを指摘しておきます。たとえば，先ほどの例の場合には年齢を1歳単位で測定しても問題ないと思います。ところが，あなたが発達心理学者だったらこれでは大雑把すぎます。たいていの場合，何歳何ヶ月というように測定することになるでしょう（子供の年齢が2歳11ヶ月の場合，一般的には「2;11」のように表記されます）。新生児に感心がある場合には，年齢は生後何日あるいは生後何時間というような形で測定されるかもしれません。つまり，どのような測定値を使用するのかを特定することが非常に重要になるのです。

もうすこし詳しく見てみましょう。「年齢」という概念は，じつは思っているほど明白なものではないことに気づくかもしれません。一般に，「年齢」といえばそれは「生まれてから経過した時間の長さ」を意味します。しかし，それがつねに正しいとは言い切れません。たとえば新生児の眼球運動制御に関心があったとしましょう。そこまで幼い子供を対象とする場合，「誕生」の日を起点とする時間だけではだめなのではないかと疑問に思うはずです。たとえば，アリスという赤ちゃんは予定より3週間早く生まれ，ビアンカという赤ちゃんは予定より1週間遅れで生まれたとします。それぞれの赤ちゃんに「生後2時間」の時点で会ったとき，その2人は本当に「同じ年齢」といえるでしょうか。ある意味では同じといえるでしょう。日常の会話では，生まれた時点を起点に年齢を数えることが社会的な慣習になっています。それはその個人がこの世界で独立した1人の存在として活動してきた時間を表すからです。しかし科学的な視点からいえばそれだけでは足りないのです。ヒトの生物学的な側面を見る場合には，人間を受胎後に成長し成熟してきた生物であると捉えることが役立つ場合がよくあります。そしてその観点からいえば，アリスとビアンカは決して同じ年齢ではないのです。つまり，「年齢」という概念は，受胎後の時間経過または誕生後の時間経過という，2つの方法で定義した方がいい場合もあるのです。対象が大人の場合にはどちらでも大して変わりませんが，新生児の場合には大きく異なる可能性があります。

こうした問題の他に，方法論的な問題もあります。誰かの年齢を知りたい場合，どのような「測定方法」があるでしょうか。先ほどと同様に，多種多様な可能性があります。

単純に「あなたは何歳ですか」と聞くのも1つの方法でしょう。自己申告による方法は，簡単で安く済みます。しかし，この方法は相手が質問を理解できる年齢になっていなければなりませんし，嘘の年齢を答える人もいます。
関係者（親など）に「お子様は何歳ですか」と聞くという方法も考えられるでしょう。この方法も素早くデータが得られます。子供を相手にする場合，たいていはそのすぐそばに親がいるからです。しかし「受胎後の年齢」を知りたい場合にはこの方法は使えません。受胎した日時まで知っている親はほとんどいないからです。その場合，別の関係者（たとえば産科医）の助けが必要になるでしょう。
出生証明書や死亡証明書といった公的記録を調べる方法も考えられます。時間がかかり骨の折れる作業になりますが，対象とする人物がすでに亡くなっている場合などにはこうした方法も有効です。

2.1.2 操作的定義　測定方法を定義する

先ほどのセクションで扱った内容は，どれも操作的定義が関係しています。もう少し具体的に言うと，操作的定義とは，重要だが曖昧さのある概念を正確に測定できるようにするための手続きです。操作的定義には複数の側面があります。

測定対象を明確化する。　たとえば，その研究における「年齢」は「出生後の経過時間」と「受胎後の経過時間」のどちらでしょうか。
どのような方法で測定するのかを決める。　年齢は自己申告式で測定するのでしょうか，両親に尋ねるのでしょうか，それとも公的記録を調べるのでしょうか。自己申告式で測定するのであれば，どのような質問文で年齢を尋ねるのでしょうか。
測定値が取り得る値について定義する。　たいていの場合，測定値は数値の形をとりますが，そうでない場合もあるので注意してください。年齢を測定する場合には測定値は数値になりますが，それでもどのような数値として測定するのかをよく考えなければなりません。年齢は歳（年）単位で測定するのでしょうか，月単位でしょうか，それとも日や時間の単位でしょうか。その他の測定（たとえば性別）の場合，測定値は数値にはなりません。しかし，先ほどと同様に，どのような値を測定値とするのかをよく考える必要があります。たとえば自己申告式で性別を尋ねる場合，回答の選択肢としてどのようなものを想定すればよいでしょうか。「男性」と「女性」だけで十分でしょうか。「その他」は必要ないでしょうか。それとも，選択肢から選ばせるのではなくて，自分の言葉で答えてもらうようにするのがよいでしょうか。口頭で答えてもらった内容をすべて利用するとして，それをどう解釈すればよいのでしょうか。

操作的定義は非常にやっかいな問題で，「正しい唯一の方法」というものは存在しません。「年齢」や「性別」のような日常的な概念を操作的定義して正式な測定値にするための方法は，その測定値をどのような目的で使用するのかによっても変わってくるのです。たいていの場合，さまざまな研究領域の科学者コミュニティには，それぞれに十分に確立された定番ともいえる操作的定義の方法があるものです。つまり，操作的定義はケースバイケースで考えなくてはなりません。操作的定義にはこのように個別の研究プロジェクトごとに異なる部分が多いのですが，全般的に共通する側面というのもあります。

話を先に進める前に，ここまでに出てきた用語を整理しておきましょう。なお，その際に1つだけ新しい用語を取りあげます。以下の4つの事項は，互いに深く関連し合っています。

理論的構成概念　「年齢」や「性別」，「意見」など，測定しようとする対象のことをいいます。理論的構成概念を直接観察することはできません。理論的構成概念にはやや漠然とした部分があります。
測定　測定とは観察を行うための方法やツールを意味します。調査に用いられる質問紙，行動観察，あるいは脳画像の撮影など，これらはすべて測定です。
操作的定義　「操作的定義」とは，測定値と理論的構成概念の間にある論理的関連性を指す用語です。理論的構成概念から測定値を取り出すための手続きということもできます。
変数　最後に新しい用語です。変数とは，この世界における何らかの対象に対して測定を行うことで得られるもののことをいいます。要するに，変数とは実際の「データ」のことで，それらのまとまりがデータセットになります。

じつのところ，これらの区分は科学者ですら曖昧になりがちなのですが，これらの違いをしっかり理解しようとすることはとても大事です。

2.2 尺度水準

先ほどのセクションで説明したように，心理学的測定の結果として得られるものを変数と呼びます。しかし，すべての変数が同じような性質を持っているわけではありません。そのため，変数にはどのようなタイプがあるのかを理解しておくことが大事です。変数タイプの違いを区別するうえで非常に役立つのが尺度水準と呼ばれる考え方です。

2.2.1 名義尺度

名義尺度変数（カテゴリ変数と呼ばれることもあります）は，それぞれの値の間に特定の関係性がないものをいいます。このタイプの変数では，ある値が他に比べて「大きい」，「良い」といった表現は意味をなしませんし，値の平均を求めることにも意味がありません。このタイプの典型的な例として「目の色」をあげることができます。目の色は青だったり緑だったり茶色だったりしますが，その中でどれか1つが他よりも「大きい」ということはありません。そのため，「目の色の平均」といった表現は意味不明でおかしなことになってしまいます。同様に，性別も名義尺度です。男性と女性でどちらが優れているとか劣っているとかいうことはありません。そして，「性別の平均」というのもまったく意味をなしません。つまり名義尺度変数は，ある対象と別の対象が異なったものであるかどうかを示すことだけができるのです。ただそれだけです。

もう少し詳しく見てみましょう。人々の通勤手段について調査したとします。その場合，どのような交通手段を用いているかを測定する必要があるでしょう。この「交通手段」という変数は，「電車」，「バス」，「車」，「自転車」など，さまざまな値になる可能性があります。ここではひとまず，この4つの可能性しかないとしましょう。そして今日職場までどうやって来たかを100人に尋ねたところ次のような結果が得られました。

交通手段	人数
(1) 電車	12
(2) バス	30
(3) 車	48
(4) 自転車	10

さて，交通手段の平均はいくつでしょうか。どう考えても答えは出せませんね。まったく馬鹿げた質問です。車通勤が最も多いということや自転車が最も少ないということは言えますが，それ以上のことは言えません。また，この表では交通手段の順序に大した意味がないことにも注意してください。先ほどのデータはこのように示すこともできます。

交通手段	人数
(3) 車	48
(1) 電車	12
(4) 自転車	10
(2) バス	30

こうしたところで何も変わりません。

2.2.2 順序尺度

順序尺度変数は，名義尺度変数よりはやや構造化されていますが，しかしそれほど大きく異なるわけではありません。順序尺度変数では，それぞれの値の間に自然で意味のある順序が存在します。ただし，それ以上の情報は持ちません。順序尺度変数例としてよく用いられるのは，「レースの着順」です。1位の人が2位でゴールした人より早いということは言えますが，どれだけ早いのかまではわかりません。つまり，1位>2位であることや2位>3位であることは確かでも，1位と2位の差は2位と3位の差よりもずっと大きいかもしれないのです。

ここで，心理学的な題材で非常に興味深い例を1つあげておきます。気候変動に対する人々の態度に関心があるとしましょう。そこで，人々に以下の4つの文のうち，自分の考えに最も近いのはどれかと尋ねました。

(1) 気温が上昇しており，原因は人間活動のせいである
(2) 気温が上昇しており，原因は不明である
(3) 気温は上昇しているが人間のせいではない
(4) 気温は上昇していない

この4つの文には，「現在の科学的知見に対して同意する程度」という点から見て自然な順序が存在します。1つめの文は非常に一致しており，2つめの文もそこそこ一致しています。3つめの文はあまり一致しておらず，4つめの文は現在の科学的知見にとはまったく反対です。つまり，研究の関心（科学的知見を支持しているかどうか）から見た場合には，これらの文を1 > 2 > 3 > 4と並べることができるでしょう。こうした順序が存在するので，これらの文を次のように並べるとおかしなことになってしまいます。

(3) 気温は上昇しているが人間のせいではない
(1) 気温が上昇しており，原因は人間活動のせいである
(4) 気温は上昇していない
(2) 気温が上昇しており，原因は不明である

なぜおかしいかというと，これらの質問にある自然な「構造」が壊れているように感じられるからです。

さて，100人を対象にこの質問を行い，次の結果が得られました。

選択肢	人数
(1) 気温が上昇しており，原因は人間活動のせいである	51
(2) 気温が上昇しており，原因は不明である	20
(3) 気温は上昇しているが人間のせいではない	10
(4) 気温は上昇していない	19

このデータを分析するとき，(1)，(2)，(3)の文を選んだ人をひとまとめにして「100人中81人が少なくとも部分的に科学的知見を受け入れている」としてもまったく問題なさそうです。また，(2)，(3)，(4)を選んだ人をひとまとめにして「100人中49人で少なくとも部分的に主流な科学的知見を受け入れていない部分があった」としても意味は通るでしょう。しかし，(1)と(2)と(4)をひとまとめにしたらどうでしょうか。100人中90人が……後が続きませんよね。これらの回答をひとまとめにする意味がまったくないからです。

なお，このように項目間の自然な順序を利用して意味のあるグループを作ることはできるのですが，これらを平均することはできないという点に注意してください。たとえば，この例の場合には回答値の「平均値」を求めると1.97になります。この数字が何を意味しているかわかる人がいたら教えてください。私にはさっぱりわかりません。

2.2.3 間隔尺度

名義尺度や順序尺度の変数と違い，間隔尺度や比率尺度の変数では，数値が実際的な意味を持ちます。間隔尺度変数は，数値間の差を解釈することができる変数です。ただし，この変数には「自然な」0（ゼロ）の値がありません。間隔尺度変数のわかりやすい例が摂氏温度です。たとえば，昨日の気温が15℃で今日は18℃の場合，この2つの数値の差である3℃という値はちゃんと意味のあるものになっています。さらに，この3℃という差は，7℃と10℃の差である3℃とまったく同じです。つまり，間隔尺度変数では足し算や引き算を行った結果が意味のあるものになるのです⁸。

ただし，0℃という温度が「温度がない」ということを意味するのではない点に注意してください。0℃というのは実際には「水が凍る温度」という意味であり，これはかなり恣意しい的なものです。そのため，温度を用いてかけ算や割り算を行った結果は無意味になります。20℃は10℃の2倍暑いというのは間違いですし，20℃は−10℃の−2倍暑いなどというのはまったく意味がわかりません。

ここでも心理学的な題材を例に見てみましょう。大学1年生の態度が時代とともにどのように変化してきたかに関心があるものとします。当然，それぞれの学生が入学した年のデータを集めたいと思うでしょう。これは間隔尺度変数です。2003年に入学した学生は，2008年に入学した学生より5年早く入学しています。しかしここで私が2008を2003で割って，2008年の学生は2003年の学生よりも「1.0024」倍早く入学していると言ったとしたら，皆さんは私のことを頭がおかしいと思いますよね。そんな計算にはまったく意味がないからです。

2.2.4 比率尺度

4つめにして最後の変数タイプが比率尺度です。これは0という値が実際の0を意味し，かけ算や割り算もできる変数です。心理学的なもので比率尺度変数の例としては反応時間があります。多くの課題では，誰かに問題を解かせたり質問に答えさせたりして，それにかかった時間を計測するということがよく行われています。なぜなら，それがその課題の難しさの指標になるからです。たとえば質問に回答するのにアランは2.3秒かかり，ベンは3.1秒かかったとします。間隔尺度変数の場合と同様に，値同士の足し算や引き算の結果は意味のある値になります。ベンはアランに比べて\(3.1 - 2.3 = 0.8\)秒長く時間がかかっています。ここで，かけ算や割り算の結果も意味のあるものになる点に注意してください。ベンはアランに比べて質問に答えるのに\(3.1 \div 2.3 = 1.35\)倍長い時間がかかっているのです。反応時間のような比率尺度変数でこうした処理が可能な理由は，「0秒」が実際に「時間が0である」ことを意味するからなのです。

2.2.5 連続変数と離散変数

変数にどんなタイプのものがあるかということに関しては，もう1つ重要な分類方法があります。それは連続変数と離散変数という区別です。この2つの違いは次のように表せます。

連続変数は，何らかの2つの値の間につねに論理的な中間点があるような変数のことをいいます。
離散変数は，実質的に変数値が連続でないものをいいます。離散変数では，中間点というものが存在しない場合もあります。

これらはやや抽象的な定義ですが，以下の例を見てもらえばわかりやすいと思います。たとえば，反応時間は連続変数です。アランが3.1秒，ベンが2.3秒で質問に答えたというような場合に，キャメロンの反応時間がその間の3.0秒であったということはあり得ることです。さらに，デイビッドの反応時間が3.031秒だったとすれば，その値はキャメロンとアランの間ということになります。反応時間をそこまで正確に測定することは現実には不可能かもしれませんが原理上は可能です。このように，新たに得られた反応時間が別の2人の反応時間の中間になるということがつねにあり得るので，反応時間は連続量といえるのです。

離散変数ではこうした法則が成り立ちません。たとえば，名義尺度変数はつねに離散変数です。「2.3という数値は2と3の間にある」というような数学的な意味で，電車と自転車の「中間」の交通手段というのはありません。だから交通手段は離散変数なのです。同様に，順序尺度変数もつねに離散変数です。「2位」は「1位」と「3位」の間ですが，「1位」と「2位」の間というのは論理的に存在しません。また，間隔尺度と比率尺度の変数は，連続変数にも離散変数にもなります。すでに見てきたように，反応時間（比率尺度変数）は連続変数です。摂氏温度（間隔尺度変数）も連続変数です。しかし，大学に入学した年（間隔尺度変数）は離散変数です。2002年と2003年の間の年というのはありません。○×テストでの正答数（比率尺度変数）も離散変数です。○か×かのテストには「部分点」というのはありませんから，5点と6点の間の点数というのは存在しないのです。表2.1は尺度水準と連続・離散の区別をまとめたものです。チェックマークがついている部分は，そこにあてはまる変数のタイプが存在するということを示しています。なんとも残念なことに，教科書の中にはこの部分を間違えているものもあり，また「名義尺度変数」という意味で「離散変数」という名称を用いる人があまりにも多いので，この部分はしっかりと強調しておきます。

	連続	離散
名義		✓
順序		✓
間隔	✓	✓
比率	✓	✓

2.2.6 やや複雑なケース

ところで，こう聞くとショックを受けるのではないかと思いますが，現実世界においては先ほど取りあげた分類の枠組みは単純にはあてはまりません。じつを言うと，実際の変数でこの分類にぴったりあてはまるものというのはわずかしかありません。ですから，この尺度水準が例外のない厳格なものであると誤解しないように気をつけなければなりません。そうではないのです。これらはあくまでもガイドラインであって，さまざまな変数をさまざまな形で用いる際に考慮すべき点をわかりやすくするためのものなのです。それ以上のものではありません。

たとえば心理測定ツールにおける典型的な例を1つ取り上げてみましょう。例のやつというというべきでしょうか。それはリカート尺度です。リカート尺度は派手さはありませんが，すべての調査デザインにおける基本ツールといえるものです。おそらく皆さんはリカート尺度を使った質問にこれまでに何百回と答えてきているでしょう。中にはリカート尺度を使って質問をしたことのある人もいるかもしれません。たとえば調査の中に次のような質問があったとします。

以下の選択肢のうち，「海賊は皆めちゃくちゃかっこいい」という文に対するあなたの意見にもっと近いものはどれですか。

そして回答者には以下の選択肢が与えられます。

まったくそう思わない

そう思わない

どちらでもない

そう思う

とてもそう思う

これは5段階リカート尺度で，回答者にはこの明らかに順番通りに並べられた複数（ここでは5つ）の選択肢のうち1つを選んでもらうのですが，このようにそれぞれの選択肢には言葉による説明がつけられているのが一般的です。ただし，必ずしもすべての項目に説明をつけなくてはならないわけではありません。5段階リカート尺度では次のようなものもよく見かけます。

まったくそう思わない

とてもそう思う

制限がまったくないわけではないかもしれませんが，リカート尺度は非常に便利なツールです。問題は，これを用いて得られた変数が何尺度かということです。この質問で2.5というような回答値はあり得ませんから，これが離散変数であることは明らかです。また，選択肢には順序がありますから，これは名義尺度ではありませんし，自然なゼロの点がないことから比率尺度でもありません。

残るは順序尺度と間隔尺度ですが，これについてはどうでしょうか。これに関しては，「とてもそう思う」と「そう思う」の差が「そう思う」と「どちらでもない」の差と同じかどうかを証明できないではないかという主張があります。実際のところ，日常場面においてこれらがまったく同じでないということは明らかでしょう。つまり，このように考えればリカート尺度で得られた結果は順序尺度変数として扱うべきであるということになります。一方で，実際には回答者のほとんどはこの「1から5の数字で」というのを厳格に受け取り，この5つの選択項目の差がほぼ等しいものとして見なしたうえで回答する傾向を持っています。そうしたことから，多くの研究者はリカート尺度によるデータを間隔尺度として扱っています⁹。間隔尺度ではないのですが，実際問題としてはそれにかなり近いものなので，たいていの場合はみなし間隔尺度として扱われているのです。

2.3 測定の信頼性とその評価

ここまでのところで，理論的構成概念をどのように操作定義し，それを用いてどのように心理測定尺度を作成するのかということについて少しだけ見てきました。心理学的な測定尺度を使用することで変数という形でデータが得られ，その変数にはさまざまなタイプが存在するということです。それではここで，非常に重要な問いについての議論を始めましょう。それは，その測定尺度は役に立つものなのかということです。これについては，信頼性と妥当性という，関連する2つの視点から見ていきます。簡単に言えば，測定尺度の信頼性とは測定の精密さを意味し，測定尺度の妥当性とはその測定の正しさを意味します。このセクションでは信頼性について説明します。妥当性についてはセクション2.6で説明することにします。

信頼性という概念は実際には非常に単純です。信頼性とは，その測定の一貫性や再現性を意味します。「お風呂場の体重計」による体重の測定値には高い信頼性があります。体重計に何度も繰り返し乗ったところで，表示される体重は変わらないでしょう。しかし，私の知能について「私の母に聞く」という方法で測定した場合には信頼性が低くなります。「ちょっと足りない」という答えが返ってくることもあれば，「どうしようもないバカだ」という答えが返ってくる場合もあるでしょう。なお，信頼性という概念は，測定結果が正しいかどうかとは別であるということに注意してください（測定結果の正しさが関係しているのは妥当性です）。たとえば，ジャガイモがぎっしり詰まった袋をもったまま体重計に繰り返し乗ったとしても，測定値の信頼性は高いままです。何度乗っても同じ測定値になるからです。しかし，信頼性は高くてもこの測定結果は実際の体重とは一致しませんから，体重の特定値としては正しくありません。専門的な言い方をすれば，これは信頼性は高いが妥当性は低い測定値なのです。同様に，私の知能を母に尋ねて測定した場合，その答えの信頼性は低くても，それが正しい可能性というのはあるわけです。もしかしたら，私は本当にあまり賢くないのかもしれません。そうすると，たとえ私の知能に対する母の評価が日によって大きく変わったとしても，この結果は基本的には正しいということになります。これは信頼性は低いが妥当性は高い測定結果です。もちろん，母の評価があまりに信頼性の低いものであれば，母の答えのうち一体どれが正しいものなのかということはわからなくなってしまいます。つまり非常に信頼性の低い測定尺度というのは，実用的に考えて妥当性の低いものになる場合がほとんどです。そのため，多くの場合，妥当性を保証するためには高い信頼性が必要だ（ただしそれで十分というわけではない）と言われるのです。

これで信頼性と妥当性の違いがわかりました。では，信頼性を測定するためのさまざまな方法について見てみましょう。

再テスト信頼性　これは時間的な一貫性を指します。後日同じ測定を行ったとき，同じ結果が得られるでしょうか。
評価者間信頼性　これは，複数の人の間での一貫性を指します。誰か他の人が測定を行ったとき（たとえば私の知能について他の人に尋ねてみたとき），同じ結果が得られるでしょうか。
平行形式信頼性　これは理論的に同じと考えられる測定結果の間での一貫性を指します。別の体重計で私の体重を量ったとき，その結果は同じになるでしょうか。
内的一貫性　同じような働きをする複数の項目で構成された測定尺度があるとき（たとえばパーソナリティについての質問紙では，複数の質問項目に対する回答値を合計して結果を求めます），その尺度に含まれる個々の項目は類似した結果になる傾向があります。

すべての測定尺度がこれらすべての信頼性を持っている必要はありません。たとえば，教育評価も一種の測定です。私が教えている科目の1つに計算論的認知科学がありますが，この授業の成績評価は研究課題と試験（プラスアルファ）で構成されています。試験は研究課題とは異なる側面を測定することを意図しているので，評価全体の内的一貫性は低くなっています。しかし，試験には複数の問題があって，それは（おおよそ）同じものを測定しようとしているので，その結果は似たようなものになります。つまり，試験そのものには非常に高い内的一貫性があるのです。つまり，信頼性というのは同じものを測定したい場面でのみ必要とされるものなのです。

2.4 変数の「役割」　予測変数と結果変数

変数についての話を終える前に，説明の必要な用語がもう1つだけあります。通常，何らかの研究をする場合には非常にたくさんの変数を用いることになります。そしてデータを分析する場面では，それらの変数のうちのいくつかを使って他の変数を説明しようとします。ここで重要なのは，「説明する側」と「説明される側」という2つの役割をしっかり区別することです。もう少し詳しく説明しましょう。ところで，数学的な記号を使って変数を記述することにも慣れておいた方がいいでしょう。なぜなら，これからそれが何度も出てくるからです。さて，「説明される側」の変数を\(Y\)と表しましょう。そして「説明する側」を\(X_1\)や\(X_2\)のように表します。

分析では，\(X\)と\(Y\)はそれぞれ別の名前で呼ばれます。それらは分析において異なる役割を持っているからです。この役割に対する古典的な名称として，独立変数（IV）と従属変数（DV）というものがあります。独立変数は説明をする側の変数（つまり\(X\)）で，従属変数は説明される側の変数（つまり\(Y\)）です。この名称の背後には，「もし\(X\)と\(Y\)の間に実際に関係があるならば，\(Y\)が\(X\)による影響を受けている（従属している）ということができ，研究を「正しく」デザインすれば，\(X\)は他の何からも影響を受けない（独立である）」という理屈があります。ただ，私はこの名前は最悪だと思います。覚えにくいですし，誤解を生みやすいからです。なぜなら，独立変数は「あらゆるものから独立」というわけではありませんし，変数間に関係がない場合には，従属変数は独立変数に従属しているわけではないからです。それに，独立変数と従属変数というのはひどい名前だと考えているのは私だけではありません。だから，もっとわかりやすい別の呼び方が他にもあるのです。そして本書では，予測変数と結果変数という用語を用いることにします。それは，分析でやりたいことは\(X\)（予測変数）を使って\(Y\)（結果変数）についての推測を行うことだからです¹⁰。これをまとめたものが表2.2です。

変数の役割	古典的名称	現代的名称
説明される側	従属変数（DV）	結果変数
説明する側	独立変数（IV）	予測変数

2.5 実験型研究と非実験型研究

さまざまな区別の中でもとくに重要なものの1つに「実験型研究」と「非実験型研究」の区別があります。この区別では，その研究の中で研究者が人や出来事をコントロールする程度が重要な関心事になります。

2.5.1 実験型研究

実験型研究の主な特徴は，研究者が研究のすべての側面，とくに参加者が研究中にどんな経験をするかということをコントロールするというところにあります。より具体的にいうと，研究者は予測変数（IV）を操作したり変更したりして，結果変数（DV）は自然な変化に任せます。予測変数（IV）を意図的に変化させることによって，結果変数に何らかの因果効果があるかどうかを見るのです。また，予測変数以外のものが結果変数に影響している可能性を排除するために，予測変数以外のものは一定に保つか，何らかの形で「均等化」することで，それが結果に影響しないようにします。現実には，実験結果に影響する可能性のあるものすべてを考慮することはほぼ不可能なので，一定に保たれるのはそのごく一部です。このための標準的な方法として無作為化があります。つまり，参加者を異なるグループに無作為（ランダム）に割り当てて，その上でそれぞれのグループに対して異なる操作を行う（予測変数に異なる値を割り当てる）のです。無作為化については後ほど扱うので，ここでは無作為化によってグループ間に他の体系的な差が生まれる可能性を最小化できる（完全に無くせるわけではない）ということだけ理解しておけばよいでしょう。

ここで非常にシンプルな例を考えてみましょう。ただし，まったく現実的ではなく，ぞっとするほど非倫理的な例です。さて，喫煙が肺癌を引き起こすかどうかを知りたいとします。これを確かめるための1つの方法として考えられるのは，喫煙者と非喫煙者を集め，喫煙者の方が肺癌の率が高いかどうかを見るというものです。これは正しい実験ではありません。なぜなら，研究者は誰が喫煙者で誰がそうでないかということをあまりコントロールできていないからです。これは非常に重要な点です。たとえば，たばこを吸う人は食習慣も健康的でないかもしれませんし，喫煙者にはアスベスト鉱山労働者が多いとか，そんな可能性があるかもしれません。ここでのポイントは，このグループ（喫煙者と非喫煙者）には喫煙習慣以外にさまざまな部分で違いがあるということです。そのため，喫煙者で肺癌の罹患率が高かったとしても，それは喫煙そのものではなく何か別の原因で引き起こされた可能性があるのです。専門用語では，このような他の要因（食習慣など）は「交絡こうらく変数」と呼ばれています。これについてはこのすぐ後で説明します。

では，正しい実験というのはどのようなものなのかを考えてみましょう。問題なのは，喫煙者と非喫煙者がさまざまな面で異なっているということでした。これを解決する方法は（倫理的な問題を完全に無視できるなら）誰が喫煙者になるかをコントロールすることです。具体的には，若い非喫煙者たちを2つのグループに無作為に分け，そして片方のグループの若者を強制的に喫煙者にするのです。こうすれば，両グループの違いは喫煙習慣の有無だけで，それ以外の部分には差がなくなるはずです。そしてもし，喫煙者グループが非喫煙者グループに比べて癌になる割合が高かったとすれば，喫煙が癌を引き起こすということと，私たちが人殺しであるということが明らかになるのです。

2.5.2 非実験型研究

非実験型研究は，「実験のように研究者がコントロールを行っていない研究すべて」を含む非常に幅広い用語です。科学者というのはコントロールすることを好むものですが，先ほどの例のようにコントロールが不可能な状況やコントロールが許されない場合というのもたくさんあります。喫煙が癌を引き起こすかどうかを確かめるために参加者を無理矢理喫煙者にするというのは恐ろしく非倫理的（そして犯罪的）ですから，これは実験でコントロールすることが許されない状況の典型例といえます。しかし，それだけではありません。倫理的な問題はともかくとして，この「喫煙実験」には他にも問題があるのです。たとえば，先ほどの例では参加者の半分を「強制的に」喫煙者にしました。参加者は最初は全員非喫煙者で，それを無理矢理喫煙者にしたのです。まるでマッドサイエンティストが好みそうな邪悪で徹底した実験デザインのように見えるのですが，現実世界においてはじつはそれほど堅実な方法とはいえない可能性があります。たとえば，不健康な食習慣を持つ人が喫煙した場合のみ癌が引き起こされるとしましょう。そして，喫煙者はたいてい食習慣が不健康だったとします。ところが，この実験の「喫煙者」は「自然な」喫煙者ではない（つまり，非喫煙者に喫煙を強要しているため，実際の喫煙者に一般的に見られるような特徴を持っていない）ために，食習慣が健康的である可能性があります。そうすると，この馬鹿げた実験では喫煙者グループが肺癌にならず，実験は失敗に終わることでしょう。なぜなら，この実験は「自然な」世界の構造に反しているからです（専門的にはこれを「人為的結果」と呼びます）。

非実験型研究については，準実験型研究と事例研究という区別が役に立つでしょう。先ほど説明した例の中で，喫煙習慣の有無に対するコントロールをせずに，喫煙者と非喫煙者のどちらで肺癌率罹患率が高いかを比較するというものがありましたが，これが準実験型研究デザインです。実験と同じことをしているのですが，予測変数（IV）はコントロールされていません。この結果は統計を用いて分析することができますが，分析はより注意深く慎重に行わなければなりません。

もう1つのアプローチである事例研究は，1つあるいは少数の事例について非常に詳細に記述することを目的としてます。一般的に，事例研究の結果に対して統計を使うことはできませんし，1つ1つの例から「人間一般」についての結論を導き出すことは通常は非常に困難です。ですが，事例研究はいくつかの状況においてはとても役に立ちます。まず，それ以外の方法がないという状況です。神経心理学ではこうしたケースがよくあります。脳の特定領域に損傷のある人を数多く探し出すことが困難な場合，その特定の事例について可能な限り詳しく，そして可能な限り注意深く記述する以外に方法がありません。事例研究にはもっと本質的な利点もあります。研究対象となる人の数が少なければ，特定の要因について理解するために，個別の事例に対して多くの時間や労力をかけることができます。これはとても価値のあることです。結果的に，実験型研究や準実験型研究のような統計指向アプローチを事例研究で補完するといったことも可能です。事例研究については本書ではあまり触れませんが，非常に有用なツールであることは間違いありません。

2.6 研究の妥当性を評価する

科学者というものは，何よりもまず自分の研究が「妥当」なものであることを求めています。妥当性という概念の背後にある考え方は非常にシンプルです。それは，自分が行った研究の結果を信用できるかどうかということです。もしその答えが「いいえ」なら，その研究には妥当性がありません。こう言うのは簡単ですが，実際に妥当性をチェックするのは信頼性をチェックするよりはるかに困難です。じつは，何をもって妥当とするのかについて，明確な意見の一致がないのです。さまざまな種類の妥当性が提唱されていますが，それぞれで異なるものが問題とされています。それに，それらの妥当性すべてがすべての研究に関連するというわけでもありません。ここでは次の5種類の妥当性について説明することにします。

内的妥当性
外的妥当性
構成概念妥当性
外観妥当性
生態学的妥当性

まず，それぞれの妥当性で何が問題となるかについて簡単に説明しておきます。(1)内的妥当性と外的妥当性は，その研究が正しく行われているかどうかという根本的な疑問に直接結びつくものであり，もっとも重要なものといえます。(2)構成概念妥当性は，思っているとおりのものが正しく測定されているかどうかということです。(3)外観妥当性は，「見た目」を気にするのでなければそれほど重要なものではありません。(4)生態学的妥当性は，外観妥当性のより特殊なもので，とくに関心のある事象についての見た目に関するものです。

2.6.1 内的妥当性

内的妥当性とは，変数間の因果関係について正しい結論を導き出せているかどうかを指します。「内的」という名前がついているのは，研究の「内部」で使用されるもの同士の関係に関連するものだからです。この概念について簡単な例で見てみましょう。大学で教育を受けることによって，文章力が上がるかどうかに関心があるとします。これを調べるために，大学1年生の集団を対象として1000語の小論文を書いてもらい，そこに含まれるスペルミスや文法ミスの数を計測しました。それから今度は3年生を数名集め，先ほどと同じ課題を行いました。3年生ですから，1年生よりも大学で教育を受けた期間が長いということは明白です。その結果，3年生は1年生よりもミスの数が少なかったとしましょう。そしてこの結果から，大学教育で文章力が向上すると結論づけました。さあ，どうでしょうか。この実験では，教育期間の違い以外に，3年生の方が1年生よりも年齢が上で，文章を書く経験も多いという違いがあります。これではどんな因果関係があるのかを知ることは困難です。年齢が上がるほど文章がうまくなるのでしょうか。文章を書く経験が多いほど文章力が上がるのでしょうか。それとも受けた教育の量によって文章力が向上するのでしょうか。3年生の方が課題成績が良かった本当の原因は上記のうちのどれなのでしょうか。年齢か，経験か，それとも教育か。それを判断することはできません。これは内的妥当性の基準を満たすことに失敗した例です。この例では，さまざまな変数間の因果関係を適切に分離できていません。

2.6.2 外的妥当性

外的妥当性は，研究結果の一般化可能性ないしは応用可能性に関連しています。つまり，その研究の結果と同じパターンが「現実の世界」でどの程度生じるかということです。もう少し具体的に言えば，心理学のあらゆる研究では，かなり特殊な質問や課題が使用されていますし，特定の環境で行われていますし，特定の下位集団から集められた参加者（残念なことにそのほとんどが大学生です）が含まれています。そして，もしその結果がその研究の対象者や条件以外であてはまらないものであった場合には，それは外的妥当性が欠けているということになります。

この問題に関する典型的な例として，心理学研究の大部分で心理学専攻の大学生が参加者として用いてられているという事実を取りあげることができます。しかし，研究者の関心が心理学専攻の学生のみにあるわけではないことは明らかです。本当に関心があるのは人間全般です。ということは，心理学専攻の学生のみを参加者とした研究は，外的妥当性が欠けている危険性がつねにあるということになります。そして，もし心理学専攻の学生が持っている何らかの「特別」な特徴が，研究に関連する何らかの点で一般の人と異なっているとしたら，外的妥当性を心配した方が良いでしょう。

ただ，心理学専攻の学生のみを用いているからといって，それだけで外的妥当性に問題があるわけではないという点はしっかり認識しておいてください。この問題についてはまた後ほど取りあげますが，あまりにもよくある間違いなのでここでも指摘しておきます。対象者の選択の仕方によって研究の外的妥当性が損なわれる可能性があるのは，(a)参加者を非常に狭い集団（たとえば心理学専攻の学生）から集めている場合で，かつ(b)参加者を集めたその狭い集団に，研究しようとしている心理学的現象に関連した部分で一般の人々と体系的な差がある場合です。多くの人は，赤字で強調した部分を忘れがちです。いろんな点で心理学専攻の学生が一般の人と異なっていることは確かですから，心理学の学生だけを対象とした研究は外的妥当性に問題のある可能性があるとは言えるでしょう。ですが，そうした違いが研究対象にしている現象と何ら関係のないものであれば，何も心配する必要はないのです。この点をもう少しはっきりさせるために，ここで2つの極端な例を取りあげます。

「心理療法に対する一般の人々の態度」を測定したいのですが，参加者はすべて心理学専攻の学生でした。この場合，まず間違いなく外的妥当性に問題があると言えるでしょう。
錯視の効果について調べたいのですが，参加者はすべて心理学専攻の学生でした。この場合，外的妥当性が問題になる可能性は低いでしょう。

ここまでは参加者の選択について複数の例をあげてみてきましたが，それは多くの人が心配しがちな問題だからです。しかし，外的妥当性はもっと広い概念であることを思いだしてください。以下の例も，研究によって外的妥当性が問題になる可能性があるものです。

「心理学の質問紙調査」に対し，人々が普段の行動とは異なる反応をする可能性がある場合。
（たとえば）「人間の学習」についての実験室実験が，人々が日常生活で直面する学習場面とは異なる構造を持っている場合。

2.6.3 構成概念妥当性

構成概念妥当性は，基本的に測りたいものを正しく測れているのかということです。理論的構成概念を実際に正しく測定できていれば構成概念妥当性が高いことになりますし，そうでなければ構成概念妥当性は低いということになります。（ばかげているかもしれませんが）単純な例として，大学生がテストで不正行為をする割合を調べたいとします。そしてその測定のため，「人数を数えたいので不正行為をしている学生はその場で起立するように」と指示したとします。その結果，不正行為をしたとして起立したのは300名の学生のうち0人でした。そしてこの結果から，この授業での不正率は0%だと結論づけたらどうでしょう。どう考えてもばかばかしいですよね。ですが，ここで重要なのは方法論の込み入った話ではなく，構成概念妥当性が何であるのかということです。この測定方法が問題なのは，「不正行為をする者の割合」を測定しようとしているにも関わらず，実際に測定しているのは「不正行為をしたことを自分から白状するような間抜け，あるいはわざわざ不正行為をしたふりをしたがるようなへそ曲がり」の数であるということです。これが同じでないことは明らかですよね。ですから，この研究は失敗です。測定方法の構成概念妥当性が低いためです。

2.6.4 外観妥当性

外観妥当性とは，単にその測定方法が想定通り機能している「ように見える」かどうかというだけのことです。私が知能を測定する方法を考案したとして，他の人がそれを見て「このテストでは知能は測れないよ」といったとしたら，それは外観妥当性が欠如しているということです。ただそれだけのことなのです。純粋な科学的観点からすれば，この外観妥当性がさほど重要でないことは明らかです。つまるところ，私たちが気をかけなければならないのは実際に想定通りに測定できているかどうかであり，想定通りに測定できているように見えるかどうかではないからです。ですから，外観妥当性については普通はあまり気にしません。とはいえ，外観妥当性の概念には実用的な面で3つの効用があります。

経験豊富な科学者は，この測定方法ではうまくいかないということに「直感」的に気づいたりする場合があります。こうした直感は実証データとしては役立ちませんが，注意を払う価値がある場合が多いのです。多くの場合，人はうまく言語化できないような知識を持っているものです。ですから，なぜそうなのかを説明できなかったとしても，何か気にかけるべきものがある可能性はあり得るのです。別の言い方をすれば，もし誰か信頼できる人物からあなたの研究の外観妥当性について批判されたとしたら，研究が失敗する可能性がないかどうか，研究デザインを注意深く見直してみる価値はあるのです。ただし，それで心配すべき理由が見つからなかったとしたら，それ以上心配すべきではありません。結局のところ，外観妥当性は実際には大して重要ではないからです。
多くの場合（それもかなり），まったく無知な人々もまた，あなたの研究ががらくたであると「直感」的に判断したりします。そして，インターネット上などであれこれ批判するわけです。よく見てみれば，こうした批判は実際にはその研究がどんな風に「見える」かについてのものであって，本質的な部分ではない場合があります。外観妥当性の概念は，もっと本質的な議論をしないとだめですよ，ということを人々にやんわり説明する場合にも役立ちます。
2番目の理由を拡張するような形になりますが，専門的訓練を受けていない人々が批判的な信念を持っている場合（たとえば，これは応用研究において何らかの事柄について政策立案者を説得したいという場面によくあることです）には，外観妥当性を気にかける必要があります。好むと好まざるとに関わらず，多くの人は現実的世界における妥当性として外観妥当性を用いているからです。心理学的根拠に基づいて政府に法を変更させようと思うなら，大事なのはその研究が「実際に」優れているかどうかということではありません。外観妥当性に欠けているなら，政治家は聞き入れてくれないでしょう。まあ，政治において事実よりも見た目が優先されるのは不公平であると言えなくもないですが，世の中というのはそういうものです。

2.6.5 生態学的妥当性

生態学的妥当性は，外的妥当性と少し似ていますが，妥当性に対する違った観点の概念で，他の妥当性に比べると重要度は低くなります。この考えによれば，生態学的に妥当であるためには，研究全体が調査対象となる現実世界のシナリオに非常に近くなければなりません。ある意味で，生態学的妥当性は外観妥当性の一種と言えます。これは主にその研究が正しく「見える」かどうかに関連していますが，外観妥当性よりもより限定的です。生態学的に妥当であるためには，その研究はかなり厳密な形で正しく見える必要があります。この考えの背後にあるのは，生態学的に妥当な研究は外的妥当性が高いという直観です。しかし，そうした保証はもちろんありません。ただ，生態学的妥当性の便利なところは，研究の外的妥当性をチェックするよりも，生態学的妥当性をチェックする方がずっと簡単だということです。そのわかりやすい例は，目撃者の識別研究でしょう。こうした研究のほとんどは，大学という状況で実施されています。しかも多くの場合，顔写真がずらっと並んだようなものではなくて，もっと少ない数の顔写真が用いられています。「犯罪者」を見る時間と「顔写真リスト」で容疑者を特定するよう指示されるまでの時間はたいていは短いものです。この場合の「犯罪」は現実のものではないので，目撃者が恐れを感じる可能性はありません。また，その場に警官がいるわけではないので，プレッシャーを感じる可能性というのもありません。こうした点を考えれば，この研究は間違いなく生態学的妥当性に欠けています。その場合，外的妥当性も欠けている可能性があるのです（実際には外的妥当性が欠けていない場合もあります）。

2.7 交絡変数，人為性，妥当性を脅かすその他の要因

妥当性の問題をもっと一般的な形で捉えるなら，とくに問題となるのは交絡変数と人為性でしょう。これらは次のように定義されています。

交絡変数　交絡こうらく変数は，多くの場合測定対象になっていない付加的な変数で¹¹，予測変数と結果変数の両方に関連のあるものです。交絡変数が存在すると研究の内的妥当性が脅かされます。なぜなら，結果変数に影響を与えたのが予測変数なのか交絡変数なのかを区別できなくなってしまうからです。
人為性　ある結果が，その研究において生じた特定の状況でのみ支持されるような場合，その結果は「人為的」であると言われます。研究結果が人為的であるということは，外的妥当性に対する脅威となります。なぜなら，その結果を関心のある人々全体に一般化したり応用したりできない可能性があるからです。

一般的には，交絡変数は非実験型研究において大きな問題となります。それはもちろん，そうした研究が厳密な実験ではないからです。定義上，多くの要素がコントロールされないままになっているので，交絡変数が研究の中に紛れ込む余地がたくさんあるのです。実験型研究では，交絡変数による影響はより小さくなります。研究の中でコントロールされる部分が多くなるほど，結果に交絡変数が影響することを防止できるようになります。たとえば無作為割り当てを行っていれば，交絡変数もグループ間で無作為に，そして均等に分散することになります。

しかし，利点と欠点が入り交じるのが世の常で，交絡変数ではなく人為性について考え始めると，その立場が逆転します。ほとんどの場合，人為的結果は非実験型研究の場合よりも実験型研究の場合に問題になりがちです。これを考えることは，多くの研究がなぜ非実験型なのかという理由を理解するのに役立ちます。それは，研究者の検証しようとしていることはより自然な文脈における人間の行動であるというのが理由なのです。現実世界に近い形で研究しようとすれば実験的コントロールはできなくなりますが（交絡変数に対して脆弱になる），「野生」の状態で人間を研究すれば，人為的結果を避けることができます。別の言い方をすると，心理学の研究を実際場面ではなく実験室で行う場合（実験的コントロールを得るためには通常そうする必要があります），本当に研究したいものとは違うものを研究してしまっているというリスクがつねに生じることになるのです。

ただ，注意してください。上にあげたのはあくまでも一般論です。実験に交絡変数が含まれることもあり得ますし，非実験型研究で人為的結果が得られる場合もあります。これはありとあらゆる原因によって生じますが，その最たるものは実験者あるいは研究者によるミスです。現実には，あらゆることを前もって考えておくことは非常に困難で，優れた研究者であってもミスを犯すのです。

妥当性に対するほぼすべての脅威が交絡変数ないしは人為性として説明できると言えなくもないのですが，これらは非常に漠然とした概念ですので，もっと一般的な例で見てみることにしましょう。

2.7.1 履歴効果

履歴効果とは，研究中に何らかの特定の出来事が生じ，それが測定結果に影響することをいいます。たとえば，事前テストと事後テストの間に何かが起きるかもしれません。あるいは，23人目の参加者と24人目の参加者の間で何かが起きるかもしれません。また，あなたの読んでいる論文に書かれた研究が，その当時としては十分妥当なものであったものの，それ以後に時代が変わり，その研究の結論がもはや信頼できないものになっているという可能性もあります。履歴効果に含まれるものには次のようなものがあります。

不確実性とリスクに関する人々の認識に関心があるとします。そして2010年の12月にデータ収集を始めました。しかし，参加者集めやデータ収集に時間がかかり，2011年2月現在でもまだ参加者集めをしていたとします。あなたにとって（そしてそれ以外の多くの人にとって）不幸なことに，2011年1月にクイーンズランド州で大洪水が発生し，数十億ドルの損害と多数の死者が発生しました。当然ながら，2011年2月に研究に参加した人々は，リスクについて2010年12月に実験に参加した人とはかなり異なる考えを示すでしょう。（何らかの違いがある場合）どちらの反応が参加者の「本当の」考えを反映していると言えるのでしょうか。私は，その両方だと思います。クイーンズランド州の洪水は，一時的である可能性が高いとはいえ，純粋に一般の人々の考えを変化させたのです。ここで重要なことは，2月に参加した人々の「履歴」が12月に参加した人々とはかなり異なっているということです。
新しい抗不安薬の心理学的効果について検証したいとします。そのために，（たとえば自己申告や何らかの生理指標を用いて）薬の投与前の不安を測定しました。そして薬を投与し，その後に同じ測定を実施しました。ところが，その間にあなたの研究室があるロサンゼルスで地震があり，これによって参加者の不安が増大しました。

2.7.2 成熟効果

履歴効果と同様に，成熟効果も基本的には時間経過による変化です。ただし，成熟効果は特定の出来事によって起こるものではありません。そうではなく，これはその人自身が時間とともに変化することと関連しています。私たちは歳をとりますし，疲労しますし，退屈もします。成熟効果の例としてあげられるのは次のようなものです。

発達心理学研究を行う際には，子供は非常に急速に成長するということに注意しなくてはなりません。たとえば3歳の子供を対象に，ちょっとした教育の工夫がその子の語彙数を増大させるかどうかを知りたいとしましょう。ここで注意しなくてはならないことの1つとして，その年齢における子供の語彙数は元々驚くべき速度（1日ごとに数語）で増加するということがあります。こうした成熟効果を考慮せずに研究をデザインしてしまうと，教育上の工夫が有効だったのかどうかがわからなくなってしまいます。
長時間におよぶ実験室実験の場合（たとえば実験に3時間かかる場合など），参加者が疲れてきたり退屈してきたりする可能性が高く，実験でどのようなことをしているかにかかわらず，成熟効果によって課題成績が低下することになるでしょう。

2.7.3 繰り返し効果

履歴効果の中でも重要なものの1つに，繰り返し効果があります。たとえばある心理学的構成概念（不安など）について2回測定することを考えているとします。ここで気をつけなくてはならないことは，最初の測定が2度目の測定に影響する可能性はないかということです。別の言い方をすると，これは1回目の測定それ自体が2回目の測定結果に影響を与える「出来事」になるというタイプの履歴効果です。これは非常によくあるタイプです。その例としては次のようなものが含まれます。

学習と練習　1度目の知能検査よりも2度目の知能検査の方が得点が高くなる場合がありますが，これは参加者が最初の検査の間に「知能検査的な問題」の解き方についての一般法則を学習することで起こります。
テスト状況への慣れ　１回目の検査では，慣れない状況に対する不安のために課題成績が下がるかもしれません。しかし最初の検査が終わった後は，検査がどのようなものかがわかっているので落ち着いていられるようになるでしょう。
測定による副次的変化　たとえば，気分を評価するための質問紙が退屈なものだったとすると，2度目の評価の際には気分評価がより「退屈」な方向に変化することでしょう。それは1度目の測定が退屈だったせいです。

2.7.4 選択バイアス

選択バイアスという言葉には非常に広い意味が含まれます。たとえば2グループの参加者を用いた実験で，それぞれのグループに異なる「操作」をし，その操作によって結果に違いが生じるかどうかを見たいとしましょう。ところが，いろいろ頑張ってみたものの，どうしても性別のアンバランスを解消することができませんでした（たとえばAグループは女性が80％で，Bグループでは50％だったなど）。こんなことはあり得ないと思うかもしれませんが，実際にあり得ることなのです。これは選択バイアスの1つの例です。ここでは，2つのグループで「選択」された人々が異なる特徴を持ってしまっています。もしこの特徴が実験に関連するものであったりすると（たとえば，実験で行った操作が男性よりも女性に対して大きな影響をもつ場合など），大きな問題を抱えることになります。

2.7.5 脱落バイアス

脱落による影響を考える場合には，次の2つを区別するのがいいでしょう。1つめは均質な脱落で，この場合には脱による影響はすべてのグループないしは条件において同じです。先ほどの実験の例で，すぐに飽きてしまう一部の参加者が実験から脱落して，その比率が2つのグループで同じであったとしたら（そして同じである場合のみ），脱落による影響は均等といえるでしょう。一般に，均等な脱落による主な影響としては，研究に使用するサンプルの代表性が損なわれるという可能性があげられます。つまり，この場合に一番問題になるのは，研究結果の一般化可能性が低下するということです。別の言い方をすれば，外的妥当性が失われるということになります。

欠落の2つめのタイプは不均質な脱落で，この場合にはグループ間で脱落による影響が異なります。脱落バイアスと呼ばれることも多いこの状態は，研究それ自身によって引き起こされる一種の選択バイアスと言えます。たとえば，心理学の歴史上初めて，完璧にバランスのとれた，代表性の高い人々をサンプルとして得ることができたとしましょう。そしてこの完璧なサンプルを対象に「ダニーの驚くほど長くて退屈な実験」を始めましたが，この研究はあまりにも長くて退屈なので，多くの参加者が脱落し始めました。しかも脱落を止めることはできません。参加者には実験途中でいつでもどんな場合でも，そしてどんな理由でもやめる権利というのがあり，研究者は道徳的に（そして職業上），参加者に対してそうした権利があるということを知らせる義務があります。そして，「ダニーの驚くほど長くて退屈な実験」の脱落率が非常に高くなったとしましょう。この脱落率がランダムである可能性はどの程度だと思いますか。答えはゼロです。まだ脱落せずに残っている人たちは，まず間違いなく脱落した人たちよりも誠実で，退屈に対する耐性があるといった特徴を持っていることでしょう。もし研究で扱われている心理学的現象が誠実性と関連していたとすると，こうした脱落は結果の妥当性を低下させます。

もう一つ別の例を見てみましょう。2つの条件を使用する実験をデザインしました。「実験」条件では，実験者は参加者を罵ったうえで，服従性を測定するための質問紙を実施します。「統制」条件では，実験者は無意味なおしゃべりを少しした後でその質問紙を参加者に対して実施します。この研究の科学的な意味や倫理的問題はおいておくとして，この実験で何が問題になるのかを考えてみましょう。一般的に言って，私は面と向かって罵るような人に対して協力しようとはあまり思いません。ですから，統制条件よりも実験条件で多くの人が途中脱落するという可能性が十分に考えられます。この場合，脱落はランダムではありません。脱落する可能性が高い人々というのは，実験の間中そこに言われるがままに座っていることの重要性などどうでもいいと考えている人である可能性が高いのです。反抗的で非協力的な人たちは実験条件グループからは脱落しましたが統制条件グループからは脱落していませんので，交絡変数が関与していることになります。つまり，実験条件で質問紙を受け取った人たちというのは，統制条件のグループにいる人々よりもすでに礼儀正しく従順な人である可能性が高いのです。要するに，この実験の結果によって示されるのは，侮辱すれば人々が従順になるということではありません。反抗的な人々は実験を途中でやめるということなのです。つまり，この実験は完全に内的妥当性が欠けているといえます。

2.7.6 無回答バイアス

無回答バイアスは選択バイアスおよび脱落バイアスとも密接に関係しています。このもっとも単純な例は次のような場合です。1000人を対象に調査票を郵送しましたが，そのうちの300人しか回答してくれませんでした。回答してくれた300人が，1000人の中の無作為な下位集団であるという可能性は低いでしょう。調査に回答してくれた人とそうでない人には体系的な違いがあります。そうすると，調査に回答してくれた300人の結果をそれ以外の人々に一般化する場合に問題が生じます。なぜなら，そのデータは無作為なサンプルとは言えないからです。しかし，無回答バイアスの問題はそれだけではありません。その調査に回答してくれた300人の中でも，すべての質問に答えていない人がいるかもしれません。たとえばそのうち80人がある質問に答えていなかったとしましょう。これは問題になるでしょうか。その可能性はあります。回答されていない質問が調査票の最後のページにあったとして，そしてこの80人が返送してきた調査票には最後のページがついていたなかったといったような場合には，このデータの欠落はたいした問題ではないでしょう。それは単に最後のページが抜けていただけです。しかし，80名が回答しなかった質問が非常に個人的な質問で答えにくいものであった場合には問題となることでしょう。基本的にここれは欠損値の問題と呼ばれるものです。もし欠けているデータが無作為に「失われた」ものであれば，それはたいした問題ではありません。しかし，何か体系的な形で欠けている場合には，それは大きな問題になる可能性があります。

2.7.7 平均への回帰

平均への回帰は，ある測定において極端な値を基準にデータを収集した場合に生じるものです。変数には自然なばらつきがあるものなので，2度目に測定したときには1度目よりも極端な値にならなかったりするのです。これは純粋に偶然によるものです。

1つ例を挙げてみましょう。非常に頭のいい子供には心理学教育が悪影響を及ぼすのではないかということに興味があるとします。これを確かめるため，心理学専攻の学生の中から高校で成績がトップだった20名を集め，大学での成績がどうかを見たとします。その結果，平均よりはよい成績であったものの，高校でトップだった学生の大学での成績はトップクラスとはいえないものでした。何が起きたのでしょうか。最初に思い浮かぶ自然な解釈は，心理学の授業が優秀な学生に対して悪影響をもたらしたに違いないというものです。そうした可能性も十分あるかもしれませんが，この結果は「平均への回帰」である可能性が高いでしょう。これがどういうことかを理解するために，高校であれ大学であれ，クラスでトップの成績を取るために何が必要かということを考えてみましょう。大人数のクラスには，非常に優秀な人も大勢いることでしょう。よい成績を取るためには，非常に優秀であることと，頑張って勉強すること，そして少しばかりの運が必要です。試験問題とあなたに特有のスキルがぴったりマッチしたものである必要があり，そしてそれらの問題に答える際には凡ミス（ときどきやっちゃいますよね）をしないようにしなければなりません。さて，ここがポイントです。知能や頑張りはクラスが変わってもそのままですが，運はそうはいきません。高校で運が良かった人が，大学でも運がいいとは限らないのです。「運」とはまさにそういうものです。その結果，ある測定値で極端な数値の人々（高校で成績がトップだった20人）を選択するということは，高校で頑張っていて，スキルがあって，運があった人を選んだということになります。ところが運については2回目の測定でも同じではありませんから（同じになるのはスキルや頑張りだけです），これらの人々は2回目の測定（大学）ではやや測定値が低くなることが予測されます。つまり，彼らの得点は少しだけ下がり，他のみんなに近いものになるのです。これが平均への回帰です。

平均への回帰は驚くほどよく見られる現象です。たとえば，非常に背の高い2人に子供ができたとき，その子供は平均よりは背が高くても，両親ほど高くならなかったりします。非常に背の低い両親ではこれと逆のことが起こります。両親の背が低ければ子供も背が低い傾向にありますが，それでも両親よりは背が高くなったりするのです。もっとわかりにくい場合もあります。たとえば，肯定的なフィードバックよりも否定的なフィードバックの方が学習効果が高いということを示す研究があります。しかし，そうした研究では，良い成績の場合には必ず肯定的なフィードバックをし，悪い成績のときにはつねに否定的なフィードバックを与えていたりするのです。そして，ポジティブなフィードバックを与えた後には成績が下がり，ネガティブなフィードバックを与えた後には成績が上がります。しかし，ここには選択バイアスが含まれていることに注意してください。ある試行で非常にいい成績だったということは，それは「高値」を選択していることになります。そのため，平均への回帰効果を考えれば，肯定的なフィードバックを与えようと否定的なフィードバックを与えようと，その次の試行では成績が落ちることが予想されます。同様に，成績が悪かった試行の後では，次の成績は自然に向上する傾向にあるのです。つまり，一見効果的に見られる否定的なフィードバックは，じつは平均への回帰によって引き起こされたものであって，実際には否定的なフィードバックにそのような効果はないということになるのです(詳しくは Kahneman and Tversky 1973 の議論を参照)。

2.7.8 実験者バイアス

実験者バイアスはさまざまな形で生じます。実験者バイアスの基本的な考え方は，どんなにそうしないように頑張ったとしても，実験者は参加者に対して「正しい答え」や「期待される行動」をほのめかしてしまうものであり，そしてそれが実験の結果に影響を与えてしまうというものです。典型的には，これは実験者が参加者の知らないことを知っている場合に起こります。たとえば，質問への正しい答えや，参加者のいる状況で期待される行動パターンについての知識などです。1907年まで遡りますが，この古典的な例として「賢いハンス」の事例研究があります(Pfungst 1911; Hothersall 2004)。賢いハンスと呼ばれた馬は，人間のように文字を読んだり計算したりすることができるとされていました。賢いハンスが有名になると，心理学者たちはその行動をより詳しく調べ始めました。その結果わかったことは，当然ながらハンスは計算をしていたのではないということでした。そうではなく，ハンスは周囲の人々の様子に反応していたのです。人間は計算の仕方を知っていますから，馬はそれを見て自分の行動を変えるということを学習していたのです。

この実験者バイアスの問題に対する一般的な解決策は，二重盲検研究を行うことです。二重盲検研究というのは，実験者と参加者の両方が，実験の条件やそこで期待される行動についての知識を持たない状態で行われる研究です。この方法は非常に優れた解決策ではあるのですが，理想的というほどではなく，完全に実施することは困難であるという点には注意が必要です。たとえば，二重盲検研究を実施するための1つの方法として，（実験についての知識が全くない）博士課程の学生に研究を実施させることが考えられるでしょう。確かにこうすれば十分なように思われます。すべての詳細（正しい答えや各条件への参加者の割当基準など）を知っている人物（私）は参加者とは一切やりとりせず，参加者とやりとりする人物（博士課程の学生）は何も知らないのですから。ただ，実際の状況では，この後半部分は正しくない可能性が大です。博士課程の学生が効率的に研究を実施するためには，研究者である私からその学生への説明が必要です。そしてどういうわけか，博士課程の学生も私のことを知っていて，私が人々や心理学に対して一般的にどう考えているか（たとえば，人間は心理学者が考えているよりずっと賢いと考えている）ということも知っています。その結果，私が実験に対してどのような期待を持っているかについて，実験者がまったく何も知らずにいるということはほぼ不可能なのです。そして，ほんのわずかな知識であっても，それが影響する可能性があります。たとえば，参加者がよい課題成績をあげるはずだということをふとした拍子に実験者が伝えたとします。これは「ピグマリオン効果」と呼ばれる現象で，相手に対してよい成績を期待していると，それに応じて成績が上がる傾向にあるのです。そして相手が失敗するだろうと考えていると，失敗しやすくなります。つまり，期待することが自己成就的予言となるのです。

2.7.9 要求効果と反応性

実験者バイアスで問題となるのは，実験に対する実験者の知識や期待が参加者に伝わってしまうということであり，そしてそれによって参加者の行動が変わってしまう可能性があるということです(Rosenthal 1966)。しかし，たとえ何とかそれを防ぐことができたとしても，参加者に対して自分が心理学の研究に参加しているということを知らせないのはほぼ不可能です。そして，誰かが自分を見ている，あるいは自分が研究対象になっているという知識だけでも，行動には大きく影響する可能性があるのです。これは，一般的に反応性ないしは要求効果と呼ばれます。この基本的な考え方は，ホーソン効果に見ることができます。これは，自分たちが研究対象になっているということに意識が向くことで，人々の行動が変わってしまうというものです。この効果は，シカゴ郊外の「ホーソン・ワークス」の工場で行われた研究から名付けられています(Adair 1984 参照)。この研究は1920年代のもので，工場の照明が作業者の生産性に与える影響を調べるというものでした。しかし，この研究で生じた作業者の行動変化は，工場の照明効果によるものではなく，自分たちが研究対象になっているという知識によるものでした。

研究に参加するだけで行動が変わる場合についてもう少し詳しく知りたければ，社会心理学者になったつもりになって，人々が実験中には受け入れるけれども現実世界で同じ出来事が起こっていても受け入れないような役割について考えてみるといいでしょう。

良い参加者は研究者に協力しようとし過ぎます。そのような人は，実験者の仮説を理解してそれにあわせようとします。
悪い参加者は，良い参加者と正反対のことをします。そのような人は，研究またはその仮説を何らかの方法で台無しにしようとします。
忠実な参加者は不自然なほど従順です。そのような人物は実験の指示が現実の状況ではあり得ないようなものであったとしても，完璧にそれに従います。
神経質な参加者は，検査や研究の対象になることに対して神経質になるあまり，不自然な行動をとったり社会的に望ましい行動を過剰に行ったりします。

2.7.10 プラセボ効果

プラセボ効果は，要求効果の中でも私たちが大いに恐れるタイプです。これは，単に処置を受けたという事実があるだけで結果が改善することを言います。典型的な例は臨床試験に見られます。化学的にはまったく効き目のない薬を治療薬だと言って人々に投与した場合，それらの人々はまったく治療を受けていない人よりも早く回復する傾向にあるのです。つまり結果が改善した原因は，薬にあるのではなく自分たちが治療を受けているという考えにあるのです。

2.7.11 状況，測定，下位母集団の効果

いくつかの点で，これらはいわゆる「外的妥当性へのその他の脅威」に入るものです。つまり，参加者を集める下位母集団の選択や，研究をする場所，時間，方法（誰がデータを集めるのかも含めて），そして測定を行うために使用するツールが結果に影響するかもしれないということです。これが問題になるのは，こうした影響を受けた結果は，集団全体や場所全体，測定全体に一般化できなくなってしまう可能性があるためです。

2.7.12 不正行為，偽装，自己欺瞞

理解していない程度に応じて賃金が決まっている人に
　何かを理解をさせることは困難である。
　　　　— アプトン・シンクレア

最後にもう1つ，ここで取りあげておくべきことがあります。教科書で研究の妥当性の評価方法について説明されているのを見ると，それらは研究者が正直であるという前提で書かれているような気がしてなりません。これには大笑いです。科学者の大部分は正直ですが，少なくとも私の経験から言って，正直でない科学者もいます¹²。それだけでなく，すでに説明したように科学者も信念バイアスの影響を受けるものです。その結果，科学者が間違ったことを正しいと信じこんでしまうということが起こります。そうすると，わかりにくい欠陥を含んだ研究を行い，そしてそうした欠陥を隠して結果を発表してしまうということが起きるのです。つまり，明白な不正の可能性（こちらは滅多にありませんが）だけでなく，研究が意図せずに「偏向している」可能性（ほとんどはこちらです）についても考える必要があるということです。標準的な教科書を数冊見てみましたが，この問題についてしっかり議論しているものはありませんでした。そこで，こうした問題が生じるいくつかのケースについてあげておこうと思います。

データの改竄かいざん　ときに，データがいかさまであるという場合があります。しかもこれが「良い」意図で行われることもあるのです。たとえば，研究者が偽造データは実際のデータを「少しばかり整理した」だけのものだと考え，それに真実が反映されていると考えているような場合です。不正が意図的で悪意ある場合というのもあります。データ偽造が疑われている例やデータ偽造が明らかになった例として有名なものには，シリル・バート（データを偽造した疑いが持たれている心理学者），アンドリュー・ウェイクフィールド（新三種混合ワクチンが自閉症に関連しているとするデータが偽造であったと非難されている生物医学研究者），黄禹錫（幹細胞に関する多数の研究データを改竄した生物学者）などがあります。
インチキ論文　インチキ論文はデータ改竄と共通する部分も多いですが，その目的が違います。たいていの場合，インチキ論文は悪ふざけで，その多くはインチキであることが（最終的に）明るみに出ることを意図しています。インチキ論文の目的は，特定の人物や特定の分野に対する信用を失墜させようとするものであることが多いのです。科学におけるインチキ論文としてよく知られているものは過去数年間に多数の例がありますが（ピルトダウン人など），そのうちのいくつかは意図的に特定の研究分野の信用を失墜させようとするものでした（ソーカル事件など）。
データの不当表示　ニュースになるのはたいていが研究不正ですが，私の経験ではデータの不当表示の方がずっと多くあります。ここで言っているのは，新聞記事でデータの表示方法が間違っているということではありません（たいていは間違っていますし）。ここで問題にしているのは，研究者が主張する内容と実際のデータが示すものが異なっているという場合です。私が思うに，ほとんどの場合はそれは意図的な不正によるものではなく，データ分析に関する知識不足によるものです。たとえば，もう一度ここで本書の最初に取りあげたシンプソンのパラドックスの例を考えてみましょう。何らかのデータについて「集計済み」の結果を示すということはごく一般的になっていますが，元のデータをじっくり見てみると，集計前のデータは集計後のデータと違う結果を示しているという場合があります。また，データのうち不都合な結果となった部分が隠されているということもあります（たとえば，一部特定の変数にだけまったく言及がないなど）。これについてはさまざまな形がありますが，どれも発見はとても難しいものです。
研究の「計画ミス」　これも非常に見つけにくい問題です。基本的に，これは研究者がデザインした研究に欠陥がある場合で，そうした欠陥が論文の中で公表されていないものをいいます。論文に掲載されるデータは完全に本物で，正しく分析されたものなのですが，そのデータが誤ったデザインの研究によって集められているのです。研究者は特定の効果を見つけようとして，研究ではその効果が「簡単に」（人為的に）観察できるような状況を作ります。研究不正に手を染めてみようと思うなら，ずるいやり方として研究の「意図」が参加者に丸わかりになるような実験をデザインすればいいでしょう。そしてその後は要求効果という魔法の力に期待するのです。二重盲検実験で防げるのではと思うかもしれませんが，そうしたところで研究材料それ自身が参加者に研究の意図をほのめかしているのですからほとんど意味がありません。そしてそうした不正が読者にはわからないような形で結果を報告するのです。実験の参加時点で参加者が何を知っていたのかということが，論文を読んでいる人につねにわかるわけではありません。このような書き方をすると，これらはつねに不正であるかのように聞こえます。意図的に行われるケースというのもあるはずですが，私の経験では，意図しない計画ミスによる場合の方がより深刻です。研究者の盲信によって研究に欠陥が内在することになると，その欠陥は論文公表の段階ではきれいさっぱり消え去ってしまうのです。
データマイニングと後付け仮説　研究者によるデータの不正表示のもう1つのケースが「データマイニング」を行ってしまうというものです（統計分析で「八岐の園（garden of forking paths）」の一部として行われるデータマイニングについての議論はGelman and Loken (2014)を参照してください）。この後に説明するように，データをいろいろな方法で分析してみれば，最終的には何か本物「らしい」結果が見つかることでしょう。これは「データマイニング」と呼ばれています。これはかつてはそれほど問題ではありませんでした。なぜなら，かつてはデータの分析には数週間程度かかるものだったからです。しかし，現在では誰もがコンピューターにインストールされた強力な統計ソフトを持っており，この問題が一般化しています。データマイニングそのものは「間違い」ではありませんが，それをすればするほどリスクは大きくなるのです。問題となるのは，そしてこれは非常によくあるのではないかとおもいますが，それが不適切なデータマイニングである場合です。つまり，研究者がありとあらゆる分析を実施して，その中から結果の出たものを1つだけ取りだし，そしてそれが自分たちの行った唯一の分析方法であるかのように振る舞うのです。ひどい場合には，データマイニングであることを隠すためにデータを分析した後で仮説を「発明」したりすることもあります。はっきりさせておくと，データを分析した後に考えが変わること自体は悪いことではありませんし，その新たな「事後」仮説を使用して再分析を行うことも悪いことではありません。問題なのは（そしてこれが多いのではないかと私は疑っているのですが），それに言及していないと言うことです。繰り返し分析を行ったことにきちんと言及されていれば，他の研究者はそれを考慮することができます。言及がなければそれは無理です。そしてそれに言及しないことで，あなたは人をだましていることになります。これがダメなのです。
出版バイアスと自己検閲　最後に，非常によく見られる偏りとして，否定的な結果が「報告されない」ということがあります。これを防ぐのはほぼ不可能です。学術誌は投稿された論文をすべて掲載するわけではありません。そして「何か」を発見した論文を好んで掲載します。たとえば『フィネガンズ・ウェイク』を読むと頭がおかしくなるかどうかを調べるために20人の研究者が実験を行ったとします¹³。そしてそのうちの19人が影響なしという結果であった場合，雑誌に掲載されるのはどの研究者の論文でしょうか。『フィネガンス・ウェイク』で頭がおかしくなるという結果だった研究の論文であることは間違いありません。これが出版バイアスの例です。効果が見られなかった19人の研究結果が掲載されることはないので，何も知らない読者はそのような研究があったことすら知ることはないでしょう。さらに悪いことに，多くの研究者はこのような傾向を「内在化」しているため，自分の研究を自己検閲してしまうのです。否定的な結果の論文は雑誌に掲載されないということを知っているので，それを報告しようともしません。私の友人が言うには，「掲載された論文1本の背後には10の失敗がある」ということですが，これは彼女の言うとおりです。それらの研究のいくつか（おそらくは大半）はつまらない理由による失敗（へまをやらかしたなど）でしょうが，問題なのは，これが「良い」実験と言えるようなものであって，そして純粋に「関係がない」という結果を示すものである可能性もあるということです。しかしどれがそうなのかを知ることはほとんどの場合困難です。この問題について学ぶには，手始めにIoannidis (2005)の『Why most published research findings are false（なぜ発表された研究成果のほとんどは偽であるのか）』という憂鬱なタイトルの論文を読んでみるといいでしょう。また，Kühberger, Fritz, and Scherndl (2014)はこれが実際に心理学で起こっているとする統計的なデータを示していますので，それも見てみるといいでしょう。

この手のものは他にもたくさんあると思いますが，まずは上にあげたものたちで十分でしょう。私がここで本当に言いたいことは，現実世界の科学は人間による営みであり，そのすべてが正直で公平であるなどと盲目的に信じるのは愚かな人間のすることだという，明々白々な事実です。実際の科学者はそこまでバカではありませんが，世の中はどういうわけか私たちがまるでそうであるかのように振る舞いがちで，そして教科書ではたいていそうしたステレオタイプを強化するような記述がなされているのです。

2.8 要約

本章は心理学研究法についての包括的な議論を目的としたものではありません。この問題について十分議論しようと思えばそれだけで本になるでしょう。ただ，実際場面では統計と研究デザインは非常に密接に絡み合っていますので，重要な点についてここで説明しておくととても都合が良いのです。本章では，以下の問題について簡単に説明しました。

心理測定の初歩（2.1）　理論的構成概念を操作的に定義するとはどういうことでしょうか。変数を得るということ，測定するということはどういうことでしょうか。
変数のタイプと測定尺度の水準（2.2）　変数には2種類の分類があったことを思いだしてください。離散変数と連続変数の区別，そして4つの尺度水準（名義，順序，間隔，比率）の区別です。
測定の信頼性（2.3）　「同じ」ものを2度測定したとき，同じ結果が得られるでしょうか。それが期待できるのは測定に信頼性がある場合のみです。しかし，何をもって「同じ」と言うのでしょうか。信頼性に複数の種類があるのはこのためです。それらについてきちんと覚えておくようにしましょう。
予測変数と結果変数（2.4）　分析で変数が担う役割にはどのようなものがあるでしょうか。予測変数と結果変数の違いを覚えていますか。従属変数と独立変数はどうですか。
実験型研究デザインと非実験型研究デザイン（2.5）　実験であるための条件とは何でしょうか。それはかっこいい白衣でしょうか，それとも変数に対する研究者のコントロールでしょうか。
妥当性とその脅威（2.6）　その研究は本当に測りたいものをきちんと測定しているでしょうか。どのような場合に問題が生じるのでしょうか。問題が生じる可能性があるというのは単に私の気のせいなのでしょうか，それとも実際にそうした例がたくさんあるのでしょうか。

これらのことから，研究においては研究デザインが非常に重要であるということがよくわかるはずです。この章の内容はCampbell and Stanley (1963)の古典的な教科書を元にしましたが，研究デザインに関する教科書はもちろんたくさん出版されています。お気に入りの検索エンジンで探してみれば，何十冊と見つかることでしょう。

1938年に開催された第1回統計学会での会長挨拶より。出典：http://en.wikiquote.org/wiki/Ronald_Fisher ↩
えっと……これは今では気まずい例になってしまいました。このセクションは本書の中でもとくに古い部分で，なんともお恥ずかしい形で時代遅れになってしまったのです。このセクションを執筆したのは2010年のことですが，その時点ではこれらはすべて真実でした。2018年に改訂を行いましたが，その時点でわたしはもう33際ではありません。ただ，これは別に驚くことではありません。私の染色体が変化するとは考えられないので，私の核型は今も昔もXYのままでしょう。ただ，自己認識している性については……。表紙の著者名の綴りがDanielではなくDanielleに変わったことから何となくわかっていただけるかもしれませんが，最近では性別の質問に対して自分が「男性」であるとは答えません。そうではなく，通常は「女性」と見なされることを好むようになったのです（話すと長くなりますが）。じつを言うと，本書でこれにどう対処しようかと少し考えました。本書には著者の騙りの部分がありますが，もしそこに出てくる代名詞を過去に遡ってすべて書き換えたとしたら，別の作品になってしまうような感じがします。それに，それはとても大変な作業なので，私の名前は本書を通して「ダニー（Dani）」としました。「Dani」は「Danielle」のニックネームとして完璧に通用しますよね。ともあれ，そこは大きな問題ではありません。ただ私をどのように呼べばいいのか迷っている読者の皆さんのために，ここで少し説明しておこうと思ったのです。そうそう，私は今でもアンチョビが好きではありません（笑）。↩
じつを言うと以前，物理学の知識が豊富な読者から，温度は厳密には間隔尺度ではないという指摘を受けたことがあります。なぜなら，温度を何℃から3℃上昇させるのかによって必要なエネルギーは異なるからです。つまり物理学者の視点では，温度は実際には間隔尺度ではないということになります。ただ，温度はとてもわかりやすい例なので，ここではそうした少しばかりの不都合には目をつぶることにしました。↩
ああ，心理学というのはなぜこう，何に関してもすっきりしないのでしょうか。↩
ややこしいことに，他にもいろいろな呼び方があります。そんなことをするだけ無駄だと思うのですべてを列記するようなことはしませんが，「結果変数」に対してときどき「応答変数」という表現が使われる場合もある点に注意してください。やれやれ，残念ながらこの種の用語の混乱はいたるところにあるのです。↩
ここで「測定されない変数」とした理由は，もし測定されていたら，それを交絡変数として統計的に処理するための素晴らしい方法があるからです。交絡変数の問題にはこうした統計的な解決法があるので，実際に測定されている交絡変数は共変量と呼ばれ，そのように処理されます。共変量の扱いはかなり進んだテーマですが，少なくともそうしたものが存在するということを知っておけば気休めになるでしょうから，ここで少しだけ触れておきました。↩
正直者でなければ真の科学者ではないという人もいるかもしれません。そこには真実が含まれていると言えなくもないですが，しかしそう言い切るのは誠実ではありません（「それは真の〜ではない（No true Scotsman）」の誤謬について調べてみてください）。現実には表向き科学者として雇用されている人というのがたくさんおり，そういう人たちの研究にはこうした科学の罠が含まれているものですが，彼らが不正を行っているわけではありません。そういう人たちは科学者ではないとしてまるで存在しないかのように扱うことは，単に思考を混乱させるだけです。↩
当然ながら，『フィネガンス・ウェイク』を読むから頭がおかしくなるのではなく，これを読もうとする時点でそもそも頭がおかしいというのが真実です。↩

第2章 研究デザインの初歩