第1回 心理学における再現性危機(高知工科大学 経済・マネジメント学群 教授:三船恒裕)連載:#再現性危機の社会心理学
心理学における再現性問題
2011年、「光より速い物質が発見された」というニュースが全世界を駆け巡った$${^{1}}$$。同じく2011年、「人間は予知能力を持つ」とも思えるような実験結果も発表された (Bem, 2011)。どちらも科学の「常識」を覆し、既存の理論を根底から見直す必要に迫られるような大きな「発見」である。しかしこれらのニュースは、少なくとも発表直後に関しては、おおよそ異なる運命を辿ることになった。物理学を騒がせた前者のニュースはその後の検証結果を受け、測定装置のミスによる現象であることが確認され、知見は修正された (The OPERA Collaboration, 2012)。一方、心理学のトップクラスの学術雑誌に掲載された後者の研究に対し、別の研究グループが行った否定的な結果が同じ雑誌に投稿されるも、新奇性がないとして掲載不可の判断が下された (French, 2012)。
科学とは何であるかという問題に一言で回答するのは難しいが$${^{2}}$$、重要なひとつの基準として反証可能性があげられるだろう。ある仮説や理論が科学的であるということは、その仮説や理論が何らかの実験や調査などによって否定される可能性が担保されていることになる。通常の科学では、ひとつの論文によって全く新しい「発見」が報告されても、そのことのみによってその存在が「証明された」とはみなされない。後続の研究による検証を受け続けながら「どうやら確からしい」あるいは「どうやら間違いらしい」と徐々に確たる判断に近づいていくのが科学の営みである。したがって、超光速物質が存在するという仮説が後続研究によって反証されたことを発表することで、物理学は科学的な知見の信頼性を担保したと言えるだろう。しかし、予知能力を持つとする仮説に対しては、反証する知見を発表する機会を奪ったことによって、心理学はその科学性に自ら疑問符をつけたことになる$${^{3}}$$。
心理学が科学であるためには、提出された仮説が後続の研究で否定されないことを示し続けなければならない。その方法はいくつか存在するが、重要な方法のひとつが再現性を示すことである。新しい仮説を支持する知見が報告されたら、その知見が同様の方法を用いれば再現されることを示す必要がある。この再現性が担保されなかったために超光速仮説は否定されたのである。心理学では伝統的に単なる再現実験を重視しない土壌があった。しかし、予知能力実験をひとつの契機とし、それまでに報告されてきた様々な知見が本当に再現されるのかを検討する機運が高まった$${^{4}}$$。そして様々な再現実験が報告されるようになったが、そこで示されたのは心理学研究の再現性の低さである。
過去に報告された有名な知見が後の実験によって再現されないことが示された研究の例として、高齢者プライミング研究がある (Bargh et al., 1996)。オリジナルの研究では、実験の参加者は順序がバラバラになった言葉(例:「いつも」「怖がる」「は」「彼」)を並び替えて意味のとおる文にする(例:「彼はいつも怖がる」)という課題を行った。このとき、並び替える言葉の中に高齢者を想起させる言葉が含まれている場合と含まれていない場合があった。このように、実験参加者がそうとは知らずに接触する特定の刺激(この場合は高齢者に関する言葉)のことを一般的にプライミング刺激と呼び、プライミング刺激を用いた実験を一般的にプライミング実験と呼ぶ。さて、高齢者のプライミング刺激を受けた参加者は実験終了を告げられ、実験室を退室してエレベータへと向かった。このとき、参加者の移動速度がこっそりと測定されていた。この移動速度を分析した結果、高齢者プライミングを受けた参加者は、そうではない参加者よりも移動速度が遅かった。これは人々が無意識のうちに外界の刺激を処理し、その刺激に影響されて自動的に行動が変容する可能性を示唆する。
高齢者プライミング研究は多くの研究に影響を与えた。この論文が他の論文に引用された数(被引用数)は、論文が発表された直後の1996年から2012年まで上昇し続け、1195件の被引用数を示した(Scopusを用いた筆者による調査)。しかし、2012年にオリジナルの研究とほぼ同様の手続きで実験を行った結果、結果が再現されないことが報告された (Doyan et al., 2012)。この他にも、プライミング実験の再現性が低いことを報告する論文が発表されている(Harris et al., 2013)。
スタンフォード監獄実験
予知能力論文が発表される前後、つまり2000年頃から2020年頃にかけて、過去の心理学研究の中でも特に有名な研究や逸話が本当に正しいのかを見直す動きが活発になっていた。例えばジンバルドーによるスタンフォード監獄実験がある (Zimbardo, 2007)。1971年、スタンフォード大学のジンバルドーが若者を対象にした模擬監獄実験を実施し、「囚人」と「看守」という役割が人々に与える影響を検討した。実験に参加したのは新聞の求人広告に応募した男子大学生であり、逮捕歴が無い人や医学的、精神的に問題がない人が選抜された。実験は現地の警察の協力のもとに実施された。囚人役に割り振られた参加者は自宅にいるところ、実際の警官に模擬的な逮捕の手続きをされ、手錠をかけられ、警察車両に乗せられてスタンフォード大学に設置された模擬刑務所に連行された。看守役に割り振られた参加者は制服を着て、サングラスをかけて囚人を出迎えた。そうして実験が始まると実験の参加者は徐々に囚人は囚人らしく、看守は看守らしく振る舞い始めた。囚人は受動的、服従的に振る舞い、過度のストレスの兆候を見せた。中には実験途中で離脱するものもいた。看守は威圧的な態度を示し、囚人を暴行するものも現れた。結局、実験は予定された日数を消化する前に中止された。この研究は当初、人々は役割を与えられただけで残酷な人にも従属的な人にもなってしまうのだと捉えられた。
2001年、イギリスのテレビ局BBCの協力を得て、スタンフォード監獄実験の追試実験が行われ、2006年に論文が公刊された(Reicher & Haslam, 2006)。報告された結果では、オリジナルの研究とは異なり、囚人役が看守に対して反抗的な態度を示したり、日数を経ていくと看守役が鬱々とした気分を高めていった。オリジナルの研究とは逆の傾向である。この追試実験は倫理的な観点からもオリジナルの実験と全く同じ内容での実施とはならなかったことに注意が必要である。しかし、他にもオリジナル実験への批判や疑義が提出されており(Haslam et al., 2019)、スタンフォード監獄実験が持つ意味については見直すべきだと考えられている。
キティ・ジェノヴィーズ事件と傍観者効果
人が他者をどのような時に助けるのかという疑問に関しては援助行動という文脈で研究がなされているが、援助行動研究で有名な現象のひとつが傍観者効果である。これは周りにたくさんの人がいるほど援助行動が抑制されるという現象だが、この傍観者効果とともに教科書で紹介されやすい逸話がキティ・ジェノヴィーズ殺害事件である。多くの教科書で紹介されているこの事件のストーリーは以下の通りである。ニューヨークの深夜に自宅アパート前でキティ・ジェノヴィーズさんが暴漢に襲われ、刺殺された。後の調べによると、彼女は実際に殺されてしまう前までに、自宅アパートの周辺を助けを求めながら逃げ回っており、それは30分以上も続いていた。その間、同じアパートに住む38人もの住人が実際に彼女の悲鳴を聞き、部屋の明かりをつけて、窓からこの事件を目撃していたにもかかわらず、誰ひとり助けに出て行かず、警察に通報する人もいなかったという報道がなされた。まさに、傍観者がいることによって援助行動が抑制された、というストーリーである。
1964年に起こったキティ・ジェノヴィーズ殺害事件に触発され、ダーリーとラタネは通称「模擬発作実験」と呼ばれる研究を1968年に発表した(Darley & Latané, 1968)。この実験では参加者はひとりひとり別々に実験室に集められ、他の人と顔を合わさないように個室に入れられた。個室にはマイクとヘッドフォンが配置されており、それらを用いて大学生活に関する個人的な問題を2分間ずつ、順番に話し合った。援助の場面は、順番に話していた途中で参加者のひとり(実際には病人役の演技をしてもらっている実験協力者)が突然苦しみだすことで作り出された。このとき、どのくらいの時間で参加者が実験スタッフに異常を知らせるために個室を出たのかが測定された。自分以外に何人がこの病人の声を聞いていたかが操作され、自分と病人の2人だけが参加していると思わされた条件、自分と病人以外にもうひとり(全部で3人)が参加していると思わされた条件、そして全部で6人が参加していると思わされた条件があった。結果、時間経過のどの時点においても、参加者は自分以外に存在する人数が増えるほど個室を出て援助する割合が低下した。また、2人条件では2分経過した時点でおおよそ全ての参加者が個室を出てきたが、6人条件では最後まで個室を出なかった人の割合が38%も存在した。つまりこの実験では、自分以外に助けることができる人がいること、そして助けることができる人が多くなればなるほど、援助行動が抑制されることが示された。
心理学の実験にも影響を与えたキティ・ジェノヴィーズ事件であったが、その後、実際には教科書で紹介されているような事件ではなかったのではないかという疑義が提出されている。マニングらの2007年の論文によると、多くの心理学の教科書に掲載されているキティ・ジェノヴィーズ事件のエピソードは、実はジャーナリストによって書かれた記事が元になっている(Manning et al., 2007)$${^{5}}$$。裁判記録などの証拠を元に推察すると、事件を本当に目撃した人数は38人よりも少なく、目撃者とされた人物でも必ずしも加害者が被害者を攻撃する様を窓から見ていたわけではなかった。目撃者の中には事件の初期の時点で警察に通報するなどの介入をしていた人もいた可能性がある。したがって、傍観者効果が現実に生じた例としては不適切な可能性が高い。
既に多くの研究で傍観者効果が生じることが報告されていたが(Latané & Nida, 1981)、キティ・ジェノヴィーズ事件の見直しと共に、現代的な分析手法を用いた見直しも行われた。それがフィッシャーらによるメタ分析論文である(Fischer et al., 2011)。メタ分析とは複数の論文で報告された実験結果をまとめて分析する手法である。メタ分析によって効果が認められれば、その現象はある程度一貫してみられる現象だと考えられる。フィッシャーらは過去に傍観者効果を検証した53の論文で報告されている7,700人を超える実験参加者のデータに対してメタ分析を行い、小から中程度の大きさの傍観者効果が認められることと同時に、その効果を弱めるいくつかの要因の存在も報告した。
追試実験とメタ分析
2000年以降に盛んになった再検討によって、教科書で紹介されてきた研究の中にはその知見の確からしさを疑うべき研究も含まれることが示されてきた。過去の知見を「確固たる知見」であると見極めるためには、追試実験とメタ分析というふたつの方法が鍵となる。追試実験によって過去の報告と同様の知見が再現されれば、その知見は科学的に「確からしい」知見だと呼ぶことができるだろう。しかし、過去に何度も確認された実験結果が現代の追試実験で再現されなかったからといってすぐに全てを否定するのも問題がある。それは、心理学の実験では過去の実験と全く同じ実験を実施することは非常に難しいためである。例えば、アメリカで実施された実験を日本で追試しようとしても、アメリカ人と日本人という参加者の性質や、課題を説明する言語、あるいは実験で用いられる装置や実験室環境など、全てを同じにすることは事実上、不可能であろう。追試実験ではそうした要因は本質的に重要ではなく、大きな影響を与えないだろうという想定のもとで実施されることが多いが、研究者も予測しない要因が結果に影響を与える可能性もある。そこで、そうした様々な違いを超えても同様の手続きや実験操作を用いれば同様の結果が生じるのかを確かめるために用いられるのがメタ分析である。メタ分析によって一定の効果が認められれば、その効果や現象が「確からしい」と認めやすくなる。ただし、メタ分析であっても「100%正しい」という結論を導くことはできないことに注意が必要である。メタ分析に含まれる研究の数が少ない場合はもちろん、多くの研究が含まれていてもそこに不適切、妥当でない方法の研究が含まれている可能性は否定できない。追試実験もメタ分析も、科学的に「確からしい」と呼べる知見を生むための方法のひとつではあるが、それによって仮説や理論を「証明」できるわけではないことに注意したい。
本連載では心理学、特に社会心理学において教科書にも載るような有名な研究を取り上げ、そうした知見がどのくらい「確からしい」と言えるのかを追試実験やメタ分析の結果とともに紹介していく。読者には上記の点を踏まえ、自分自身でどのくらい「確からしい」と言えるのかを考える材料として参照してほしい。
脚注
例えばAFPによるニュース (https://www.afpbb.com/articles/-/2830135) など。
興味のある読者は伊勢田 (2003) などを参照してほしい。
ただし、超能力論文が再現されないという論文がオリジナル論文と同じ雑誌に掲載されたため (Galak et al., 2012)、ここでの表現はやや誇張されている。
心理学における再現性危機とその後の動向に関しては心理学評論の特集号(2016年7月発行、Vol. 59 No. 1)や平石・中村 (2022) などを参照してほしい。
この情報は警察側が記者にリークした情報が元となっているが、警察側は当時、別の事件から大衆の目を逸らすためにわざと根拠のない「38人の目撃者」という情報を渡した、という可能性が指摘されている(Kassin, 2017)。
引用文献
Bargh, J. A., Chen, M., & Burrows, L. (1996). Automaticity of social behavior: Direct effects of trait construct and stereotype activation on action. Journal of Personality and Social Psychology, 71(2), 230-244. https://psycnet.apa.org/doi/10.1037/0022-3514.71.2.230
Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425. https://psycnet.apa.org/doi/10.1037/a0021524
Darley, J. M., & Latané, B. (1968). Bystander intervention in emergencies: Diffusion of responsibility. Journal of Personality and Social Psychology, 8(4), 377-383. https://psycnet.apa.org/doi/10.1037/h0025589
Doyen, S., Klein, O., Pichon, C. L., & Cleeremans, A. (2012). Behavioral priming: it's all in the mind, but whose mind? PloS ONE, 7(1), e29081. https://doi.org/10.1371/journal.pone.0029081
Fischer, P., Krueger, J. I., Greitemeyer, T., Vogrincic, C., Kastenmüller, A., Frey, D., Heene, M., Wicher, M., & Kainbacher, M. (2011). The bystander-effect: A meta-analytic review on bystander intervention in dangerous and non-dangerous emergencies. Psychological Bulletin, 137(4), 517-537. https://psycnet.apa.org/doi/10.1037/a0023304
French, C. (2012). Precognition studies and the curse of the failed replications. The Guardian. Available at: https://www.theguardian.com/science/2012/mar/15/precognition-studies-curse-failed-replications [Accessed November 10, 2023]
Galak, J., LeBoeuf, R. A., Nelson, L. D., & Simmons, J. P. (2012). Correcting the past: Failures to replicate psi. Journal of Personality and Social Psychology, 103(6), 933-948. https://psycnet.apa.org/doi/10.1037/a0029709
Harris, C. R., Coburn, N., Rohrer, D., & Pashler, H. (2013). Two failures to replicate high-performance-goal priming effects. PloS ONE, 8(8), e72467. https://doi.org/10.1371/journal.pone.0072467
Haslam, S. A., Reicher, S. D., & Van Bavel, J. J. (2019). Rethinking the nature of cruelty: The role of identity leadership in the Stanford Prison Experiment. American Psychologist, 74(7), 809-822. https://psycnet.apa.org/doi/10.1037/amp0000443
平石界・中村大輝 (2022). 心理学における再現性危機の10年 危機は克服されたのか、克服されうるのか 科学哲学, 54(2), 27-50. https://doi.org/10.4216/jpssj.54.2_27
伊勢田哲治 (2003). 疑似科学と科学の哲学 名古屋大学出版会
Kassin, S. M. (2017). The killing of Kitty Genovese: What else does this case tell us? Perspectives on Psychological Science, 12(3), 374-381. https://doi.org/10.1177/1745691616679465
Latané, B., & Nida, S. (1981). Ten years of research on group size and helping. Psychological Bulletin, 89(2), 308-324. https://psycnet.apa.org/doi/10.1037/0033-2909.89.2.308
Manning, R. (2007). The Kitty Genovese murder and the social psychology of helping : The parable of the 38 witnesses. American Psychologist, 62(6), 555-562. https://psycnet.apa.org/doi/10.1037/0003-066X.62.6.555
The OPERA Collaboration, Adam, T., Agafonova, N. et al. (2012). Measurement of the neutrino velocity with the OPERA detector in the CNGS beam. Journal of High Energy Physics, 93. https://doi.org/10.1007/JHEP10(2012)093
Reicher, S., & Haslam, S. A. (2006). Rethinking the psychology of tyranny: The BBC prison study. British Journal of Social Psychology, 45, 1-40. https://doi.org/10.1348/014466605X48998
Zimbardo, P. (2007). The lucifer effect: Understanding how good people turn evil. Random House. (ジンバルドー, P., 鬼澤忍・中山宥訳, 2015『ルシファー・エフェクト – ふつうの人が悪魔に変わるとき』海と月社)