見出し画像

Cohen のdをどう使うか?(専修大学人間科学部教授:大久保街亜) #その心理学ホント?

 2つのデータの平均値の差を示す代表的な指標の一つがCohen のdです。データの単位や散布度に依存しない指標であるため、心理学を含め様々な領域で使用されています。そして、dの基準として最もよく参照されるのが、開発者のCohen による「0.2を小さい効果、0.5を中程度の効果、0.8を大きい効果」とみなす基準です。
 しかし、この基準はいかなる根拠で提案されたものなのでしょうか。また、あらゆる場面で杓子定規に使用できるものなのでしょうか。今回は認知心理学がご専門で、『伝えるための心理統計』を共著された大久保街亜先生にご解説いただきました。
※今回の記事は、2群の平均値の差の分析に関する入門的な知識があることを前提としています。あらかじめご承知おきのうえお読みください。

Cohen のdを知っていますか? 心理統計の授業を取ったり、本を読んだりしたことがないと知らないかもしれません。心理統計を10年以上前に学んだ人にも見慣れないものでしょう。そのような方もt検定やp値には馴染みがはずです。Cohen のdは、t検定やp値に関連する指標です。この記事は、Cohen のdを見たことがある、t検定やp値なら知っているという方に向けて書きました。なので、何にも知識がないと、さっぱりわからないかもしれません。ごめんなさい。

t検定とp値

t検定は、2つの平均値に統計的に見て意味のある違い、つまり有意な差があるか判別するための統計的な手法です。t検定の手続きに則って計算をすると、どのくらいの確率で差がないとは言えないのかがわかります。この確率がp値です。細かいことは色々あるのですが、実質的にp値は、統計的に見て意味のある差、つまり有意な差の基準として使われています。

2つの平均値の差を調べるとき、t検定とp値はとても役に立ちます。ただし、いくつか問題があります。ここでは2つだけ取り上げましょう(詳しく知りたい人は大久保・岡田,2012をお読みください)。ひとつはp値が差の有無しか示さないことです。差の大きさについてp値では全くわかりません。例えば、1000m走の成績を厚底のシューズと薄底のシューズで比較するとしましょう。100人の平均値で比べると厚底の方が有意に速かったとします。それでも、p値だけではどれくらい速くなったかわかりません。その差は1000m走では革命的な10秒かもしれないし、ほとんど取るに足らない0.01秒かもしれません。

もう一つの問題は、サンプルサイズ(多くの場合は、参加者数)に関わるものです。p値はサンプルサイズと直接関連があります。(他の条件が全て同じなら)サンプルサイズが大きくなると、p値は小さくなります。そのため、実質的な差がほとんどなくとも、たくさんの参加者がいると有意な差が観察されます。逆に、サンプルサイズが小さいとp値は大きくなります。上の例で言えば、サンプルサイズが100人では有意にならなかった0.0001秒の差が、2000人だと有意になってしまうこともあるのです。

Cohen のd

このような問題への対処として、p値には効果量を付記することが求められるようになりました。これはこの10年くらいですっかり定着した習慣です。効果量とは文字通り効果の大きさです。

t検定のような2つの平均値を比較する場合には、Cohen のdと呼ばれる効果量が広く用いられています。Cohen のdは、2つ平均の差を標準偏差で割ったものです。数式で定義すると以下の通りです。

$${Cohen の d = \dfrac{(M1 - M2)}{SD}[注1]}$$

これは平均の差が標準偏差に対してどれくらいの大きさかを表す指標となります。例えば、Cohen のdが0.5なら標準偏差の半分くらいの大きさとなります。標準偏差を基準とするので、測定の指標や手続きの違いを超えて効果の大きさを比較できます。とても便利です。しかも、単純でわかりやすいので広く使われるようになりました。

考案者のJacob Cohen は、Cohen のdという指標を使って、さまざまな研究結果をわかりやすく比較できるようになると考えました。個々の研究結果の比較のために考案されたものだったのです。

大きさの基準

個々の研究を比較するのが本来の使い方なのですが、新奇な研究で比較対象がないこともあります。また、この指標が出来たばかりのころ、どのくらいなら大きな効果なのか、小さい効果なのか誰もわかりませんでした。そこでCohen は大きさの基準を提案したのです (Cohen, 1969) 。この基準によれば、0.8なら大きな効果、0.5なら中程度、0.2なら小さな効果となります。

Cohenは、この基準をいわばたたき台として提案しました。しかも、小規模の社会心理学研究を対象としたものと明言し「他に基準が何もない時にだけ使用することを勧める(Cohen, 1988, p. 25)」と述べました。使って欲しくはなかったのですね。

使用を勧めない理由は、基準に明確な根拠がなかったからです。Cohen によれば、大きい効果(0.8)を「あからさまに見てわかる」くらいの大きさ、中程度(0.5)を「目で見て確認できるくらいは大きく」、小さな効果(0.2)を「中程度よりは見た目で小さいが、無視はできない」ものと定義されます(Cohen, 1988)。主観的です。あまり使用を勧めなかったのも頷けます。それにもかかわらず、この基準はとても良く使われています。最近、過度な使用をたしなめる論文も出版されたくらいです(例えば、Correll et al., 2020)。

実証的な根拠はあるか?


Cohen のdに関する大きさの基準にはっきりとした根拠はありません。ですから、何人かの研究者は実証的な裏付けを探しました。例えば、Lipsey と Wilson は、膨大な研究結果を集計し心理的・教育的な介入効果が平均してどれくらいか検討しました。302の研究からCohen のdの平均を求めたところ、およそ0.5となりました(Lipsey & Wilson, 1993)。まさにCohen の基準における中程度の効果量とぴったりです。

これにてめでたし、めでたし…というわけにはいきませんでした。集計の基準や対象によって値は変化したのです。Lipsey が、ランダム化比較試験を行った研究に対象をしぼったところ、Cohen のdは0.28となってしまいました(Lipsey et al., 2012)。他の研究ではさらに低い値が報告されています。例えば、サンプルサイズが比較的小規模な研究(100以下)では0.38ですが、大規模な研究(2000以上)では0.11、つまり、1/3にまで小さくなってしまいます。これでは0.5を中程度とは結論できません。

考えなしに使うのは危険、中身を吟味するのが大切

Cohen のdに関する大きさの基準は、(1)曖昧ではっきりした根拠がなく、だからこそ(2)提案者のCohen 自身は使用を推奨しておらず、(3)研究計画やサンプルサイズなどが組織的に影響することがわかりました。やみくもにこの基準を使うのは危険です。

そもそも考案者であるJacob Cohen はこの基準を、他に何もないときにだけ使うように推奨しています。先述のようにCohen は一般的な基準を作りたかったわけではありません。データ・ドリブンなアプローチを想定していました。個々の研究で得られた差を比較するためにCohen のdを考案したのです。実際、種々の条件が影響するので、過度な一般化は避けるべきです。Bakker たちは、良く考えずにCohen(1969)の基準を使うことの危険性を指摘しました(Bakker et al., 2019)。その上で、解釈にあたり考慮すべきポイントを彼らは12個(!)あげています。12はちょっと多いので、重要なところをまとめておきます。

まず、比較の対象を良く考えましょう。どのような研究であるか、サンプルサイズはどのくらいかなど、類似性がある研究を比較しましょう。先行研究を良く調べ、他に基準がないときにだけCohen の基準を使いましょう。それが考案者のJacob Cohen の推奨していることです。

考えてもみてください。あらゆる差に適用できる万能の基準があると思いますか? あるはずがありません。万病に効く薬がないのと同じです。風邪にも癌にも二日酔いにも効く薬なんてどう考えても怪しい。心理統計でも同じです。Cohen のdを使うときも、対象、手法、サンプルサイズ、バラツキなど、研究の文脈を考えて比較をすることが肝要です。

脚注

[注1] ここで、M1とM2は比較する2つの平均値のそれぞれ、SDは標準偏差です。標準偏差は通常プールしたものが使用されます。

引用文献


Bakker, A., Cai, J., English, L., Kaiser, G., Mesa, V., & Van Dooren, W. (2019). Beyond small, medium, or large: Points of consideration when interpreting effect sizes. Educational Studies in Mathematics, 102(1), 1-8. https://doi.org/10.1007/s10649-019-09908-4
Cohen, J. (1969). Statistical power analysis for the behavioral sciences (1st ed.). Academic Press.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Erlbaum.
Correll, J., Mellinger, C., McClelland, G. H., & Judd, C. M. (2020). Avoid Cohen’s ‘small’, ‘medium’, and ‘large’ for power analysis. Trends in Cognitive Sciences, 24(3), 200-207. https://doi.org/10.1016/j.tics.2019.12.009
Lipsey, M. W., & Wilson, D. B. (1993). The efficacy of psychological, educational, and behavioral treatment: Confirmation from meta-analysis. American psychologist, 48(12), 1181–1209. https://doi.org/10.1037/0003-066X.48.12.1181
Lipsey, M. W., Puzio, K., Yun, C., Hebert, M. A., Steinka-Fry, K., Cole, M. W., ... & Busick, M. D. (2012). Translating the Statistical Representation of the Effects of Education Interventions into More Readily Interpretable Forms. National Center for Special Education Research. https://ies.ed.gov/ncser/pubs/20133000/
大久保街亜・岡田謙介 (2012) 伝えるための心理統計:効果量・信頼区間、検定力.勁草書房.

執筆者プロフィール

大久保街亜(おおくぼ・まちあ)
専修大学人間科学部教授。認知心理学を専門とし、顔の魅力、信頼されるための動作、映画での座席行動など日常の行動や認識を研究。著書に「認知心理学:知のアーキテクチャを探る(新版)」、「伝えるための心理統計:効果量・信頼区間・検定力」がある。格闘技にも精通し、ブラジリアン柔術、総合格闘技の大会で優勝、入賞を果たす。格闘技と心理学の関連についてnoteを更新中。 https://note.com/matiasauquebaux/

関連記事

著書


みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!