ベイズ統計学と再現性の危機(テンプル大学統計科学部助教授:マクリン謙一郎) #心理統計を探検する
はじめに
再現性の危機が心理学を含む諸分野で問題として話題になって久しい。それに伴って研究に再現性がない原因もわかってきた。その中には悪質な研究不正もあり、(特に分野外の)関心を集めるが、こういうケースは多くはないだろう。少なくとも心理学における25%(社会心理学)から50%(認知心理学)とも言われている再現率の低さの原因がほとんど不正だとは考えづらい。多くの場合は意図をもって不正をしているわけではなく、いわゆるQRPs(Questionable Research Practices)と呼ばれている確証を誤らせる(正しい答えにたどり着く確率を下げる)研究手法からくるものだと推測できる。
このQRPsは多くの場合、統計手法とその理解と密接な関係にあることも指摘されてきた。実際、再現性とは「ある実験によって特定の有意水準で統計的に有意と判断された仮説が他の実験において同程度の有意水準で有意と判断されなかったこと」を指すことが多く、再現性の危機と統計的意思決定、特に有意水準仮説検定とは切っても切り離せないだろう。しかし、一部の研究者を除いて、具体的な問題点やどう解決しうるかについて知見をもっている研究者は少ないと思われる。
本稿では再現性の問題として統計学の観点から2つを考え、それがベイズ統計学の考え方からどう解決されうるのかを考える。具体的には有意水準仮説検定の1)科学プロセスとしての問題点と2)技術的な問題点を考え、ベイズがそれをどう解決しうるかを解説する。注意点としてはベイズを導入したからといって途端に再現性の危機がなくなるわけではないし、意図的な不正を防げるわけではない。しかし、本稿で述べるように、再現性の危機の原因だと考えられるいくつかの問題点はベイズによって解決されることが期待できる。
有意水準仮説検定の問題点
それではなぜ統計分析、特に有意水準仮説検定はQRPsを引き起こし、再現性の低下に貢献していると考えられるのだろうか。具体的な問題点に関してはマクリン(2022)を参照していただくとして、ここでは大枠での問題点をいくつか挙げる。
まず一番に挙げられることとして科学的プロセス、ひいては科学者が求めるものと有意水準仮説検定(以降NHST)との齟齬があるだろう。多くの場合、科学者は特定のポジティブな仮説(例えば介入の効果があるという仮説)をもっていて、これが正しい(データがこの仮説を支持する)かどうかを知りたい。(提案されている仮説の中でその)仮説が正しい確率は仮説を$${H}$$、データを$${D}$$として書けば$${p(H|D)}$$として書ける。しかし、この確率はNHST、ないしは頻度論的確率論(確率とは無限回試行を行ったときの割合であるという考え方)では原理的に定義できない。なぜなら頻度論では仮説は正しいか正しくないかの二択であり、確率で評価ができないからである。
これに対し、統計学者の先駆者達は様々な考え方で工夫して間接的に「仮説は正しいか」という質問に答えてきた。例えばフィッシャーは帰無仮説のみを想定して(フィッシャーは対立仮説を無駄だと排除した)、p値(帰無仮説の元で観測されたデータ、もしくはそれより極端なデータを観測する確率)を帰無仮説に反するエビデンスとして提案した(つまり特定の有意水準で棄却という考え方はなかった)。一方でネイマンとピアソンは工場における不良品の割合に興味があり、繰り返し検査をすることによってタイプ1エラーとタイプ2エラーを調整することに関心があった。そのため、帰無仮説と対立仮説、エフェクトサイズを設定し、そこから棄却水準をもって仮説を選択した。
ここで注意すべきことは、現在行われているNHSTはフィッシャー流でもネイマンピアソン流でもどちらでもないことである(フィッシャーとネイマンピアソン流の考え方に関しては大久保・會場(2019)が詳しい)。どういう経緯で現行のNHSTが生み出されたかは不明なところが多いが、フィッシャーやネイマンピアソンの考え方、科学に対する姿勢とは裏腹に各手法の難しいが大事な部分は削られ、有意な結果が出やすい、つまり科学的に意味がありそうな主張をしやすい手法が完成した。もちろんこれは現行のNHSTは科学的に厳密な結果を導くことができないことを意味しないが、同時に科学的に厳密な結果を導くことを保証するものでもない。むしろ、使い方を誤れば、論文を掲載するために必要な結果(≠科学的に厳密な結果)が容易に得られてしまう。科学者の主要なインセンティブが厳密性より論文数や影響力である限りは、誤った方法が慣習として根付き、QRPsが横行してしまう。
この「分野によって定着した誤った方法」、つまり技術的な問題が再現性の問題につながっていると言える。誤った方法自体は数えてもキリがないが、大きく分けて3つあるだろう。
1つ目は検定選択の問題である。データの仮定によってよりよい検定は変わるが、データの仮定は多くの場合確認できないので事後的に都合のいい(p値が低く出る)検定を選ぶことができてしまう。都合のいい検定を事後的に選ばないとしても、どの検定をどのデータに選ぶのが相応しいのか、という問題は難しく、統計ソフトを使えばそれっぽい結果が出てしまうがゆえに混乱が生じているのは否定できないだろう。そして検定の種類によって結果(有意か有意でないか)が決まるのならば再現性の有無も変わってしまう。しかしモデル選択の分野ではモデルの不確実性がよく議論されるが、検定選択の不確実性に対する意識は総じて低い。
2つ目は多重性の問題である。いわゆる多重検定の問題(いくつもの仮説を同時に検討して有意になる仮説を結果として報告する)はある程度知られてきたと思われるが、これは多重性の問題の1つであって、実はもっと広い。例えばQRPsの代表とも言えるHARKing(Hypothesizing After the Results are Known)も多重性の問題の1つであり、これは前述の多重検定の問題の多重性に対する認識のなさからきている。つまりある事後的な有意の結果を事前の仮説とすることは、観測されていない無数の有意でない結果を無視していることにほかならない。多重性の問題はその他にも統計分析におけるモデル選択の問題(複数のモデルから1つのモデルを選んで報告すること)、データのサブセット分析(外れ値の除去を含むデータの変換なども含む)なども含み、多岐にわたる。
3つ目は選択停止の問題である。選択停止とはあるデータを集めて検定をし、結果によって追加でデータを集めたりデータ収集を止めたりすることである。これも問題だという認識は広まってきたが、なぜ問題なのかという理解はまだ進んでいないと感じる。例えば多くの人は自分の好きなタイミングでデータ収集を止めることは、自分にとって都合のいい結果を好きに出せるので研究倫理の問題だと考えるだろう。しかしこれは技術的な問題であり、途中でデータ収集を止めたり増やしたりすることによって、計算されたp値と有意水準が最初からそのデータを集めた場合と変わってしまうのである。
この3つの問題に共通するのは選択という意思決定である。検定の種類を選択するにしても、複数の仮説から有意な結果だけを選択して発表することも、有意でないからデータを追加で集める選択をすることも分析者の選択という意思決定が絡む。そしてNHSTという仕組みはネイマンピアソン流の枠組みを引き継いでいるため、帰無仮説を有意水準で棄却するという意思決定を含む。そのため棄却という意思決定に対してその意思決定にたどり着くまでの他の選択の意思決定が影響を与えているのである。これはNHSTにおける目標がタイプ1エラーとタイプ2エラーの調整であり、その調整が無限回反復(手元にあるデータ以上のまだ存在しない無限のデータ)に依存しているために起こるとも言える。つまりこの調整の理論保証(例えばタイプ1エラーは5%に抑えられる)は仮説設定やデータ収集のプロセスに依存しており、そのプロセスから逸脱すれば理論保証はなくなる。これは保証が元のプロセスで無限回データを集めた前提をもっているからであり、プロセスを変えたらその前提が崩れるからである。
プロセスを逸脱するような選択を行った場合、それに合わせて同様の保証が得られるようにp値や有意水準を調整すればよい。しかし多くの研究者は選択をしていることに対して無意識か、調整することの必要性を知らないためにQRPsを行ってしまう。これが統計の観点から再現性の問題を引き起こしているのは明らかであろう。
ベイズという解決策
安全工学にフールプルーフという考え方がある。これは利用者が誤操作や誤設定を行っても大きな危険を起こさない設計を指す。NHSTはこのフールプルーフという考え方からは遠い。というのも多くの場合、統計学者が使うことを念頭に、漸近論という理想状態をベースに考えているからである。現実のデータは理想状態から遠いことを考えると、理想状態から離れている要素を(非統計学者が)考えながらベストな統計分析を行うより、最初から現実のデータを出発点として考えることがフールプルーフに近いと言えるだろう。
NHSTがフールプルーフでない理由が複雑な意思決定によるものであるならば、一貫性のあるよりよい意思決定を行えばある程度フールプルーフになり、少なくともいくつかの問題は解決できることが期待される。この一貫した意思決定を行うために考え出されたのがベイズ統計学である。
ではベイズの考え方はどう前述の問題をよりよい意思決定の枠組みで解決するのか。まずベイズでは不確実性はすべて確率で表現されるので(提案されている仮説の中でその)仮説が正しい確率$${p(H|D)}$$を直接表現でき、ベイズの定理によって計算できる。これは科学者がそもそも求めたかったもののはずであるから、前述の齟齬は解消されるし、NHSTのような回りくどい(そして理解が難しい)考え方を導入しなくてよい。ただし、ベイズが求めるものが仮説の確率であるかぎり、NHSTのような二項の選択肢は存在せず、あくまでグラデーションでしか評価できない。しかしNHSTで有意になったからといって仮説が完全に証明されたと考える人は少なく、ある程度の不確実性は含意していると思われるため、確率として表現することのほうが科学的に正直と言えるだろう。
例えば2つの仮説$${H_1}$$と$${H_2}$$があったとしてベイズのオッズ表現は
$$
\underbrace{\frac{p(H_1|D)}{p(H_2|D)}}_{\text{事後オッズ比}}=\underbrace{\frac{p(D|H_1)}{p(D|H_2)}}_{\text{ベイズファクター}}\times \underbrace{\frac{p(H_1)}{p(H_2)}}_{\text{事前オッズ比}}\\[1pt]
$$
となる。ベイズの考え方ではベイズファクター、つまり尤度比を仮説同士のエビデンスの強さと定義し、事前オッズを設定することによって事後オッズ比でどちらの仮説がより正しいかを考える。データを観測する前に仮説を設定し、その確率を考え(事前確率)、その仮説をデータによって評価し(尤度)、その評価をもとに仮説の確率を改定する(事後確率)という一連の流れを数式で表現したものだと言えよう。そしてベイズにおける意思決定の一貫性の保証はデータが尤度(ベイズファクター)にしか現れないことに依存していることに注意してほしい(これは尤度原理によるものだが、その説明はマクリン(2022)を読んでいただきたい)。ここで例えばHARKingをしようとすると仮説がデータに依存することになり、データが尤度だけでなく事前確率(オッズ比)にも現れることが明らかだろう。例えば複数の仮説を検討して有意になったものだけを選んだ場合、それは有意でない仮説の事前確率を下げることと同じことである。これを数式で表すと
$$
\frac{p(H_1|D)}{p(H_2|D)}=\frac{p(D|H_1)}{p(D|H_2)}\times\frac{p(H_1|D)}{p(H_2|D)}\\[1pt]
$$
となり、尤度原理に反するだけでなくある種の循環論法、データの二度漬けになっていることがわかる。NHSTにおけるHARKingの技術的な問題点は分かりづらかったが、ベイズの枠組みだと明示的になることがわかるだろう。
次に多重性について考える。NHSTの枠組みではデータの構造によって毎回調整方法を変えなければならず、この選択を間違えれば間違えた推論を得てしまう。しかしベイズでは多重性は事前確率によってデータの構造に関係なく対応できる。これはベイズが一貫した意思決定を目指したものであり、推論がプロセスに依存しないからである。具体的には仮説が交換可能ならば、仮説数$${m}$$に対して事前確率を$${1/m}$$と置けばよい。
最後に選択停止について考える。データの取得プロセス、例えば追加取得等の選択によって有意水準が変わってしまうのがNHSTであったが、ベイズにおいては尤度原理に則している限り、つまり前述のデータの二度漬けをしていない限り、推論は変わらない。つまりデータの取得をいつやめても、追加でいくらデータを集めても推論(例えば事後オッズ比)は変わらない。一貫した推論を行っている以上、データから得られる情報は収集のプロセスに依存しないのである。これに関しては、よくベイズは結論が気に入らなかったらデータを好きに追加で収集できて、都合がよくなったらやめられるからズルであるという批判がある。しかしNHSTでも選択停止の調整を行えば追加でデータを集めてもよいように、データを多く集めること自体は悪いことではない。問題はNHSTにおいて追加でデータを集める選択を行った場合に、有意水準が変わって棄却するかが変わってしまうことを知らない(もしくは正しい調整方法を知らない)研究者がいることである(追加でデータを集めることを慎重であると形容する研究者もいるとのこと)。ベイズではデータを追加で集めても推論は変わらないので、そういう意味ではNHSTと比較してフールプルーフに近いと言えるだろう。仮説に都合のいいようにデータの収集をやめることは、ベイズにおいては技術的な問題ではなくあくまで研究倫理の問題である。言うならば、ベイズにおいてはデータがあればあるほど、つまり情報が多ければ多いほどより確実な意思決定ができるわけであり、わざわざ少ないデータで推論をすれば(それが自分の仮説に都合がよくても)、それは自分自身を騙しているにすぎない。
NHSTの問題点として挙げた諸問題の複雑さに対して、ベイズにおける解決法があまりにシンプルであると拍子抜けしてしまうかもしれない。しかしベイズはそもそも一貫した意思決定を目指した考え方であり、よくアドホックである(データの仮定やプロセスによって行うことが大きく変わる)と批判されるNHSTとは土台から違い、そもそも問題ですらないことは不思議ではない。存在しない漸近的なデータに依存するNHSTと異なり、ベイズにおいての意思決定とは既存のデータでより合理的な意思決定を目指すことであり、ゆえに既存のデータだけで推論を行う。したがって追試実験や追加のデータは再現性の有無を確かめるためのものではなく、ベイズの枠組みでは推論の不確実性を減らすための貢献なのである。それによって最初の結果の推論と違う結論に達したとしても、ベイズの枠組みにおいてはより確実な意思決定を行う上での必要なプロセスでしかない。
もちろんベイズであればすべてが魔法のように解決されるわけではない。ベイズ推論を行う上で必要な事前確率/分布の設定やモデルの仮定の妥当性、モデル選択や統合の方法などは簡単ではない。しかし、前述の通り、NHSTにおける多くの問題においてはフールプルーフに近い解決法を与えてくれる。またベイズは主観的であるという批判もあるが、(意識的、無意識的な)選択が多く、それによって推論が変わるNHSTも過分に主観的であろう。そもそも統計分析は人が行う限り主観的であり、それが明示的であるベイズと非明示的な(研究者も気づかない場合が多い)NHSTという違いしかない。
最後に、ベイズ分析を行う上で無情報事前分布を置くことによって客観性をアピールする研究者がいるが、これについていくつか注意点がある。まず無情報事前分布、もしくは客観事前分布は客観的ではない。例えば事後分布のカルバックライブラー情報量を最大化するような事前分布を客観事前分布としたり、無限に階層構造をもつ事前分布を客観事前分布としたりするが、この条件の設定は十分に主観的である。実際に客観事前分布の研究が下火になったのは客観的な客観性の定義が存在しないことによる。もちろん、ある種の参考(例えば情報事前分布とどのくらい乖離があるか確認するなど)として使うのは問題ないが、これを客観的と考えるのは間違いである。
次に周辺化パラドクスの問題が存在する。これは非正則事前分布(例えば無限の範囲をもつ一様分布)を使いモデル/仮説の比較を行うときに起こる現象だが、周辺尤度が一意に決まらず、ベイズファクターが求められない。事前分布が非正則であっても事後分布は正則になるが、それでもベイズファクターは求められない。これは尤度を求める段階でパラメータを積分したときに、非正則なために生じる問題である。そのため、非正則事前分布を使ってベイズファクターや事後オッズ比は求められない。他のいわゆる客観事前分布に関しては、例えばジェフリーズ事前分布はデータの二度漬けを行っているので、その使い方には要注意である。
その一方で、情報事前分布に関して忌避する傾向もあるが、情報事前分布(例えば弱情報事前分布)を使うことは理論的にも実用上でも無情報/客観事前分布に勝ることが知られている。問題は特定のデータ分析においてその事前分布が正当化できるかである。ベイズにおいてどういった情報を使うかは自由だが、前述の通り、データの二度漬けになってはならない。したがって、別の実験結果を事前分布に使うことも背景情報を使うことも十分に正当化でき、科学的にも問題はない。逆に重要な情報をもっているのに使わないほうが科学的に問題と言えよう。データ分析をするうえでは事前に複数の(客観的、主観的)事前分布、モデルを想定して(できればプレレジストレーションして)それを俯瞰的、統合的に考えるのがメタベイズの観点からもよりよい分析態度と言える(メタベイズの考え方に関してはMcAlinn & West (2019)、Sugasawa et al. (2023) を参照されたい)。
References
McAlinn, K., & West, M. (2019). Dynamic bayesian predictive synthesis in time series forecasting. Journal of Econometrics, 210, 155–169. https://doi.org/https://doi.org/10.1016/j.jeconom.2018.11.010
Sugasawa, S., Takanashi, K., & McAlinn, K. (2023). Bayesian causal synthesis for supra-inference on heterogeneous treatment effects. arXiv preprint arXiv:2304.07726 https://arxiv.org/abs/2304.07726
マクリン 謙一郎 (2022). 再現性問題における統計学の役割と責任 経済セミナー, 726, 49–57.
大久保 祐作・會場 健大 (2019). p値とは何だったのか―Fisherの有意性検定とNeyman-Pearsonの仮説検定を超えるために― 生物科学, 70, 238–251.