第4回 重回帰分析を適用する際の留意点(関西学院大学社会学部教授:吉田寿夫) #偏回帰係数についてあらためて考える
重回帰分析を適用する際の留意点
ここでは,標記のこと(および,それに関連した現実の適用における問題点)に関して,(標準)偏回帰係数の解釈ということとの関わりが強いであろうことに絞って,4つの項目に分けて論述します。[1] 重回帰分析を適用する際の留意点に関して認識しておく必要性が高いと思われることは他にも多々ありますが,それらについては,吉田(2018c)や吉田・村井(2021)を参照してください。[2] なお,以下では,特に付す必要があると考えられる場合を除いて,標準という言葉を付けずに,単に偏回帰係数と記します。
どのような変数を同時に分析に組み入れるかについて熟考すること
各説明変数の偏回帰係数の値は,どのような説明変数を同時に分析に組み入れるかによって異なるとともに,その異なり方は,場合によっては非常に顕著なものになります(具体例については,吉田,2018cの111~112ページを参照してください)。そして,このことには,繰り返し記してきた「偏回帰係数は,各説明変数そのものの基準変数との関わりの様相を示している指標ではなく,“他の説明変数の値のわりに当該の説明変数の値がどの程度大きい(または,小さい)か”という変数の基準変数との関わりの様相を示しているものである」ということが関わっています。すなわち,「“他の説明変数の値のわりに当該の説明変数の値がどの程度大きい(または,小さい)か”という変数の意味は,この“他の説明変数”の内容によって異なる」ということです。
以上のことから,当然のことではありますが,見出しとして記したように,どのような変数を(説明変数および統制変数として)同時に分析に組み入れるかについて熟考することが重要になります。そして,この熟考をする際のことに関して,心理学的研究のほとんどがそうである「説明・因果関係の探究を目的として用いる場合」に限定して述べるならば,想定される因果関係を踏まえて取捨選択をすることが,もっとも基本的で重要な点になると思います。
具体的には,先に述べた「ある説明変数の基準変数に対する因果効果を捉えることが目的であるならば,その説明変数にとって交絡変数となる変数は,全て(現実には,できる限り)分析に組み入れなければならない」ということと「ある説明変数の基準変数に対する(全体的な)因果効果を捉えることが目的であるならば,その説明変数が基準変数に影響を及ぼす過程に介在している媒介変数となる変数は,分析に組み入れてはならない」ということを踏まえておく必要があると思います。そして,諸変数間の因果関係について考える際には,「想定しているものとは逆方向の因果関係が存在していないか」ということに留意する必要があると思います(これには,「原因と結果が逆ではないか」という場合と「($${x \rightarrow y}$$の影響と$${y \rightarrow x}$$の影響がともに存在している)双方向的因果関係ではないか」という場合があります)。
また,「想定される因果関係を踏まえて取捨選択をする」ということ以外のこととして,「同じ概念変数についての異なる指標変数(すなわち,同じ1つの心理的構成概念を反映したものだと考えられる複数の観測変数)の同時投入は禁物である」ことにも留意しておくべきだと思います(なぜならば,互いを一定に統制することによって,その変数自身だとも言えるであろう,本来取り除くべきではない各変数の中の成分を取り除くことになるからです)。
以上のように,「一定に統制すべき変数を見落としてはいないか」ということ,および,「一定に統制すべきではない変数を(同時に)組み入れてはいないか」ということについて慎重に考えることが重要になりますが,吉田・村井(2021)で論じたように,審査をパスしたものであるにもかかわらず,公刊されているほとんどの論文において,「どのような考えのもとに重回帰分析を行なっているのか,各変数の間にどのような因果関係を想定して適用しているのか」といったことに関する(十分だと考えられる)記述が見られません。そして,上記の「交絡変数は,できる限り分析に組み入れなければならない」,「媒介変数は組み入れてはならない」,「想定しているものとは逆方向の因果関係が存在してはならない」といった基本的な事柄を踏まえていないと推察される事例が遍在しています。
それから,岡太・古谷野(1993)は,「基準変数と概念的に同一もしくは近縁の変数を説明変数に用いること」を誤りであると論じていますが,吉田・村井(2021)で論じたように,この(多分に自明な)ことに触れる,説明変数と基準変数が概念的に近縁の(ないし,重複している)ものだと考えられる事例も存在しています(ただし,これは重回帰分析を適用するか否かに関わりなく該当する基本的な問題だと思います)。さらに,「基準変数が2つあって,それぞれに関して別々に分析が行なわれているケースにおいて,その内の一方が他方を基準変数とした重回帰分析における統制変数として組み入れられている」という,どのような考えに基づくものなのか,論文において説明がまったくなされていないとともに,妥当であろう論拠が推察できない事例も存在しています。
多重共線性の問題に囚われすぎないこと[3]
説明変数の数が2である場合で例示すると,各説明変数の標準偏回帰係数の計算式は分数の形で表わされ,その分母は$${1-r_{12}^2}$$になります。そして,このことから推察されるように,説明変数間に非常に強い(直線的な)関係があって,説明変数間の相関係数の絶対値が1に近い値である場合には,分母が0にかなり近い値になるために,分子の値の小さな違いが(標準)偏回帰係数の値を大きく左右することになります。すなわち,「説明変数間に強い関係があると偏回帰係数の値が不安定になる」ということであり,このような状態は,多重共線性と呼ばれて,問題視されています。
一般に,多重共線性が疑われる場合には,強い関係にある2つ(以上)の説明変数の一方(ないし,多く)を分析に組み入れないことにしたり,それらの説明変数の値を足したり引いたりすることによって1つ(ないし,少数)の合成変数を構成し,それ(ら)を組み入れたりします。しかし,以下に述べるように,筆者は,説明変数間に強い関係があるからといって機械的にこのような手続きを採ることは望ましくないと思っています。
確かに,多重共線性の問題に無頓着なのは不適切であろうし,強い関係にある説明変数が内容的に多分に重複したものであり,互いに他を一定に統制することが妥当でないと判断されるのであれば,上記のような一般的手続きに沿った分析を行なうことは,通常,適切だと考えられます。しかし,一方で,筆者は,重回帰分析の適用は,元来,説明変数間に関係があるからこそなされるものだと思うとともに,現実に,多くの説明変数は関係し合っているであろうと思っています。すなわち,重回帰分析の適用は,元来,説明変数間になんらかの関係があることにより攪乱されていて見いだされなくなっている可能性がある関係を探り(えぐり)出したり,不当に(ないし,見かけ上)示されている関係について,そうであることを暴いたりするために行なわれるものであり,このような「単相関係数について検討するだけでは見いだせない(ないし,誤認することになる)」事象に迫ることになるケースであるからこそ,面白みや有用性があるのだと思っています。
最たる例は,たびたび取り上げたパソコンの購入に関わるものであり,表3に提示したデータでは,説明変数である各パソコンの性能と価格の単相関係数は .97という非常に大きな値でした。したがって,このデータは,説明変数同士に非常に強い相関関係があるケースであることになります。また,「それぞれの説明変数」と「基準変数である購入意思」との単相関係数は -.08と -.32でした。ですから,「説明変数同士に非常に強い相関関係があるから」ということでいずれかの説明変数を組み入れなかったら(言い換えれば,各々単独で基準変数との関わりについて検討したら),基準変数の変動をほとんど説明できないことになります。しかし,両者を同時に組み入れた重回帰分析を行なうと重相関係数が1になり,性能と価格によって購入意思の変動が完全に説明できることになります(すなわち,「両者を同時に組み入れた重回帰分析の適用が非常に有効であった」ということです)。
以上のことから,多重共線性の問題に過度にナイーブになり,上記のような一般的手続きを機械的に採るのは望ましくないと思います。
なお,「重回帰分析の前提条件として,説明変数間に相関がないことが求められる」とか「重回帰分析を行なう際には,説明変数は相互独立(無相関)でなければならない」などといったことを記している統計書が複数存在していますが,以上のことから分かるように,これはミスリーディングな叙述だと思います。それに,「標準偏回帰係数」という項に記したように,そもそも,説明変数同士の相関係数が全て0であれば,各説明変数の標準偏回帰係数はその説明変数と基準変数の単相関係数と一致するとともに,重相関係数の2乗は各説明変数と基準変数の単相関係数の2乗和になるので,重回帰分析を行なう必要はないと思います。
それから,現実の適用では,「他の変数を統制しても当該の説明変数に効果があると言えるか」といった問いについて検討する(消極的な?)ものがほとんどであり,先に記したような「他の変数の関わりによって攪乱されて単相関係数では見いだされなくなっている関係をえぐり出そうとしている(積極的な?)ものがほとんど見られません。「個人的な思い」といった類いの主張ですが,このような「妥当かつ積極的な適用」だと言えるであろう機能を有効に活かした検討が多数行なわれることを期待します(このことは,重回帰分析だけでなく,偏相関係数の活用などにおいても同様に該当することです)。
「そもそも重回帰分析を適用する必要があるのか」,「各説明変数と基準変数の関係を,常に(標準)偏回帰係数(のみ)に基づいて記述し解釈するのは適切か」ということについて考えてみること[4]
繰り返し記してきたように,重回帰分析における偏回帰係数は,他の説明変数の値を一定に統制したときの当該の説明変数と基準変数の関係,言い換えれば,「他の説明変数の値のわりに当該の説明変数の値がどの程度大きい(または,小さい)かという変数」ないし「当該の説明変数の中の,他の説明変数によっては説明されない成分」と基準変数の関係を記述したものであり,その説明変数そのものと基準変数の関係を記述したものではありません。ですから,パソコンの購入意思に関わる例で言えば,「各パソコンの性能と価格を説明変数とした重回帰分析における性能の偏回帰係数は,“各パソコンが価格のわりにどの程度性能が良いか(ないし,良くないか)”ということと購入意思の関係を記述したものであり,価格の偏回帰係数は,“各パソコンが性能のわりにどの程度価格が高いか(ないし,安いか)”ということと購入意思の関係を記述したものである」ということになります。そして,前者で言えば,「価格は変わらずに,性能が良くなった(ないし,悪くなった)ときに,購入意思がどのように変わるか」ということについて検討することが目的(ないし,重要)であるならば,重回帰分析の適用は適切であることになるでしょうが,そうではなく,性能が良くなることに伴って価格が変わり(高くなり),それに応じて購入意思が異なる(弱まる)ことになる部分も含めた「性能と購入意思の関係」について検討することが目的であるならば,(価格を統制したものではない)性能と購入意思の単相関係数に基づいて解釈するのが適切だと考えられます。一方,後者で言えば,「性能は変わらずに,価格が高くなった(ないし,安くなった)ときに,購入意思がどのように変わるか」ということについて検討することが目的(ないし,重要)であるならば,重回帰分析の適用は適切であることになるでしょうが,そうではなく,価格が高くなることに伴って性能が変わり(良くなり),それに応じて購入意思が異なる(強まる)ことになる部分も含めた「価格と購入意思の関係」について検討することが目的であるならば,(性能を統制したものではない)価格と購入意思の単相関係数に基づいて解釈するのが適切だと考えられます。
また,$${\negthinspace\textbf{\textit{x}}_\textbf{1}}$$ないし$${\textbf{\textit{x}}_\textbf{2}}$$の標準偏回帰係数が0に近い値である(または,統計的に有意な値ではない)からといって,それは,「$${\textbf{\textit{x}}_\textbf{1}}$$が($${\textbf{\textit{x}}_\textbf{2}}$$からみて)独自には$${\textbf{\textit{y}}}$$と関係していない」ないし「$${\textbf{\textit{x}}_\textbf{2}}$$が($${\textbf{\textit{x}}_\textbf{1}}$$からみて)独自には$${\textbf{\textit{y}}}$$と関係していない」ことを示しているのであり,このような結果のみから,「$${\textbf{\textit{x}}_\textbf{1}}$$ないし$${\textbf{\textit{x}}_\textbf{2}}$$そのもの(言い換えれば,それぞれが他方と関係している部分を含めた$${\textbf{\textit{x}}_\textbf{1}}$$および$${\textbf{\textit{x}}_\textbf{2}}$$の全体)が$${\textbf{\textit{y}}}$$と関係していない」と解釈するのは適切ではありません(たとえば,$${\negthinspace x_1}$$と$${x_2}$$の単相関係数も$${x_1}$$と$${x_2}$$の各々と$${y}$$との単相関係数も大きな正の値である場合には,$${\negthinspace x_1}$$と$${x_2}$$の標準偏回帰係数の両方ないし一方が0に近い値になることが多分にあり得ます:データの具体例については,吉田,2018cの91ページの図2-8の(d)を参照してください)。
以上のことから,「他の説明変数を一定に統制したうえで検討する必要があるケースなのかによって重回帰分析を行なうことの適切性が異なることを踏まえておく必要がある」と言えるでしょう。また,この「他の説明変数を一定に統制したうえで検討する必要があるケース」というのは,「“他の説明変数の値のわりに当該の説明変数の値がどの程度大きい(または,小さい)か”という変数の意味づけが可能だと考えられるケース」とも言えると思います。すなわち,たとえば,上記のパソコンの購入に関わる例における「各パソコンの価格から性能を予測する際の予測の誤差」である「各パソコンが価格のわりにどの程度性能が良いか(ないし,良くないか)」という変数は,「各パソコンのコスパの良さを表わすものである」という意味づけが可能であり,このような変数であれば,購入意思をより良く予測ないし説明することも了解可能だと思います(「価格が変わらずに性能が良くなる」ということは「コスパが良くなった」ことをより純粋に表わしているでしょうが,性能が良くなっても,それに伴って相応に価格が上がるのであれば,「コスパが良くなった」ことにはならないはずです)。しかし,多くの場合には(また,同時に組み入れる説明変数の数が多くなるほど)「他の説明変数の値のわりに当該の説明変数の値がどの程度大きい(または,小さい)か」という変数の意味づけは困難であり,標準偏回帰係数に基づく解釈も有用ないし適切ではなくなると思います。そして,これらのことから,「説明変数が複数ある場合には,常に重回帰分析(のみ)」というのは短絡的であり,「標準偏回帰係数よりも,単相関係数に基づいて解釈する方が適切であることもある」とともに,「重回帰分析を行なう際にも,各説明変数と基準変数の単相関係数の値なども踏まえて考察をすべきである」と思います。
なお,実際に行なわれている研究において散見される,以上のことに関わる問題として,「斜交解の因子分析の結果に基づいて構成された,1つの構成概念に関わる複数の下位尺度の得点を説明変数として同時に投入することの是非」ということがあります(該当する研究例については,吉田・村井,2021を参照してください)。1つの構成概念に関わる項目群に関して斜交解の因子分析を行なうということは,通常,そこで抽出される複数の下位概念の各々がなんらかの共通の成分を有していることを想定している(言い換えれば,下位尺度の得点間の関係は,それらの間に原因・結果の関係が存在するからではなく,それらの概念を構成する成分に重複部分があるからだと考えている)ことになると思います。ですから,このような場合には,他の下位概念と関係していない(当該の下位概念独自の)成分なるものは(他の下位概念と関係している成分,すなわち他の概念と重複している成分,を含んだ)当該の変数そのものとは異なる意味を持つ,測定の内容的妥当性に関わる観点の1つである領域代表性の面で問題があることになるものになってしまうと考えられます。[5] そして,そのため,重回帰分析における偏回帰係数に基づいて各説明変数と基準変数の関係について検討することの妥当性に関して特に問題視する必要があるものと考えられます(このような場合には,1つ前の段落に記した「“他の説明変数の値のわりに当該の説明変数の値がどの程度大きい(または,小さい)か”という変数の意味づけ」も困難だと思います)。
それから,吉田・村井(2021)では,以上のことと関連しているものとして,「“$${\negthinspace x_1}$$は$${x_2}$$を上回るほどの予測力を持つか”という問いや“$${x_1}$$は$${x_2 \negthinspace }$$,$${x_3 \negthinspace }$$,$${x_4}$$よりも$${y}$$と関連しているか”という問いに関して,$${x_1}$$の標準偏回帰係数に基づいて解釈・判断を行なっている研究」も批判的に取り上げました。なぜこのような研究を問題視したのかというと,$${\negthinspace x_1}$$の偏回帰係数は,$${\negthinspace x_1}$$の基準変数との(他の説明変数からみた)独自の関係(の方向や程度)を示すものであり,「他の説明変数の基準変数との関係」と比べた「$${x_1}$$の基準変数との関係」(の強さ)を示しているものではないからです。すなわち,上記のような問いであるならば,偏回帰係数に基づいて検討を行なうのではなく,「$${x_1}$$と基準変数の単相関係数」と「他の説明変数と基準変数の単相関係数」を比べることを通して検討すべきだと思います。
因果関係に関して不当な解釈をしないこと
これまた当然のことながら,収集したデータを分析し,結果を解釈する際にも,諸変数間の因果関係についてあらたまって熟考することが重要であり,過度の意味づけ(ないし,一面的な解釈)や誤った論理による解釈をしないように留意する必要があります。
もう少し具体的に説明します。
まず,もっとも基本的なこととして,「(無相関であることも含む)ある1つの相関関係の生起に介在していると考えられる因果関係は,多くの場合いくつもある」ということを強く認識しておく必要があると思います。すなわち,安易に思考終止をすることなく,想定しているものとは逆方向の因果関係および双方向的因果関係の存在,擬似相関ないし擬似無相関の発生(言い換えれば,隠れた交絡因の存在),一方の他方への直接効果と間接効果の存在などを踏まえた,多面的で柔軟な見方をする必要があるでしょう。そして,各説明変数の標準偏回帰係数(の絶対値)は,その説明変数の基準変数に対する規定力の指標だと考えられがちですが,上に列記したことを踏まえるならば,それは,本来,数式上の事象であり,「当該の説明変数が基準変数に及ぼす影響の強さ(すなわち,因果効果の大きさ)を表わしている」などと短絡的に考えることは禁物です。
しかし,吉田・村井(2021)で論じたように,この当然のことを踏まえていないと推察される,(他の解釈も多分に可能であるにもかかわらず)「○○が××に影響を及ぼすことが示された」とか「○○が××を規定していることが明らかになった」などといった解釈のみをしている研究が遍在しています。また,先に記した「$${x_1}$$の$${y}$$に対する($${x_2}$$と関係している部分も含めた,全体的な)因果効果を捉えることが目的であるならば,$${x_1}$$が$${y}$$に影響を及ぼす過程に介在している媒介変数である$${x_2}$$は,分析に組み入れてはならない」ということを踏まえていないと推察される解釈をしている研究も遍在しています。これは,$${x_1 \rightarrow x_2 \rightarrow y}$$という因果連鎖が想定されるケースにおいて,$${x_1}$$と$${y}$$の単相関係数が0ではないと判断される値で,$${x_1}$$の標準偏回帰係数が0に近い値になっているときに,「$${x_1}$$は$${y}$$に影響を及ぼしていないことが示された」などといった解釈をしているものであり,「このような結果は,“$${x_1}$$は($${x_2}$$からみて)独自には$${y}$$に影響を及ぼしていない”ことを示してい(るとし)ても,“$${x_1}$$が$${y}$$になんらの影響も及ぼしていない”ことを示しているものではない(というよりも,上記の因果モデルもとでは,間接効果を有している)」と考えられることから,論理的過誤だと言える解釈であることになると思います。
それから,「○○は××の変化を予測するか」という(予測を目的とした研究であることを示している)タイトルであるにもかかわらず,「○○は××を促進させることが確認された」といった,因果関係を特定していることになる考察をしていたり,「○○の効果のみが××を有意に予測していた。つまり,○○のみが××に有意な影響を及ぼしていた」という記述をしていたりする,予測と(因果関係の探究を主とした)説明という,重回帰分析を適用する2つの主な目的の違いを踏まえずに,それらをごっちゃにして論じていると考えられる研究も遍在しています。
なお,横柄な物言いになってしまうかと思いますが,以上のような現状には,不当な認識を促す(言い換えれば,悪しき現状を追認し,そのような現状を拡散させていると考えられる)ミスリーディングな統計書の存在が強く関わっているように思われます。ですから,容易なことではないでしょうが,統計書などを読む際にも,書かれていることを鵜呑みにするのではなく,「なぜそのように言えるのか」や「本当にそうだと言えるのか」といったことをじっくりと考える,クリティカル・シンキングを働かせることが大切だと思います(もちろん,本稿やCMを多々させていただいている拙著を読む際にも同様であり,筆者が気づけていないだけで,拙著にも誤知や無知,うっかりミスに伴う不当な記述などが存在している可能性はあると思っています)。
それから,先に「(無相関であることも含む)ある1つの相関関係の生起」という記述をしましたが,これは,1つには,パソコンの購入に関わる例や学習方略の使用に関わる例を提示して説明した擬似無相関のケースを想定してのことです。しかし,「本当は2つの変数の間になんらかの因果関係が存在するにもかかわらず,単相関が無相関になるケース」はそれだけでなく,他にも次のようなものがあり得ると思います(もちろん,「相関図が横軸または縦軸に平行ななんらかの直線を軸とした線対称な様相になる,非直線的な関係が存在するために,相関係数が0に近い値になる」などといった場合を除いてのことです)。
1)直接効果と間接効果が逆の現象を生じさせるものであるために,それらが相殺されて,全体としては無相関になるケース
これは,たとえば,「オートバイに乗る際のヘルメットの装着は,直接的には死亡や重傷に至る重大事故の発生を減らすことにつながる一方で,“ヘルメットを装着したために安心してしまい,それがスピードの出しすぎなどの危険な運転を促し,重大事故が増える”という間接効果も存在するために,それらが相殺されて無相関になる」というようなものです(他の例については,吉田,2018cの44ページを参照してください)。
2)「$${\textbf{\textit{x}} \rightarrow \textbf{\textit{y}}}$$の因果関係によって生じる現象」と「$${\textbf{\textit{y}} \rightarrow \textbf{\textit{x}}}$$の因果関係によって生じる現象」が対称的なものであるために,それらが相殺されて,表面的には関係が示されないケース
双方向的因果関係に関しては,通常,「膝が痛む程度($${\hspace{-.5pt} x \hspace{-.5pt}}$$)と肥満度ないし体重($${\hspace{-.5pt} y \hspace{-.5pt}}$$)の関係において,膝が痛いから(運動をしなくなって)太るとともに,太ったから(負荷がかかって)膝が痛くなる」などというように,$${x \rightarrow y }$$と$${y \rightarrow x}$$ のいずれの方向の影響も同様の現象を生じさせるものである場合が想定されているものと思います。しかし,そうではなく,「どちらが原因でどちらが結果であるかによって生じる現象が逆になるために,両方の影響が同程度に存在していると全体としては無相関になる」ということもあると思います。具体例は,一方の変数($${\hspace{-.5pt} x \hspace{-.5pt}}$$)が(飲食店などにおいて知り合いと会話をしているときの,会話相手ではない)周囲の他者に話を聴かれることを懸念する程度で,他方の変数($${\hspace{-.5pt} y \hspace{-.5pt}}$$)が話す内容の深さ(ないし,深刻さ)であるケースであり,$${x \rightarrow y}$$の因果である場合には「周囲の他者に話を聴かれることを強く懸念するほど深い話をしなくなる」というように負の相関関係が生じるのに対して,$${y \rightarrow x}$$の因果である場合には「話の内容が深いものになるほど周囲の他者に話を聴かれることを強く懸念するようになる」というように正の相関関係が生じるものと考えられます(実際,筆者が関わった卒業論文において,このようなことを示唆するデータが得られています)。また,脂肪肝の程度と飲酒量の関係や(新型コロナウイルスへの感染が流行し始めてから5類への移行がなされるまでの期間における)都心を歩いている人の数と感染者数の関係なども該当例だと考えられます(それぞれの例において$${x \rightarrow y}$$の場合と$${y \rightarrow x}$$の場合に生じる関係の様相がどのようになるであろうかに関しては各自で考えてみていただければと思いますが,前者の自虐的な例は,10年くらい前に8ヶ月で17kgくらいの減量をした前後における筆者の個人的な体験に基づいて思いついたものです)。
最後に
これが最後の項ですが,まず,「えっ,今までの話はなんだったの」と言われそうなことを記します。それは,「結局,多くの場合,説明・因果関係の探究を目的とした研究における重回帰分析の適用は禁物ではないか」ということです。
Pedhazur(1997)は,「全ての説明変数を並列的に捉え,それらの間に特定の因果関係を想定していないことになる統計モデルである重回帰分析は,因果関係の探究・確立を放棄しているものであることになる」といったことを述べています。また,黒木(2017)も,伝統的な線形回帰分析の問題点として,「処理変数(説明変数),中間変数(媒介変数),共変量(統制変数)が同じ説明変数として平等に扱われている」ことを指摘しています。これらは,いずれも「御意」という言葉を思い起こしてしまうもっともな主張であり,説明・因果関係の探究が目的であれば,研究者が想定した因果モデルがデータが示している(現実に生じている)諸変数間の関係にフィットしている程度や,そのモデルにおける各パスの強さなどを推定するためのものである,パス解析やそれを包括するものであるSEMなどを適用すべきであろうと思います(正直に言うと,このように思うようになったのは最近ですが)。
ただし,だからと言って,話者は,SEMの適用を積極的に推奨しているわけではありません。それは,実際には,「SEMを適用したからといって因果関係が明らかになるわけではなく,SEMを適用する際には,深い洞察に基づいて慎重に因果モデルについて考えるという,“言うは易し,行なうは難し”であることが必要ないし重要になる」と思っているからです。また,殊に心理学的研究においては,種々の変数間の因果関係を特定し,広範なことを考慮した因果モデルを構築することは,極めて困難だと思っています(特に,想定しているものとは逆方向の因果関係が存在する可能性や隠れた交絡因が存在する可能性に関する問題の顕現性は非常に高いと思います)。そして,そうであるにもかかわらず,少なくとも心理学的研究においては,「深い洞察に基づいて慎重に因果モデルについて考えることをせずに,かつ,多くのデータが容易に収集できる自己報告型の質問紙法(のみ)によって測定を行ない,数学的には高度であろう分析法を用いて,常識的なものにすぎないと考えられる因果関係を(安易および不当に)主張していると言えるであろう研究が散見される」という現状が遍在し,このようなSEMを適用することによって生じている現実の弊害は,話者の管見の限りでは,看過しがたいものだと思っています(「じゃあ,どうしろと言うのか」と言われそうなネガティブな主張ばかりで,すみません)。[6]
吉田・村井(2021)にも記したように,殊に心理学的研究においては,「観察研究のデータのみに基づく因果関係の確立は不可能である」という基本的かつ根本的なことを肝に銘じておく必要があると思います。そして,岩崎(2015)が因果関係の探究に関して『我々は,それが厳密にはできないまでも最善を尽くす必要がある』と述べているように,これまで記してきたことをしっかり踏まえたうえで,できる限り的確に因果関係の探究を行なおうとすることが重要だと思います。机上の理想論かもしれません。しかし,筆者には,報告されている研究(の多く)から推察される現実の姿勢が「最善を尽くす」という理想からあまりにも乖離しているように思えてなりません。[7]
脚注
各項目で論じることは排他的な事柄ではなく,多分に相互に関連しています。
この「認識しておく必要性が高い他の事柄」の中でも,標準偏回帰係数の差について不当な判断がなされていることは,非常に遍在性が高いものです。しかし,この問題は,標準偏回帰係数の差だけでなく,相関係数の差などにも該当することであるとともに,標準偏回帰係数の解釈よりも,統計的検定の適用および解釈に強く関わる事柄であるため,本稿では割愛します(詳しくは,吉田,2018aの167~176ページ,吉田,2018cの119~120ページを参照してください)。また,相関的研究における変動因の問題は,因果関係について議論する(すなわち,見いだされた現象がなぜ生じたのかについて考える)以前に,データが示している相関関係(すなわち,見いだされる現象)が実際に捉えるべきものとは異なっている可能性が高いことを指摘した,心理学的研究を行なううえで極めて重大な事柄であるとともに,実際に行なわれているほとんどの研究に該当する遍在性が非常に高い問題です。しかし,偏回帰係数の解釈のみに関わることではないとともに,重回帰分析を適用している研究に限定されない広汎な問題であるため,これについても本稿では割愛します(ですが,「接近可能性が高い状態で認識しておいていただきたい」と特に強く思う事柄ですので,南風原,2005,吉田,2002,吉田,2018cの3章などを是非読んでいただきたいと思っています:説明しないのに勿体ぶった記述をし,すみません)。
この項に記すことは,「どのような変数を同時に分析に組み入れるかについて熟考すること」という前項に含めても良いと考えられる事柄です。
筆者は,この(長ーい)見出しにおける「偏回帰係数」という箇所に関しては,「偏回帰係数や部分相関係数の2乗」と記した方が良いと思っており,実際,吉田(2018c)の115ページでは,そのように記しています。そして,(一般に解釈の対象になっている)標準偏回帰係数よりも,部分相関係数の2乗という値の方が,「基準変数の変動の説明における各説明変数の独自の関わりの大きさ」といったことの指標としては分かりやすくて有用であり,もっと注目されるべきだと思っています。しかし,本稿では,「そもそも部分相関係数というものがどのようなものであるか」や「重回帰分析において部分相関係数の2乗という値がどのような意味を持っているのか」といったことについてまったく説明していないので,「なぜ上記のように考えているのか」については,「部分相関係数(の2乗)とは」ということと合わせて,吉田(2018c)の1章および2章を読んでいただくことに委ねたいと思います。中途半端なことで,すみません。
「測定の内容的妥当性に関わる観点の1つである領域代表性」ということに関しては,吉田(2018b)の68~70ページを参照してください。
この段落に記したことの詳細については,「SEMは心理学に何をもたらしたか?」というタイトルのシンポジウム(吉田・村井・宇佐美・荘島・小塩・鈴木・椎名,2020)において筆者が企画者の1人として話題提供をした際に配付した資料である添付の資料および吉田(2018c)の49~57ページを参照してください。
「では,観察研究ではなく実験的研究であれば因果関係の確立が完全に可能か」ということについては,本稿の目的外であるので,論じることはしないでおきますが,筆者は,種々の理由から,実験的研究を行なったからといって「想定している因果関係の存在が完全に実証された」などと言い切れるわけではないと思っています。
引用文献
南風原 朝和 (2005). 統計学と心理学 ―個を重視する統計学の観点から― 下山 晴彦(編) 心理学論の新しいかたち (pp.139-160) 誠信書房
岩崎 学 (2015). 統計的因果推論 朝倉書店
黒木 学 (2017). 構造的因果モデルの基礎 共立出版
岡太 彬訓・古谷野 亘 (1993). 多変量解析法の不適切な利用 理論と方法,8,169-182.
Pedhazur, E.J. (1997). Multiple regression in behavioral research: Explanation and prediction (3th ed.). Fort Worth, Texas: Harcourt Brace College Publishers.
吉田 寿夫 (2002). 研究法に関する基本姿勢を問う ―本来の姿ないし基本に戻ろう― 下山 晴彦・子安 増生(編) 心理学の新しいかたち ―方法への意識― (pp.73-131) 誠信書房
吉田 寿夫 (2018a). 本当にわかりやすい すごく大切なことが書いてある ごく初歩の統計の本 補足Ⅱ 北大路書房
吉田 寿夫 (2018b). 本当にわかりやすい すごく大切なことが書いてある ちょっと進んだ 心に関わる 統計的研究法の本Ⅰ 北大路書房
吉田 寿夫 (2018c). 本当にわかりやすい すごく大切なことが書いてある ちょっと進んだ 心に関わる統計的研究法の本Ⅲ 北大路書房
吉田 寿夫・村井 潤一郎 (2021). 心理学的研究における重回帰分析の適用に関わる諸問題 心理学研究,92,178-187.
吉田 寿夫・村井 潤一郎・宇佐美 慧・荘島 宏二郎・小塩 真司・鈴木 雅之・椎名 乾平 (2020). 日本教育心理学会研究委員会企画シンポジウム1 SEMは心理学に何をもたらしたか? 教育心理学年報,59,292-303.
添付資料
吉田・村井・宇佐美・荘島・小塩・鈴木・椎名(2020)での配布資料
https://www.kanekoshobo.co.jp/files/note/2023/sp_4/no_ex/Appendix.pdf