第1回 回帰分析の基礎(関西学院大学社会学部教授:吉田寿夫) #偏回帰係数についてあらためて考える
まえがき
「重回帰分析やSEM(structural equation modeling:構造方程式モデリング)における偏回帰係数の使われ方に関して,これまで数多くの解説や批判がなされてきたにもかかわらず不適切な適用が遍在している現状を鑑み,偏回帰係数の解釈に関する論述をしてほしい」という趣旨のご依頼を受けました。このようなことについては,すでに吉田(2018e)や吉田・村井(2021)において種々のことを論じており,それらとかなり重複したことを記すことになるとともに,拙著のCMになってしまう面が多分にあるものになると思われますが,詳しいことや具体的なことの一部についてはこれらの著書や論文などを参照していただくことにしながら,筆者の考えを述べていきます。
なお,読者になってくださる方々の既有知識や動機づけ,ニードなどに関して,どのような想定をし,それらを踏まえて,どのようなことを,どのように書き進めるか,筆者なりに悩みました。が,結局は,筆者の習性に従い,かなり基礎・基本的だと考えていることを含めて説明するとともに,多くの「すっきりしない」とか「くどい」とか「差し出がましい」と感じるであろう記述に対して,めげずに読んでくださる動機づけを持っていることを願って書き進めることにしました。また,単に「こうこうです」と結論のようなことだけを記すのではなく,「なぜ,そうだと言えるのか」について納得していただけるであろう説明・記述をするよう,筆者なりに心がけるつもりです。さらに,重要な点については,数値例を提示しながらの説明をすることによって,「そういうことか」と,より思っていただけるであろうものにするつもりです。そして,以上のことにより,偏回帰係数という1つの数値に関して説明するだけのものであるにもかかわらず,非常に大部の文章になるものと思います。覚悟して,忍耐強く&腰を据えてお読みいただければ幸いです(ただし,「なぜ,そうだと言えるのか」とか「具体的には,どういうことなのか」といったことについて知ってほしいけれども,偏回帰係数についての理解との直接的な関わりが弱いと考えられることに関しては,「拙著の○○ページを参照してください」といった記述をするだけで,本稿での記述はしないことにします)。
それから,いつもながらのことなのですが,筆者の文章は,一文が長いことが多いとともに,括弧書きが多いことや言い換えをしている箇所が多々あること,脚注が多いことなどのために,「くどい」とか「読みにくい」という印象を抱かれることになる可能性が高いと思います。ある程度は気をつけるつもりですが,「思いや考えが的確に伝わるように」という気持ちの表われであるとともに,筆者の個性であると寛容に捉えていただき,我慢して読んでいただければ幸いです。また,言葉の曖昧さや非絶対性ということについての過剰なまでの意識のもとに,「でも,だけど,…」というようにクリティカル・シンキングを働かせることが過度に(?)習慣化しているために,断定的な表現を使うことに抵抗や違和感を感じてしまい,すっきり,ないし,はっきりしない文になるであろう面も多々あると思います。すみません。ご承知おきください。
それでは,本題に入ります。
2つの変数の関係について検討する際に他の変数を一定に統制することの必要性
かなり前の話ですが,1995年に起きた阪神淡路大震災の少し後に,「2×4(ツー・バイ・フォー)工法(という新しい建築工法)で建てられた家は,そうではない既存の工法で建てられた家に比べて,倒壊率が低かった」というデータを提示して,「家を建て直すなら2×4工法の家を」という趣旨の宣伝をしているテレビCMが放映されていました。データに偽りはないとして,このような「工法という変数と倒壊したか否かという変数の関係」は,CMにおいて暗示されている「2×4工法で建てた$${\underline{\textrm{から}}}$$倒壊しにくく$${\underline{\textrm{なった}}}$$」という因果関係によるものだと断定できるでしょうか。筆者は,そうとは言い切れないと思います。なぜならば,上記の「新しい建築工法」ということを踏まえて考えてみれば推論されると思いますが,「2×4工法で建てられたということは比較的新しい家であり,2×4工法で建てられた家であれ,そうではない家であれ,新しい家は古い家よりもガタが来ていないので倒壊しにくい」と考えられるからです。すなわち,「上記の関係は,(何年前に建てられた家であるかという意味での)築年という第3の変数が工法と倒壊するか否かの両方の変数を規定しているために生じたものである可能性がある」と考えられるわけです。
以上のことを踏まえて,「同程度の築年ごとに2×4工法で建てられた家の倒壊率と既存の工法で建てられた家の倒壊率を比べる」というように,築年が2×4法工法で建てられた家と既存の工法で建てられた家で異ならないように統制して工法と倒壊したか否かの関係を検討したとします。このようなときに,「2×4工法で建てられた家は,既存の工法で建てられた家に比べて,倒壊率が低い」という関係が認められなくなるのであれば,「2×4工法で建てられた家は,既存の工法で建てられた家に比べて,倒壊率が低い」という現象は,築年という第3の変数が介在したものである可能性が高いことになるでしょう。これに対して,築年を統制しても同様の関係が認められるのならば,「築年という第3の変数が介在したことによるものではないか」という解釈はとりあえず否定できるでしょう(ただし,もちろん,これは築年という変数の介在が否定されただけであって,他の第3の変数が介在したことによるものである可能性が否定されたわけではありません)。
もう1つ,異なる類いのものを例示します。吉田・村山(2013)に基づくものです。
中学生に,「教科書,ノート,参考書などに書いてある重要語句,重要事項,定理,公式などを,ノートやカードなどに書き写す」,「教科書や問題集の問題を解いてみて,間違えたり,分からなかったりしたところを,もう一度解いてみる」,「学習する内容の間の関係に注目しながら勉強する」などといった学習方略(いわゆる勉強法)について,定期テストの数日後に,以下のような3つの質問をしたとします。
使用の程度
各方略が,数日前に実施された定期テストのために自身が行なった勉強方法に,どの程度当てはまるか(選択肢は,①まったく当てはまらない,②少し当てはまる,③わりと当てはまる,④かなり当てはまる,⑤ものすごく当てはまる,の5段階)(意味理解にとっての)有効性の認知
各方略が,数日前に実施された定期テストの範囲のような学習内容をしっかり理解して「よくわかった」とか「納得できた」などと思えるようになるために,どの程度有効だと思うか(選択肢は,使用の程度の場合と同様の副詞を用いた,「①まったく有効ではない」~「⑤ものすごく有効」の5段階)コスト感
各方略で勉強すると,どの程度面倒だと思うか(選択肢は,「①まったく面倒ではない」~「⑤ものすごく面倒」の5段階)
評定の対象となった学習方略は20個であり,表1は,ある1人の生徒から得られたデータをまとめたものだとします(表中の値は,上記の各選択肢に付してある①~⑤の数値に対応しています)。
さて,まず,「一般に,有効だと強く思っている方略ほどよく使用しているであろう」と常識的に考えて,有効性の認知と使用の程度の相関係数を算出したところ,$${r=.03}$$であり,両者の間には直線的な関係が認められませんでした。また,曲線的な関係が存在しているかもしれないと考えて相関図を描いてみましたが,そのような関係も認められませんでした。ということは,この生徒においては,有効性の認知が使用の程度を規定していないのでしょうか[1]。
ここで,「有効だと思われる方略ほど面倒だとも思われやすい」とともに,「面倒だと思われている方略ほど使用されない」であろうことから,このような「コスト感と有効性の認知」および「コスト感と使用の程度」の関係によって,有効性の認知と使用の程度の関係が攪乱されているのではないかと考えて,図1のように,「各方略のコスト感に関する値が分かるようにした有効性の認知と使用の程度の関係に関する相関図」を作成してみました。そうすると,有効性の認知と使用の程度の間には,コスト感を考慮しない場合にはなんらの関係も認められなかったのに対して,コスト感に関する値が1,2,3,4,5の各々である場合ごとに見ると,いずれにおいても「有効だと強く思っている方略ほどよく使用している」という正の相関関係が顕著に認められます。すなわち,「コスト感という第3の変数の値を一定に統制して検討すると,そうしない場合には見いだされなかった関係が認められるようになる」ということです。
以上のように,2つの変数の関係について検討する際には,他の変数も同時に分析に組み入れ,それ(ら)を一定に統制して検討することが必要ないし有用であることが多々あります。
回帰分析とは(回帰分析の目的)
回帰分析は,ある変数(の値)から別の変数(の値)を予測するという状況を想定して適用される統計的分析法であり,予測する側の変数を説明変数ないし独立変数,予測される側の変数を基準変数,目的変数,従属変数などと言います。そして,説明変数が1つのみである場合を単回帰分析と言い,2つ以上の説明変数を同時に分析に組み入れる場合を重回帰分析と言います(基準変数の数は,通常,1です)。「どのような式を用いると予測の精度がもっとも高くなるか(言い換えれば,予測の誤差がもっとも小さくなるか)」や「その際の予測の精度はどの程度であるのか」といったことなどに関する値が算出されます。なお,通常,予測という言葉を使っていますが,将来のことについて「どうなるであろうか」を推測することである予測に関してだけでなく,現在の未知であることについて「どうなっているか」を考える推測にも該当するものです。
ただし,少なくとも心理学的研究では,実際には,ほとんどの場合,基準変数の値の変動(言い換えれば,対象間の違い)を説明変数の値の変動によって説明しようとする際に用いられています。ここで,Licht(1994)によれば,予測は「応用的な状況で有用な意思決定を行なうために結果や行動を推測しようとしている」実用的な面が色濃い認知活動であるのに対して,説明は「理論の検証や発展のために現象の性質を理解したり説明したりしようとしている」理論的な面が色濃い認知活動です。そして,Pearl(2000:黒木訳2009)が『説明という概念から因果という概念を切り離すことができないということも広く受け入れられている』と述べていることや,Licht(1994)やPedhazur(1997)が説明を目的とした研究について説明している内容(たとえば,causeやidentify the sources of its variationという記述をしていること)から,説明という活動は変数間の因果関係の探究という面を多分に有しているものと考えられます。
回帰直線
多くの場合,説明変数($${x}$$)と基準変数($${y}$$)の間の関係として,1次関数によって表わされるものである直線的な関係が想定されており,単回帰分析の場合,一般に,$${y=a+bx}$$という式が用いられます[2]。 そして,この1次関数によって表わされる直線を($${y}$$の$${x}$$への)回帰直線と言います。ただし,直線的関係(線形関係)以外の関係を想定する場合もあるため,線形関係を想定する通常の回帰分析は,線形回帰分析と呼んだ方が的確であることになります。
なお,予測や説明という文脈であるにもかかわらず,なぜ回帰という言葉が用いられているのかや,そもそも統計における回帰とはどのような意味であるのか,$${x}$$から$${y}$$を予測する文脈であるにもかかわらず,なぜ「$${y}$$の($${x}$$への)回帰」と言うのか,といったことについては,吉田(2018c)の40~50ページを参照してください。
回帰係数
上記の$${y=a+bx}$$という1次関数を表わす式における1次の係数($${b}$$)は,回帰分析においては,回帰係数と呼ばれています。回帰係数は,直線の傾きを表わしており,「$${x}$$の値が1異なっていることが,$${y}$$においては値が(平均的に)いくら異なっていることに対応しているか」を示しています。すなわち,回帰係数の絶対値が大きいほど,直線の傾きが大きく,$${x}$$の値が1異なることに応じて$${y}$$の値が大きく異なっていることになります。ですから,回帰係数の絶対値は,「$${\textbf{\textit{x}}}$$の値が異なることによる$${\textbf{\textit{y}}}$$の値の差異の大きさを表わしている」と言えるものであることになります。そして,$${x}$$と$${y}$$の間に$${x\rightarrow y}$$(すなわち,$${x}$$が原因で$${y}$$が結果である)という方向の因果関係のみが存在している$${\underline{\textrm{と見なすことができる}}}$$場合で言えば,回帰係数の値は,$${x}$$において値が1増加することが$${y}$$の値をどの程度増減させるかを示していることになり,このような場合には,説明変数(独立変数)$${x}$$の基準変数(従属変数)$${y}$$に対する規定力(ないし,影響力)の大きさの指標であると言えます。ただし,以上のようなことから回帰係数(の絶対値)は説明変数の基準変数に対する規定力の指標だと考えられがちですが,それは本来はあくまで数式上の事象であり,後述するように必ずしも(というよりも,ほとんどの場合)「説明変数が基準変数に及ぼす影響の強さ(言い換えれば,因果効果の大きさ)を表わしている」などと短絡的に考えることはできません(この段落に記したことは,基本的には,本稿の主たる説明対象である偏回帰係数についても該当します:「基本的には」と付していることの意味は後で分かると思います)。
なお,なんらかの心理的構成概念が当てはまる程度である心理量に関しては,その量が0である無の状態を定義することは通常不可能である(たとえば,「知能がまったくない状態」とか「やさしさがまったくない状態」というものを一義的に定義することはできない)と考えられるので,分析に組み入れる変数がなんらかの心理量を推定するためのものである場合には($${x=0}$$のときの$${y}$$の値である)切片$${a}$$は意味を持たないと考えられます。
回帰分析における「予測の誤差」という変数の意味
標記のことは,本稿の主題である「偏回帰係数の意味・解釈」ということに関わるキー・ポイントになる事柄です。
回帰分析においては,各対象の基準変数の値に関する実際の観測値($${y}$$)と区別するために,$${x}$$の1次式によって算出される(すなわち,各対象の$${x}$$の値を$${b}$$倍して$${a}$$を足した値である)$${y}$$の予測値を$${\hat{y}}$$と表わします($${y}$$ハットと読みます)。$${\hat{y}}$$は,表2および図2に例示したように,$${x}$$と$${y}$$の間に直線的な関係が存在する場合,$${x}$$の値ごとの$${y}$$の平均値($${\bar{y}_{(x_i)}}$$)と言えるものであることになり,たとえば,身長の値から体重の値を推測する場合で言えば,「身長の値が○○である人の体重の値は,普通,△△くらいだ」といった意味を持つものです。
ここで,相関図においてプロットされた点が完全に一直線上に並んでいる$${r=1}$$または$${r=-1}$$の場合でない限り,「$${\hat{y}}$$の値が観測値である$${y}$$と全ての対象において一致する(すなわち,全ての対象において$${y-\hat{y}=0}$$になる)」ということにはなりません。表2および図2に例示したように,観測値と予測値の差である$${y-\hat{y}}$$の値は対象によって異なっているとともに,正の値と負の値が同程度ずつ存在することになります(表2に示した架空の特殊な例では$${+1}$$と$${-1}$$の2つの値しかありませんが,実際のデータにおいては,通常,さまざまな値になります)。
この$${\textbf{\textit{y}}\bm{-}\hat{\textbf{\textit{y}}}}$$という差の値は「基準変数の実際の値である観測値がその予測値と(正負どちらの方向に)どの程度ズレているか」を表わすものであり,予測の誤差と呼ばれています。では,(対象によって異なる値をとる)この予測の誤差という変数は,どのように意味づけられるものなのでしょうか。筆者は,少なくとも3種類の意味づけが可能だと思っており,以下では,これらの各々について説明します。
まず,上記のように,(各対象の説明変数$${x}$$の値に基づく)基準変数の予測値である$${\hat{y}}$$は「$${x}$$がある値である場合の$${y}$$の普通の値」と言えるものです。ですから,$${y-\hat{y}}$$ が正の値であることは,「$${x}$$がある値である場合の$${y}$$の普通の値よりも実際の$${y}$$の値が大きい」ということであり,「$${x}$$の値の$${\underline{\textsf{わりに}}}$$$${y}$$の値が大きい」と言えるケースであることになります。また,逆に$${y-\hat{y}}$$が負の値であることは,「$${x}$$がある値である場合の$${y}$$の普通の値よりも実際の$${y}$$の値が小さい」ということであり,「$${x}$$の値の$${\underline{\textsf{わりに}}}$$$${y}$$の値が小さい」と言えるケースであることになります。以上のことから,予測の誤差は,「各対象の基準変数の値が,説明変数(の値)の$${\underline{\textsf{\textbf{わりに}}}}$$どの程度大きい(または,小さい)か」を示しているものであることになります。
ここで,上記の「身長(の値)から体重(の値)を予測する場合」で言えば,予測の誤差は,各対象が「身長のわりに体重がどの程度重い(または,軽い)か」を表わしており,各対象の肥満度ないし痩身度の指標などとしては,体重の値そのものよりも妥当性が高いものだと考えられます。すなわち,ある2人の人が体重がともに80㎏であったとしても,一方の身長が160㎝で,他方の身長が190㎝であるならば,前者の方が肥満傾向が強いと言えるでしょうが,このことに対応して,身長からの予測値は前者の方が小さくなり,実際の体重である観測値と予測値の差である予測の誤差は前者の方が(正の)大きな値になります。そして,このような予測の誤差の値の方が,体重の値そのものよりも,なんらかの病気になる可能性を予測したり,なったことを説明したりする際などには有用になると考えられます。
次に,予測の誤差という変数の2つ目の意味について説明します(筆者は,これがもっとも重要な事柄だと思っています)。
「2つの変数の間になんらかの関係が存在する」ということは,「一方の変数の値の違いに応じて他方の変数の値が異なっている傾向が認められる」ということです(ただし,これは,必ずしも「前者の変数の変化が後者の変数の変化に影響を及ぼしている」というような特定の方向の因果関係の存在を想定したものではなく,あくまで「各変数における対象間の変動の間に対応関係が認められる」ということです)。そして,このことは,変数$${x}$$と変数$${y}$$の間に正の相関関係が存在する場合で言えば,「$${x}$$の値が大きい対象ほど,(それに応じて)$${y}$$の値が(直線的に)大きくなっている傾向が認められる」ということになります。
ここで,$${x}$$の値を一定にしたときの$${y}$$の値(もう少していねいに言うと,$${x}$$の値に関して対象間の違いがなく,$${x}$$の値が全ての対象において一定であったと仮定した場合の各対象の$${y}$$の値)というものを想定してみます。そして,このような値を,データが示している$${x}$$と$${y}$$の(直線的)関係に基づいて推測してみます。これは,身長と体重の関係の場合で言えば,「身長と体重の間にどのような1次関数関係が存在しているかを踏まえたうえで,各対象の身長が一定であれば,それぞれの体重の値はどうなるであろうかについて推測する」ということです(一定にする際の$${x}$$の値は,基本的には任意です)。
さて,表2に提示した架空のデータを使って,上記のことが「具体的には,どのようなことを,どのようにすることなのか」について説明します。なお,表2では,推測しようとしている「$${x}$$の値を一定にしたときの$${y}$$の値」を$${y'}$$と表わしているとともに,一定にする$${x}$$の値を($${x}$$の平均値である)3にしてあります。したがって,ここでは,「全ての対象の$${x}$$の値が3であったとしたら各々の$${y}$$の値はいくらになるであろうかを,データが示している$${x}$$と$${y}$$の間の1次関数関係に基づいて推測する」ということになります。
まず,$${x}$$から$${y}$$を予測する(単)回帰分析を行なうと,表2および図2にも記したように,回帰直線の式は$${\hat{y}=-1+2x}$$になります[3]。 ここで,回帰直線の傾きである回帰係数が2であるということは,「$${x}$$と$${y}$$の間に,$${x}$$の値が1大きくなれば,それに応じて$${y}$$の値が2大きくなる関係が存在している」ということです。ですから,たとえば,対象1の$${x}$$の値が1ではなく3であったとしたら,対象1の$${y}$$の値(すなわち,$${y'}$$の値)は,$${0+2\times (3-1)}$$で,(観測値よりも4大きい)4になります(最初の0は対象1の$${y}$$の観測値,次の2は回帰係数,3は一定にする際の$${x}$$の値,最後の1は対象1の$${x}$$の値です)[4]。 また,対象10の場合では,$${x}$$の値が5ではなく3であったとしたら,対象10の$${y'}$$の値は,$${10+2\times (3-5)}$$で,(観測値よりも4小さい)6になります(もともと $${x=3}$$であった対象5と対象6に関しては,$${y'}$$の値は$${y}$$の値と変わりません)。
以上のようにして推測・算出された各対象における$${y'}$$の値を表2の最下欄に列記しましたが,この値とその1つ上の行の$${y-\hat{y}}$$の値を見比べてください。$${y'}$$の値は,全ての対象において$${y-\hat{y}}$$の値に5を足したものになっており,両者の間には完全な線形関係が存在していることが分かります。したがって,$${y'}$$と$${y-\hat{y}}$$の相関係数は1になり,$${y-\hat{y}}$$について分析した結果(たとえば,別の変数である$${z}$$と$${y-\hat{y}}$$の相関係数)と$${y'}$$について分析した結果($${z}$$と$${y'}$$の相関係数)は一致します[5]。ですから,$${y-\hat{y}}$$は$${y'}$$と同じ意味を持つ変数であることになり,予測の誤差は($${\textbf{\textit{y}}'}$$と同じく)「$${\textbf{\textit{x}}}$$の値を一定に統制したときの(言い換えれば,各対象の$${\textbf{\textit{x}}}$$の値に応じた違いを補正したときの)各対象の$${\textbf{\textit{y}}}$$の値」と言えるものであることになります。
先に「2つの変数の関係について検討する際には,他の変数も同時に分析に組み入れ,それ(ら)を一定に統制して検討することが必要ないし有用であることが多々ある」と記しましたが,以上のように,予測の誤差という変数は,この「他の変数を一定に統制して検討する」というときに有用になるものであり,以上で説明したことは偏回帰係数の意味について理解するうえで必要不可欠と言えるであろう事前知識となります。
なお,先に記したように,$${r=1}$$または$${r=-1}$$であれば,予測の誤差は全ての対象において0になりますが,このような場合には,上記の(各対象の$${x}$$の値を一定に統制したときの$${y}$$の値である)$${y'}$$の値も全ての対象において同じ値になり,変動しなくなります。すなわち,「$${x}$$の値の変動をなくすと,$${y}$$の値もまったく変動しなくなる」ということであり,「$${y}$$の値の変動(すなわち,対象間の違い)の全てが$${x}$$の値の変動(対象間の違い)によって説明できた」ということです。ということは,逆に考えれば,0ではない予測の誤差の値は,$${x}$$によっては説明できない$${y}$$の値の変動を表わしていることになり,予測の誤差の絶対値が大きい対象に関しては,$${x}$$の値の対象間の違いでは説明できない面が多分に存在している(言い換えれば,説明できない部分が大きく残っている)ことを意味していることになります[6]。そして,このように「基準変数の変動の中の,説明変数として投入した変数の対象間の違いでは説明できなかった残りの部分と言えるものである」ことから,予測の誤差は,残差ないし残差得点と呼ばれたりもします。
それでは,予測の誤差という変数の3つ目の意味について説明します。
予測値である$${\hat{y}}$$は,$${x}$$の1次式によって算出されるものなので,$${x}$$と$${\hat{y}}$$の間には完全な線形関係があることになり,両者の間の相関係数の絶対値は必ず1になります(当然のことながら,回帰係数が正のときは$${r=1}$$で,負のときは$${r=-1}$$になります)。したがって,$${\hat{\textbf{\textit{y}}}}$$は,$${\textbf{\textit{x}}}$$によって説明がつく変数だと言えます。これに対して,予測の誤差である$${y-\hat{y}}$$は,$${x}$$の値によって異なっておらず,$${\textbf{\textit{x}}}$$と$${\textbf{\textit{y}}\bm{-}\hat{\textbf{\textit{y}}}}$$の相関係数は必ず0になります[7]。 したがって,$${\textbf{\textit{y}}\bm{-}\hat{\textbf{\textit{y}}}}$$は,$${\textbf{\textit{x}}}$$によって説明がつかない変数だと言えます。
ここで,$${\hat{y}}$$と$${y-\hat{y}}$$を足すと,$${y}$$になります。ということは,逆方向で考えれば,「$${y}$$の観測値を予測値と予測の誤差に分解して表わすことができる」ということです。また,$${\hat{y}}$$は$${x}$$を線形変換したものなので,$${x}$$だけでなく$${\hat{\textbf{\textit{y}}}}$$も$${\textbf{\textit{y}}\bm{-}\hat{\textbf{\textit{y}}}}$$と無相関になります。ですから,上記の分解は,「$${y}$$の観測値を“$${x}$$によって完全に説明がつく成分“と“$${x}$$からはまったく説明がつかない成分”という互いに無相関な成分に分けて捉えている」と言えるものであることになります。そして,以上のことから,予測の誤差は,「($${\textbf{\textit{y}}}$$から$${\textbf{\textit{x}}}$$によって説明できる部分を取り除いた)$${\textbf{\textit{y}}}$$の中の$${\textbf{\textit{x}}}$$とは関係していない成分を表わしている」と言えるものであることになります(ただし,より厳密に記すならば,上記における「$${x}$$によって説明できる」というのは「$${x}$$との線形関係によって説明できる」ということになります)。
以上を要約すると,回帰分析における予測の誤差という変数は,以下のような3つの意味づけが可能なものであることになります。
各対象の(予測される側の変数である)基準変数の値が,(予測する側の変数である)説明変数(の値)のわりにどの程度大きい(または,小さい)かを表わしているものである。
$${x}$$の値を一定に統制したときの(言い換えれば,各対象の$${x}$$の値に応じた違いを補正したときの)各対象の$${y}$$の値と言えるものである。
($${y}$$から$${x}$$によって説明できる部分を取り除いた)$${y}$$の中の$${x}$$とは関係していない成分を表わしているものである。
なお,予測の誤差に関する以上のことを知っておくことは,本稿で取り上げている重回帰分析などにおける偏回帰係数や,それらと密接に関連している偏相関係数・部分相関係数だけでなく,「ある変数(独立変数)が別の変数(従属変数)に及ぼす効果について検討する際に,$${x}$$以外で$${y}$$に影響を及ぼしている第3の変数を統制してそれを行なう統計的検定である」共分散分析についての理解などにとっても非常に重要になります(このことについては,吉田,2018dの93~101ページを参照してください)。
次回に続く
脚注
「ある方略を使用することによって,その方略の有効な面が強く認識されるようになる」などというように,有効性の認知と使用の程度の間に「使用の程度→有効性の認知」という方向の因果関係が存在する可能性も想定されますが,ここでは,説明の便宜上,「有効性の認知→使用の程度」という方向の因果関係のみを想定して話を展開します(コスト感と使用の程度の関係に関しても同様です)。
2つ以上の説明変数を同時に分析に組み入れる重回帰分析においては,説明変数同士の関係に関しても直線的な関係が想定されています。
回帰直線の式(1次の係数$${b}$$と切片$${a}$$)の求め方の論理については,吉田(2018c)の7~9ページを参照してください。
なお,図2から分かるように,求められた回帰直線は,全般に,相関図においてプロットされた点の近くを通っているとともに,プロットされた点を$${x}$$の値ごとに上下に半々に分けるラインになっています。ですから,$${x}$$が各々の値である場合の予測値である$${\hat{y}}$$と実際の値である$${y}$$が大きくズレておらず,予測の誤差が全般に小さくなっているとともに,正になっているケースと負になっているケースが同程度ずつ存在しており,予測の誤差の平均が0になることが推察されます。これは,身長から体重を推測する場合で言えば,「cm単位の身長($${x}$$)とkg単位の体重($${y}$$)の間に$${\hat{y}=-90+0.9x}$$という関係があり(すなわち,身長が1cm高くなると,それに応じて体重が0.9kg重たくなる関係があり),Aさんの身長が160cm,体重が65kgで,得られたデータにおける身長の平均値が170cmだったとしたとき,Aさんの身長が160cmではなく170cmであったならば,Aさんの体重は,$${65+0.9\times (170-160)}$$で,(実際よりも9kg重い)74kgになると推測される」ということになります。
各変数にいかなる線形変換を行なっても他の変数との相関係数(の絶対値)や統計的検定の結果が変わらないことについては,吉田(2018a)の104~107ページ,吉田(2018b)の106ページなどを参照してください。
身長から体重を推測する場合で言えば,ある対象の予測の誤差が(他の対象に比べて)正の大きな値であるということは,その対象の体重に関しては,身長の値(だけ)では説明できない面が多分に存在し,身長以外のなんらかの変数において体重の値が大きくなるような顕著な特徴を有している可能性が高いことを示唆していることになります。
この項の最初に記したように,表2および図2に示したケースのような「$${x}$$と$${y}$$の間に直線的な関係が存在する場合」,予測値は,表2の$${\bar{y}_{(x_i)}}$$の値がそうであるように,$${\underline{x \space\textrm{の値ごとの}}}$$$${y}$$の平均値と言えるものであることになります。そして,平均値は,それよりも大きな値と小さな値が同程度ずつあり,各値とそれとの差が(正であるものと負であるものが相殺されて)全体としては0になる値です。ということは,「予測の誤差の平均は(全データにおいてだけでなく)$${\underline{\textrm{どの}\space x\space \textrm{の値においても}}}$$0であり,予測の誤差の値は(全般に)$${x}$$の値によって異なっていない」ということになります(ですから,「$${x}$$と$${y-\hat{y}}$$の相関係数は0になる」と言えます)。
なお,以上のことは,脚注[3]に記した「回帰直線は,相関図においてプロットされた点を$${x}$$の値ごとに上下に半々に分けるラインになっている」ということからも推論されることです。それから,$${x}$$と $${y-\hat{y}}$$の相関係数は,$${x}$$と$${y}$$の関係が直線的でなくても0になりますが,このことの証明については吉田(2018c)の24ページを参照してください。
謝辞
文京学院大学の村井潤一郎氏と横浜市立大学の山田剛史氏には,主に拙稿の記述の仕方に関して多くの貴重なコメントをいただきました(本稿は,それらを踏まえた修正を行なったものです)。記して感謝致します。
引用文献
Licht, M.H. (1994). Multiple regression and correlation. In L.G. Grimm, & P.R. Yarnold (Eds.) Reading and understanding multivariate statistics (pp.19-64). Washington, DC: APA.
Pearl, J. (2000). Causality: Models, reasoning, and inference. Cambridge: Cambridge University Press.
(パール,J. 黒木 学(訳)(2009). 統計的因果推論――モデル・推論・推測―― 共立出版)Pedhazur, E.J. (1997). Multiple regression in behavioral research: Explanation and prediction (3th ed.). Fort Worth, Texas: Harcourt Brace College Publishers.
吉田 寿夫 (2018a). 本当にわかりやすい すごく大切なことが書いてある ごく初歩の統計の本 補足Ⅰ 北大路書房
吉田 寿夫 (2018b). 本当にわかりやすい すごく大切なことが書いてある ごく初歩の統計の本 補足Ⅱ 北大路書房
吉田 寿夫 (2018c). 本当にわかりやすい すごく大切なことが書いてある ちょっと進んだ 心に関わる 統計的研究法の本Ⅰ 北大路書房
吉田 寿夫 (2018d). 本当にわかりやすい すごく大切なことが書いてある ちょっと進んだ 心に関わる 統計的研究法の本Ⅱ 北大路書房
吉田 寿夫 (2018e). 本当にわかりやすい すごく大切なことが書いてある ちょっと進んだ 心に関わる統計的研究法の本Ⅲ 北大路書房
吉田 寿夫・村井 潤一郎 (2021). 心理学的研究における重回帰分析の適用に関わる諸問題 心理学研究,92,178-187.
吉田 寿夫・村山 航 (2013). なぜ学習者は専門家が学習に有効だと考えている方略を必ずしも使用しないのか――各学習者内での方略間変動に着目した検討―― 教育心理学研究,61,32-43.