【第２回】心理検査の信頼性と妥当性について（高瀬由嗣：明治大学文学部心理社会学科教授）＃心理検査って何？＃金子書房心理検査室

2020年9月8日 17:00

　今回は、心理検査の信頼性と妥当性という話題に焦点を絞ってお話ししたいと思います。信頼性と妥当性は、言うなれば心理検査における科学的基盤であり、非常に重要な考え方です。それゆえ心理検査を語るうえで避けて通ることはできません。少し込み入った話になるかもしれませんが、お付き合いください。

心理検査の成立要件

　心理検査を成立させる要件のなかでも特に重要なのが、信頼性と妥当性が保証されていることです。信頼性とは、検査によって測定される結果が一貫しているかどうかを問うものであり、妥当性とは、検査が測定しようとしている目標を確実に測定しているかどうかを問うものです。

　少しわかりやすくするために、心理検査を身近な道具にたとえて、この２つの概念について考えていくことにします。たとえる道具としては、「状態を測定する」という点で心理検査と同等の属性を持ち、最近では多くの家庭に普及し身近な道具となった電子体重計を取り上げたいと思います。

　ある人が電子体重計を使って自分の体重を測ってみたところ、びっくりするほど高い値が示されたとします。驚いてすぐに測り直してみたら、理想の体重に近い値が示されたので、一瞬ホッとしたのですが、それでも何だか落ち着きません。そこで、しつこいことは承知で、もう１回だけ測ってみることにしました。結果は驚くべきものでした。今度は１回目よりもさらに高い値が出てしまったのです。

　皆さんはこの体重計をどう考えるでしょう？　こんな短時間のうちに体重が増えたり減ったりというのは考えられませんね。ですからこの体重計には不具合があるとしか言いようがありません。こんな電子体重計は、おそらく「信頼できない」と評価されることになるでしょう。

　別のケースを考えてみます。ある電子体重計は、どういうわけか体重の値を表示せず、いつも体脂肪率だけを示します。そんな「体重計」があったら、皆さんはどう思いますか？　「体重」と「体脂肪率」はまったく異なる概念です。たとえその体脂肪率が正しい値であったとしても、自分の知りたい情報を確実に知らしめてくれない体重計は、「役に立たない」と言わざるを得ませんね。

　ここに示したのは良くない電子体重計の見本です。良い電子体重計とはこれとはまったく逆に働くものです。つまり、測定される値が安定しており、測定目標を確実に測っているものこそが、良い電子体重計と呼べるのです。

　さて、このお話は心理検査にもそのまま当てはまります。心理検査は、（１）測定値の一貫性や安定性が保証された「信頼できる（reliable）」ものでないといけません。同時に、（２）測定しようとしている概念を確実に測定している「役に立つ（valid）」道具でなければなりません。言うまでもありませんが、（１）が信頼性（reliability）を意味し、（２）が妥当性（validity）を意味しています。そしてこの両者がそろって、はじめて心理検査と呼べる道具となるのです。

信頼性について

　何かを測定しようとするとき、誤差を完全に取り除くことができたら良いのですが、残念ながらなかなかそううまくはいきません。質量や容量といった物理量の測定においてすら、ごく微量ながら誤差は生じるといいます。まして、心理学が対象とする「不安」「リーダーシップ」「適性」「社交性」「知能」など、直接に見ることのできない構成概念を測定する場合は言うに及びません。古典的テスト理論では、心理検査の得点は何らかの誤差を含んでいることを前提としているほどです。

　ここで少し古典的テスト理論について説明をしておきましょう。この理論では、例えば「知能」を測定する検査の場合、観測得点（これをXとします）には、真値（被検査者の真の「知能」の得点です。これをTとします）に誤差得点（何らかの理由により観測得点に微妙な影響を及ぼしているものです。これをEとします）が加わったものとみなします。つまり、Ｘ＝Ｔ＋Ｅという式を仮定しています。なお、E（誤差得点）は正の値も負の値もとりえます。ですから、観測得点は真値よりも高めになることもあれば、低めに出ることもあります。

　この式を見れば想像がつくとおり、X（観測得点）の中に、T（真値）の占める割合が相対的に高く、E（誤差得点）の割合が低いものが、信頼性の高い検査ということになります。誤差得点の小さい検査は、常に真値に近い観測値を提供するため、その得点は一貫し安定しているというわけです。

　しかし、真値や誤差得点というのは、あくまでも理論上の仮定の話であって、直接に測定できるようなシロモノではありません。そこで、実際に検査の信頼性を推定するにあたっては、次項に示すようなやり方が取られます。

視力検査

信頼性の推定

　信頼性の推定法の中で、もっともよく使われている２つの方法を紹介します。１つ目が再現性の観点に基づく方法、もう１つは内的整合性の観点に基づく方法です。では、さっそく見ていきましょう。

（１）再検査法（test-retest method）
　先ほどの体重計の話を思い出してください。良い検査は、測定される側によほどの事情のない限り、測定される数値は安定しているはずです。このことを実際に試してみて、その結果から当該の検査の信頼性を推定しようとするのが再検査法です。

　具体的には同一集団に対して同一検査を２回繰り返し、２回の得点間の相関係数を算出するという方法が取られています。例えば、新たに開発した児童向け知能検査の得点の安定性を見るために、同じクラスの児童に一定の期間を置いて、もう一度同じ検査を実施するといった手続きです。この方法では、単純に２回の得点間における相関係数を信頼性係数とみなします。当然のことながら、相関が高ければ高いほど検査得点は安定しているということになり、再検査法による信頼性は高いと結論できます。

　ただし、この方法には難点もあります。１回目と２回目との時間間隔が短すぎると、１回目の記憶が２回目の結果に出やすいですし、逆に長すぎると、その間に受検者の側にも成長や変化が起こり、それが検査得点に影響します。したがって１回目と２回目との間隔をどの程度にするかを決めるのは、実に難しい問題なのです。再検査法を導入するにあたっては、当該検査の性質や測定目標も考慮し、この難問に取り組む必要があるでしょう。

ダーツ

（２）クロンバックのα係数（Cronbach's alpha）
　これは内的整合性、すなわち検査に含まれるすべての項目に対する回答者の反応の一貫性の程度をもって信頼性を推定する方法です。これが高いと検査全体で同じ概念を測定していることの証明になります。α係数を求める式は以下のとおりです。

数式１

　一見すると難しそうですが、実はこれは信頼性を推定する方法の中ではもっとも簡便です。そのため、いちばんよく使われているのです。

　ちょっと例を示してみましょう。以下は「不安」の測定を想定して、私が勝手に作った10項目です。当てはまる場合は２点、どちらでもない場合は１点、当てはまらない場合は０点とし、その合計点によって不安の大きさを測定することとします。

１．ちょっとした物音に驚く
２．明日の仕事のことを考えると夜眠れなくなる
３．焦りやすい
４．他人に見られていると作業に集中できない
５．心臓がドキドキしやすい
６．小さなことを必要以上に気にする
７．大勢の前に立つと顔がほてる
８．何か問題が起こると自分のせいではないかと思う
９．クヨクヨしやすい
10．心配性である

　これら全10項目でα係数を求める場合、手続きはそんなに複雑ではありません。

数式説明

　実際に確かめてはいないので、あくまでも想像ですが、上の10項目はどれもこれも似たような内容ですので、比較的一貫性は高い（すなわち、α係数は1.0に近くなる）と思われます。

　もし、この10項目の中に「野球が好き」とか「小説家になりたい」とか、他の項目とは異質なものが２つほど含まれていたとしたらどうなるでしょう？　これも想像の話ですが、おそらく協力者間で合計点のばらつきが減り、αの値は小さくなるのではないかと思われます。エクセルを使えば分散は簡単に得られ（※参照）、α係数もすぐに求めることができますので、可能ならば読者の皆さんも協力者を募って確かめてみてください。

　以上をまとめますと、内部の項目に一貫性があり、検査全体が同じものを測定していると仮定されるとき、結果としてその検査の信頼性は高いと判断されることになります。そして、この判断に際してもっともよく使われる方法がクロンバックのα係数というわけです。

クッキー

　余談ですが、この内的整合性の話にふれると、私は決まって連想することがあります。それはコンピュータの不具合を意味する「バグ（bug）」という言葉を定着させた出来事のことです。第二次世界大戦後間もない1947年のこと、ハーバード大学に設置されたコンピュータ「マークⅡ」が不具合を起こしました。そこで、ある研究者がその原因を追究したところ、なんと機械の中に本物の「バグ」、すなわち羽虫が入り込んでいるのを見つけたといいます。羽虫という異物が機械に混入したことにより、エラーが生じ、計算違いや暴走といった問題を引き起こしていたというわけです。

　内的整合性の話とコンピュータの「バグ」の話を結び付けるのはいささか無理があるかもしれません。しかし、異物が混入すると道具としての一貫性が失われ、それがエラーを引き起こし、結果として信頼性が損なわれるという点は、どこか共通しています。こういったとき、コンピュータの世界ではバグの修正に全力を傾けるでしょうし、心理検査の場合は項目分析や因子分析などの方法を用いて、不適切な項目や他とは異質な項目を取り除くことにエネルギーを注ぎます。すなわち、いかなる場合も誤差の要因を排除する努力を怠っていないことを申し添えておきます。

※エクセルの基本的な機能である、「数式」→「関数の挿入」→「VAR.P（標本分散）」を使ってみてください。あっという間に分散が得られます。詳しくは、インターネット上に数々の説明がありますので、検索してみてください。読むだけではなく、実際に試してみるとおもしろいですよ。

妥当性について

　次に妥当性の話に移ります。体重計は体重を測るためにある道具であることを、もう一度思い出してください。当該検査が測定しようとしている目標を、当該検査が確実に測定しているかどうかを表すのが妥当性です。知りたい情報を確実にもたらしてくれる検査が真に役に立つことを思えば、この妥当性の高さが心理検査の価値を決めるといっても過言ではありません。

　この記事では、妥当性の中でもとりわけ議論される機会の多い内容的妥当性、基準関連妥当性、構成概念妥当性の３つを取り上げ、それぞれの定義や適用例などを示します。

（１）内容的妥当性（content validity）
　これは、検査の項目内容そのものが測定目標とする概念をきちんと捉えているかどうかを、主に専門家が判断するものです。例えば、新たに作った学力検査が本当に児童・生徒の「学力」を捉えているかどうかを、教育に携わる複数の専門家が検査内容を読み込み、判断するといったケースが当てはまります。当該の検査について、複数の専門家が「学力を測定している」と結論すれば、その検査には内容的妥当性があると見なされます。この説明を読めばお分かりになるかと思いますが、内容的妥当性の検討は、あくまでも専門家の主観によるもので、実際の検査結果を取り扱うことはありません。それゆえに、このやり方だけで検査の妥当性を決するようなことはまずありません。他の証拠も考慮しながら、総合的に判断する姿勢が肝要です。

（２）基準関連妥当性（criterion-related validity）
　これは、測定目標とするものを直接的に表していると考えられる基準（クライテリオン）と、検査得点との関係を問うものであり、妥当性概念の中でも特に重要と考えられていることです。基準関連妥当性には、(a) 予測的妥当性（predictive validity）、(b) 併存的妥当性（concurrent validity）および、(c) 他の検査との相関が含まれます。

　(a) 予測的妥当性（predictive validity）
　予測的妥当性とは、将来観測される事象を基準とするものです。少し古い話ですが、花沢成一らが編纂した教科書（※※参照）には、予測的妥当性の検証方法を示す好例が載っていますので引用したいと思います（花沢ほか、2001）。ある研究者がナースの適性検査を開発し、その予測的妥当性を確かめるために、この検査得点とその後の学校の成績との関係を調べました。その際、基準として選ばれたのが、成績不良による退学率です。ふたを開けたところ、適性検査で低い得点を示した（つまりナースの適性が低いと見なされた）人たちのグループでは、後に成績不良による退学率が高く、得点が高いグループになるほど退学率が下がっていることが確認されました。一般にナースに向かない人は看護実習などの厳しい科目でつまずきやすいのに対し、向いている人は最後までやり通します。それを思えば、この検査はナースとしての適性を事前に見事に言い当てたと見なしてよいでしょう。その意味で、この適性検査の予測的妥当性は高いと言えます。

※※花沢成一・佐藤誠・大村政男編（2001）．心理検査の理論と実際　第Ⅳ版．駿河台出版社．pp. 74-75．

　(b) 併存的妥当性（concurrent validity）
　併存的妥当性とは現在観測される事象を基準とするものです。例えば児童の社交性検査を開発した際、この検査の結果を、対象児童をよく知る担任教諭によって評定された行動チェックリスト（基準）と突き合わせるようなケースがこれに該当します。当然のことながら、両者に強い相関関係が認められたとき、この社交性検査の併存的妥当性は高いと見なされます。

　(c) 他の検査との相関
　基準関連妥当性の中でももっともよく用いられる方法が、当該検査と同じ構成概念を測定する他の検査との関係を見る方法です。例えば、不安を測定する検査を新たに開発した場合、既存の不安検査を基準とし、それとの相関が検討されます。同じ構成概念を測定する既存の検査との間に高い相関が得られた場合、その検査には収束的妥当性（convergent validity）があると見なされます。
　一方、当該の不安検査は、既存の抑うつ検査との間の相関は低いはずです。なぜなら「不安」と「抑うつ」は異なる構成概念だからです。仮説通り、この不安検査と既存の抑うつ検査との間の相関が低かったとするならば、この不安尺度には弁別的妥当性（discriminant validity）があると判断されます。つまり、この不安検査は、他の何物でもなく不安という概念を確実に捉えているということになり、その意味で妥当性が高いのです。
　ところで、信頼性・妥当性ともに高い検査がすでにあるのならば、新しい検査をわざわざ作らなくとも良いのではないか、という批判も聞こえてきそうです。もっともな批判です。しかし、既存の検査の項目内容が古くて現代の事情に合わなくなり始めたとか、既存の検査は実施に手間がかかり過ぎて受検者の負担も大きいとか、心理検査業界にはさまざまな事情があるのも事実です。その場合、既存の検査を改訂したり、既存のものと同様のコンセプトに基づいて検査を新たに作ったりする必要が生じます。こういったときに、当該検査に先行する既存の検査を基準とする方法がよく取られています。

（３）構成概念妥当性（construct validity）
　構成概念妥当性とは、ある心理検査が、それが測定しようとしている構成概念をどの程度説明できるかを問題としたものです。しかし、先にも述べたとおり、心理検査が測定の目標としているのは、「不安」「リーダーシップ」「適性」「社交性」「知能」など、直接に見ることのできない構成概念ばかりです。それなのに、なぜ構成概念妥当性などという言葉をここで用いるのでしょう？　実は、構成概念妥当性という概念は非常に曖昧なものです。時代とともにその概念は変遷し、研究者によってもこの言葉の捉え方や用い方は異なっています。しかし、さまざまな文献をひもといてみると、近年に至ってこの概念は包括的なものであると考えられるようになってきたことが確認できます。つまり、構成概念妥当性は、その名の示すとおり、内容的妥当性や基準関連妥当性などの上位概念として、あらゆる妥当性概念を網羅するものとなってきたようです。

　しかし、ここであらゆる妥当性の適用例を列挙すると混乱を招きます。そこで、この記事では、構成概念妥当性の検証方法として伝統的によく用いられている３つの方法を紹介します。

　（a）実験による方法
　これは、実験を行い、理論的に予測される結果が当該検査得点に反映されるか否かをもって妥当性を検証するという方法です。心的ストレスという構成概念を測定する検査を例に取るならば、実験的に心的ストレスを喚起させる事態を作り出し、その際の当該検査の得点の変化を調べるという手続きがこれに該当します。仮に、平常時（ベースライン）に比べ、実験的介入によって検査得点が上昇すれば、この検査は「心的ストレス」という構成概念をよく捉えていると考えることができるでしょう。

　（b）集団差に基づく方法
　これは、ある特性を測定するために開発された心理検査が、その特性をもっていると想定される集団を確実に弁別しうるかどうかをもって妥当性を検証するという方法です。例えば、犯罪傾向を測定する検査を作成したとしましょう。この検査を、犯罪を実行した集団（犯罪群）と犯罪を実行していない集団（非犯罪群）に実施し、非犯罪群から犯罪群を確実に弁別できたとするならば、この検査は構成概念妥当性を備えているということになります。

　（c）因子分析を用いる方法
　これは、作成した心理検査に因子分析を実施し、そこから得られた得点構造が、その検査が測定しようとしている構成概念とどの程度一致しているかをもって、妥当性を判断するという方法です。これについては、知能検査を想定するとわかりやすいかもしれません。いくつかの下位尺度から構成される知能検査の得点を因子分析にかけて、得られた因子構造が、その検査が測定しようとしている知能のモデルと合致したとするならば、その検査の妥当性は高いと言うことができます。

　以上、心理検査の成立要件の一部である、信頼性と妥当性についてざっと見てきました。この記事に示したように、心理検査を成立させるためには実に厳しい条件をクリアせねばなりません。言い換えるならば、あらゆる心理検査は信頼性と妥当性という盤石な科学的基盤を備えているのです。

　蛇足ながら、巷の雑誌などで目にする面白おかしい「心理テスト」と、臨床の現場で使われている心理検査とは、明らかに種類を異にします。巷のたいがいの「心理テスト」は１つの質問に対する答えのあり方（だいたいが選択肢です）から、人の性格をズバッと判定するためセンセーショナルです。しかし、たった１つの質問しかないとすると、その日の体調や気分によって判定結果は容易に変化します。したがって、この種のテストは信頼性に乏しいと言わざるを得ません。また、選択された答えが特定の性格に結びつく根拠が不明確です。「寄せ鍋の真ん中にある具は何？」と問われて「鶏肉」を選ぶと「注目されるとファイトを燃やす人」と判定される理由がよく分かりません。おそらく妥当性の検証はまだ十分に行われていないのでしょう。しかし、少なくとも私の授業では、巷のテストが心理検査の成立要件を考えるための教材としてたいへん役立っているのは事実です。最後に、このことだけは書き添えておきたいと思います。

◆執筆者プロフィール

高瀬由嗣（たかせゆうじ）
明治大学文学部心理社会学科教授。日本ロールシャッハ学会常任理事。専門は臨床心理学、心理アセスメントにおける科学的基盤の検討。主な著書に、『臨床心理学の実践――アセスメント・支援・研究』『RODS（Rorschach Data System）第3版』（共著・金子書房）、『心理アセスメントの理論と実践――テスト・観察・面接の基礎から治療的活用まで』（共著・岩崎学術出版社）などがある。

　◆著　書

【第２回】心理検査の信頼性と妥当性について（高瀬由嗣：明治大学文学部心理社会学科教授）＃心理検査って何？＃金子書房心理検査室

心理検査の成立要件

信頼性について

信頼性の推定

妥当性について

★連載のマガジンはこちら

最新情報はぜひTwitterで！

【第２回】心理検査の信頼性と妥当性について（高瀬由嗣：明治大学 文学部心理社会学科 教授）＃心理検査って何？＃金子書房心理検査室

心理検査の成立要件

信頼性について

信頼性の推定

妥当性について

★連載のマガジンはこちら

最新情報はぜひTwitterで！

【第２回】心理検査の信頼性と妥当性について（高瀬由嗣：明治大学文学部心理社会学科教授）＃心理検査って何？＃金子書房心理検査室