Item Response Theory 、略称IRTは、わが国では、項目応答理論とか項目反応理論とかいわれているものであるが、いま日本語学校の教職員の間で話題になっている。身近な例では「日本留学試験(略称:日留試)」で、この理論が応用されているからだ。しかし、この理論は、凡人には全く理解不能ともいえる難解なしろものである。
今回の小論は、数式を多用したその難解な部分を大胆にというか、乱暴にというか一切切り捨てて、とにもかくにもそのアウトラインがわかればよい、ということを目的にIRTを紹介しようというのが目的である。ただし、小論を書いている筆者自身も、実はよく分かっていない部分もかなりあるので十分に目的を達成できるかどうか、はなはだこころもとないことではある。
■なぜ、従来のテストではだめか
IRT、項目応答理論を紹介する前に、なぜいまIRTなのか、について初めにふれたい。このことは、従来のテスト理論のどこに欠点があるのか、ということでもある。
従来のテストでは、何問に正解をしたか、また、何点をとったか、が問われる。つまり得点が受験者の能力判定の基準になるということである。次ぎのような例を見てみればよく分かる。
同じテストを大勢の人が受験したとする。この場合、分かるのは、その受験者が、例えば、80点を取った、という事実と、その受験者集団の中で何位だったか、だけである。もちろん、これだけでも、経験のある教師の作問による試験であれば、また、経験のある判定者であれば、ある程度、その受験者の能力は評価することができる。しかしだからといって、他の受験者集団との比較はできないという決定的な欠点の解決にはなっていない。これを、専門用語では、集団に依存するので標本依存(Sample-dependent)という。
もう一つ例をあげよう。一般にテストの0点は絶対的な0点ではないし、また、満点の100点は必ずしも100点の能力とは限らない。その理由は、これらのテストでは、0点以下の人はすべて0点にまとめられるし、また、100点以上の人も同じようにすべて100点とされる。つまり、0点以下は測れないということであり、また100点以上も同様に測れないということである。これを、専門的には、「従来のテストの得点方法では極点(この場合は、0点と100点)で、歪んだものになる」ということであり、「天井・床効果」という。 例えば、100点満点のあるテストで、50点の人と100点の人では、後者が前者の2倍の能力があるかどうか。もし、.このテストで、0点(原点)が絶対尺度上での原点とは異なり、本当は-10点だとすれば、
100点→‐10点+100点=90点
50点→‐10点+ 50点=40点
となって、見せかけの2倍から2.25倍に変化してしまう。
また、同じ受験者が、別の試験を受けた場合について考えてみよう。そのテストが、いくら慎重に配慮され、同レベルのものであるはずだとしても、同じ受験者が同じ得点、例えば、先の例では、80点を取れるだろうか。60点かもしれないし、100点かもしれない。同じ受験者でもテストが違えば違う得点なることは容易に推測がつく。これを、専門用語ではテスト依存(Test-dependent)という。つまり、テスト問題の困難度は標本依存(受験者依存)であり、能力の決定はテスト依存であるということである。
従来のテストは、いわゆる改良型ともいえるあの偏差値方式であったとしても、結局は、上記の欠点を補うことができないということがお分かりいただけるだろうか。
■項目応答理論は確率の理論
IRT、項目応答理論は、この集団依存性にとらわれずに、受験者の能力値やテスト項目の困難度を、受験者集団とは独立して求めようとするものである。
つまり、この理論は、テストにおける被験者の応答(解答)状況と、本来実際に真の値を測定することのできない潜在的特性(Latent
trait)である受験者の能力値との間に、ある確率的関数を設定しようとする手法である。欧米諸国ではすでに十分に実用化されているが、日本においてはまだなじみの少ないテスト理論であるといえる。
また、各項目に関する特徴(各設問の困難度といいかえてもよい)があらかじめわかっていれば、各受験者がどの項目に正答し、どの項目に誤答したかを示す項目応答のパターンから、確率的観点より各受験者の能力(特性値)を推定することができるといわれる。ここで確率的というのは、例えば、ある受験者が10問の問題に○○○×○××○○×という応答パターンを示した時、こういうパターンは、特性値がいくつの時に最大の出現確率を示すかを調べ、その値をもってこの応答パターンをした受験者の特性値(能力値)とすることである。これを項目応答理論では最尤推定法(Maximum
Likelihood Estimation)と呼んでいる。
それでは、具体的に項目応答理論はどのような準備のもとに、どのようにして行なわれるのかについて、以下、見てみよう。
■3つのパラメーターを設定
項目応答理論では、項目パラメーターという言葉がよく使われる。これは各項目の特徴(先にも触れたが、各設問の困難度など、と読み替えてもよい)を示すパラメーターである。
因みに、パラメーターとは、辞書によれば、「(数学)パラメーター、助変数、媒介変数、(統計)母数、特質、要素、要因」となっている。 この項目パラメーターには、次ぎの3つの種類がある。
1. a parameter、識別パラメーター: 各項目が被験者の能力を識別する力がどのくらい強いかを表わすパラメーター。
2. b parameter、難易度(困難度)パラメーター: 各項目の難易度水準を表すパラメーター。一般的に各項目に50%の正答確率を持つ被験者の能力値を難易度の値としている。
3. c parameter: 各項目に被験者が偶然に(でたらめに)正答できる確率を表すパラメーター。多肢選択形式の場合、でたらめに選択肢を選択しても偶然正答する確立があるため、それをモデル化したもの。 |
一般には1.と2.や2.だけのパラメーターを利用したテストが多い。
項目応答理論は、各項目に正答する確率を被験者能力値の関数として表すものである。しかし、能力値そのものが未知であるために、直接的にその関数を求めることはできないので、数学的関数モデルを設定するわけだ。
次の式は、b parameter を使った場合のものである。数式を見て頭が痛くなる人は、眺めるだけにしてください。ただし、式の意味だけを簡単に示しておく。
項目応答理論では各被験者の能力値をθ(theta)で表わすので、この式でP(θ)は能力値θの被験者の正答確率を示す。また、exp( )は指数関数で、Dは定数1.7である。
項目応答理論は、この他に、というよりは数式そのもののオンパレードである。このような数式は、見る能力のある人が見れば一目瞭然なのであるが、一般の人にはまったく理解不能となる。したがって小論では数式の紹介はこれだけにして先を急ぐ。
■項目応答理論の真髄は等化(equiting)
さて、それでは項目応答理論では具体的にどのようにして異なるテスト間や異なる受験者間を比べて一定の、それこそ普遍の、あるいは絶対的な評価をするのか、について見てみることにしよう。
結論からいえば、等化という手法(equiting)を使う。これこそが項目応答理論の真髄ともいえるものである。もちろん、「テスト項目の各種パラメーターや被験者能力値が、ある条件を満たす」という前提があり、これが満たせれば、「どのテストを受験しても、どんな被験者集団の中でも同じ尺度を保持できる」のが項目応答理論である。
項目応答理論では、複数のテスト間で求められたパラメーター等を、相互で比較できるようにするために、項目パラメーター値や被験者能力値を属する版にかかわらず、共通の原点と単位をもつ共通尺度上で表わす必要がある。このように、異なる原点と単位をもつ尺度上で表わされた項目パラメーター値や被験者能力値を、相互に比較可能な共通尺度の値に変換することを、パラメーター値の等化(equiting)という。
また、複数のテストの難易度をほぼ等しくする場合には、水平的等化(horizontal equiting)といい、難易度に実質的な意味にある違いをもたせるようにする場合には、垂直的等化(vertical
equiting)と呼んでいる。
等化をするためには、等化すべき2つのデータセットの間で共通の保険者が存在するか、共通項目が存在するかのテストデザインが必要であり、前者を「共通被験者デザイン」といい、後者を「共通項目デザイン」という。
図で説明する。(上図) ここで、黒くなった部分が、左側の共通項目デザインでは共通項目であり「anchor
item(係留項目)」とか「common item(共通項目)」といわれるものである。また、右側の共通被験者デザインでは共通被験者は「anchor
person(係留被験者)」とか「common person(共通被験者)」といわれる。
この計算の仕方や方法を詳しく説明した方が等化という概念をより理解しやすいのであるが、その説明は数式を使用しなければならず、そのためにさらに難しくなる危険性があるので、図で間単に説明する。
左右ともにほぼ同じなので、左図の共通項目デザインで説明する。テストAはグループAが受験し、a1と黒の部分のテストを受けた。テストBはグループBが受験し、a2と黒の部分のテストを受けた。共通項目(この場合は共通の問題とした方がわかりやすい)は黒の部分である。
一般に、この共通項目(共通被験者の場合も同じ)は全体の20%以上を確保する必要があるといわれる。
さて、図に戻って、グループAの受験者は網点の部分(つまり、テストBのa2の部分)を受験していない。また、グループBの受験者も同様に網点の部分(同様に、テストAのa1の部分)は受験していない。これを、あたかも網点の部分を両方のグループがそれぞれ受験したかのように共通項目をキーに基づいて計算することができるのが項目応答理論である。
ここでの目的は共通項目の情報を利用することによって、実際には受験していない項目に関して、仮にそれぞれの受験者が受験した場合どのような項目パラメーターが得られるかを推定しようとするものである。これが等化過程の意味するところであり、この結果すべての項目パラメーター値を、同じ原点と尺度をもつ比較可能な値として得ることが可能となるわけである。
このように、項目応答理論を利用すれば、別々のテスト、別々の受験者集団を、あたかも同じテストを受験したかのように、等化することができ、その結果として、普遍的な評価ができるということである。
以上をまとめれば、項目応答理論は母集団が異なっても共通の尺度で能力測定ができ、また、出題項目が異なっても共通の尺度で能力測定ができる、ということになる。その結果として、レベル設定の適切さや試験問題の等整化などの理論的な根拠ができ、また合否レベルが精密に判定できるようになる。さらに、試験問題の良否が選別でき、以降の問題作成に有用となるというメリットも生まれる。
ただし、このように、項目応答理論は優れものではあるが、あくまでもそれは確率の問題であり、かならずしも絶対的なものではなく、今後改良の余地がまだあるということを銘記すべきである。(鎌田)
|