心理測定学において、項目反応理論(IRT、潜在特性理論、強真得点理論、現代メンタルテスト理論とも呼ばれる)は、能力、態度、その他の変数を測定するテスト、質問票、および類似の手段の設計、分析、採点におけるパラダイムである。これは、テスト項目における個人の成績と、その項目が測定するように設計された能力の総合的な尺度における受験者の成績レベルとの関係に基づいたテスト理論である。項目と受験者の特性の両方を表すために、複数の異なる統計モデルが用いられる。 [ 1 ]尺度作成や質問票の回答評価におけるより単純な代替手段とは異なり、IRTでは各項目の難易度が同等であるとは仮定しない。この点が、例えば「すべての項目が互いの複製であると仮定される、つまり各項目が並列的な手段であるとみなされる」リッカート尺度法とIRTを区別する。[ 2 ]これに対し、項目反応理論では、各項目の難易度(項目特性曲線、ICC)を、項目の尺度作成に組み込む情報として扱う。
これは、関連する数学モデルをテストデータに適用することに基づいています。古典的なテスト理論よりも優れているとしばしばみなされるため、[ 3 ]、米国では尺度開発に好まれる手法であり、特に大学院入学資格試験(GRE)や大学院経営学入学試験(GMAT)といったいわゆるハイステークステストのように、最適な意思決定が求められる場合に用いられます。
項目反応理論(IRT)という名称は、古典的なテスト理論がテストレベルに焦点を当てているのに対し、IRTが項目に焦点を当てていることに由来しています。したがって、IRTは、特定の能力を持つ各受験者のテストの各項目に対する反応をモデル化します。「項目」という用語は一般的な用語であり、あらゆる種類の情報項目を網羅します。情報項目とは、誤答と正答がある多肢選択式の質問の場合もあれば、回答者が同意度(評定またはリッカート尺度)を示すことができるアンケート上の記述、患者の症状の有無をスコア化したもの、あるいは複雑なシステムにおける診断情報を指す場合もあります。
IRTは、問題に対する正解/キー入力の確率は、人物パラメータと問題パラメータの数学的関数であるという考えに基づいています。(「人物パラメータと問題パラメータの数学的関数」という表現は、行動は環境における人物の関数であると主張するルーウィンの式B = f(P, E)に類似しています。)人物パラメータは、(通常)単一の潜在的特性または次元として解釈されます。例としては、一般知能や態度の強さなどが挙げられます。問題の特性を表すパラメータには、難易度(難易度範囲における位置を示すため「ロケーション」と呼ばれる)、識別力(傾きまたは相関)、つまり個人の成功率が能力に応じてどの程度急激に変化するかを表すパラメータ、そして疑似推測パラメータ(最も能力の低い人でも推測によって得点する(下方)漸近線を表すパラメータ)などがあります(例えば、4つの選択肢がある多肢選択問題で純粋な偶然による得点は25%です)。
項目反応関数の概念は 1950 年以前から存在していた。IRT 理論の先駆的な研究は 1950 年代から 1960 年代にかけて行われた。先駆者には、教育試験局の心理測定学者Frederic M. Lord [ 4 ]、デンマークの数学者Georg Rasch、オーストリアの社会学者Paul Lazarsfeldの 3 名がおり、彼らは独立して並行して研究を進めた。IRT の発展に貢献した重要人物には、Benjamin Drake WrightやDavid Andrichなどがいる。IRT が広く普及したのは 1970 年代後半から 1980 年代になってからであり、その頃になると、実践者たちは IRT の「有用性」や「利点」について聞かされるようになり、また、パーソナル コンピュータの登場により多くの研究者が IRT に必要な計算能力を利用できるようになった。1990 年代には、Margaret Wu がPISAとTIMSSデータを分析する 2 つの項目反応ソフトウェア プログラムを開発ACER ConQuest (1998) とRパッケージ TAM (2010)。
IRTの目的は、とりわけ、評価の有効性、そして評価における個々の項目の有効性を評価するための枠組みを提供することです。IRTの最も一般的な応用分野は教育分野であり、心理測定学者は試験の開発と設計、試験項目のバンクの維持、そして試験の連続バージョンにおける項目の難易度の均等化(例えば、時間の経過に伴う結果の比較を可能にするため)にIRTを使用しています。[ 5 ]
IRTモデルは、潜在特性モデルと呼ばれることがよくあります。「潜在」という用語は、離散項目反応が、仮説上の特性、構成概念、または属性の観察可能な顕現であるとみなされ、直接観察されるのではなく、顕在的な反応から推論される必要があることを強調するために使用されます。潜在特性モデルは社会学の分野で開発されましたが、実質的にはIRTモデルと同一です。
IRTは、一般的に古典的テスト理論(CTT)の改良版であると主張されています。CTTで達成可能なタスクにおいて、IRTは一般的に高い柔軟性とより高度な情報を提供します。コンピュータ適応型テスト(CAT)などの一部のアプリケーションはIRTによって可能となり、古典的テスト理論のみでは合理的に実行できません。CTTに対するIRTのもう一つの利点は、IRTが提供するより高度な情報によって、研究者が評価の信頼性を向上させることができることです。
IRT には 3 つの前提があります。
さらに、特性は尺度で測定可能であると想定され(テストが存在するというだけでこれが前提となっている)、通常は平均値0.0、標準偏差1.0 の標準尺度に設定されます。一次元性は均質性、つまり特定の目的や用途に関連して定義または経験的に実証されるべき性質であり、測定可能な量ではないと解釈されるべきです。「局所的独立性」とは、(a) 1 つの項目が使用される可能性が他のどの項目の使用にも関連せず、(b) 項目への応答は各受験者の独立した決定である、つまり不正行為やペアまたはグループでの作業がないことを意味します。次元性のトピックは因子分析で調査されることが多く、IRF は IRT の基本的な構成要素であり、多くの研究と文献の中心となっています。
IRFは、特定の能力レベルの人が正答する確率を示します。能力が低い人は正解する可能性が低く、能力が高い人は正答する可能性が非常に高くなります。例えば、数学の能力が高い生徒は、数学の問題に正解する可能性が高くなります。確率の正確な値は、能力に加えて、IRFの 一連の問題パラメータによって決まります。

たとえば、3パラメータロジスティックモデル(3PL )では、二値項目i(通常は複数選択問題) に対する正解の確率は次のようになります。
ここで、項目パラメータを推定する目的で、個人の能力が正規分布からのサンプルとしてモデル化されていることを示します。項目パラメータが推定された後、個々の個人の能力が報告目的で推定されます。、、は項目パラメータです。項目パラメータはIRFの形状を決定します。図1は理想的な3PL ICCを示しています。
項目パラメータは、標準ロジスティック関数の形状を変更するものとして解釈できます。 簡単に言うと、パラメータは次のように解釈されます(読みやすくするために下付き文字は省略しています)。bは最も基本的なため、最初にリストされています。
とすると、これらは簡略化されて となり、つまりb は50% の成功率(難易度)に等しく、a を4 で割ったものが 50% の成功率で発生する最大傾き(識別度)となります。さらに、正解のロジット(対数オッズ)は( と仮定):特に、能力θ が難易度 b に等しい場合、正解のオッズは均等(1:1、つまりロジット 0)となり、能力が難易度を上回る(または下回る)ほど、正解の可能性は高くなります(低くなります)。識別度 a は、能力に応じてオッズがどの程度速く増加または減少するかを決定します。
言い換えると、標準ロジスティック関数は、漸近最小値 0 ( ) を持ち、0 ( 、 )を中心とし、最大傾きを持ちます。パラメータは水平スケールを引き伸ばし、パラメータ は水平スケールをシフトし、パラメータ は垂直スケールを から に圧縮します。これについては以下で詳しく説明します。
パラメータは項目の位置を表し、達成度テストの場合は項目難易度と呼ばれます。これはIRFの傾きが最大となる点であり、値が最小値1と最大値1の中間点となります。例の項目は、分布の中心に近い0.0であるため、中程度の難易度です。このモデルでは、項目の難易度と個人の特性が同じ連続体上にスケールされていることに注意してください。したがって、ある項目が人物Aの特性レベルとほぼ同じ難易度である、あるいはある個人の特性レベルが項目Yの難易度とほぼ同じである、といった表現は妥当です。これは、ある項目に関連するタスクを正常に実行することが、特定の能力レベルを反映するという意味です。
項目パラメータは、項目の識別性、つまり、潜在的連続体上の異なる領域にいる人々を項目がどの程度識別するかを表します。このパラメータは、IRFの傾きが最大となる傾きを特徴付けます。例の項目は=1.0 であり、これはかなり正確に識別しています。つまり、能力の低い人は、能力の高い人に比べて正しく回答する可能性がはるかに低いということです。この識別パラメータは、標準的な加重線形回帰(通常最小二乗法、OLS)における各項目または指標の加重係数に対応するため、潜在的な概念を教師なし測定するための指標の加重指数を作成するために使用できます。
多肢選択問題などの問題では、パラメータは推測が正答確率に与える影響を説明するために使用されます。これは、非常に低い能力を持つ人が偶然にこの問題に正解する確率を示し、数学的には下方漸近線として表されます。4つの選択肢がある多肢選択問題では、例題のようなIRFを持つ場合があります。非常に低い能力を持つ受験者が正解を推測する確率は1/4であるため、パラメータは約0.25になります。このアプローチでは、すべての選択肢が同等に妥当であると仮定します。なぜなら、1つの選択肢が意味をなさない場合、最も能力の低い人でさえそれを破棄できるからです。そのため、IRTパラメータ推定法ではこの点を考慮し、観測データに基づいてパラメータを推定します。[ 6 ]
大まかに言えば、IRTモデルは一次元と多次元の2つのグループに分けられます。一次元モデルは、単一の特性(能力)次元を必要とします。多次元IRTモデルは、複数の特性から生じると仮定される反応データをモデル化します。しかし、複雑性が大幅に増加するため、IRTの研究と応用の大部分は一次元モデルを利用しています。
IRTモデルは、採点対象となる回答の数に基づいて分類することもできます。典型的な多肢選択問題は二値型です。選択肢が4つまたは5つあっても、正解/不正解(正しい/間違っている)のみで採点されます。別の種類のモデルは、各回答が異なる得点を持つ多値型結果に適用されます。 [ 7 ] [ 8 ]一般的な例としては、リッカート型問題(例えば、「1から5のスケールで評価してください」)が挙げられます。別の例としては、部分得点型採点があり、これには多値型ラッシュモデルなどのモデルが適用できます。
二値IRTモデルは、使用するパラメータの数によって説明されます。[ 9 ] 3PLは、3つの項目パラメータを使用するため、そのように名付けられています。 2パラメータモデル (2PL) では、データに推測は含まれないが、項目は場所 ( ) と識別 ( ) の点で異なる可能性があると想定します。 1パラメータモデル (1PL) では、推測は能力の一部であり、モデルに適合するすべての項目は同等の識別を持つため、項目は単一のパラメータ ( ) によってのみ説明されると想定します。 この結果、1パラメータモデルは特定の客観性という特性を持ちます。つまり、項目の難易度のランクは能力とは無関係にすべての回答者に対して同じであり、人の能力のランクは難易度とは無関係に項目に対して同じです。 このように、1パラメータモデルはサンプル独立であり、この特性は2パラメータモデルや3パラメータモデルには当てはまりません。 さらに、理論的には4パラメータモデル (4PL) があり、上側漸近線は で表され、3PL の は に置き換えられます。ただし、これはめったに使用されません。 項目パラメータのアルファベット順は、実際的または心理測定学的重要性と一致しないことに注意してください。位置/難易度()パラメータは、3つのモデルすべてに含まれているため、明らかに最も重要です。1PLは のみを使用し、2PLは と を使用し、3PLは を追加し、4PLは を追加します。
2PL は、 を備えた 3PL モデルと同等であり、空欄補充問題 (「121 の平方根はいくつですか?」) などの正解を推測する可能性が非常に低い項目や、性格、態度、興味に関する項目 (例:「私はブロードウェイ ミュージカルが好きです。賛成/反対」) などの推測の概念が適用されない項目のテストに適しています。
1PLは、推測が存在しない(または無関係である)だけでなく、すべての項目が弁別能力において同等であると仮定します。これは、すべての項目に同一の負荷量を適用する共通因子分析に類似しています。個々の項目または個人には二次因子が存在する可能性がありますが、これらは相互に独立しており、全体として直交していると仮定されます。
正規確率分布に基づくIRFを構築する別の定式化があり、これらは正規オイゲイブモデルと呼ばれることもあります。例えば、2パラメータの正規オイゲイブIRFの式は以下のとおりです。
ここで、Φは標準正規分布の 累積分布関数(CDF)です。
正規オイゲブモデルは、測定誤差が正規分布するという仮定に基づいており、その仮定に基づいて理論的に魅力的です。ここでも、難易度パラメータが挙げられます。識別パラメータは、項目iの測定誤差の標準偏差であり、1/ に相当します。
項目間のテトラコリック相関行列を因子分析することによって、正規オイギーブ潜在特性モデルを推定することができる。[ 10 ] これは、汎用統計ソフトウェアを使用して単純なIRTモデルを推定することが技術的に可能であることを意味する。
能力パラメータを再スケーリングすることで、2PLロジスティックモデルを累積正規オイゲブに近づけることが可能です。[ 11 ] 通常、2PLロジスティックIRFと正規オイゲブIRFの確率差は、関数の範囲全体にわたって0.01以内です。しかし、分布の裾野では差が最も大きく、結果への影響が大きい傾向があります。
潜在特性/IRTモデルはもともと正規オイゲブを用いて開発されましたが、当時(1960年代)のコンピュータでは計算負荷が大きすぎると考えられていました。ロジスティックモデルはより簡便な代替モデルとして提案され、それ以来広く利用されてきました。しかし近年、正規CDFの標準的な多項式近似を用いることで、[ 12 ]正規オイゲブモデルはロジスティックモデルよりも計算負荷が大きいわけではないことが実証されました。[ 13 ]
ラシュモデルは、1PL IRTモデルであると考えられることが多い。しかし、ラシュモデリングの支持者は、これをデータと理論の関係を概念化する全く異なるアプローチと見なすことを好んでいる。[ 14 ] 他の統計モデリング手法と同様に、IRTは、観測データへのモデルの適合性の最優先事項を強調する。[ 15 ]一方、ラシュモデルは、基本的な測定要件の最優先事項を強調し、適切なデータモデルの適合性は、テストまたは研究機器が特性を測定すると主張する前に満たされるべき重要だが二次的な要件である。[ 16 ] 操作上、これは、IRTアプローチには、データで観察されたパターンを反映するための追加のモデルパラメータが含まれる(例えば、項目と潜在特性との相関関係が変化することを許可する)のに対し、ラシュアプローチでは、潜在特性の存在に関する主張は、(a)データがラシュモデルに適合し、(b)テスト項目と受験者がモデルに準拠している場合にのみ有効であると見なせることを意味する。そのため、ラッシュモデルでは、不適合な応答は不適合の理由を診断する必要があり、潜在特性に対応していない理由を実質的に説明できる場合はデータセットから除外することができます。 [ 17 ]このように、ラッシュアプローチは、観察されたデータをモデル化しようとする探索的アプローチとは対照的に、確認的アプローチであると見なすことができます。
推測や疑似偶然性パラメータの有無は、重要かつ時に議論の的となる区別である。IRTアプローチは、多肢選択式試験における推測を考慮するために左漸近線パラメータを含むが、Raschモデルでは、推測によってデータにランダムに分布するノイズが追加されると想定されるため、左漸近線パラメータは含まれない。ノイズはランダムに分布するため、十分な数の項目が試験されれば、潜在特性に沿った生の得点による人の順位付けは変化せず、単に線形再スケーリングを受けると想定される。対照的に、3パラメータIRTは、データに適合するモデルを選択することでデータモデルの適合を達成するが、[ 18 ]特定の客観性を犠牲にしている。
実際には、ラッシュモデルはIRTアプローチと比較して少なくとも2つの主要な利点があります。第一の利点は、ラッシュの特定の要件が優先されることです。[ 19 ]この要件が満たされると、基本的な人に依存しない測定(人とアイテムを同じ不変尺度にマッピングできる)が実現されます。[ 20 ]ラッシュアプローチのもう一つの利点は、十分な統計量が存在するため、ラッシュモデルではパラメータの推定がより容易になることです。これは、この応用においては、生の数値正解スコアとラッシュ推定値が1対1でマッピングされることを意味します。[ 21 ]
数学モデルを使用する場合、データとモデルの適合性を評価することが重要です。例えば、多肢選択式テストにおける混乱を招く誤答など、モデルとの不適合が問題の質の低さに起因すると診断された場合、当該問題は当該テストフォームから削除し、将来のテストフォームでは書き直すか、置き換えることができます。しかし、明確な理由がないにもかかわらず、不適合項目が多数存在する場合は、テストの構成妥当性を再検討し、テスト仕様を書き直す必要があるかもしれません。このように、不適合性はテスト開発者にとって貴重な診断ツールとなり、テスト仕様の根拠となる仮説をデータを用いて実証的に検証することを可能にします。
適合度を評価する方法はいくつかあり、例えばカイ二乗統計量やその標準化版などがあります。2パラメータおよび3パラメータのIRTモデルは項目の識別を調整し、データとモデルの適合性を向上させるため、適合度統計量には、理想化されたモデルが事前に指定される1パラメータモデルに見られるような確認診断価値がありません。
データは、モデルへの不適合を理由に除外されるべきではなく、不適合の原因が構成概念と関連していると診断された場合、例えば英語を母国語としない人が英語で書かれた理科のテストを受けた場合など、不適合の原因が構成概念と関連していると診断された場合に除外されるべきです。このような受験者は、テストの次元によっては、同じ集団に属していないと主張できます。また、1つのパラメータIRT尺度はサンプル非依存であると主張されても、集団非依存ではないため、このような不適合は構成概念と関連しており、テストやモデルを無効化するものではありません。このようなアプローチは、機器検証において不可欠なツールです。2パラメータモデルおよび3パラメータモデルでは、心理測定モデルがデータに適合するように調整されますが、各実施のスコアが他の実施にも一般化されるという仮説を確認するために、次回のテスト実施は、最初の検証で使用したのと同じモデルへの適合性を確認する必要があります。データとモデルの適合性を達成するために、実施ごとに異なるモデルが指定されている場合、異なる潜在特性が測定されることになり、実施間でテストスコアを比較できると主張することはできません。
項目反応理論の主要な貢献の 1 つは、信頼性の概念の拡張です。伝統的に、信頼性は測定の精度 (つまり、測定に誤差がない程度) を指します。伝統的に、信頼性は、真のスコア分散と観測スコア分散の比など、さまざまな方法で定義された単一の指標を使用して測定されます。この指標は、たとえば 2 つのテストを比較する場合など、テストの平均的な信頼性を特徴付けるのに役立ちます。しかし、IRT は、精度がテストのスコアの範囲全体で均一ではないことを明確にしています。たとえば、テストの範囲の端にあるスコアは、範囲の中央に近いスコアよりも一般的に多くの誤差を伴います。
項目反応理論は、信頼性に代わる項目情報とテスト情報の概念を発展させます。情報はモデルパラメータの関数でもあります。例えば、フィッシャー情報理論によれば、二値反応データに対する1PLの場合に提供される項目情報は、単に正解の確率と不正解の確率を掛け合わせたもの、つまり、
推定の標準誤差(SE)は、与えられた特性レベルにおけるテスト情報の逆数であり、
したがって、情報が増えると測定の誤差が少なくなります。
2パラメータモデルや3パラメータモデルなどの他のモデルでは、判別パラメータが関数において重要な役割を果たします。2パラメータモデルの項目情報関数は
3パラメータモデルの項目情報関数は[ 22 ]である。
一般的に、アイテム情報関数はベル型になる傾向があります。識別力の高いアイテムは、高く狭い情報関数を持ち、狭い範囲で大きな貢献をします。識別力の低いアイテムは、より少ない情報しか提供しませんが、より広い範囲で貢献します。
項目情報プロットは、ある項目がどの程度の情報を提供し、尺度得点範囲のどの部分を占めているかを確認するために使用できます。局所独立性のため、項目情報関数は加法的です。したがって、テスト情報関数は、試験に含まれる項目の情報関数の単なる合計です。この特性を大規模な項目バンクに適用することで、テスト情報関数を非常に正確に調整し、測定誤差を非常に正確に制御することができます。
テストスコアの正確さを特徴づけることは、おそらく心理測定理論における中心的な課題であり、IRTとCTTの主な違いでもあります。IRTの知見は、CTTの信頼性の概念が単純化されたものであることを示しています。IRTは信頼性の代わりに、シータ(θ)の異なる値における精度の度合いを示すテスト情報関数を提供します。
これらの結果により、心理測定学者は、慎重に選定された項目を組み込むことで、異なる能力範囲における信頼性のレベルを(潜在的に)慎重に調整することが可能になります。例えば、試験が合否のみで判定され、「カットスコア」が1つしか存在せず、実際の合格点が重要でない資格試験の場合、カットスコア付近で高い情報量を持つ項目のみを選択することで、非常に効率的な試験を開発できます。これらの項目は通常、難易度がカットスコアとほぼ同等の項目に相当します。
人物パラメータは、個人の潜在特性の大きさを表し、テストによって測定される人間的能力または属性である。 [ 23 ] それは、認知能力、身体能力、スキル、知識、態度、性格特性などである可能性がある。
個人パラメータの推定値(IRTを用いたテストにおける「スコア」)は、正答数や正答率といった従来のスコアとは全く異なる方法で計算・解釈されます。個人の総正答数スコアは実際のスコアではなく、IRFに基づいて算出されるため、モデルに項目弁別パラメータが含まれている場合は加重スコアとなります。これは実際には、各項目の項目応答関数を乗じて尤度関数を求めることで得られ、その最高点は の最大尤度推定値となります。この最高点は通常、IRTソフトウェアを用いてニュートン・ラプソン法を用いて推定されます。[ 24 ] IRTによるスコアリングははるかに洗練されていますが、ほとんどのテストにおいて、シータ推定値と従来のスコアの相関は非常に高く、多くの場合0.95以上になります。IRTスコアと従来のスコアのグラフはオイゲブ形状を示し、IRT推定値は範囲の中央よりも境界で個人を区別していることを示しています。
CTTとIRTの重要な違いは、測定誤差の扱い方であり、これは測定標準誤差によって指標化されます。すべてのテスト、質問票、インベントリは不正確なツールです。私たちは個人の真のスコアを知ることはできず、推定値、つまり観察スコアしか知ることができません。ある程度のランダム誤差が存在するため、観察スコアは真のスコアよりも高くも低くもなることがあります。CTTでは、誤差の量は受験者ごとに一定であると仮定しますが、IRTでは誤差の変動を許容します。[ 25 ]
また、IRTは人間の発達や向上を否定するものではなく、特性レベルが一定であると仮定するものでもありません。人はスキル、知識、あるいはいわゆる「テスト受験スキル」を習得することで、真のスコアが向上する可能性があります。実際、IRT研究の一部は、特性レベルの変化の測定に焦点を当てています。[ 26 ]
古典的テスト理論(CTT)とIRTは、主に同じ問題を扱っていますが、理論体系は異なり、用いる手法も異なります。2つのパラダイムは概ね一貫性があり、相互に補完し合っていますが、いくつかの相違点があります。
CTTとIRTの間には、概念間の対応関係を理解する上で役立ついくつかの具体的な類似点があることにも触れておく価値がある。まず、Lord [ 27 ]は、正規分布するという仮定の下で、2PLモデルにおける判別は点双列相関の単調関数に近似することを示した。具体的には、
ここで、 は項目iの点双列相関です。したがって、仮定が成り立つ場合、識別度が高い場所では、一般的に点双列相関も高くなります。
もう一つの類似点は、IRTが各推定値の標準誤差と情報関数を提供するのに対し、分離指数と呼ばれる、クロンバックのαに直接類似した検査全体の指標を得ることも可能であることです。そのためには、CTTにおいて観測スコアを真のスコアと誤差に分解するのと同様に、IRT推定値を真の位置と誤差に分解することから始める必要があります。
ここで、は真の位置、は推定値に関連する誤差です。そして、は与えられた重み付けスコアを持つ人の標準偏差の推定値であり、分離指数は以下のように得られます。
ここで、人推定値の平均二乗標準誤差は、人ごとの誤差の分散の推定値を与える。標準誤差は通常、推定プロセスの副産物として生成される。分離指数は通常、クロンバックのαに非常に近い値となる。[ 28 ]
IRT は比較的新しい理論体系であり、CTT 内に暗黙的に含まれる仮説をより明確にするため、 強力な真のスコア理論または現代のメンタルテスト理論と呼ばれることもあります。
項目反応理論の様々なバリエーションの実装は、 Rプログラミング言語、[ 29 ] [ 30 ] [ 31 ]やPython [ 32 ]など、さまざまな統計プログラムや言語で利用可能です。
項目反応理論を扱ったり、IRTまたはIRT類似モデルを扱ったりする書籍は数多く出版されています。以下は、より深い内容を提供する書籍に焦点を当てた、部分的なリストです。