適応的比較判断

適応型比較判定は、心理物理学から借用した手法であり、教育評価において信頼性の高い結果を生み出すことができます。そのため、従来の試験採点に代わる手法となります。このアプローチでは、判定者は生徒の課題を2つ提示され、どちらが優れているかを判断します。反復的かつ適応的なアルゴリズムを用いることで、評価基準に依存せずに、生徒の課題の尺度分布を得ることができます。

導入

伝統的な試験の採点は、学部生数の増加に伴い、学生の適切な順位付けの重要性が高まっていた1792年のケンブリッジ大学で始まりました。そこで1792年、新任の試験監督ウィリアム・ファリッシュは採点制度を導入しました。これは、すべての試験官がすべての学生の解答に数値点を付け、その合計点によって学生の順位が決定されるというものです。フランシス・ゴルトン（1869年）は、1863年頃の特定されていない年に、上級ラングラーの得点は最高17,000点満点中7,634点だったのに対し、次席ラングラーの得点は4,123点だったと記しています（「ウッドスプーン」の得点はわずか237点でした）。

1792年以前は、ケンブリッジ大学の試験官チームが試験最終日の午後5時に招集され、各学生が受験した19の試験問題を審査し、真夜中に順位を発表していました。採点制度は数の問題を解決し、不公平な個人的偏見を防ぎました。そして、その導入は、現代の客観試験、つまりそれが最も適した形式への一歩となりました。しかし、その後の試験技術は信頼性と採点の自動化を重視し、教育成果の一部の分野にとって都合の悪いものとなりました。ライティングやスピーキングなどのパフォーマンス評価には、より定性的で判断力のある評価が求められるからです。

適応型比較判断法は、採点に代わる手法です。1792年以前の、質に応じて試験問題を分類するという考え方に立ち返りつつも、信頼性と公平性の保証は維持されています。エッセイやより複雑なパフォーマンスを採点する方法として、これまで知られている方法の中で、最も信頼性の高い方法と言えるでしょう。採点よりもはるかに簡便で、実際に試した試験官のほぼ全員がこの方法を採用しています。適応型比較判断法の真の魅力は、評価という活動を再専門化し、学習と評価を再び統合できる点にあります。

歴史

サーストンの比較判断の法則

「絶対的な判断など存在しない」

— ラミング（2004）^{[ 1 ]}

比較判断の科学は、シカゴ大学のルイス・レオン・サーストンによって始まりました。心理物理学の先駆者である彼は、感覚やその他の心理的特性を測定する尺度を構築するいくつかの方法を提案しました。その一つが比較判断の法則^[²^]^[³^]^[⁴^]であり、これは、それぞれの「質」の値が与えられた場合、ある対象が別の対象に「勝つ」可能性をモデル化する数学的手法を定義しました。これは、完全な測定システムを構築するために必要なすべてです。

彼のモデルのバリエーション（ペアワイズ比較と BTL モデルを参照）では、品質値の違いは、オブジェクト A がオブジェクト B に勝つオッズの対数に等しいと述べています。

\mathrm {log\;オッズ} (A\ {\text{beats}}\ B\mid v_{a},v_{b})=v_{a}-v_{b}

現代のコンピュータが登場する以前は、各物体の品質の「価値」を計算するために必要な数学的計算のため、この手法は少数の物体の集合にしか適用できず、その適用範囲も限られていました。サーストンの場合、対象は一般的に、強度などの感覚、犯罪の深刻さなどの態度、あるいは意見表明でした。社会調査員はこの手法を使い続け、市場調査員の場合、対象はホテルの部屋のレイアウトの違いや、新商品ビスケットのバリエーションなどでした。

1970年代から1980年代にかけて、比較判断は教育評価においてほぼ初めて、潜在特性理論や項目反応理論の理論的根拠、あるいは先駆けとして登場しました (Andrich, 1978)。これらのモデルは現在、特に項目バンキングや適応型テストシステムにおいて標準となっています。

教育における再導入

教育において比較判断を用いた最初の論文は、ポリットとマレー（1994）であり、ケンブリッジ大学CPE試験のスピーキングパートで評価される英語能力尺度の性質に関する研究論文でした。対象は受験者であり、彼らの試験セッションの2分間のビデオ録画の断片で表現され、審査員は評価の訓練を受けていない言語学の大学院生でした。審査員は2つのビデオ断片を比較し、どちらが優れていると思うかを報告しました。その後、判断の理由を明らかにするために臨床面接が行われました。

その後、ポリットは英国の資格認定機関に対し、異なる試験委員会のAレベル試験の基準を比較する方法として、比較判定法を導入した。比較判定法は、異なる試験委員会の公式基準と筆記試験の筆記問題を直接比較する従来の方法に取って代わった。最初の2、3年間、ポリットは自ら作成したプログラムを用いて、すべての試験委員会の分析を実施した。この方法はたちまち、英国において試験の比較可能性を調査する唯一の実験手法となった。1996年から2006年にかけてこの目的で行われた試験の適用事例は、Bramley (2007) に詳細に記述されている。^{[ 5 ]}

2004年、ポリットは国際教育評価協会（IAEA）の会議で「試験の採点をやめよう」と題する論文を発表し、2009年には同じ会議で「採点主義の廃止」と題する論文を発表しました。どちらの論文も、一部の評価方法において、採点の代わりに比較判定法を用いることで大きなメリットがあることを評価関係者に納得させることを目的としました。2010年には、欧州教育評価協会（IAEA）で「ライティングを信頼性と妥当性をもって評価する方法」と題する論文を発表し、小学生の母語である英語ライティング能力を評価する際に比較判定法が達成した極めて高い信頼性の証拠を示しました。

適応的比較判断

比較判断は、適応型ウェブベースの評価システムとして実装されると、採点に代わる現実的な選択肢となる。この場合、「スコア」（各オブジェクトのモデルパラメータ）は、平均して各オブジェクトがもう1回評価される各「ラウンド」の判断の後に再推定される。次のラウンドでは、各スクリプトは、現在の推定スコアが類似している別のスクリプトとのみ比較されるため、各判断に含まれる統計情報の量が増える。結果として、推定手順は、ランダムペアリングや、従来の比較判断アプリケーションで使用されるような事前に決定されたペアリングシステムよりも効率的である。（Pollitt、2012年）。^{[ 6 ]}コンピュータ適応型テストと同様に、この適応性は推定手順の効率を最大化し、スコアの分離を高め、標準誤差を減らす。最も明白な利点は、妥当性を損なうことなく、採点による評価と比較して信頼性が大幅に向上することです。

適応的比較判断が本当に信頼性を高めるかどうかは定かではない。(Bramley, Vitello, 2016) ^{[ 7 ]}

現在の比較判断プロジェクト

RM比較

RM Compareは、適応型比較判断システムの元祖です。^{[ 8 ]}このシステムは、もともとDigital Assess社（旧TAG Developments社）によってCompareAssessとして開発され、適応型比較判断の大規模展開を実行できるように設計されており、世界中で幅広い状況で使用されています。

比較判断

No More Marking は、オンラインの比較判断アプリケーションと、役立つ情報のリポジトリを作成しました。

逃げる

比較判断法を学生の直接評価に初めて適用したのは、ロンドン大学ゴールドスミス・カレッジのリチャード・キンベル教授が主導したe-scapeと呼ばれるプロジェクトでした（Kimbell & Pollitt, 2008）。 ^{[ 9 ]}この開発作業は、デザイン＆テクノロジーコースにおいて、複数の資格認定機関と共同で行われました。キンベル教授のチームは、洗練された本格的なプロジェクトを開発しました。このプロジェクトでは、学生は監督下で3時間のセッションを2回行い、子供用薬剤ディスペンサーなどのプロトタイプを開発することが求められました。

このウェブベースの評価システムは、TAG Developments（現在はDigital Assess傘下）のKarim Derrick氏とDeclan Lynch氏によって設計され、オリジナルのMAPS（ソフトウェア）評価ポートフォリオシステム（現在はManage）をベースにしています。ゴールドスミス大学、TAG Developments、Pollittは3回の試行を行い、サンプル数を20名から249名に増やし、評価システムと評価システムの両方を開発しました。地理と理科の3つの分野と、デザイン＆テクノロジーの分野におけるオリジナルの分野を含む3つのパイロットプログラムが進行中です。

小学校の作文

2009年後半、TAG DevelopmentsとPollittは、ライティング評価システムの新バージョンを試験的に導入しました。全国規模の評価を模擬した環境下で、54人の審査員からなるチームが合計1000枚の小学校の作文を評価しました。各作文を16回審査した後のスコアの信頼性は0.96で、同様のライティング評価に関する他のどの研究よりも大幅に高い値でした。システムのさらなる開発により、各作文を約9回審査した後で信頼性は0.93に達することが示されました。このシステムのコストは1回のみの採点と同程度ですが、それでもはるかに信頼性が高くなります。^{[ 6 ]}

さらなるプロジェクト

現在、イングランド、スコットランド、アイルランド、イスラエル、シンガポール、オーストラリアで複数のプロジェクトが進行中です。対象は小学校から大学まで多岐にわたり、作文から数学まで、形成的評価と総括的評価の両方が含まれます。基本的なウェブシステムは現在、TAG Assessment（ http://www.tagassessment.com ）から商用ベースで提供されており、特定のニーズに合わせてカスタマイズすることも可能です。

ACJは、アイルランドのリムリック大学で、Seery、Canty、Gordon、Laneの4つの研究グループによって、2009年から教員養成プログラムにおける学部生の学習成果の評価に使用されています。また、パデュー大学のBartholomew博士も、中学生、高校生、大学生のデザインポートフォリオの評価にACJを使用しています。Bartholomew博士は、自由記述問題の形成的評価のための教育・学習ツールとしてもACJを使用しています。

参考文献

^ラミング、ドナルド (2003). 『人間の判断力』ロンドン: センゲージ・ラーニング. ISBN 978-1-86152-777-6。
^ Thurstone, LL (1927). 「心理物理学的分析」(PDF) .アメリカ心理学会誌. 38 (3). イリノイ大学出版局: 368– 389. doi : 10.2307/1415006 . ISSN 0002-9556 . JSTOR 1415006. 2024年12月5日閲覧.
^サーストン、LL（1959年）『価値の測定』シカゴ大学出版局、OCLC 9794765。
^サーストン, LL (1927). 「社会的価値観の一対比較法」.異常・社会心理学ジャーナル. 21 (4): 384– 400. doi : 10.1037/h0065439 . ISSN 0096-851X .
^ Bramley, Tom (2007). 「一対比較法」.試験基準の比較可能性をモニタリングするための技術. 246 : 294.
^ ^a ^bポリット、アラステア (2012). 「適応型比較判断法」.教育における評価：原則、政策、実践. 19 (3): 281– 300. doi : 10.1080/0969594X.2012.665354 . ISSN 0969-594X .
^ Bramley, Tom; Vitello, Sylvia (2019-01-02). 「適応的比較判断における適応性の信頼性係数への影響」. 『教育における評価：原則、政策、実践』 . 26 (1): 43– 58. doi : 10.1080/0969594X.2017.1418734 . ISSN 0969-594X .
^ "RM Compare" . RM plc . 2024年12月2日. 2024年12月5日閲覧。
^キムベル、リチャード；ポリット、アラステア（2008年）「ハイステークス試験におけるコースワーク評価：真実性、創造性、信頼性」第3回国際ラッシュ測定会議。西オーストラリア州パース。

さらに読む

Pollitt, A (2015) 「ACJにおける信頼性バイアスについて：適応的比較判断の有効なシミュレーション」ケンブリッジ試験研究：ケンブリッジ、英国https://www.researchgate.net/publication/283318012_On_%27Reliability%27_bias_in_ACJで入手可能
APA、AERA、NCME (1999)教育および心理テストの標準。
ゴルトン、F（1855）遺伝的天才：その法則と結果の探究。ロンドン：マクミラン。
Kimbell, RA, Wheeler A, Miller S, Pollitt A (2007) e-scapeポートフォリオ評価（ポートフォリオ環境における創造的評価のためのeソリューション）フェーズ2レポートTERU Goldsmiths, University of London ISBN 978-1-904158-79-0
Pollitt, A (2004) 「試験の採点をやめよう」国際教育評価協会年次会議、フィラデルフィア、2004年6月。http ://www.camexam.co.uk publications で入手可能。
Pollitt, A. (2009) 「マーク主義の廃止と妥当性の回復」国際教育評価協会年次会議、ブリスベン、9月。http: //www.camexam.co.uk publications で入手可能。
Pollitt, A, & Murray, N (1993) 評価者が本当に注目するものとは？言語テスト研究コロキウム、ケンブリッジ。Milanovic, M & Saville, N (編) 『言語テスト研究3：パフォーマンステスト、認知、評価』、ケンブリッジ大学出版局、ケンブリッジに再掲載。

外部リンク

[Laming-1] ラミング、ドナルド (2003). 『人間の判断力』ロンドン: センゲージ・ラーニング. ISBN 978-1-86152-777-6。

[k715-2] Thurstone, LL (1927). 「心理物理学的分析」(PDF) .アメリカ心理学会誌. 38 (3). イリノイ大学出版局: 368– 389. doi : 10.2307/1415006 . ISSN 0002-9556 . JSTOR 1415006. 2024年12月5日閲覧.

[Measurement-3] サーストン、LL（1959年）『価値の測定』シカゴ大学出版局、OCLC 9794765。

[e499-4] サーストン, LL (1927). 「社会的価値観の一対比較法」.異常・社会心理学ジャーナル. 21 (4): 384– 400. doi : 10.1037/h0065439 . ISSN 0096-851X .

[5] Bramley, Tom (2007). 「一対比較法」.試験基準の比較可能性をモニタリングするための技術. 246 : 294.

[p2012-6] ポリット、アラステア (2012). 「適応型比較判断法」.教育における評価：原則、政策、実践. 19 (3): 281– 300. doi : 10.1080/0969594X.2012.665354 . ISSN 0969-594X .

[p2016-7] Bramley, Tom; Vitello, Sylvia (2019-01-02). 「適応的比較判断における適応性の信頼性係数への影響」. 『教育における評価：原則、政策、実践』 . 26 (1): 43– 58. doi : 10.1080/0969594X.2017.1418734 . ISSN 0969-594X .

[n453-8] "RM Compare" . RM plc . 2024年12月2日. 2024年12月5日閲覧。

[9] キムベル、リチャード；ポリット、アラステア（2008年）「ハイステークス試験におけるコースワーク評価：真実性、創造性、信頼性」第3回国際ラッシュ測定会議。西オーストラリア州パース。

[ 1 ]

[

[

[

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]