付加価値モデリング

教師評価の方法

付加価値モデリング(付加価値測定付加価値分析付加価値評価とも呼ばれる)は、生徒の現在のテストの点数を、同じ生徒の前年度の点数や同じ学年の他の生徒の点数と比較することにより、特定の年度における教師の貢献を測定する教師評価方法です。このように、付加価値モデリングは、特定の年度に各教師が提供する貢献、つまり付加価値を分離し、他の教師のパフォーマンス指標と比較することを目指します。VAMは、過去の成績や収入などの潜在的に交絡するコンテキスト変数を考慮せずに、生徒の達成度スコアやゲインスコアを単純に比較するよりも公平であると考えられています。このアプローチを使用して、校長または学校全体によって付加された価値を推定することもできます。

批評家は、個々の教師を評価するためのテストの使用は科学的に検証されておらず、結果の多くは偶然や、外部からの補習など教師のコントロールが及ばない状況によるものだと指摘している。[1] しかし、研究によると、教師の付加価値で測られる教師の有効性の違いは、生徒への経済効果は小さいことが分かっている。[2]

方法

研究者は、生徒の過去のテストの点数に関する統計的プロセスを用いて、生徒の将来のテストの点数を予測します。これは、生徒は通常、毎年、過去数年間とほぼ同じ点数を取るという仮定に基づいています。そして、生徒の実際の点数と予測点数を比較します。予測点数と実際の点数に差がある場合、それは生徒の生来の能力や社会経済的状況ではなく、教師と学校の対応によるものと想定されます。

このように、付加価値モデリングは、生徒の一般的な知能貧困、親の関与など、生徒のテストの成績に強く影響することが知られている教師の制御外の要因から教師の貢献を切り離そうとします。

これらすべての個別の結果を集約することで、統計学者は、一般的な教師が生徒の成績をどの程度向上させたかと比較して、特定の教師が生徒の成績をどの程度向上させたかを判断できます。

統計学者は、階層線形モデリングを用いて、特定の学校の特定の教室における特定の生徒の成績を予測します。この予測は、全生徒の集計結果に基づいています。各生徒の予測スコアには、生徒のレベル(例:過去の成績、社会経済的地位、人種/民族)、教師のレベル(例:資格、経験年数、最高学位、教育実践、教材、カリキュラム)、そして学校レベル(例:規模、種類、環境)といった変数が考慮される場合があります。どの変数が考慮されるかは、モデルによって異なります。

用途

2010年現在、シカゴ公立学校ニューヨーク市教育局コロンビア特別区公立学校[アップデート]など、全米のいくつかの学区がこのシステムを採用しています。このランキングは、教師の定着率やボーナス支給の決定に活用されているほか、教師研修から最も恩恵を受ける教師を特定するためのツールとしても活用されています。[1]教師のパフォーマンスをより良く評価する方法を提唱する「Race to the Top」などのプログラムでは、学区は教室での教師の観察を補完するものとして、付加価値モデリングに注目しています。[1]

ルイジアナ州議会議員フランク・A・ホフマンは、優秀な教師を表彰し、効果的な教育方法を特定するとともに、他の教師よりも能力が低いと判断された教師に追加の専門能力開発を提供する手段として、州立学校における付加価値モデリング手法の活用を認可する法案を提出した。ルイジアナ州教師連盟の反対にもかかわらず、この法案は2010年5月26日にルイジアナ州上院を通過し、ボビー・ジンダル知事 によって直ちに署名され、法律として発効した[3]

専門家は、付加価値モデリングをあらゆる意思決定の唯一の決定要因として使用することを推奨していません。[4] むしろ、多面的な評価プログラムにおける重要な要素として使用することを推奨しています。[5]

制限事項

規範参照型評価システムでは、教師のパフォーマンスは、選択された比較グループ内の他の教師の成績と比較されます。したがって、このモデルを用いて、ある教師が典型的な教師よりも優れているか、劣っているか、あるいは同じかを推測することは可能ですが、特定のパフォーマンスレベルが望ましいかどうかを判断することはできません。

各生徒の期待得点は、主に過去の実際の得点から算出されるため、このモデルを幼稚園や小学校1年生の教師の評価に用いることは困難です。一部の研究では、このモデルを小学校3年生以上の教師に限定しています。

学校は、新入生の以前の学校から過去の成績を入手できない場合や、一部のテストは比較が不可能なため、成績が役に立たない場合があります。生徒の転校率が高い学校では、このモデルを適用するのに十分なデータを収集することが困難な場合があります。生徒が年度の途中で転校する場合、その年度の進歩は、最終の担任教師だけに起因するものではありません。

付加価値スコアは、言語よりも数学において教師の影響をより受けやすい。[4] これは、読解力と言語能力において、構成の不十分なテストが広く使用されているためか、あるいは教師が言語発達に与える影響力が最終的に小さいためである可能性がある。[4] 生徒は言語能力を多くの情報源、特に家族から学ぶが、数学のスキルは主に学校で学ぶ。

スコアは年ごと、またクラスごとに多少のばらつきがあります。このばらつきは、メジャーリーグベースボールなどの他の分野におけるパフォーマンス指標と似ており、教師のパフォーマンスにおける実際の自然なばらつきを反映している可能性があります。[4] このばらつきのため、スコアは多数の生徒(通常50人以上)から算出された場合に最も正確になります。その結果、特に小学校では、20人しか教えていない可能性のある新任教師を評価するためにこのモデルを使用することは困難です。1つの教室に基づくランキングでは、教師を正しく分類できる確率は約65%です。10年間のデータが利用可能な場合、この数値は88%に上昇します。[6] さらに、信頼区間が広いため、この方法は、教師を中央値よりわずかに上またはわずかに下と評価するなど、多かれ少なかれ典型的な業績を上げている教師の間で細かい区別をしようとするよりも、常に上位または下位10%に位置する教師を特定する場合に最も信頼性が高いです。[6]

付加価値スコアは、生徒が教師にランダムに割り当てられることを前提としています。実際には、生徒が教師や学校にランダムに割り当てられることは稀です。カリフォルニア大学バークレー校の経済学者で教授のジェシー・M・ロススタイン博士によると、「生徒を教師にランダムに割り当てないと、教師の因果効果の付加価値推定にバイアスが生じる可能性があります。」[7]。 付加価値尺度の使用に伴うバイアスの可能性については、近年多くの研究が行われており、他の研究者は付加価値尺度が教師の有効性の優れた推定値を提供するという結論に達しています。例えば、Measures of Effective Teachingプロジェクトの最近の研究[8]や、ハーバード大学ラジ・チェッティ教授らによる付加価値尺度と将来の収入との関連性に関する分析[9]を参照してください。

研究

生徒の学習成果に基づいて教師の有効性を判断するという考え方[10]は、 1971年にエリック・ハヌシェク[11]によって研究文献に初めて導入されました。ハヌシェクは現在、カリフォルニアスタンフォード大学にあるアメリカの公共政策シンクタンクである保守系の[12] [13] [14] フーバー研究所の上級研究員です。その後、ハーバード大学のリチャード・マーネンらによって分析されました[15] 。 このアプローチは、学校内の教師の有効性のばらつきを評価するためにさまざまな分析に使用されており、推定では、生徒の学習ペースにおいて教師間で大きく一貫した違いがあることが示されています[16] 。

SASのシニアリサーチマネージャーである統計学者ウィリアム・サンダースは、ノースカロライナ州テネシー州の学区向けに付加価値モデルを開発し、この概念を学校運営に導入しました。この手法は、1990年代にテネシー州の学校プログラムのための教師評価ツールとして初めて開発され、 2002年の落ちこぼれゼロ法の成立に伴い、その利用が拡大しました。サンダースは自身の経験と研究に基づき、「厳密で堅牢な手法を用い、それを安全策で保護すれば、非常に効果的な教師と平均的な教師、そして効果の低い教師を確実に区別できる」と主張しました。[1]

ランド研究所がニューヨークのカーネギー研究所のために作成した2003年の研究では、付加価値モデリングは「教師と学校の影響を、家族背景などの非教育的要因の強力な影響から切り離す可能性を秘めている」と述べており、このようなモデルを使用した場合、教師のスコアに大きなばらつきがあることが研究で示されており、そのばらつきが個々の教師のパフォーマンスに関連していることが実証されれば、付加価値モデリングは教師のパフォーマンスを評価し、報いるための効果的なツールになる可能性があるとしている。[17]

ロサンゼルス・タイムズ紙は、同市の学校でのこのプログラムの活用状況を報じ、付加価値モデリングシステムによって算出された、学区内の小学校教師6,000人を対象としたスコアを検索可能なウェブサイトに掲載した。アメリカ合衆国教育長官 アーネ・ダンカン氏は、同紙による教師スコアに関する報道を透明性向上の好例と称賛したが、よりオープンにするには「プライバシー、公平性、そして教師への敬意」に関する懸念とのバランスを取る必要があると指摘した。[1] 2011年2月、全米教育政策センター(NEPC)のデレク・ブリッグス氏とベン・ドミンゲ氏は、ロサンゼルス統一学区の同じデータセットを再分析した報告書を発表し、タイムズ紙に掲載された結果を再現しようと試みた。彼らは、以前の研究には重大な限界があることを発見し、「ロサンゼルス・タイムズ紙が2010年8月の教師の有効性に関する報道で依拠した研究は、掲載されたランキングを裏付けるには明らかに不十分であった」と結論付けた。[18]

ビル&メリンダ・ゲイツ財団は、効果的な指導の測定プログラムを用いて、付加価値モデリングに関する複数年にわたる研究を後援している。2010年12月に発表された初期結果によると、付加価値モデリングと、教室の管理や厳しい課題で生徒を刺激するなど、いくつかの重要な教師の特性に関する生徒の認識の両方が、効果的な教師を正しく特定することが示されている。[4] 生徒の評価についての研究は、ロナルド・ファーガソン氏によって行われた。この研究では、テストに合わせて教える教師はカリキュラム全体の深い概念的理解を促す教師よりも効果的ではなく、付加価値モデリングのスコアが著しく低いことも判明した。[4]しかし、カリフォルニア大学バークレー校の経済学者で教授のジェシー・ロススタイン氏が行ったMETレポートの結果の再分析では、これらの解釈の一部に異論が出ている。[19]ロススタインは、報告書の分析は結論を支持するものではなく、「正しく解釈すれば…(それらは)教師評価における付加価値ベースのアプローチを正当化するどころか、むしろ弱体化させる」と主張している。[20] しかし、METプロジェクトのより最近の研究では、付加価値アプローチの使用が正当化されている。[8]

校長とリーダー

付加価値モデリングの一般的な考え方は、校長や学校リーダーを対象とするものにまで拡張されてきました。学校リーダーの重要性については逸話的な議論が数多く行われてきましたが、生徒の学習成果に対する影響については体系的な研究がほとんど行われていません。テキサス州で最近行われた分析では、校長の交代後に生徒の学習成果の向上がどのように変化するかを調べることで、リーダーの有効性に関する証拠が示されました。校長の有効性を測定するこの成果ベースのアプローチは、教師の評価に適用されてきた付加価値モデリングと非常によく似ています。テキサス州での初期の研究によると、校長は生徒の学習成果に非常に大きな影響を与えていることがわかりました。[21] 控えめな推定でも、効果的な学校リーダーは学校内のすべての生徒の成績を向上させ、その規模は各学年の生徒が平均で2か月分の追加の学習成果を得るのに相当します。これらの成果は、少なくとも部分的には、校長が優秀な教師の選抜と確保に与える影響を通じてもたらされます。しかし、効果のない校長は学校の成績に同様に大きな悪影響を及ぼしており、評価の問題は教師にとってと同様に学校のリーダーシップに関しても重要であることを示唆している。

批判と懸念

経済政策研究所(EPI)が2010年8月に発表した報告書は、「アメリカの公立学校は一般的に教師の体系的な育成と評価が不十分である」と指摘した上で、標準テストの成績を評価基準として用いることが教師の業績向上につながらないという懸念を表明した。EPIの報告書は、標準テストの点数に基づく業績評価は、「教師が教室で実際に何をし、それがどのように生徒の学習に貢献しているかをより正確に把握する」ために考慮すべき多くの要素の一つであると推奨している。この研究では、付加価値モデルは教師を比較するより公平な手段であり、教育方法論と学校全体のパフォーマンスをより適切に測定できるとしているが、生徒のテストの点数は「重要な人事決定」を行う手段としては十分に信頼できるものではないと主張している。[22]

経済政策研究所の研究チームを率いたエドワード・ハーテルは、「トップを目指す競争」プログラムの一環として推進されている方法論は、 「教師や校長の評価のためにまだ十分に研究されていない生徒の成績向上の尺度に過度に重点を置いている」と述べ、付加価値モデリングの技術はより徹底的に評価する必要があり、「綿密に研究されたパイロットプロジェクト」でのみ使用されるべきだと指摘した。[1]

教育政策研究者のジェラルド・ブレイシー氏はさらに、教師とテストの点数の短期的な変化との相関関係は、実際の教育の質とは無関係である可能性があると主張した。したがって、「個々の教師について因果関係を推論することはできない。せいぜい、追加の専門能力開発が必要な教師を特定するための第一歩に過ぎない」と述べている。[23]

アメリカ統計学会(ASA)は2014年4月8日、教育評価における付加価値モデルの使用を批判する声明を発表した。ただし、こうしたモデルの有用性は否定していない。ASAは、入力データの限界、モデルに含まれていない要因の影響、そして大きな標準誤差が年ごとのランキングの不安定さにつながることを指摘した。[24]

ジョン・ユーイングは、アメリカ数学会の会報に寄稿し、教育評価における付加価値モデルの使用を「数学的脅迫」や「修辞的武器」の一種として批判した。ユーイングは、入力データの問題と、モデルに含まれていない要因の影響を挙げた。[25]

代替案

教師評価にはいくつかの代替手段が導入されています。

  • 学生による評価:妥当な質問をすれば、4年生程度の学生でも効果的な教師を正確に見分けることができます。[4]大学では 授業評価は一般的ですが、教師の雇用継続や解雇の決定において、ほとんど考慮されません。[要出典]
  • 教室外活動:教師の評価には、通常、職員研修への参加が含まれます。例えば、修士号を取得した教師は、学生の成績には影響がないにもかかわらず、ほとんどの場合、より高い給与を受け取ります。[26]

ほとんどの専門家は、教師の有効性を評価するために複数の尺度を使用することを推奨しています。[27]

参照

参考文献

  1. ^ abcdef ディロン、サム。「教師の成績評価方法が論争を巻き起こす」2017年5月18日アーカイブニューヨーク・タイムズ、2010年8月31日。2010年9月1日アクセス。
  2. ^ 生徒が年間を通して多くの教師に指導を受ける場合、正確な推定値を算出することは複雑になります。Eric Hanushek、「教師の評価:優れた教師の価値はいくらか?」2017年7月23日にWayback Machineでアーカイブ。Education Next 11、第3号(2011年夏)。Raj Chetty、John N. Friedman、Jonah E. Rockoff、「教師の影響の測定II」(2017年3月28日にWayback Machineでアーカイブ):教師の付加価値と成人期の生徒の成果、American Economic Review、第104巻、第9号、2014年9月、2633~2679頁。
  3. ^ スタッフ。「付加価値評価法案が成立」Wayback Machineで2020年4月14日にアーカイブ、ルイジアナ州教師連盟週刊立法ダイジェスト、2010年5月28日。2010年9月1日にアクセス。
  4. ^ abcdefg 「 教育について学ぶ:効果的な教育測定プログラムの初期調査結果」ビル&メリンダ・ゲイツ財団(報告書)2010年12月。2010年12月16日時点のオリジナルよりアーカイブ。 2010年12月15日閲覧– The Los Angeles Timesより。
    • ジェイソン・フェルチ(2010年12月11日)「研究は教師の有効性に関する『付加価値』分析を裏付ける」ロサンゼルス・タイムズ。2010年12月11日時点のオリジナルよりアーカイブ。 2010年12月15日閲覧
  5. ^ Scherrer, Jimmy (2011). 「付加価値モデリングを用いた教育効果測定:不完全な万能薬」. NASSP Bulletin . 95 (2): 122– 140. doi :10.1177/0192636511410052. S2CID  145460616.
  6. ^ ab Otterman, Sharon (2010年12月26日). 「教師の評価向上に向けた取り組みの進展でハードルが浮上」ニューヨーク・タイムズ. 2018年11月28日時点のオリジナルよりアーカイブ。 2017年2月25日閲覧
  7. ^ Rothstein, Jesse M. (2010年2月). 「教育生産における教師の質:追跡、減衰、そして生徒の達成度」(PDF) . Quarterly Journal of Economics . 2013年7月20日時点のオリジナル(PDF)からアーカイブ。 2013年12月7日閲覧
  8. ^ ab Thomas J. Kane、Daniel F. McCaffrey、Trey Miller、Douglas O. Staiger、「効果的な教師を特定できたか?ランダム割り当てを用いた効果的な指導の尺度の検証」METプロジェクト:ビル・アンド・メリンダ・ゲイツ財団(2013年1月)
  9. ^ Chetty, Raj ; Friedman, John N. ; Rockoff, Jonah. 「教師の影響の測定 I:教師の付加価値推定におけるバイアスの評価」アメリカ経済評論.アメリカ経済学会. 2017年8月30日時点のオリジナルよりアーカイブ。 2017年9月17日閲覧
  10. ^ グリーン、エリザベス (2014). 『より良い教師を育てる:教育の仕組み(そしてそれをすべての人に教える方法)WW Norton & Company . pp. 40–44. ISBN 978-0-393-08159-6より良い教師を育成します
  11. ^ Eric A. Hanushek、「教師の特性と生徒の成績の向上:ミクロデータを用いた推定」、American Economic Review、61(2)、1971年5月、280-288頁。Eric A. Hanushek、「児童の量と質のトレードオフ」、Wayback Machineで2013年12月12日にアーカイブ、Journal of Political Economy、100(1)、1992年2月、84-117頁。
  12. ^ リンゼイ、レオン(1983年6月2日)「スタンフォードの保守系シンクタンクが批判にさらされている」クリスチャン・サイエンス・モニター。2016年3月5日時点のオリジナルよりアーカイブ。 2013年8月30日閲覧
  13. ^ de Lama, George (1993年3月3日). 「共和党の権力がなくなり、保守系シンクタンクはより静かな場所になった」シカゴ・トリビューン. 2013年12月12日時点のオリジナルよりアーカイブ。 2013年8月30日閲覧
  14. ^ 「シンクタンクのフーバータワー、50周年」デイリー​​・ニュース・オブ・ロサンゼルス、1991年7月19日。2013年12月12日時点のオリジナルよりアーカイブ2013年8月30日閲覧。
  15. ^ Richard J. Murnane、「学校資源がインナーシティの子供たちの学習に与える影響」、Ballinger。
  16. ^エリック・A・ハヌシェクとスティーブン・G・リブキン、「教師 質の付加価値尺度の使用に関する一般化」、2013年12月12日アーカイブアメリカ経済評論、2010年5月、pp. 267–271。doi :10.1257/aer.100.2.267
  17. ^ McCaffrey, Daniel F.; Lockwood, JR; Koretz, Daniel M.; Hamilton, Laura S.「教師の責任に関する付加価値モデルの評価」Wayback Machineで2011年4月15日にアーカイブ、RAND Corporation、2003年。2010年9月1日にアクセス。
  18. ^ Briggs, D. および Domingue, B. 「Due Diligence and the Evaluation of Teachers」Wayback Machineに 2011 年 2 月 11 日にアーカイブ、National Education Policy Center、 2011 年。2011 年 4 月 3 日にアクセス。
  19. ^ Rothstein, R. 「Review of Learning About Teaching」Wayback Machineに2019年8月15日にアーカイブ、National Education Policy Center、2010年12月。
  20. ^ 「『付加価値』を謳うゲイツ報告書は誤った結論に達した | 全米教育政策センター」Nepc.colorado.edu. 2011年1月13日。2014年1月3日時点のオリジナルよりアーカイブ。 2014年1月13日閲覧
  21. ^ Gregory Branch、Eric Hanushek、Steven G. Rivkin、「School Leaders Matter: Measuring the impact of effective principals」2012年10月28日アーカイブ Education Next 13(1)、2013年冬。
  22. ^ Baker, Eva L. ; Barton, Paul E.; Darling-Hammond, Linda ; Haertel, Edward; Ladd, Hellen F.; Linn, Robert L. ; Ravitch, Diane ; Rothstein, Richard; Shavelson, Richard J.; and Shepard, Lorrie A. "Problems with the Use of Student Test Scores to Evaluate Teachers" Archived 2010-10-07 at the Wayback Machine , Economic Policy Institute , August 29, 2010. Accessed September 1, 2010.
  23. ^ Bracey, Gerald、「Value Subtracted: A "Debate" with William Sanders」、2013年6月14日アーカイブ、Wayback MachineHuffPost、2007年5月1日。2012年9月17日にアクセス。
  24. ^ アメリカ統計協会、「教育評価における付加価値モデルの使用に関するASA声明」Wayback Machineで2017年9月25日にアーカイブ、2014年4月8日。2017年8月4日にアクセス。
  25. ^ Ewing, John, "Mathematical Intimidation: Driven by the Data" Archived 2017-08-05 at the Wayback Machine , Notices of the American Mathematical Society , 58:5, May 2011. Accessed August 4, 2017
  26. ^ ハリス、ダグラス・N.; サス、ティム・R. (2011). 「教師研修、教師の質、生徒の成績」.公共経済ジャーナル. 95 ( 7–8 ): 798–812 . CiteSeerX 10.1.1.567.1794 . doi :10.1016/j.jpubeco.2010.11.009. 
  27. ^ パトリシア・H・ヒンチー(2010年12月)「教師評価の適正化:政策立案者が研究から学べること」NEPC政策概要。2011年7月27日時点のオリジナルよりアーカイブ。 2011年4月18日閲覧
  • ロサンゼルス教師評価データベースとロサンゼルス・タイムズのニュース記事
「https://en.wikipedia.org/w/index.php?title=Value-added_modeling&oldid=1243717891」より取得