トレーニング、検証、テストデータセット

機械学習におけるタスク

機械学習において、データから学習し、データに基づいて予測を行うアルゴリズムの研究と構築は、一般的なタスクです。^[¹^]このようなアルゴリズムは、データ駆動型の予測や意思決定を行うことで機能します。 ^[²^]入力データから数学モデルを構築することで機能します。モデル構築に使用されるこれらの入力データは通常、複数のデータセットに分割されます。特に、モデル作成のさまざまな段階で、トレーニングセット、検証セット、テストセットという3つのデータセットが一般的に使用されます。

モデルは最初にトレーニングデータセット^{[ 3 ]}に適合されます。これは、モデルのパラメータ（人工ニューラルネットワークのニューロン間の接続の重みなど）を適合させるために使用される一連の例です。 ^{[ 4 ]}モデル（ナイーブベイズ分類器など）は、勾配降下法や確率的勾配降下法などの最適化手法などの教師あり学習手法を使用して、トレーニングデータセットでトレーニングされます。実際には、トレーニングデータセットは、入力ベクトル（またはスカラー）とそれに対応する出力ベクトル（またはスカラー）のペアで構成されることが多く、解答のキーは一般にターゲット（またはラベル）として示されます。現在のモデルはトレーニングデータセットで実行され、結果を生成し、次に、トレーニングデータセットの各入力ベクトルについて、ターゲットと比較します。比較の結果と使用されている特定の学習アルゴリズムに基づいて、モデルのパラメータが調整されます。モデルの適合には、変数選択とパラメータ推定の両方を含めることができます。

続いて、適合モデルを使用して、検証データセットと呼ばれる2番目のデータセットの観測に対する応答を予測します。^{[ 3 ]検証データセットは、モデルのハイパーパラメータ}^[⁵^]（ニューラルネットワークの隠れユニットの数（層と層の幅）など^[⁴^] ）を調整しながら、トレーニングデータセットに対するモデルの適合の偏りのない評価を提供します。検証データセットは、早期停止（検証データセットのエラーが増加した場合にトレーニングを停止する。これは、トレーニングデータセットへの過剰適合の兆候であるため）。^[⁶^] この単純な手順は、検証データセットのエラーがトレーニング中に変動し、複数の局所的最小値を生成する可能性があるという事実によって、実際には複雑になります。この複雑さにより、過剰適合が実際に始まったかどうかを判断するための多くのアドホックなルールが作成されました。^[⁶^]

最後に、テストデータセットは、トレーニングデータセットに対するモデルの適合性を偏りなく評価するために用いられるデータセットです。^{[ 5 ]}テストデータセットのデータが一度も使用されていない場合（例えば、クロスバリデーションなど）、テストデータセットはホールドアウトデータセットと呼ばれます。一部の文献では、「テストセット」の代わりに「検証セット」という用語が使用されることがあります（例えば、元のデータセットが2つのサブセットに分割されている場合、テストセットは検証セットと呼ばれることがあります）。^{[ 5 ]}

トレーニングセット、テストセット、検証セットにおけるデータセット分割のサイズと戦略の決定は、問題と利用可能なデータに大きく依存します。^{[ 7 ]}

トレーニングデータセット

物体検出におけるニューラルネットワークの学習の簡略化された例：ネットワークは、ヒトデとウニを表すことが知られている複数の画像を用いて学習されます。これらの画像は、視覚的特徴を表す「ノード」と相関しています。ヒトデはリング状のテクスチャと星型の輪郭と一致し、ウニの多くは縞模様のテクスチャと楕円形と一致します。しかし、リング状のテクスチャを持つウニのインスタンスは、それらの間に弱い重み付けの関連付けを作成します。

入力画像（左）に対するネットワークの後続実行：^{[ 8 ]}ネットワークはヒトデを正しく検出しました。しかし、リング状のテクスチャとウニの間の弱い重み付けの関連付けにより、2つの中間ノードの1つからウニにも弱い信号が与えられています。さらに、トレーニングに含まれていなかった貝殻が楕円形に対して弱い信号を与え、ウニの出力にも弱い信号を与えています。これらの弱い信号は、ウニに対して偽陽性の
結果をもたらす可能性があります。実際には、テクスチャと輪郭は単一のノードではなく、複数のノードの関連付けられた重みパターンによって表されます。

トレーニングデータセットは、学習プロセス中に使用される例のデータセットであり、例えば分類器のパラメータ（重みなど）を適合させるために使用されます。^{[ 9 ]}^{[ 10 ]}

分類タスクでは、教師あり学習アルゴリズムがトレーニングデータセットを参照して、優れた予測モデルを生成する最適な変数の組み合わせを決定（学習）します。^{[ 11 ]}目標は、新しい未知のデータにうまく一般化できるトレーニング済み（適合）モデルを作成することです。^{[ 12 ]}適合モデルは、保持されたデータセット（検証データセットとテストデータセット）からの「新しい」例を使用して評価され、新しいデータを分類する際のモデルの精度が推定されます。^{[ 5 ]}過剰適合などの問題のリスクを減らすために、検証データセットとテストデータセットの例はモデルのトレーニングに使用しないでください。^{[ 5 ]}

トレーニングデータから経験的関係を検索するアプローチのほとんどは、データに過剰適合する傾向があり、つまり、一般的には当てはまらないトレーニングデータ内の明らかな関係を識別して利用する可能性があります。

トレーニングセットが新しいデータで継続的に拡張される場合、これは増分学習です。

検証データセット

検証データセットとは、モデルのハイパーパラメータ（つまりアーキテクチャ）を調整するために用いられるサンプルデータセットです。開発セットや「devセット」と呼ばれることもあります。 ^[¹³^]人工ニューラルネットワークのハイパーパラメータの例としては、各層の隠れユニット数などが挙げられます。^[⁹^]^[¹⁰^]検証データセットは、後述するテストセットと同様に、トレーニングデータセットと同じ確率分布に従う必要があります。

過剰適合を避けるために、分類パラメータを調整する必要がある場合、トレーニングデータセットとテストデータセットに加えて検証データセットが必要です。たとえば、問題に最も適した分類器を探す場合、トレーニングデータセットを使用してさまざまな候補分類器をトレーニングし、検証データセットを使用してそれらのパフォーマンスを比較してどれを採用するかを決定します。最後に、テストデータセットを使用して、精度、感度、特異度、F値などのパフォーマンス特性を取得します。検証データセットはハイブリッドとして機能します。つまり、テストに使用されるトレーニングデータですが、低レベルのトレーニングの一部でも最終テストの一部でもありません。

モデル選択のための検証データセット（トレーニングデータセット、検証データセット、テストデータセットの一部として）を使用する基本的なプロセスは次のとおりです。^{[ 10 ]}^{[ 14 ]}

我々の目標は、新しいデータに対して最高のパフォーマンスを発揮するネットワークを見つけることであるため、異なるネットワークを比較する最も簡単な方法は、トレーニングに使用したデータとは独立したデータを用いて誤差関数を評価することです。様々なネットワークは、トレーニングデータセットに対して定義された適切な誤差関数を最小化することでトレーニングされます。次に、独立した検証データセットを用いて誤差関数を評価することでネットワークのパフォーマンスを比較し、検証データセットに対する誤差が最小となるネットワークが選択されます。このアプローチはホールドアウト法と呼ばれます。この手順自体が検証データセットへの過剰適合を引き起こす可能性があるため、選択されたネットワークのパフォーマンスは、テストセットと呼ばれる3番目の独立したデータセットで測定することによって確認する必要があります。

このプロセスの応用は早期停止です。早期停止では、候補モデルは同じネットワークの連続的な反復であり、検証セットのエラーが増加するとトレーニングが停止し、前のモデル（エラーが最小のモデル）が選択されます。

テストデータセット

テストデータセットは、トレーニングデータセットとは独立していますが、トレーニングデータセットと同じ確率分布に従います。したがって、テストセットは、指定された分類器の未知のデータに対するパフォーマンス（つまり、一般化）を評価するためだけに使われる例のセットです。^{[ 9 ]}^{[ 10 ]}これを行うには、モデルを使用してテストセット内の例の分類を予測します。これらの予測は、例の実際の分類と比較され、モデルの精度が評価されます。^{[ 11 ]}トレーニングデータセットと検証データセットに適合したモデルがテストデータセットにもよく適合する場合、過剰適合は最小限に抑えられています（下の図を参照）。テストデータセットと比較して、トレーニングデータセットまたは検証データセットの適合度が高い場合は、通常、過剰適合を示しています。

データセットのサンプル数が少ない場合、通常はトレーニングセットと検証データセットに分割されます。モデルはトレーニングセットでトレーニングされ、検証セットを用いて精度向上のために改良されますが、このアプローチは過学習につながります。ホールドアウト法^{[ 15 ]}も採用できます。この方法では、トレーニングセットでトレーニングした後、最後にテストセットを使用します。クロスバリデーションやブートストラッピングなどの他の手法は、小規模なデータセットで使用されます。ブートストラップ法は、元のデータから復元抽出法を用いてランダムに抽出することで、同じサイズのシミュレーションデータセットを多数生成します。これにより、ランダムデータポイントは、モデル性能を評価するためのテストセットとして機能します。クロスバリデーションでは、データセットを複数のフォールドに分割し、そのうちの1つのサブフォールドをテストデータとして使用します。残りのフォールドでモデルをトレーニングし、すべてのフォールドをクロスバリデーション（結果の平均化とモデルの統合）して、最終的なモデル性能を推定します。ただし、一部の情報源では、過学習や偏ったモデル性能推定につながる可能性があるため、単一の分割は推奨されていません。^{[ 12 ]}

このため、データセットはトレーニングデータセット、検証データセット、テストデータセットの3つのパーティションに分割されます。機械学習の標準的な手法では、トレーニングデータセットでトレーニングを行い、検証データセットを用いてハイパーパラメータを調整します。検証プロセスでは、検証損失が最も低いモデルが選択され、その後、テストデータセット（通常はホールドアウト）でテストされ、最終モデルが評価されます。テストデータセットのホールドアウト法は、各エポック後にテストデータセットを使用しないようにすることで計算量を削減します。テストデータセットは、未知のデータに対するモデルの最終的なパフォーマンスを正確かつ誠実に評価するため、トレーニングモデルの検証やハイパーパラメータの微調整には決して使用すべきではありません。しかし、テストデータセットは、更新されたモデルのパフォーマンスを判断し、過学習や追加トレーニングの必要性、早期終了を検出するために複数回使用できます。^{[ 16 ]}クロスバリデーションなどの手法が用いられます。クロスバリデーションでは、テストセットを分離し、トレーニングデータセットをさらに分割し、サブフォールドをモデルをトレーニングするための検証セットとして使用します。これは、モデルのバイアスと変動性を低減するのに効果的です。^{[ 5 ]}^{[ 12 ]}ネストされたクロスバリデーションなど、クロスバリデーションには多くの方法があります。

同じ統計母集団からのトレーニングセット (左) とテストセット (右) が青い点で示されています。2 つの予測モデルがトレーニングデータに適合されています。適合された両方のモデルは、トレーニングセットとテストセットの両方でプロットされています。トレーニングセットでは、オレンジで示されている適合のMSE は4 ですが、緑色で示されている適合の MSE は 9 です。テストセットでは、オレンジで示されている適合の MSE は 15 で、緑色で示されている適合の MSE は 13 です。オレンジ色の曲線は、テストセットをトレーニングセットと比較すると MSE がほぼ 4 倍に増加しており、トレーニングデータに著しく過剰適合しています。緑色の曲線は、MSE の増加が 2 倍未満であるため、トレーニングデータへの過剰適合ははるかに小さくなっています。

用語の混乱

テストとは、何かについて調べるために試してみること（国際共同英英辞典によると、「証明する；実験によって真実性、真正性、または品質を証明すること」）であり、検証とは、何かが有効であることを証明することです（国際共同英英辞典によると、「確認する；有効にする」）。この観点から、テストセットと検証セットという用語の最も一般的な用法は、ここで説明した通りです。しかし、産業界と学術界の両方において、テストセットと検証セットは、内部プロセスが改善のために異なるモデルをテストしている（テストセットは開発セットとして）、最終モデルは実際の使用前に未知のデータで検証する必要があるモデル（検証セット）であると考えることで、混同されることがあります。「機械学習に関する文献では、『検証』セットと『テスト』セットの意味がしばしば逆転しています。これは、人工知能研究に蔓延する用語の混乱の最も露骨な例です。」^{[ 17 ]}とはいえ、覚えておかなければならない重要な概念は、最終セット（テストセットと呼ぶにせよ検証セットと呼ぶにせよ）は最終実験でのみ使用すべきであるということです。

エラーの原因

アルゴリズムの訓練における省略は、誤った出力の主な原因である。^{[ 18 ]}このような省略の種類には以下が含まれる。^{[ 18 ]}

特別な状況や変化は含まれません。
古いデータ
曖昧な入力情報
新しい環境に適応できない
必要に応じて人間や他の AI システムに支援を要請できない

特定の状況が省略された例としては、母親が屋内の夜間照明の下で顔を登録したために少年が携帯電話のロックを解除できたケースが挙げられるが、この状況はシステムのトレーニングに適切に組み込まれていなかった。^{[ 18 ]}^{[ 19 ]}

比較的無関係な入力の使用には、アルゴリズムが物体検出のために関心のある物体ではなく背景を使用する状況が含まれる可能性がある。例えば、草原にいる羊の写真で訓練されている場合、草原にある別の物体が羊として解釈されるリスクにつながる。^{[ 18 ]}

参照

参考文献

^ Ron Kohavi; Foster Provost (1998). 「用語集」 .機械学習. 30 : 271–274 . doi : 10.1023/A:1007411609915 .
^ ビショップ、クリストファー・M. (2006).パターン認識と機械学習. ニューヨーク: シュプリンガー. p. vii. ISBN 0-387-31073-8パターン認識は工学に起源を持ち、機械学習はコンピュータサイエンスから発展しました。しかし、これらの活動は同じ分野の2つの側面と見なすことができ、過去10年間で共に大きな発展を遂げてきました。
^ ^a ^b ジェームズ、ガレス (2013).統計学習入門：R言語への応用. シュプリンガー. p. 176. ISBN 978-1461471370。
^ ^a ^b リプリー、ブライアン (1996).パターン認識とニューラルネットワーク. ケンブリッジ大学出版局. p. 354. ISBN 978-0521717700。
^ ^a ^b ^c ^d ^e ^f Brownlee, Jason (2017-07-13). 「テストデータセットと検証データセットの違いとは？」2017年10月12日閲覧。
^ ^a ^b Prechelt, Lutz; Geneviève B. Orr (2012-01-01). 「早期停止 — しかし、いつ？」. Grégoire Montavon; Klaus-Robert Müller (編).ニューラルネットワーク：トレードのコツ. コンピュータサイエンス講義ノート. Springer Berlin Heidelberg. pp. 53–67 . doi : 10.1007/978-3-642-35289-8_5 . ISBN 978-3-642-35289-8。
^ 「機械学習 - データセットをトレーニングセットと検証セットに分割するための経験則はありますか？」Stack Overflow。2021年8月12日閲覧。
^ Ferrie, C., Kaiser, S. (2019).赤ちゃんのためのニューラルネットワーク. Sourcebooks. ISBN 978-1492671206。{{cite book}}: CS1 maint: multiple names: authors list (link)
^ ^a ^b ^c リプリー、BD（1996）パターン認識とニューラルネットワーク、ケンブリッジ：ケンブリッジ大学出版局、p. 354
^ ^a ^b ^c ^d 「主題: 母集団、サンプル、トレーニングセット、デザインセット、検証セット、テストセットとは何ですか？」ニューラルネットワークFAQ、パート1/7: はじめに（txt）、comp.ai.neural-nets、Sarle、WS、編（1997年、最終更新2002年5月17日）
^ ^a ^b Larose, DT; Larose, CD (2014). 「データから知識を発見する：データマイニング入門」Hoboken: Wiley. doi : 10.1002/9781118874059 . ISBN 978-0-470-90874-7. OCLC 869460667 .
^ ^a ^b ^c Xu, Yun; Goodacre, Royston (2018). 「訓練セットと検証セットの分割について：教師あり学習の汎化性能を推定するためのクロスバリデーション、ブートストラップ、システマティックサンプリングの比較研究」 . Journal of Analysis and Testing . 2 (3). Springer Science and Business Media LLC: 249– 262. doi : 10.1007 / s41664-018-0068-2 . ISSN 2096-241X . PMC 6373628. PMID 30842888 .
^ 「ディープラーニング」 . Coursera . 2021年5月18日閲覧。
^ ビショップ、CM（1995）、パターン認識のためのニューラルネットワーク、オックスフォード：オックスフォード大学出版局、p.372
^ Kohavi, Ron (2001-03-03). 「精度推定とモデル選択のためのクロスバリデーションとブートストラップの研究」14 . {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です
^ Bergmann, Dave=. 「What Is Overfitting?」ibm.com . 2021年10月15日閲覧。
^ リプリー、ブライアン・D. (2008年1月10日). 「用語集」.パターン認識とニューラルネットワーク. ケンブリッジ大学出版局. ISBN 9780521717700. OCLC 601063414 .
^ ^a ^b ^c ^d ^e Chanda SS, Banerjee DN (2022). 「AIの失敗の根底にあるオミッションエラーとコミッションエラー」 . AI Soc . 39 (3): 1– 24. doi : 10.1007/s00146-022-01585-x . PMC 9669536. PMID 36415822 .
^ Greenberg A (2017年11月14日). 「10歳の少年が母親のiPhone Xの顔認証ロックを解除する様子をご覧ください」 . Wired .

[1] Ron Kohavi; Foster Provost (1998). 「用語集」 .機械学習. 30 : 271–274 . doi : 10.1023/A:1007411609915 .

[bishop-2] ビショップ、クリストファー・M. (2006).パターン認識と機械学習. ニューヨーク: シュプリンガー. p. vii. ISBN 0-387-31073-8パターン認識は工学に起源を持ち、機械学習はコンピュータサイエンスから発展しました。しかし、これらの活動は同じ分野の2つの側面と見なすことができ、過去10年間で共に大きな発展を遂げてきました。

[James_2013_176-3] ジェームズ、ガレス (2013).統計学習入門：R言語への応用. シュプリンガー. p. 176. ISBN 978-1461471370。

[Ripley_1996_354-4] リプリー、ブライアン (1996).パターン認識とニューラルネットワーク. ケンブリッジ大学出版局. p. 354. ISBN 978-0521717700。

[Brownlee-5] ^ ^a ^b ^c ^d ^e ^f Brownlee, Jason (2017-07-13). 「テストデータセットと検証データセットの違いとは？」2017年10月12日閲覧。

[prechelt_early_2012-6] Prechelt, Lutz; Geneviève B. Orr (2012-01-01). 「早期停止 — しかし、いつ？」. Grégoire Montavon; Klaus-Robert Müller (編).ニューラルネットワーク：トレードのコツ. コンピュータサイエンス講義ノート. Springer Berlin Heidelberg. pp. 53–67 . doi : 10.1007/978-3-642-35289-8_5 . ISBN 978-3-642-35289-8。

[7] 「機械学習 - データセットをトレーニングセットと検証セットに分割するための経験則はありますか？」Stack Overflow。2021年8月12日閲覧。

[8] Ferrie, C., Kaiser, S. (2019).赤ちゃんのためのニューラルネットワーク. Sourcebooks. ISBN 978-1492671206。{{cite book}}: CS1 maint: multiple names: authors list (link)

[Ripley,_B.D._1996_p._354-9] リプリー、BD（1996）パターン認識とニューラルネットワーク、ケンブリッジ：ケンブリッジ大学出版局、p. 354

[cann-faq-10] 「主題: 母集団、サンプル、トレーニングセット、デザインセット、検証セット、テストセットとは何ですか？」ニューラルネットワークFAQ、パート1/7: はじめに（txt）、comp.ai.neural-nets、Sarle、WS、編（1997年、最終更新2002年5月17日）

[Larose2014-11] Larose, DT; Larose, CD (2014). 「データから知識を発見する：データマイニング入門」Hoboken: Wiley. doi : 10.1002/9781118874059 . ISBN 978-0-470-90874-7. OCLC 869460667 .

[Xu_Goodacre_2018-12] Xu, Yun; Goodacre, Royston (2018). 「訓練セットと検証セットの分割について：教師あり学習の汎化性能を推定するためのクロスバリデーション、ブートストラップ、システマティックサンプリングの比較研究」 . Journal of Analysis and Testing . 2 (3). Springer Science and Business Media LLC: 249– 262. doi : 10.1007 / s41664-018-0068-2 . ISSN 2096-241X . PMC 6373628. PMID 30842888 .

[13] 「ディープラーニング」 . Coursera . 2021年5月18日閲覧。

[14] ビショップ、CM（1995）、パターン認識のためのニューラルネットワーク、オックスフォード：オックスフォード大学出版局、p.372

[Kohavi2001-15] Kohavi, Ron (2001-03-03). 「精度推定とモデル選択のためのクロスバリデーションとブートストラップの研究」14 . {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です

[Bergmann-16] Bergmann, Dave=. 「What Is Overfitting?」ibm.com . 2021年10月15日閲覧。

[17] リプリー、ブライアン・D. (2008年1月10日). 「用語集」.パターン認識とニューラルネットワーク. ケンブリッジ大学出版局. ISBN 9780521717700. OCLC 601063414 .

[ChandaBanerjee2022-18] Chanda SS, Banerjee DN (2022). 「AIの失敗の根底にあるオミッションエラーとコミッションエラー」 . AI Soc . 39 (3): 1– 24. doi : 10.1007/s00146-022-01585-x . PMC 9669536. PMID 36415822 .

[19] Greenberg A (2017年11月14日). 「10歳の少年が母親のiPhone Xの顔認証ロックを解除する様子をご覧ください」 . Wired .

[

[

[ 3 ]

[ 4 ]

[

[

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]