バイアスと分散のトレードオフ

統計学と機械学習において、バイアスと分散のトレードオフとは、モデルの複雑さ、予測の精度、モデルのトレーニングに使用されなかった未知のデータに対する予測精度の関係を指します。一般的に、モデル内の調整可能なパラメータの数が増えるほど、モデルはより柔軟になり、トレーニングデータセットへの適合性が向上します。つまり、モデルのエラーまたはバイアスは低くなります。ただし、モデルが柔軟であればあるほど、一連のサンプルを取得して新しいトレーニングデータセットを作成するたびに、モデルの適合性の分散が大きくなる傾向があります。つまり、モデルの推定パラメータの分散が大きいと言えます。

バイアス・分散ジレンマまたはバイアス・分散問題とは、教師あり学習アルゴリズムが訓練セットを超えて一般化することを妨げる2つの誤差源を同時に最小化しようとすることにおける矛盾である。^[¹^]^[²^]

バイアス誤差は、学習アルゴリズムにおける誤った仮定から生じる誤差です。バイアスが大きいと、アルゴリズムは特徴量と目標出力間の関連関係を見逃す可能性があります（アンダーフィッティング）。
分散は、トレーニングセット内の小さな変動に対する感度から生じる誤差です。分散が大きい場合、トレーニングデータ内のランダムノイズをモデル化するアルゴリズム（過剰適合）によって発生する可能性があります。

バイアス・分散分解は、特定の問題に対する学習アルゴリズムの予想される一般化誤差を、バイアス、分散、および問題自体のノイズから生じる 既約誤差と呼ばれる量の 3 つの項の合計として分析する方法です。

関数とノイズデータ

スプレッド=5

スプレッド=1

スプレッド=0.1

関数（赤）はラジアル基底関数（青）を用いて近似されます。各グラフには複数の試行が表示されています。各試行には、ノイズの多いデータポイントがトレーニングセット（上）としていくつか提供されています。広い範囲（図2）ではバイアスが大きく、ラジアル基底関数（RBF）は関数を完全に近似できません（特に中央の窪み）。しかし、異なる試行間の分散は低くなります。範囲が狭まると（図3および4）、バイアスは小さくなり、青い曲線は赤い曲線に近似します。ただし、異なる試行におけるノイズに応じて、試行間の分散は増加します。一番下の図では、x=0の近似値は、データポイントの位置によって大きく異なります。

モチベーション

高いバイアス、低い分散
高いバイアス、高い分散
低バイアス、低分散
低いバイアス、高い分散

バイアスと分散のトレードオフは、教師あり学習における中心的な問題です。理想的には、訓練データ内の規則性を正確に捉えつつ、未知のデータにも適切に一般化できるモデルを選択することが望まれます。しかし残念ながら、通常、この両方を同時に実現することは不可能です。分散の高い学習手法は、訓練データを適切に表現できるかもしれませんが、ノイズの多い、あるいは代表性に欠ける訓練データに過適合してしまうリスクがあります。一方、バイアスの高いアルゴリズムは、通常、より単純なモデルを生成するため、データ内の重要な規則性を捉えられない（つまり、過適合になる）可能性があります。

複雑なモデルは必ず高い分散を持つと想定するのはよくある誤解である^{[ 3 ]}^{[ 4 ] 。分散の大きいモデルはある意味で「複雑」ではあるが、その逆は必ずしも真ではない。}^{[ 5 ]}また、複雑さをどのように定義するかについても注意が必要である。特に、モデルを記述するために使用されるパラメータの数は、複雑さの尺度としては不十分である。これは、次の例で説明できる。^{[ 6 ]}このモデルにはパラメータが2つしかない（）が、十分に高い周波数で振動することで任意の数の点を補間することができ、結果としてバイアスと分散がともに高くなる。 $f_{a,b}(x)=a\sin(bx)$ $a,b$

正確度と精度の関係に類推することができます。正確度はバイアスを定量化する 1 つの方法であり、ローカル情報のみから選択することで直感的に改善できます。したがって、サンプルは前述の選択条件下では正確である (つまりバイアスが低い) ように見えますが、アンダーフィッティングになる可能性があります。言い換えると、テストデータはトレーニングデータと厳密には一致しない可能性があり、これは不正確さを示し、したがって分散が膨らんでいることを示します。グラフィカルな例としては、全体的に 2 次挙動を示すデータへの直線フィッティングが挙げられます。精度は分散の説明であり、通常は比較的大きな空間から情報を選択することによってのみ改善できます。広いサンプル空間で多くのデータポイントを選択できるオプションは、あらゆる分析にとって理想的な条件です。ただし、固有の制約 (物理的、理論的、計算的など) は常に制限的な役割を果たします。広い標本空間で有限の数のデータポイントのみが選択されるという極限のケースでは、精度が向上し、全体的に分散が低くなる可能性がありますが、トレーニングデータへの過度の依存（過剰適合）にもつながる可能性があります。つまり、テストデータもトレーニングデータとそれほど一致しませんが、この場合は不正確さまたは高いバイアスが原因です。前の例を借りると、グラフィカル表現は、二次挙動を示す同じデータへの高次多項式近似として表示されます。各ケースのエラーは同じ方法で測定されますが、エラーの原因はバイアスと分散のバランスによって異なることに注意してください。近傍の観測から使用される情報量を軽減するために、収縮などの明示的な正則化によってモデルを平滑化できます。

平均二乗誤差のバイアス-分散分解

{\displaystyle y} — 平均二乗損失の場合のバイアス-分散分解。緑の点は、固定されたテスト特徴量におけるテストラベルのサンプルです。それらの平均値からの分散は、既約誤差です。赤い点は、トレーニングセットをランダムにサンプリングした際のテストラベルの予測値です。それらの平均値からの分散は、分散です。赤い破線と緑の破線の差がバイアスです。バイアス-分散分解は視覚的に明らかです。赤い点と緑の点の間の平均二乗誤差は、3つの要素の合計です。 $y$ $x$ $\mathbb {E} _{y\sim p(\cdot |x)}[y]$ $\sigma ^{2}$ $f(x|D)$ $D$ $\mathbb {E} _{D}[f(x|D)]$ $\operatorname {Var} _{D}{\big [}f(x|D){\big ]}$ $\operatorname {バイアス} _{D}{\big [}f(x|D){\big ]}$

点の集合と、点に関連付けられた実数値ラベルからなる訓練データがあると仮定します。データはのような関数によって生成され、ノイズは平均が0で分散が1であると仮定します。つまり、はノイズサンプルです。 $x_{1},\dots ,x_{n}$ $y_{i}$ $x_{i}$ $f(x)$ $y=f(x)+\varepsilon$ $\varepsilon$ $\sigma ^{2}$ $y_{i}=f(x_{i})+\varepsilon_{i}$ $\varepsilon _{i}$

訓練データセット（サンプル）に基づく何らかの学習アルゴリズムを用いて、真の関数を可能な限り近似する関数を求めます。「可能な限り」という精度は、との間の平均二乗誤差を測定することで実現します。との外側の点の両方において、が最小となるようにする必要があります。もちろん、にはノイズが含まれているため、完璧に近似することは期待できません。つまり、どのような関数であっても、その誤差が許容範囲を超える可能性があることを覚悟しておかなければなりません。 ${\hat {f}}\!(x;D)$ $f(x)$ $D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}$ $y$ ${\hat {f}}\!(x;D)$ $(y-{\hat {f}}\!(x;D))^{2}$ $x_{1},\dots ,x_{n}$ $y_{i}$ $\varepsilon$

訓練データセット外の点にも一般化できる関数を見つけることは、教師あり学習に用いられる無数のアルゴリズムのいずれかを用いて行うことができます。どの関数を選択しても、その期待誤差を未知のサンプル（つまり、条件付き）に対して次のように分解できます。 ^[⁷^]^{: 34}^[⁸^]^{: 223} ${\hat {f}}$ ${\hat {f}}$ $x$ $x$

$\mathbb {E} _{D,\varepsilon }{\Big [}{\big (}y-{\hat {f}}\!(x;D){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} _{D}{\big [}{\hat {f}}\!(x;D){\big ]}{\Big )}^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}\!(x;D){\big ]}+\sigma ^{2}$

どこ ${\begin{aligned}\operatorname {Bias} _{D}{\big [}{\hat {f}}\!(x;D){\big ]}&\triangleq \mathbb {E} _{D}{\big [}{\hat {f}}\!(x;D)-f(x){\big ]}\\&=\mathbb {E} _{D}{\big [}{\hat {f}}\!(x;D){\big ]}\,-\,f(x)\\&=\mathbb {E} _{D}{\big [}{\hat {f}}\!(x;D){\big ]}\,-\,\mathbb {E} _{y|x}{\big [}y(x){\big ]}\end{aligned}}$

そして

$\operatorname {Var} _{D}{\big [}{\hat {f}}\!(x;D){\big ]}\triangleq \mathbb {E} _{D}\left[\left(\mathbb {E} _{D}[{\hat {f}}\!(x;D)]-{\hat {f}}\!(x;D)\right)^{2}\right]$

そして

$\sigma ^{2}=\operatorname {E} _{y}{\Big [}{\big (}y-\underbrace {f(x)} _{E_{y|x}[y]}{\big )}^{2}{\Big ]}$

期待値は、訓練セットの様々な選択肢にわたって変動しますが、これらはすべて同じ結合分布からサンプリングされており、例えばブートストラッピングによって行うことができます。3つの項は以下を表します。 $D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}$ $P(x,y)$

学習法のバイアスの2乗。これは、学習法に組み込まれた単純化の仮定によって生じる誤差と考えることができます。例えば、線形モデル用の学習法を用いて非線形関数を近似する場合、この仮定のために推定値に誤差が生じます。 $f(x)$ ${\hat {f}}\!(x)$
学習方法の分散、または直感的に言えば、学習方法が平均値を中心にどれだけ変動するか。 ${\hat {f}}\!(x)$
減らすことのできない誤差。 $\sigma ^{2}$

3つの項はすべて非負なので、この既約誤差は未知のサンプルに対する期待誤差の下限値を形成する。^{[ 7 ]}^：34

モデルが複雑になるほど、より多くのデータポイントを捕捉し、バイアスは低くなります。しかし、複雑になると、モデルはデータポイントを捕捉するためにより多くの「動き」をするため、分散は大きくなります。 ${\hat {f}}\!(x)$

導出

二乗誤差のバイアス-分散分解の導出は次のように行われる。^{[ 9 ]}^{[ 10 ]}便宜上、以下の行では下付き文字を省略し、次のようにする。 $D$ ${\hat {f}}\!(x;D)={\hat {f}}\!(x)$

モデルの平均二乗誤差を書きましょう。

${\begin{aligned}{\text{MSE}}&\triangleq \mathbb {E} {\Big [}{\big (}y-{\hat {f}}\!(x){\big )}^{2}{\Big ]}\\&=\mathbb {E} {\Big [}{\big (}f(x)+\varepsilon -{\hat {f}}\!(x){\big )}^{2}{\Big ]}&&{\text{since }}y\triangleq f(x)+\varepsilon \\&=\mathbb {E} {\Big [}{\big (}f(x)-{\hat {f}}\!(x){\big )}^{2}{\Big ]}\,+\,2\ \mathbb {E} {\Big [}{\big (}f(x)-{\hat {f}}\!(x){\big )}\varepsilon {\Big ]}\,+\,\mathbb {E} [\varepsilon ^{2}]\end{aligned}}$

この方程式の2番目の項はゼロであることがわかります。

${\begin{aligned}\mathbb {E} {\Big [}{\big (}f(x)-{\hat {f}}\!(x){\big )}\varepsilon {\Big ]}&=\mathbb {E} {\big [}f(x)-{\hat {f}}\!(x){\big ]}\ \mathbb {E} {\big [}\varepsilon {\big ]}&&{\text{since }}\varepsilon {\text{ is independent from }}x\\&=0&&{\text{since }}\mathbb {E} {\big [}\varepsilon {\big ]}=0\end{aligned}}$

さらに、この式の 3 番目の項はの分散に他なりません。 $\sigma ^{2}$ $\varepsilon$

残りの項を展開してみましょう。

${\begin{aligned}&\operatorname {\mathbb {E} } \left[\left(f(x)-{\hat {f}}\!(x)\right)^{2}\right]\\[1ex]&=\operatorname {\mathbb {E} } \left[\left(f(x)-\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]+\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]-{\hat {f}}\!(x)\right)^{2}\right]\\[1ex]&={\color {Blue}\operatorname {\mathbb {E} } \left[\left(f(x)-\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\right)^{2}\right]}\,+\,\operatorname {\mathbb {E} } \left[\left(\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]-{\hat {f}}\!(x)\right)^{2}\right]\\&\quad \,+\,2\ {\color {PineGreen}\operatorname {\mathbb {E} } \left[\left(f(x)-\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\right)\left(\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]-{\hat {f}}\!(x)\right)\right]}\end{aligned}}$

次のことを示します:

${\begin{aligned}{\color {Blue}\mathbb {E} {\Big [}{\big (}f(x)-\mathbb {E} {\big [}{\hat {f}}(x){\big ]}{\big )}^{2}{\Big ]}}&=\mathbb {E} {\big [}f(x)^{2}{\big ]}\,-\,2\ \mathbb {E} {\Big [}f(x)\ \mathbb {E} {\big [}{\hat {f}}(x){\big ]}{\Big ]}\,+\,\mathbb {E} {\Big [}\mathbb {E} {\big [}{\hat {f}}(x){\big ]}^{2}{\Big ]}\\&=f(x)^{2}\,-\,2\ f(x)\ \mathbb {E} {\big [}{\hat {f}}(x){\big ]}\,+\,\mathbb {E} {\big [}{\hat {f}}(x){\big ]}^{2}\\&={\Big (}f(x)-\mathbb {E} {\big [}{\hat {f}}(x){\big ]}{\Big )}^{2}\end{aligned}}$

この最後の等式は、がランダム変数ではなく、の固定された決定論的関数であるという事実から成ります。したがって、です。同様に、、です。同じ推論を用いて、2番目の項を展開し、それがゼロであることを示すことができます。 $f(x)$ $x$ $\operatorname {\mathbb {E} } \left[f(x)\right]=f(x)$ $\operatorname {\mathbb {E} } \left[f(x)^{2}\right]=f(x)^{2}$ $\operatorname {\mathbb {E} } \left[f(x)\,\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\right]=f(x)\,\operatorname {\mathbb {E} } \left[\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\right]=f(x)\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]$

${\begin{aligned}&{\color {PineGreen}\operatorname {\mathbb {E} } \left[\left(f(x)-\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\right)\left(\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]-{\hat {f}}\!(x)\right)\right]}\\&=\operatorname {\mathbb {E} } \left[f(x)\,\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\,-\,f(x){\hat {f}}\!(x)\,-\,\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]^{2}+\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\,{\hat {f}}\!(x)\right]\\&=f(x)\,\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\,-\,f(x)\,\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\,-\,\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]^{2}\,+\,\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]^{2}\\&=0\end{aligned}}$

最終的に、導出結果を元の方程式に戻し、各項を特定します。

${\begin{aligned}{\text{MSE}}&=\left(f(x)-\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]\right)^{2}+\operatorname {\mathbb {E} } \left[\left(\operatorname {\mathbb {E} } [{\hat {f}}\!(x)]-{\hat {f}}\!(x)\right)^{2}\right]+\sigma ^{2}\\&=\operatorname {Bias} \left[{\hat {f}}\!(x)\right]^{2}+\,\operatorname {Var} \left[{\hat {f}}\!(x)\right]\,+\,\sigma ^{2}\end{aligned}}$

最後に、MSE損失関数（または負の対数尤度）は、期待値を次のように取ることによって得られます。 $x\sim P$ ${\text{MSE}}=\operatorname {\mathbb {E} } _{x}\left\{\operatorname {Bias} _{D}\!\left[{\hat {f}}\!(x;D)\right]^{2}+\operatorname {Var} _{D}\left[{\hat {f}}\!(x;D)\right]\right\}+\sigma ^{2}.$

アプローチ

次元削減と特徴選択は、モデルを単純化することで分散を減少させます。同様に、訓練セットを大きくすると分散が減少する傾向があります。特徴量（予測変数）を追加すると、バイアスが減少する傾向がありますが、その代償として新たな分散が生じます。学習アルゴリズムには通常、バイアスと分散を制御する調整可能なパラメータがいくつか存在します。例えば、

線型モデルと一般化線型モデルは、バイアスが増加するという代償を払って、分散を減少させるように正規化することができる。 ^{[ 11 ]}
人工ニューラルネットワークでは、隠れユニットの数が増加するにつれて分散が増加し、バイアスが減少するが^{[ 12 ]}、この古典的な仮定は最近議論の対象となっている。^{[ 4 ]} GLMと同様に、通常は正則化が適用されます。
k最近傍モデルでは、 $k$ の値が高いとバイアスが高くなり、分散が低くなります (以下を参照)。
インスタンスベース学習では、プロトタイプとサンプルの混合比を変化させることで正規化を達成することができる。^{[ 13 ]}
決定木では、木の深さが分散を決定します。決定木は、分散を制御するために一般的に枝刈りされます。^{[ 7 ]}^{: 307}

このトレードオフを解決する1つの方法は、混合モデルとアンサンブル学習を使用することです。^{[ 14 ]}^{[ 15 ]}たとえば、ブースティングは、個々のモデルよりもバイアスが低いアンサンブルで多くの「弱い」（バイアスが高い）モデルを組み合わせますが、バギングは分散を減らす方法で「強い」学習者を組み合わせます。

クロス検証 (統計)などのモデル検証方法を使用して、トレードオフを最適化するようにモデルを調整できます。

k近傍法

$k$ 近傍回帰の場合、期待値が固定された訓練セットの可能なラベル付けに渡されると、バイアス-分散分解をパラメータ $kに関連付ける$ 閉じた形式の式が存在する: ^[⁸^]^:37,223

$\operatorname {\mathbb {E} } \left[\left(y-{\hat {f}}\!(x)\right)^{2}\mid X=x\right]=\left(f(x)-{\frac {1}{k}}\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}$

ここで、 $xは訓練データセットにおける$ $k$ 近傍点である。バイアス（第1項）は $k$ の単調増加関数であるが、分散（第2項）は $kの$ 増加とともに減少する。実際、「合理的な仮定」の下では、訓練データセットのサイズが無限大に近づくにつれて、第1近傍（1-NN）推定値のバイアスは完全に消失する。^[¹²^] $N_{1}(x),\dots ,N_{k}(x)$

アプリケーション

回帰では

バイアス・分散分解は、LASSOやリッジ回帰といった回帰正則化手法の概念的基盤を形成します。正則化手法は回帰解にバイアスを導入し、通常最小二乗法（OLS）解と比較して分散を大幅に低減することができます。OLS解はバイアスのない回帰推定値を提供しますが、正則化手法によって得られる分散の低い解は、MSE （平均誤差誤差）性能に優れています。

分類において

バイアス-分散分解は、もともと最小二乗回帰のために定式化されました。0-1損失（誤分類率）での分類の場合にも、分散項がターゲットラベルに依存するという注意点を除けば、同様の分解が可能です。^[¹⁶^]^[¹⁷^]あるいは、分類問題を確率的分類と表現できる場合、期待クロスエントロピーを分解して、同じ意味を持つものの異なる形式をとるバイアス項と分散項を得ることができます。

訓練データが増えると学習したモデルの分散は減少する傾向があり、そのため訓練データの量が増えると、よりバイアスの少ないモデルを学習する方法によって誤差が最小化され、逆に訓練データの量が少ない場合は分散を最小化することがより重要になると主張されている。^{[ 18 ]}

強化学習では

バイアスと分散の分解は強化学習に直接適用されないものの、同様のトレードオフは汎化にも当てはまる。エージェントが環境に関する情報を限定している場合、強化学習アルゴリズムの準最適性は、漸近バイアスに関連する項と過学習に起因する項の2つの項の合計に分解できる。漸近バイアスは学習アルゴリズムに直接関連しており（データ量とは無関係）、過学習の項はデータ量が限られているという事実に起因している。^{[ 19 ]}

モンテカルロ法では

従来のモンテカルロ法ではバイアスは通常ゼロであるが、マルコフ連鎖モンテカルロ法などの現代的なアプローチはせいぜい漸近的にバイアスがないに過ぎない。^{[ 20 ]}収束診断はバーンイン除去を介してバイアスを制御するために使用できるが、計算予算が限られているため、バイアスと分散のトレードオフが発生し、^{[ 21 ]} 分散、ひいては全体的な推定誤差を大幅に削減できる場合は、制御されたバイアスが受け入れられる幅広いアプローチにつながる。^{[ 22 ]}^{[ 23 ]}^{[ 24 ]}

人間の学習において

バイアスと分散のジレンマは機械学習の文脈で広く議論されているが、人間の認知の文脈でも、特にゲルト・ギゲレンツァーとその同僚による学習ヒューリスティックスの文脈で研究されてきた。彼らは（下記の参考文献を参照）、人間の脳は経験によって提供される典型的にはスパースで特徴づけが不十分な訓練データセットの場合、高バイアス・低分散のヒューリスティックスを採用することでこのジレンマを解決すると主張した。これは、ゼロバイアスアプローチは新しい状況への一般化可能性が低く、また世界の真の状態に関する正確な知識を不当に前提としているという事実を反映している。結果として得られるヒューリスティックスは比較的単純であるが、より多様な状況においてより良い推論を生み出す。^{[ 25 ]}

Gemanら^{[ 12 ]}は、バイアスと分散のジレンマは、一般的な物体認識のような能力はゼロから学習することはできず、経験によって調整されるある程度の「ハードワイヤリング」が必要であることを示唆していると主張している。これは、モデルフリーの推論アプローチでは、高い分散を避けるためには、非現実的なほど大規模な訓練データが必要となるためである。

参照

参考文献

^ Kohavi, Ron; Wolpert, David H. (1996). 「ゼロ-ワン損失関数のバイアスプラス分散分解」ICML 96ページ.
^ Luxburg, Ulrike V.; Schölkopf, B. (2011). 「統計学習理論：モデル、概念、そして結果」『論理学史ハンドブック』第10巻、第2.4節。
^ニール・ブレイディ（2019年）「バイアスと分散のトレードオフについて：教科書のアップデートが必要」arXiv：1912.08286 [ cs.LG ]。
^ ^a ^b Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2018). 「ニューラルネットワークにおけるバイアスと分散のトレードオフに関する現代的考察」arXiv : 1810.08591 [ cs.LG ].
^ Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2019).ニューラルネットワークにおけるバイアスと分散のトレードオフに関する現代的考察. 国際学習表現会議 (ICLR) 2019.
^ Vapnik, Vladimir (2000).統計的学習理論の性質. ニューヨーク: Springer-Verlag. doi : 10.1007/978-1-4757-3264-1 . ISBN 978-1-4757-3264-1. S2CID 7138354 .
^ ^a ^b ^cジェームズ, ガレス;ウィッテン, ダニエラ;ハスティー, トレバー;ティブシラニ, ロバート(2013).統計学習入門. シュプリンガー.
^ ^a ^b Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009).統計学習の要素. 2015年1月26日時点のオリジナルよりアーカイブ。2014年8月20日閲覧。
^ヴィジャヤクマール、セトゥー(2007)。「バイアスと分散のトレードオフ」(PDF)。エディンバラ大学。2014 年8 月 19 日に取得。
^ Shakhnarovich, Greg (2011). 「線形回帰におけるバイアス-分散分解の導出に関する注記」(PDF) . 2014年8月21日時点のオリジナル(PDF)からアーカイブ。 2014年8月20日閲覧。
^ベルズリー、デイビッド（1991年）『コンディショニング診断：回帰分析における共線性と弱いデータ』ニューヨーク（NY）：ワイリー、ISBN 978-0471528890。
^ ^a ^b ^c Geman, Stuart ; Bienenstock, Élie; Doursat, René (1992). 「ニューラルネットワークとバイアス／分散のジレンマ」(PDF) . Neural Computation . 4 : 1– 58. doi : 10.1162/neco.1992.4.1.1 . S2CID 14215320 .
^ Gagliardi, Francesco (2011年5月). 「インスタンスベース分類器の医療データベースへの応用：診断と知識抽出」 . 『人工知能と医療』 . 52 (3): 123– 139. doi : 10.1016/j.artmed.2011.04.002 . PMID 21621400 .
^ Ting, Jo-Anne; Vijaykumar, Sethu; Schaal, Stefan (2011). 「制御のための局所加重回帰」. Sammut, Claude; Webb, Geoffrey I. (編).機械学習百科事典(PDF) . Springer. p. 615. Bibcode : 2010eoml.book.....S .
^ Fortmann-Roe, Scott (2012). 「バイアスと分散のトレードオフを理解する」 .
^ Domingos, Pedro (2000).統一されたバイアス・分散分解(PDF) . ICML.
^ Valentini, Giorgio; Dietterich, Thomas G. (2004). 「SVMベースのアンサンブル手法の開発に向けたサポートベクターマシンのバイアス・分散分析」(PDF) . Journal of Machine Learning Research . 5 : 725– 775.
^ブレイン、ダミアン、ウェッブ、ジェフリー(2002).大規模データセットからの分類学習における低バイアスアルゴリズムの必要性(PDF) . 第6回ヨーロッパデータマイニングと知識発見の原理に関する会議 (PKDD 2002) 議事録.
^ Francois-Lavet, Vincent; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damien; Fonteneau, Raphael (2019). 「部分観測性を考慮したバッチ強化学習における過学習と漸近的バイアスについて」 . Journal of Artificial Intelligence Research . 65 : 1– 30. arXiv : 1709.07796 . doi : 10.1613/jair.1.11478 .
^ Zlochin, M.; Baram, Y. (2001). 「モンテカルロ法のバイアスと分散のジレンマ」 . Dorffner, G.; Bischof, H.; Hornik, K. (編).人工ニューラルネットワーク — ICANN 2001 . コンピュータサイエンス講義ノート. 第2130巻. Springer. pp. 257– 264. doi : 10.1007/3-540-44668-0_20 . 2024年11月17日閲覧。
^ South, Leah F.; Riabiz, Marina; Teymur, Onur; Oates, Chris J. (2022年3月1日). 「MCMCの後処理」 . Annual Review of Statistics and Its Application . 9 (1): 529– 555. arXiv : 2103.16048 . Bibcode : 2022AnRSA...9..529S . doi : 10.1146/annurev-statistics-040220-091727 . PMC 7616193. PMID 39006247. 2024年11月17日閲覧。
^ Nemeth, C.; Fearnhead, P. (2021). 「確率的勾配マルコフ連鎖モンテカルロ」 .アメリカ統計学会誌. 116 (533): 433– 450. arXiv : 1907.06986 . doi : 10.1080/01621459.2020.1847120 . 2024年11月17日閲覧。
^ Vazquez, MA; Míguez, J. (2017). 「Importance sampling with transformed weights」 . Electronics Letters . 53 (12): 783– 785. arXiv : 1702.01987 . Bibcode : 2017ElL....53..783V . doi : 10.1049/el.2016.3462 . 2024年11月17日閲覧。
^ Korba, A.; Portier, F. (2022). 「適応的重要度サンプリングとミラー降下法の融合：バイアスと分散のトレードオフ」 .第25回国際人工知能統計会議議事録. 機械学習研究議事録. 第151巻. pp. 11503– 11527. 2024年11月17日閲覧。
^ギゲレンツァー, ゲルト; ブライトン, ヘンリー (2009). 「ホモ・ヒューリスティックス：なぜ偏向した心はより良い推論を行うのか」.認知科学トピックス. 1 (1): 107– 143. doi : 10.1111/j.1756-8765.2008.01006.x . hdl : 11858/00-001M-0000-0024-F678-0 . PMID 25164802 .

外部リンク

MLU-Explain: バイアスと分散のトレードオフ— LOESS 回帰と K 最近傍法におけるバイアスと分散のトレードオフのインタラクティブな視覚化。

[:0-1] Kohavi, Ron; Wolpert, David H. (1996). 「ゼロ-ワン損失関数のバイアスプラス分散分解」ICML 96ページ.

[:1-2] Luxburg, Ulrike V.; Schölkopf, B. (2011). 「統計学習理論：モデル、概念、そして結果」『論理学史ハンドブック』第10巻、第2.4節。

[nealThesis2019-3] ニール・ブレイディ（2019年）「バイアスと分散のトレードオフについて：教科書のアップデートが必要」arXiv：1912.08286 [ cs.LG ]。

[neal2018-4] Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2018). 「ニューラルネットワークにおけるバイアスと分散のトレードオフに関する現代的考察」arXiv : 1810.08591 [ cs.LG ].

[5] Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2019).ニューラルネットワークにおけるバイアスと分散のトレードオフに関する現代的考察. 国際学習表現会議 (ICLR) 2019.

[6] Vapnik, Vladimir (2000).統計的学習理論の性質. ニューヨーク: Springer-Verlag. doi : 10.1007/978-1-4757-3264-1 . ISBN 978-1-4757-3264-1. S2CID 7138354 .

[islr-7] ジェームズ, ガレス;ウィッテン, ダニエラ;ハスティー, トレバー;ティブシラニ, ロバート(2013).統計学習入門. シュプリンガー.

[ESL-8] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009).統計学習の要素. 2015年1月26日時点のオリジナルよりアーカイブ。2014年8月20日閲覧。

[9] ヴィジャヤクマール、セトゥー(2007)。「バイアスと分散のトレードオフ」(PDF)。エディンバラ大学。2014 年8 月 19 日に取得。

[10] Shakhnarovich, Greg (2011). 「線形回帰におけるバイアス-分散分解の導出に関する注記」(PDF) . 2014年8月21日時点のオリジナル(PDF)からアーカイブ。 2014年8月20日閲覧。

[11] ベルズリー、デイビッド（1991年）『コンディショニング診断：回帰分析における共線性と弱いデータ』ニューヨーク（NY）：ワイリー、ISBN 978-0471528890。

[geman-12] Geman, Stuart ; Bienenstock, Élie; Doursat, René (1992). 「ニューラルネットワークとバイアス／分散のジレンマ」(PDF) . Neural Computation . 4 : 1– 58. doi : 10.1162/neco.1992.4.1.1 . S2CID 14215320 .

[13] Gagliardi, Francesco (2011年5月). 「インスタンスベース分類器の医療データベースへの応用：診断と知識抽出」 . 『人工知能と医療』 . 52 (3): 123– 139. doi : 10.1016/j.artmed.2011.04.002 . PMID 21621400 .

[14] Ting, Jo-Anne; Vijaykumar, Sethu; Schaal, Stefan (2011). 「制御のための局所加重回帰」. Sammut, Claude; Webb, Geoffrey I. (編).機械学習百科事典(PDF) . Springer. p. 615. Bibcode : 2010eoml.book.....S .

[15] Fortmann-Roe, Scott (2012). 「バイアスと分散のトレードオフを理解する」 .

[16] Domingos, Pedro (2000).統一されたバイアス・分散分解(PDF) . ICML.

[17] Valentini, Giorgio; Dietterich, Thomas G. (2004). 「SVMベースのアンサンブル手法の開発に向けたサポートベクターマシンのバイアス・分散分析」(PDF) . Journal of Machine Learning Research . 5 : 725– 775.

[18] ブレイン、ダミアン、ウェッブ、ジェフリー(2002).大規模データセットからの分類学習における低バイアスアルゴリズムの必要性(PDF) . 第6回ヨーロッパデータマイニングと知識発見の原理に関する会議 (PKDD 2002) 議事録.

[19] Francois-Lavet, Vincent; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damien; Fonteneau, Raphael (2019). 「部分観測性を考慮したバッチ強化学習における過学習と漸近的バイアスについて」 . Journal of Artificial Intelligence Research . 65 : 1– 30. arXiv : 1709.07796 . doi : 10.1613/jair.1.11478 .

[20] Zlochin, M.; Baram, Y. (2001). 「モンテカルロ法のバイアスと分散のジレンマ」 . Dorffner, G.; Bischof, H.; Hornik, K. (編).人工ニューラルネットワーク — ICANN 2001 . コンピュータサイエンス講義ノート. 第2130巻. Springer. pp. 257– 264. doi : 10.1007/3-540-44668-0_20 . 2024年11月17日閲覧。

[21] South, Leah F.; Riabiz, Marina; Teymur, Onur; Oates, Chris J. (2022年3月1日). 「MCMCの後処理」 . Annual Review of Statistics and Its Application . 9 (1): 529– 555. arXiv : 2103.16048 . Bibcode : 2022AnRSA...9..529S . doi : 10.1146/annurev-statistics-040220-091727 . PMC 7616193. PMID 39006247. 2024年11月17日閲覧。

[22] Nemeth, C.; Fearnhead, P. (2021). 「確率的勾配マルコフ連鎖モンテカルロ」 .アメリカ統計学会誌. 116 (533): 433– 450. arXiv : 1907.06986 . doi : 10.1080/01621459.2020.1847120 . 2024年11月17日閲覧。

[23] Vazquez, MA; Míguez, J. (2017). 「Importance sampling with transformed weights」 . Electronics Letters . 53 (12): 783– 785. arXiv : 1702.01987 . Bibcode : 2017ElL....53..783V . doi : 10.1049/el.2016.3462 . 2024年11月17日閲覧。

[24] Korba, A.; Portier, F. (2022). 「適応的重要度サンプリングとミラー降下法の融合：バイアスと分散のトレードオフ」 .第25回国際人工知能統計会議議事録. 機械学習研究議事録. 第151巻. pp. 11503– 11527. 2024年11月17日閲覧。

[ReferenceA-25] ギゲレンツァー, ゲルト; ブライトン, ヘンリー (2009). 「ホモ・ヒューリスティックス：なぜ偏向した心はより良い推論を行うのか」.認知科学トピックス. 1 (1): 107– 143. doi : 10.1111/j.1756-8765.2008.01006.x . hdl : 11858/00-001M-0000-0024-F678-0 . PMID 25164802 .

[

[

[ 3 ]

[ 4 ] 。分散の大きいモデルはある意味で「複雑」ではあるが、その逆は必ずしも真ではない。

[ 5 ]

[ 6 ]

[

[

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[

[

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]