統計学 において、推定量 (またはバイアス関数)のバイアスとは、 推定量 の期待値 と推定対象となるパラメータの真の値 との差を指します。バイアスがゼロの推定量または決定規則は、不偏と 呼ばれます。統計学において、「バイアス」とは推定量の客観的な 特性です。バイアスは一貫性とは異なる概念です。一貫性 のある推定量は、確率的にパラメータの真の値に収束しますが、バイアスがある場合とない場合とがあります(詳細については、 「バイアスと一貫性」を 参照してください)。
他の条件が同じであれば、不偏推定量は偏りのある推定量よりも好ましいですが、実際には、一般に小さな偏りのある推定量がよく使用されます。偏りのある推定量を使用する場合、偏りの境界が計算されます。偏りのある推定量は、さまざまな理由で使用されることがあります。不偏推定量は、母集団に関する追加の仮定なしには存在しないため、推定量の計算が難しいため (標準偏差の不偏推定など)、偏りのある推定量は、さまざまな 中心傾向 の尺度に関して不偏である可能性があるため、偏りのある推定量は、不偏推定量と比較して、いくつかの損失関数 (特に平均二乗誤差 )の値が低くなるため (特に収縮推定量 の場合)、または、場合によっては不偏であることが条件として強すぎるため、不偏推定量だけでは役に立たないためです。
バイアスは、平均(期待値)ではなく中央値 を基準として測定することもできます。この場合、中央 値不偏性と通常の平均 不偏性の性質を区別します。非線形変換 では平均不偏性は維持されますが、中央値不偏性は維持されます(§ 変換の影響 を 参照)。例えば、標本分散 は母分散のバイアスのある推定値です。これらはすべて以下に図示されています。
パラメータの不偏推定量は必ずしも存在するとは限らない。例えば、二項確率変数のパラメータの逆数には不偏推定量は存在しない。[ 1 ]
意味 実数θでパラメータ化された 統計モデル があり、観測データの確率分布と、任意の観測データに基づいてθ の推定値 として機能する統計量 があるとする。つまり、データが何らかの未知の分布(θはこの分布の一部である固定の未知の定数)に従うと仮定し、観測データを θ に近いと期待される値にマッピングする推定値を構築する。に対するのバイアス は次のように定義される[ 2 ] P θ ( × ) = P ( × ∣ θ ) {\displaystyle P_{\theta }(x)=P(x\mid \theta )} θ ^ {\displaystyle {\hat {\theta }}} × {\displaystyle x} P ( × ∣ θ ) {\displaystyle P(x\mid \theta )} θ ^ {\displaystyle {\hat {\theta }}} θ ^ {\displaystyle {\hat {\theta }}} θ {\displaystyle \theta} バイアス ( θ ^ 、 θ ) = バイアス θ [ θ ^ ] = E × ∣ θ [ θ ^ ] − θ = E × ∣ θ [ θ ^ − θ ] 、 {\displaystyle \operatorname {バイアス} ({\hat {\theta }},\theta )=\operatorname {バイアス} _{\theta }\left[\,{\hat {\theta }}\,\right]=\operatorname {E} _{x\mid \theta }\left[\,{\hat {\theta }}\,\right]-\theta =\operatorname {E} _{x\mid \theta }\left[{\hat {\theta }}-\theta \right],}
ここで、は分布 における期待値 (つまり、すべての可能な観測値 における平均)を表します。θは 条件付き分布 に関して測定可能であるため、2番目の式が成り立ちます。 E × ∣ θ {\displaystyle \operatorname {E} _{x\mid \theta}} P ( × ∣ θ ) {\displaystyle P(x\mid \theta )} × {\displaystyle x} P ( × ∣ θ ) {\displaystyle P(x\mid \theta )}
推定量は、パラメータθ の全ての値に対してバイアスがゼロである場合、または推定量の期待値がパラメータの期待値と一致する場合、不偏推定量であると言われる。 [ 3 ] 不偏推定量は、必ずしも適用できるとは限らない。例えば、がパラメータθ に対して不偏推定量である場合、 g が線形関数でない限り、 g( ) がg(θ) に対して不偏推定量であることは一般には保証されない。 [ 4 ] θ ^ {\displaystyle {\hat {\theta }}} θ ^ {\displaystyle {\hat {\theta }}}
推定値の特性に関するシミュレーション実験では、平均符号付き差 を使用して推定値の偏りを評価できます。
例
標本分散 標本分散は、バイアスとリスクに関する2つの異なる問題を浮き彫りにします。第一に、n で割る「ナイーブ」な推定値は 、標本平均が同じデータから推定されるため、下方にバイアスがかかります。n /(n−1) (ベッセル補正)を掛けると、不偏推定値が得られます。第二に、不偏性は 平均二乗誤差の 最小化を意味するものではありません。
X 1 , ..., X n が独立かつ同一分布に 従う(iid)確率変数で、期待値が μ 、分散が σ 2 で あるとする。標本平均 と補正されていない標本分散が 次のように定義される とき、
X ¯ = 1 n ∑ 私 = 1 n X 私 S 2 = 1 n ∑ 私 = 1 n ( X 私 − X ¯ ) 2 {\displaystyle {\overline {X}}\,={\frac {1}{n}}\sum _{i=1}^{n}X_{i}\qquad S^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}\qquad }
すると、S 2は σ 2 の偏りのある推定値となる。これは全分散の法則 から直ちに導かれる。なぜなら、
ヴァール ( X ) ⏟ σ 2 = E [ ヴァール ( X ∣ X ¯ ) ] ⏟ E [ S 2 ] + ヴァール ( E [ X ∣ X ¯ ] ) ⏟ σ 2 / n 、 ⟹ E [ S 2 ] = n − 1 n σ 2 。 {\displaystyle \underbrace {\operatorname {Var} (X)} _{\sigma ^{2}}=\underbrace {\operatorname {E} \left[\operatorname {Var} \left(X\mid {\bar {X}}\right)\right]} _{E[S^{2}]}+\underbrace {\operatorname {Var} \left(\operatorname {E} \left[X\mid {\bar {X}}\right]\right)} _{\sigma ^{2}/n},\quad \implies E[S^{2}]={\frac {n-1}{n}}\sigma ^{2}.}
言い換えれば、補正されていない標本分散の期待値は、正規化係数を乗じない限り、母集団分散σ 2と等しくならない。この分散の偏りのある(補正されていない)推定値と偏りのない推定値の比は、 ベッセル補正 として知られている。一方、標本平均は、母集団平均 μの偏りのない [ 5 ]推定値である [ 3 ] 。上記の式の右辺第2項の等式は、ビエネメの恒等式 によって理解できる。
Var ( E [ X ∣ X ¯ ] ) = Var ( X ¯ ) = Var ( 1 n ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n Var ( X i ) = 1 n 2 n σ 2 = σ 2 n . {\displaystyle {\begin{aligned}\operatorname {Var} \left(\operatorname {E} [X\mid {\bar {X}}]\right)&=\operatorname {Var} \left({\overline {X}}\right)=\operatorname {Var} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\right)\\[1ex]&={\frac {1}{n^{2}}}\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}\right)={\frac {1}{n^{2}}}n\sigma ^{2}={\frac {\sigma ^{2}}{n}}.\end{aligned}}}
補正されていない標本分散S 2 が偏っている理由は、標本平均がμの 最小二乗 法(OLS)推定値であるという事実に起因します。μは、和を可能な限り小さくする数値です。つまり、この和に他の数値を代入しても、和は増加する一方です。特に、この選択により、 X ¯ {\displaystyle {\overline {X}}} ∑ i = 1 n ( X i − X ¯ ) 2 {\textstyle \sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}} μ ≠ X ¯ {\displaystyle \mu \neq {\overline {X}}}
1 n ∑ i = 1 n ( X i − X ¯ ) 2 < 1 n ∑ i = 1 n ( X i − μ ) 2 , {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}<{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2},} その後 E [ S 2 ] = E [ 1 n ∑ i = 1 n ( X i − X ¯ ) 2 ] < E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] = σ 2 . {\displaystyle {\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}{\bigg ]}<\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}{\bigg ]}=\sigma ^{2}.\end{aligned}}}
上記の議論は幾何学的に理解できます。ベクトルは、の方向とその方向の直交補超平面に射影することで、「平均部分」と「分散部分」に分解できます。に沿った部分は、補超平面は となります。これは直交分解であるため、ピタゴラスの定理によれば となり、期待値を取ると、上記のように が得られます(ただし を掛けます)。 がガウス分布からサンプリングされる場合のように、 の分布が回転対称である場合、平均して、 に沿った次元はに垂直な方向と等しくに寄与するため、 および となります。これは、上で説明したように、一般的には事実上当てはまります。 C → = ( X 1 − μ , … , X n − μ ) {\displaystyle {\vec {C}}=(X_{1}-\mu ,\ldots ,X_{n}-\mu )} u → = ( 1 , … , 1 ) {\displaystyle {\vec {u}}=(1,\ldots ,1)} A → = ( X ¯ − μ , … , X ¯ − μ ) {\displaystyle {\vec {A}}=({\overline {X}}-\mu ,\ldots ,{\overline {X}}-\mu )} u → {\displaystyle {\vec {u}}} B → = ( X 1 − X ¯ , … , X n − X ¯ ) {\displaystyle {\vec {B}}=(X_{1}-{\overline {X}},\ldots ,X_{n}-{\overline {X}})} | C → | 2 = | A → | 2 + | B → | 2 {\displaystyle |{\vec {C}}|^{2}=|{\vec {A}}|^{2}+|{\vec {B}}|^{2}} n σ 2 = n E [ ( X ¯ − μ ) 2 ] + n E [ S 2 ] {\displaystyle n\sigma ^{2}=n\operatorname {E} \left[({\overline {X}}-\mu )^{2}\right]+n\operatorname {E} [S^{2}]} n {\displaystyle n} C → {\displaystyle {\vec {C}}} X i {\displaystyle X_{i}} u → {\displaystyle {\vec {u}}} | C → | 2 {\displaystyle |{\vec {C}}|^{2}} n − 1 {\displaystyle n-1} u → {\displaystyle {\vec {u}}} E [ ( X ¯ − μ ) 2 ] = σ 2 n {\displaystyle \operatorname {E} \left[({\overline {X}}-\mu )^{2}\right]={\frac {\sigma ^{2}}{n}}} E [ S 2 ] = n − 1 n σ 2 {\displaystyle \operatorname {E} [S^{2}]={\frac {n-1}{n}}\sigma ^{2}}
ポアソン確率の推定 偏りのある推定値が偏りのない推定値よりも優れているという、はるかに極端な例はポアソン分布 から生じる。[ 6 ] [ 7 ] Xが期待値 λ のポアソン分布に 従うと仮定する。 P ( X = 0 ) 2 = e − 2 λ {\displaystyle \operatorname {P} (X=0)^{2}=e^{-2\lambda }\quad }
サンプルサイズは 1 です。(たとえば、電話交換機への着信コールがポアソン過程としてモデル化され、λ が1 分あたりの平均コール数である場合、e −2 λ (推定値) は次の 2 分間にコールが着信しない確率です。)
不偏推定量の期待値δ ( X )は 推定値 に等しいので、すなわち E ( δ ( X ) ) = ∑ x = 0 ∞ δ ( x ) λ x e − λ x ! = e − 2 λ , {\displaystyle \operatorname {E} (\delta (X))=\sum _{x=0}^{\infty }\delta (x){\frac {\lambda ^{x}e^{-\lambda }}{x!}}=e^{-2\lambda },}
不偏推定値を構成するデータの唯一の機能は δ ( x ) = ( − 1 ) x . {\displaystyle \delta (x)=(-1)^{x}.\,}
これを理解するには、上記の期待値の式から e − λ を分解すると、残った和もe − λ のテイラー級数展開となり、 e − λ e − λ = e −2 λ となることに注意してください( 「指数関数の特性 」を参照)。
X の観測値が100の場合、推定値は1となりますが、推定対象の真の値は0に近い可能性が非常に高く、これは正反対の極値です。また、X が101と観測された場合、推定値はさらに不合理です。推定対象の値は正であるはずなのに、推定値は-1となります。
(バイアス付き)最大尤度推定量 e − 2 X {\displaystyle e^{-2{X}}\quad }
この不偏推定値よりもはるかに優れています。その値は常に正であるだけでなく、平均二乗誤差 がe − 4 λ − 2 e λ ( 1 / e 2 − 3 ) + e λ ( 1 / e 4 − 1 ) {\displaystyle e^{-4\lambda }-2e^{\lambda (1/e^{2}-3)}+e^{\lambda (1/e^{4}-1)}\,}
より小さい。不偏推定値のMSEを比較する。 1 − e − 4 λ . {\displaystyle 1-e^{-4\lambda }.\,}
MSEは真の値 λ の関数である。最大尤度推定値のバイアスは以下の通りである。 e λ ( 1 / e 2 − 1 ) − e − 2 λ . {\displaystyle e^{\lambda (1/e^{2}-1)}-e^{-2\lambda }.\,}
最尤推定値の偏りは大きくなる可能性があります。1からnまでの番号が付けられた n枚 のチケットが箱に入れられ、そのうち1枚がランダムに選ばれ、その値がX となるケースを考えてみましょう。nが不明な場合、 n を与えられたときの X の期待値は( n +1)/2に過ぎないにもかかわらず、 nの最尤推定値はX となります。つまり、 n が少なくともX であり、おそらくXよりも大きいという ことしか確信できません。この場合、自然な不偏推定値は2 X − 1です。
中央値 不偏推定値の理論は1947年にジョージ・W・ブラウンによって復活した。[ 8 ]
一次元パラメータθの推定値は、θを固定した際に推定値の分布の中央値がθの値となる場合、中央値不偏であると言われる。つまり、推定値は過大評価する頻度と過小評価する頻度が同じである。この要件は、ほとんどの目的において平均不偏の要件と同等の効果を達成し、さらに1対1変換に対して不変であるという特性も持つ。
中央値不偏推定量の更なる特性は、レーマン、バーンバウム、ファン・デル・ファールト、ファンツァグルによって指摘されている。[ 9 ] 特に、中央値不偏推定量は、平均不偏推定量や最大尤度 推定量が存在しない場合にも存在する。これらは1対1変換 に対して不変である。
単調な尤度関数 を持つ確率分布(例えば、1パラメータ指数族)に対して、中央値不偏推定量を構築し、それらが最適であることを保証する方法がある(平均不偏推定量に対して考慮される最小分散特性と類似した意味で)。[ 10 ] [ 11 ] そのような手順の1つは、平均不偏推定量に対するラオ–ブラックウェル手順の類似物である。この手順は、平均不偏推定に対するラオ–ブラックウェル手順よりも小さい確率分布のクラスに有効であるが、より大きな損失関数のクラスに有効である。[ 11 ]
他の損失関数に対するバイアス ガウス [12]によって観察されたように、最小分散平均不偏推定量は、二乗誤差損失関数(平均不偏推定量の間で)に対するリスク(期待損失)を最小化します。最小平均絶対偏差中央値不偏推定量は、ラプラス[ 12 ] によって観察 され たように 、絶対 損失関数( 中央 値 不偏 推定量の間で)に対するリスクを最小化します。[ 12 ] [ 13 ] 他の損失関数は統計学、特にロバスト統計 で使用されます。[ 12 ] [ 14 ]
単変量パラメータの場合、中央値不偏推定値は、順序を維持する(または順序を反転する)変換の下では中央値不偏のままです。平均不偏推定値に変換を適用した場合、結果は対応する母集団統計量の平均不偏推定値である必要はないことに注意してください。Jensen の不等式 により、変換としての凸関数は正のバイアスを導入し、 凹関数は 負のバイアスを導入します。また、混合凸関数は、特定の関数と分布に応じて、いずれかの方向にバイアスを導入する可能性があります。つまり、非線形関数f とパラメータp の平均不偏推定値U の場合、複合推定値f ( U ) は f ( p )の平均不偏推定値である必要はありません。例えば、母集団分散の不偏推定値の 平方根は、母集団 標準偏差 の平均不偏推定値ではありません。不偏 標本分散 の平方根、つまり補正標本標準偏差 は、偏りを持っています。この偏りは推定値の標本分布と変換の両方に依存し、計算が非常に複雑になる場合があります。この点については、 標準偏差の不偏推定を参照してください。
バイアス、分散、平均二乗誤差パラメータ β 0 に対する2つの代替推定値の標本分布。 β 1 ^ は不偏ですが、バイアスのある β 2 ^ よりも明らかに劣っています。リッジ回帰は 、わずかなバイアスを許容することで分散を大幅に低減し、全体的に信頼性の高い推定値を得ることができる手法の一例です。 バイアスは推定値と基礎パラメータ間の平均 差を定量化するものですが、有限サンプルに基づく推定値は、サンプルのランダム性により、パラメータとの差がさらに大きくなることが予想されます。バイアスを最小化する推定値は、必ずしも平均二乗誤差を最小化するとは限りません。両方の種類の差を反映するために用いられる指標の一つが平均二乗誤差 です。[ 2 ] これは、バイアスの二乗と分散の和に等しいことが示されています。[ 2 ] MSE ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] . {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {E} {\big [}({\hat {\theta }}-\theta )^{2}{\big ]}.} MSE ( θ ^ ) = ( E [ θ ^ ] − θ ) 2 + E [ ( θ ^ − E [ θ ^ ] ) 2 ] = ( Bias ( θ ^ , θ ) ) 2 + Var ( θ ^ ) {\displaystyle {\begin{aligned}\operatorname {MSE} ({\hat {\theta }})=&(\operatorname {E} [{\hat {\theta }}]-\theta )^{2}+\operatorname {E} [\,({\hat {\theta }}-\operatorname {E} [\,{\hat {\theta }}\,])^{2}\,]\\=&(\operatorname {Bias} ({\hat {\theta }},\theta ))^{2}+\operatorname {Var} ({\hat {\theta }})\end{aligned}}}
パラメータがベクトルの場合、同様の分解が適用されます。[ 15 ] ここで、は推定値の共分散行列 のトレース(対角和)であり、は2乗ベクトルノルム です。 MSE ( θ ^ ) = trace ( Cov ( θ ^ ) ) + ‖ Bias ( θ ^ , θ ) ‖ 2 {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {trace} (\operatorname {Cov} ({\hat {\theta }}))+\left\Vert \operatorname {Bias} ({\hat {\theta }},\theta )\right\Vert ^{2}} trace ( Cov ( θ ^ ) ) {\displaystyle \operatorname {trace} (\operatorname {Cov} ({\hat {\theta }}))} ‖ Bias ( θ ^ , θ ) ‖ 2 {\displaystyle \left\Vert \operatorname {Bias} ({\hat {\theta }},\theta )\right\Vert ^{2}}
例: 母分散の推定 例えば、[ 16 ] の形の推定量を仮定する。
T 2 = c ∑ i = 1 n ( X i − X ¯ ) 2 = c n S 2 {\displaystyle T^{2}=c\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}=cnS^{2}}
上と同様に母分散を求めますが、今回はMSEを最小化するようにします。
MSE = E [ ( T 2 − σ 2 ) 2 ] = ( E [ T 2 − σ 2 ] ) 2 + Var ( T 2 ) {\displaystyle {\begin{aligned}\operatorname {MSE} =&\operatorname {E} \left[(T^{2}-\sigma ^{2})^{2}\right]\\=&\left(\operatorname {E} \left[T^{2}-\sigma ^{2}\right]\right)^{2}+\operatorname {Var} (T^{2})\end{aligned}}}
変数X 1 ... X nが 正規分布に従う場合、nS 2 /σ 2 は 自由度 n − 1のカイ2乗分布 を持ち、次のようになります。
E [ n S 2 ] = ( n − 1 ) σ 2 and Var ( n S 2 ) = 2 ( n − 1 ) σ 4 . {\displaystyle \operatorname {E} [nS^{2}]=(n-1)\sigma ^{2}{\text{ and }}\operatorname {Var} (nS^{2})=2(n-1)\sigma ^{4}.}
など
MSE = ( c ( n − 1 ) − 1 ) 2 σ 4 + 2 c 2 ( n − 1 ) σ 4 {\displaystyle \operatorname {MSE} =(c(n-1)-1)^{2}\sigma ^{4}+2c^{2}(n-1)\sigma ^{4}}
少し代数的に計算すると、バイアスの二乗のみを最小化するc = 1/( n − 1) ではなく、この複合損失関数を最小化するc = 1/( n + 1) であることが確認できます。
より一般的には、パラメータ値とは無関係に MSE を最小化する推定値が存在できるのは、制限されたクラスの問題のみです。
しかし、バイアスと分散のトレードオフ があると認識されることは非常に一般的であり、バイアスの小さな増加と分散の大きな減少がトレードオフされ、全体としてより望ましい推定値が得られます。
ベイズ的見解 ベイズ主義者の多くは、推定値の不偏性(少なくとも前述の形式的標本理論の意味で)についてはあまり関心がありません。例えば、ゲルマンと共著者(1995)は次のように書いています。「ベイズ主義の観点から見ると、不偏性の原則は大規模な標本数においては合理的ですが、それ以外の場合には誤解を招く可能性があります。」[ 17 ]
基本的に、ベイズ的アプローチ と上記の標本理論アプローチの違いは、標本理論アプローチではパラメータを固定し、データの予測標本分布に基づいて統計量の確率分布を考慮する点にあります。一方、ベイズ的アプローチでは、データは既知かつ固定であり、未知のパラメータに対して ベイズの定理 を用いて確率分布を構築しようと試みます。
p ( θ ∣ D , I ) ∝ p ( θ ∣ I ) p ( D ∣ θ , I ) {\displaystyle p(\theta \mid D,I)\propto p(\theta \mid I)p(D\mid \theta ,I)}
ここで、2番目の項、すなわち未知のパラメータ値θを与えられたデータの尤度は、取得されたデータとデータ生成プロセスのモデル化のみに依存します。しかし、ベイズ計算には、θの 事前確率である1番目の項も含まれます。これは、データが入力される 前に 分析者がθについて知っている、あるいは推測しているすべてのことを考慮に入れます。この情報はサンプリング理論のアプローチでは全く考慮されません。実際、この情報を含めようとする試みは、純粋にデータによって示されたものから「偏り」が生じるとみなされます。ベイズ計算が事前情報を含む限り、その結果がサンプリング理論の用語で言う「偏りのない」ものでなくなることは本質的に避けられません。
しかし、ベイズ主義者が「無情報」な事前情報を採用しようとしても、ベイズ的アプローチの結果はサンプリング理論のアプローチとは異なる場合があります。
例えば、平均値が不明な正規分布の未知の母分散σ 2 の推定を再度考えてみましょう。ここでは、期待損失関数の c を最適化したいとします。
ExpectedLoss = E [ ( c n S 2 − σ 2 ) 2 ] = E [ σ 4 ( c n S 2 σ 2 − 1 ) 2 ] {\displaystyle \operatorname {ExpectedLoss} =\operatorname {E} \left[\left(cnS^{2}-\sigma ^{2}\right)^{2}\right]=\operatorname {E} \left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]}
この問題に対する非情報事前分布の標準的な選択はジェフリーズ事前分布 であり、これはln(σ 2 ) に対して再スケーリング不変のフラット事前分布を採用することと同等です。 p ( σ 2 ) ∝ 1 / σ 2 {\displaystyle \scriptstyle {p(\sigma ^{2})\;\propto \;1/\sigma ^{2}}}
この事前分布を採用することによる1つの結果は、S 2 /σ 2が 重要な量 として残ることです。つまり、 S 2 /σ 2 の確率分布は、 S 2 またはσ 2 の値とは無関係に、S 2 /σ 2 のみに依存します。
p ( S 2 σ 2 ∣ S 2 ) = p ( S 2 σ 2 ∣ σ 2 ) = g ( S 2 σ 2 ) {\displaystyle p\left({\tfrac {S^{2}}{\sigma ^{2}}}\mid S^{2}\right)=p\left({\tfrac {S^{2}}{\sigma ^{2}}}\mid \sigma ^{2}\right)=g\left({\tfrac {S^{2}}{\sigma ^{2}}}\right)}
しかし、
E p ( S 2 ∣ σ 2 ) [ σ 4 ( c n S 2 σ 2 − 1 ) 2 ] = σ 4 E p ( S 2 ∣ σ 2 ) [ ( c n S 2 σ 2 − 1 ) 2 ] {\displaystyle \operatorname {E} _{p(S^{2}\mid \sigma ^{2})}\left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]=\sigma ^{4}\operatorname {E} _{p(S^{2}\mid \sigma ^{2})}\left[\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]}
対照的に
E p ( σ 2 ∣ S 2 ) [ σ 4 ( c n S 2 σ 2 − 1 ) 2 ] ≠ σ 4 E p ( σ 2 ∣ S 2 ) [ ( c n S 2 σ 2 − 1 ) 2 ] {\displaystyle \operatorname {E} _{p(\sigma ^{2}\mid S^{2})}\left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]\neq \sigma ^{4}\operatorname {E} _{p(\sigma ^{2}\mid S^{2})}\left[\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]}
—ベイズの場合のように、期待値がS 2 が与えられたときのσ 2の確率分布に適用されるのではなく、 S 2 が与えられたときの σ 2の確率分布に適用されるとき、 σ 4 を 定数として因数分解することはできなくなります。その結果、サンプリング理論の計算と比較すると、ベイズ計算では σ 2の大きな値に重みが置かれ、この二乗損失関数では、 σ 2の大きな値を過小評価した場合の結果が、 σ 2 の小さな値を過大評価した場合の結果よりも二乗損失の観点からコストが高くなることが適切に考慮されます(サンプリング理論の計算では考慮されません)。
計算されたベイズ計算は、 σ 2 の事後確率分布に対して、自由度n − 1の尺度逆カイ二乗分布 を与える。期待損失はcnS 2 = <σ 2 >のときに最小化される。これは c = 1/( n − 3)のときに起こる 。
したがって、たとえ情報のない事前分布であっても、ベイズ計算では、対応するサンプリング理論の計算と同じ期待損失最小化の結果が得られない可能性があります。
参照
注記 ^ 「二項分布において、$1/p$の不偏推定量が存在しないのはなぜか?」 Mathematics Stack Exchange . 2023年12月27日 閲覧 。^ a b c Kozdron, Michael (2016年3月). 「推定量の良さの評価:バイアス、平均二乗誤差、相対効率(第3章)」 (PDF) . stat.math.uregina.ca . 2020年9月11日 閲覧 。 ^ a b Taylor, Courtney (2019年1月13日). 「Unbiased Estimators and Biased Estimators」 . ThoughtCo . 2020年9月12日 閲覧 。 ^ デッキング、ミシェル編 (2005). 確率と統計の現代的入門:なぜ、どのように理解するのか . シュプリンガー統計テキスト. ロンドン [ハイデルベルク]: シュプリンガー. ISBN 978-1-85233-896-1 。^ リチャード・アーノルド・ジョンソン、ディーン・W・ウィチャーン (2007). 応用多変量統計分析 . ピアソン・プレンティス・ホール. ISBN 978-0-13-187715-3 . 2012年8月10日 閲覧 。^ Romano, JP; Siegel, AF (1986). 確率と統計における反例 . モントレー, カリフォルニア州, 米国: Wadsworth & Brooks / Cole. p. 168. ^ Hardy, M. (2003年3月1日). 「啓発的な反例」. American Mathematical Monthly . 110 (3): 234–238 . arXiv : math/0206006 . doi : 10.2307/3647938 . ISSN 0002-9890 . JSTOR 3647938 . ^ ブラウン(1947年)、583ページ ^ リーマン 1951 ;バーンバウム 1961 ;ファン・デル・ファールト 1961 ;ファンザグル 1994 ^ Pfanzagl, Johann (1979). 「ニューサンスパラメータが存在する場合の最適な中央値不偏推定量について」 . 『統計年報』 . 7 (1): 187– 193. doi : 10.1214/aos/1176344563 . ^ a b Brown, LD; Cohen, Arthur; Strawderman, WE (1976). 「厳密な単調尤度比の完全クラス定理とその応用」 Ann. Statist . 4 ( 4): 712– 722. doi : 10.1214/aos/1176343543 . ^ a b c ドッジ、ヤドラー編 (1987). L 1 -ノルムと関連手法 に基づく統計データ分析. 1987年8月31日~9月4日にヌーシャテルで開催された第1回国際会議論文集. アムステルダム: 北ホラント. ISBN 0-444-70273-3 。^ Jaynes, ET (2007). 確率論:科学の論理 . ケンブリッジ:ケンブリッジ大学出版局. p. 172. ISBN 978-0-521-59271-0 。^ Klebanov, Lev B.; Rachev, Svetlozar T.; Fabozzi, Frank J. (2009). 「損失関数と不偏推定理論」. 統計におけるロバストモデルと非ロバストモデル . ニューヨーク: Nova Scientific. ISBN 978-1-60741-768-2 。^ タボガ、マルコ(2010年) 「確率論と数理統計の講義」 。 ^ デグルート、モリス・H. (1986). 確率と統計 (第2版). アディソン・ウェスレー. pp. 414–5 . ISBN 0-201-11366-X 。 しかし、例えば、Casella; Berger (2001). Statistical Inference (2nd ed.). Duxbury. p. 332. ISBNでの議論と比較してみましょう。 0-534-24312-6 。^ Gelman, A.; et al. (1995). ベイズデータ解析 . Chapman and Hall. p. 108. ISBN 0-412-03991-5 。
参考文献 ブラウン、ジョージ・W. 「小標本推定について」『数理統計年報 』第18巻第4号(1947年12月)、582-585頁。JSTOR 2236236 。レーマン, EL (1951年12月). 「不偏性の一般概念」.数理統計年報 . 22 (4): 587– 592. doi : 10.1214/aoms/1177729549 . JSTOR 2236928 .バーンバウム, アラン (1961年3月). 「推定の統一理論 I」.数理統計年報 . 32 (1): 112– 135. doi : 10.1214/aoms/1177705145 .Van der Vaart, HR (1961年6月). 「バイアスの概念のいくつかの拡張」 .数理統計年報 . 32 (2): 436– 447. doi : 10.1214/aoms/1177705051 . ファンザグル、ヨハン (1994)。パラメトリック統計理論 。ウォルター・デ・グルイテル。 スチュアート、アラン、オード、スティーブン・アーノルド [F.] (2010). 『古典的推論と線型モデル 』 ケンドールの統計理論入門 第2A巻. ワイリー. ISBN 978-0-4706-8924-0 。 。Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1993).不偏推定量とその応用 . 第1巻: 単変量の場合. 出版地: Kluwer Academic Publishers. ISBN 0-7923-2382-3 。 Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1996).不偏推定量とその応用 . 第2巻: 多変量の場合. 出版地: Kluwer Academic Publishers. ISBN 0-7923-3939-8 。 クレバノフ, レフ [B.]; ラチェフ, スヴェトロザール [T.]; ファボッツィ, フランク [J.] (2009). 『統計におけるロバストモデルと非ロバストモデル 』 ニューヨーク: Nova Scientific Publishers. ISBN 978-1-60741-768-2 。
外部リンク