ねじれ特性

一般的に、ねじり特性は、交換に適した統計と一致するサンプルの特性と関連付けられます。

説明

パラメトリック推論の問題は、与えられた分布則を持つ確率変数Xから観測された標本 を出発点として、この標本に基づいてこのパラメータの適切な値(推定値と呼ぶ)を正確に計算することから成ります。推定値が適切であるとは、未知のパラメータに置き換えても以降の計算に大きな影響が出ないことを指します。アルゴリズム推論では、推定値の適切性は、観測された標本との 適合性という観点から読み取られます。 { x 1 , , x m } {\displaystyle \{x_{1},\ldots ,x_{m}\}}

同様に、パラメータ適合性は、パラメータが参照するランダム変数の確率分布から導出する確率測度です。このようにして、観測されたサンプルと適合するランダムパラメータ Θ を識別します。サンプリングメカニズム が与えられた場合、この操作の理論的根拠は、Zシード分布法則を使用して、与えられた θ のX分布法則と、Xサンプルが与えられた Θ 分布法則の両方を決定することにあります。したがって、サンプル空間のドメインを Θサポートのサブセットに関連付けることができれば、前者から後者の分布を直接導出できます。より抽象的な言葉で言えば、サンプルのねじれ特性をパラメータの特性と話し、前者をこの交換に適した統計量と同一視し、未知のパラメータに関して良好な動作を示します。操作上の目標は、統計量Sの観測値sを考慮して、 Xパラメータがちょうど θ であるときのS分布法則の関数として、累積分布関数の解析式を記述することです M X = ( g θ , Z ) {\displaystyle M_{X}=(g_{\theta },Z)} F Θ ( θ ) {\displaystyle F_{\Theta }(\theta )}

方法

確率変数 Xのサンプリングメカニズム が与えられればが に等しいとモデル化できる。パラメータ θの関連統計量に注目するとマスター方程式は次のようになる 。 M X = ( g θ , Z ) {\displaystyle M_{X}=(g_{\theta },Z)} X = { X 1 , , X m } {\displaystyle {\boldsymbol {X}}=\{X_{1},\ldots ,X_{m}\}} { g θ ( Z 1 ) , , g θ ( Z m ) } {\displaystyle \{g_{\theta }(Z_{1}),\ldots ,g_{\theta }(Z_{m})\}} S = h 1 ( X 1 , , X m ) {\displaystyle S=h_{1}(X_{1},\ldots ,X_{m})}

s = h ( g θ ( z 1 ) , , g θ ( z m ) ) = ρ ( θ ; z 1 , , z m ) . {\displaystyle s=h(g_{\theta }(z_{1}),\ldots ,g_{\theta }(z_{m}))=\rho (\theta ;z_{1},\ldots ,z_{m}).}

s がパラメータに関して良好な統計量である場合、 sと θの間には単調な関係が存在することが確実である。また、マスター方程式は他の(隠れた)パラメータに依存しない実行可能な解を与えるため、与えられたs に対するθの関数として確率変数となることが保証される。 [1] z = { z 1 , , z m } {\displaystyle {\boldsymbol {z}}=\{z_{1},\ldots ,z_{m}\}} Z {\displaystyle {\boldsymbol {Z}}}

単調性の方向は、任意のイベント間の関係(またはその逆)を決定し、ここで はマスター方程式 を用いて計算されます。s離散値をとる場合、最初の関係は に変化します。ここではsの離散化粒度の大きさで 、単調性の傾向は逆になります。これらの関係をすべてのシードについて繰り返すと、s が連続である場合、以下のいずれかが 成り立ちます。 z {\displaystyle {\boldsymbol {z}}} s s θ θ {\displaystyle s\geq s'\leftrightarrow \theta \geq \theta '} s s θ θ {\displaystyle s\geq s'\leftrightarrow \theta \leq \theta '} s {\displaystyle s'} θ {\displaystyle \theta '} s s θ θ s s + {\displaystyle s\geq s'\rightarrow \theta \geq \theta '\rightarrow s\geq s'+\ell } > 0 {\displaystyle \ell >0}

F Θ S = s ( θ ) = F S Θ = θ ( s ) {\displaystyle F_{\Theta \mid S=s}(\theta )=F_{S\mid \Theta =\theta }(s)}

または

F Θ S = s ( θ ) = 1 F S Θ = θ ( s ) {\displaystyle F_{\Theta \mid S=s}(\theta )=1-F_{S\mid \Theta =\theta }(s)}

離散sの場合、 のため、が存在する区間があります F Θ S = s ( θ ) {\displaystyle F_{\Theta \mid S=s}(\theta )} > 0 {\displaystyle \ell >0} この論理的工夫全体は「ねじれ論証」と呼ばれます。これを実装する手順は以下のとおりです。

アルゴリズム

ねじり議論によるパラメータ分布則の生成
パラメータθが未知のランダム変数からの サンプルが与えられた場合、 { x 1 , , x m } {\displaystyle \{x_{1},\ldots ,x_{m}\}}
  1. パラメータθとその離散化粒度(存在する場合)について、適切に動作する統計量Sを特定する。 {\displaystyle \ell }
  2. 単調さ対を決定する;
  3. 計算は次のようになります。 F Θ ( θ ) ( q 1 ( F S | Θ = θ ( s ) ) , q 2 ( F S | Θ = θ ( s ) ) ) {\displaystyle F_{\Theta }(\theta )\in \left(q_{1}(F_{S|\Theta =\theta }(s)),q_{2}(F_{S|\Theta =\theta }(s))\right)}
    • Sが連続の場合 q 1 = q 2 {\displaystyle q_{1}=q_{2}}
    • Sが離散的で ある場合
      1. q 2 ( F S ( s ) ) = q 1 ( F S ( s ) {\displaystyle q_{2}(F_{S}(s))=q_{1}(F_{S}(s-\ell )} sがθとともに減少しない場合
      2. q 1 ( F S ( s ) ) = q 2 ( F S ( s ) {\displaystyle q_{1}(F_{S}(s))=q_{2}(F_{S}(s-\ell )} sθとともに増加せず、
      3. q i ( F S ) = 1 F S {\displaystyle q_{i}(F_{S})=1-F_{S}} s がθ とともに減少せず、s がθとともに増加しない場合 q i ( F S ) = F S {\displaystyle q_{i}(F_{S})=F_{S}} i = 1 , 2 {\displaystyle i=1,2}

述べる

パラメータがベクトルの場合も、ねじりの議論の根拠は変わりませんが、同時不等式の扱いに多少の複雑さが生じます。むしろ、パラメータのベクトルを扱うことの難しさが、パラメータの信頼分布に対するフィッシャーのアプローチの最大の弱点であることが判明しました。[2]また、同じ目的で考案されたフレイザーの構成確率[3]も、この点を完全には扱っていません。

ガンマ分布から導出された分布について、その仕様にはパラメータλとkの値が必要であるが、以下の手順に従うことでねじりの議論を述べることができる。これらのパラメータの意味から、 x {\displaystyle {\boldsymbol {x}}}

( k k ) ( s k s k )  for fixed  λ , {\displaystyle (k\leq k')\leftrightarrow (s_{k}\leq s_{k'}){\text{ for fixed }}\lambda ,}
( λ λ ) ( s λ s λ )  for fixed  k , {\displaystyle (\lambda \leq \lambda ')\leftrightarrow (s_{\lambda '}\leq s_{\lambda }){\text{ for fixed }}k,}

ここで、およびである。これは、結合累積分布関数につながる。 s k = i = 1 m x i {\displaystyle s_{k}=\prod _{i=1}^{m}x_{i}} s λ = i = 1 m x i {\displaystyle s_{\lambda }=\sum _{i=1}^{m}x_{i}}

F Λ , K ( λ , k ) = F Λ K = k ( λ ) F K ( k ) = F K Λ = λ ( k ) F Λ ( λ ) . {\displaystyle F_{\Lambda ,K}(\lambda ,k)=F_{\Lambda \,\mid \,K=k}(\lambda )F_{K}(k)=F_{K\,\mid \,\Lambda =\lambda }(k)F_{\Lambda }(\lambda ).}

最初の因数分解を使用し、を に置き換えて に依存しないの分布を得ると s k {\displaystyle s_{k}} r k = s k s λ m {\displaystyle r_{k}={\frac {s_{k}}{s_{\lambda }^{m}}}} K {\displaystyle K} Λ {\displaystyle \Lambda }

F Λ K = k ( λ ) = 1 Γ ( k m , λ s Λ ) Γ ( k m ) {\displaystyle F_{\Lambda \,\mid \,K=k}(\lambda )=1-{\frac {\Gamma (km,\lambda s_{\Lambda })}{\Gamma (km)}}}
F K ( k ) = 1 F R k ( r K ) {\displaystyle F_{K}(k)=1-F_{R_{k}}(r_{K})}

ここで、mはサンプル サイズ、およびは観測統計量 (したがって、インデックスは大文字で表記)、 不完全ガンマ関数、および適切なパラメーター (たとえば、モーメント法で推定)を使用してkmの関数として再びガンマ分布で近似できる Fox の H 関数です s Λ {\displaystyle s_{\Lambda }} r K {\displaystyle r_{K}} Γ ( a , b ) {\displaystyle \Gamma (a,b)} F R k ( r K ) {\displaystyle F_{R_{k}}(r_{K})}

ガンマランダム変数のパラメータの結合確率密度関数。 ( K , Λ ) {\displaystyle (K,\Lambda )}
ガンマランダム変数のパラメータKの周辺累積分布関数。

サンプルサイズが と の場合ガンマパラメータKと の結合確率密度関数左側に表示されます。K周辺分布は右側の図に示されています。 m = 30 , s Λ = 72.82 {\displaystyle m=30,s_{\Lambda }=72.82} r K = {\displaystyle r_{K}=} 4.5 × 10 46 {\displaystyle 4.5\times 10^{-46}} Λ {\displaystyle \Lambda }

注記

  1. ^ デフォルトでは、大文字 ( UXなど) はランダム変数を示し、小文字 ( ux ) は対応する実現値を示します。
  2. ^ フィッシャー 1935.
  3. ^ フレイザー 1966.

参考文献

  • フィッシャー, MA (1935). 「統計的推論における信頼度論証」Annals of Eugenics . 6 (4): 391– 398. doi :10.1111/j.1469-1809.1935.tb02120.x. hdl : 2440/15222 .
  • フレイザー, DAS (1966). 「構造的確率と一般化」. Biometrika . 53 (1/2): 1– 9. doi :10.2307/2334048. JSTOR  2334048.
  • Apolloni, B.; Malchiodi, D.; Gaito, S. (2006).機械学習におけるアルゴリズム推論. 国際先進知能シリーズ. 第5巻(第2版). アデレード: マギル. Advanced Knowledge International
Retrieved from "https://en.wikipedia.org/w/index.php?title=Twisting_properties&oldid=1272972531"