混合モデル

統計学において、混合モデルとは、観測されたデータセットが個々の観測が属する部分母集団を特定することを必要とせず、全体の母集団内における部分母集団の存在を表す確率モデルである。正式には、混合モデルは全体の母集団における観測の確率分布を表す混合分布に対応する。しかし、「混合分布」に関連する問題は部分母集団の特性から全体の母集団の特性を導き出すことに関係しているのに対し、「混合モデル」は部分母集団の識別情報なしに、プールされた母集団の観測値のみに基づいて部分母集団の特性について統計的推論を行うために使用される。混合モデルは、モデルベースクラスタリングという名前でクラスタリングに使用され、密度推定にも使用される。

混合モデルは、構成データ(つまり、各要素の合計が一定値(1、100%など)に制約されるデータ)のモデルと混同しないでください。ただし、構成モデルは、母集団のメンバーがランダムに抽出される混合モデルと考えることができます。逆に、混合モデルは、総サイズ読み取り母集団が1に正規化されている構成モデルと考えることができます。

構造

一般混合モデル

典型的な有限次元混合モデルは、次のコンポーネントから構成される 階層モデルです。

さらに、ベイズ統計学においては、混合重みとパラメータ自体が確率変数となり、事前分布が変数に適用される。このような場合、重みは通常、ディリクレ分布(カテゴリ分布の共役事前分布)から抽出されたK次元のランダムベクトルとみなされ、パラメータはそれぞれの共役事前分布に従って分布する。

数学的には、基本的なパラメトリック混合モデルは次のように記述できます。

K混合成分の数観測回数θ1K成分に関連する観測値の分布パラメータ ϕ1K混合重み、すなわち特定の成分の事前確率 ϕKすべての個々の要素から構成される次元ベクトル ϕ1K; 合計は1になる必要がありますz1観察の構成要素 ×1観察 F×|θ観測値の確率分布(パラメータ化) θz1カテゴリカルϕ×1|z1Fθz{\displaystyle {\begin{array}{lcl}K&=&{\text{number of mixture components}}\\N&=&{\text{number of observations}}\\\theta _{i=1\dots K}&=&{\text{parameter of distribution of observation associated with component }}i\\\phi _{i=1\dots K}&=&{\text{mixture weight, i.e., prior probability of a particular component }}i\\{\boldsymbol {\phi }}&=&K{\text{-dimensional vector composed of all the individual }}\phi _{1\dots K}{\text{; must sum to 1}}\\z_{i=1\dots N}&=&{\text{component of observation }}i\\x_{i=1\dots N}&=&{\text{observation }}i\\F(x|\theta )&=&{\text{probability distribution of an observation, parametrized on }}\theta \\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}|z_{i=1\dots N}&\sim &F(\theta _{z_{i}})\end{array}}}

ベイズ設定では、すべてのパラメータは次のようにランダム変数に関連付けられます。

K,N=as aboveθi=1K,ϕi=1K,ϕ=as abovezi=1N,xi=1N,F(x|θ)=as aboveα=shared hyperparameter for component parametersβ=shared hyperparameter for mixture weightsH(θ|α)=prior probability distribution of component parameters, parametrized on αθi=1KH(θ|α)ϕSymmetric-DirichletK(β)zi=1N|ϕCategorical(ϕ)xi=1N|zi=1N,θi=1KF(θzi){\displaystyle {\begin{array}{lcl}K,N&=&{\text{as above}}\\\theta _{i=1\dots K},\phi _{i=1\dots K},{\boldsymbol {\phi }}&=&{\text{as above}}\\z_{i=1\dots N},x_{i=1\dots N},F(x|\theta )&=&{\text{as above}}\\\alpha &=&{\text{shared hyperparameter for component parameters}}\\\beta &=&{\text{shared hyperparameter for mixture weights}}\\H(\theta |\alpha )&=&{\text{prior probability distribution of component parameters, parametrized on }}\alpha \\\theta _{i=1\dots K}&\sim &H(\theta |\alpha )\\{\boldsymbol {\phi }}&\sim &\operatorname {Symmetric-Dirichlet} _{K}(\beta )\\z_{i=1\dots N}|{\boldsymbol {\phi }}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}|z_{i=1\dots N},\theta _{i=1\dots K}&\sim &F(\theta _{z_{i}})\end{array}}}

この特性評価では、FHを用いて、それぞれ観測値とパラメータに対する任意の分布を記述します。通常、HはF共役事前分布となります。Fの最も一般的な選択肢は、ガウス分布(いわゆる「正規分布」(実数値観測の場合)とカテゴリカル分布(離散観測の場合)です。混合成分の分布として他によく考えられるものは以下のとおりです。

  • 二項分布、総発生回数が一定である場合の「肯定的な発生」(成功、賛成票など)の数
  • 多項分布は二項分布に似ていますが、複数の発生方法(たとえば、アンケートでの「はい/いいえ/多分」)のカウントを対象としています。
  • 負の二項分布、二項分布型の観測値の場合、関心のある量は、与えられた数の成功が発生する前に失敗する回数である。
  • ポアソン分布は、一定の発生率を特徴とする事象の、一定期間における発生回数を表す分布である。
  • 指数分布、つまり、一定の発生率を特徴とする事象に対して、次の事象が発生するまでの時間
  • 対数正規分布、所得や価格など指数関数的に増加すると想定される正の実数の場合
  • 多変量正規分布(多変量ガウス分布とも呼ばれる)は、個々にガウス分布する相関結果のベクトルである。
  • 多変量スチューデントt分布(重尾相関ベクトルの場合)[ 2 ]
  • ベルヌーイ分布に従う値のベクトル。例えば白黒画像に対応し、各値はピクセルを表す。以下の手書き認識の例を参照。

具体的な例

ガウス混合モデル

プレート記法を用いた非ベイズ的ガウス混合モデル。小さな四角は固定パラメータ、大きな円は確率変数を示す。塗りつぶされた図形は既知の値を示す。[K]はサイズKのベクトルを意味する。

典型的な非ベイズガウス混合モデルは次のようになります。

K,N=as aboveϕi=1K,ϕ=as abovezi=1N,xi=1N=as aboveθi=1K={μi=1K,σi=1K2}μi=1K=mean of component iσi=1K2=variance of component izi=1NCategorical(ϕ)xi=1NN(μzi,σzi2){\displaystyle {\begin{array}{lcl}K,N&=&{\text{as above}}\\\phi _{i=1\dots K},{\boldsymbol {\phi }}&=&{\text{as above}}\\z_{i=1\dots N},x_{i=1\dots N}&=&{\text{as above}}\\\theta _{i=1\dots K}&=&\{\mu _{i=1\dots K},\sigma _{i=1\dots K}^{2}\}\\\mu _{i=1\dots K}&=&{\text{mean of component }}i\\\sigma _{i=1\dots K}^{2}&=&{\text{variance of component }}i\\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\mathcal {N}}(\mu _{z_{i}},\sigma _{z_{i}}^{2})\end{array}}}
プレート記法を用いたベイズ混合ガウスモデル。小さな四角は固定パラメータ、大きな円は確率変数を示す。塗りつぶされた図形は既知の値を示す。[K]はサイズKのベクトルを意味する。

ガウス混合モデル のベイズバージョンは次のとおりです。

K,N=as aboveϕi=1K,ϕ=as abovezi=1N,xi=1N=as aboveθi=1K={μi=1K,σi=1K2}μi=1K=mean of component iσi=1K2=variance of component iμ0,λ,ν,σ02=shared hyperparametersμi=1KN(μ0,λσi2)σi=1K2Inverse-Gamma(ν,σ02)ϕSymmetric-DirichletK(β)zi=1NCategorical(ϕ)xi=1NN(μzi,σzi2){\displaystyle {\begin{array}{lcl}K,N&=&{\text{as above}}\\\phi _{i=1\dots K},{\boldsymbol {\phi }}&=&{\text{as above}}\\z_{i=1\dots N},x_{i=1\dots N}&=&{\text{as above}}\\\theta _{i=1\dots K}&=&\{\mu _{i=1\dots K},\sigma _{i=1\dots K}^{2}\}\\\mu _{i=1\dots K}&=&{\text{mean of component }}i\\\sigma _{i=1\dots K}^{2}&=&{\text{variance of component }}i\\\mu _{0},\lambda ,\nu ,\sigma _{0}^{2}&=&{\text{shared hyperparameters}}\\\mu _{i=1\dots K}&\sim &{\mathcal {N}}(\mu _{0},\lambda \sigma _{i}^{2})\\\sigma _{i=1\dots K}^{2}&\sim &\operatorname {Inverse-Gamma} (\nu ,\sigma _{0}^{2})\\{\boldsymbol {\phi }}&\sim &\operatorname {Symmetric-Dirichlet} _{K}(\beta )\\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\mathcal {N}}(\mu _{z_{i}},\sigma _{z_{i}}^{2})\end{array}}}{\displaystyle }
ベイズ・ガウス混合モデルを用いた1次元データのクラスタリング過程のアニメーション。このモデルでは、ディリクレ過程から正規分布が導出されます。クラスターのヒストグラムは異なる色で表示されます。パラメータ推定プロセスでは、新しいクラスターが生成され、データに基づいて成長していきます。凡例には、クラスターの色と各クラスターに割り当てられたデータポイントの数が表示されます。

多変量ガウス混合モデル

ベイズ正規混合モデルは、一般に、未知のパラメータのベクトル(太字で表示)または多変量正規分布に適合するように拡張されます。多変量分布(つまり、N個のランダム変数を持つベクトルをモデル化する分布)では、推定値のベクトルに対する正規混合モデルの事前分布を使用して、パラメータのベクトル(信号の複数の観測値や画像内のパッチなど)をモデル化できます。 ここで、i番目のベクトル要素は、重み、平均、共分散行列 を持つ正規分布によって特徴付けられます。この事前分布をベイズ推定に組み込むには、事前分布に、推定するパラメータで条件付けられたデータの既知の分布を乗じます。この定式化により、事後分布EM アルゴリズムを使用して更新される 新しいパラメータとを持つ形式のガウス混合モデル になります。 [ 3 ] EM ベースのパラメータ更新は十分に確立されていますが、これらのパラメータの初期推定値を提供することは現在、活発に研究されている分野です。この定式化は、完全な事後分布の閉形式解を与えることに注意してください。確率変数の推定値は、事後分布の平均や最大値など、いくつかの推定値のいずれかによって得られます。 x{\displaystyle {\boldsymbol {x}}}p(θ)=i=1KϕiN(μi,Σi){\displaystyle p({\boldsymbol {\theta }})=\sum _{i=1}^{K}\phi _{i}{\mathcal {N}}({\boldsymbol {\mu }}_{i},{\boldsymbol {\Sigma }}_{i})}ϕi{\displaystyle \phi _{i}}μi{\displaystyle {\boldsymbol {\mu }}_{i}}Σi{\displaystyle {\boldsymbol {\Sigma }}_{i}}p(x|θ){\displaystyle p({\boldsymbol {x|\theta }})}x{\displaystyle {\boldsymbol {x}}}θ{\displaystyle {\boldsymbol {\theta }}}p(θ|x){\displaystyle p({\boldsymbol {\theta |x}})}p(θ|x)=i=1Kϕ~iN(μ~i,Σ~i){\displaystyle p({\boldsymbol {\theta |x}})=\sum _{i=1}^{K}{\tilde {\phi }}_{i}{\mathcal {N}}({\boldsymbol {{\tilde {\mu }}_{i}}},{\boldsymbol {\tilde {\Sigma }}}_{i})}ϕ~i,μ~i{\displaystyle {\tilde {\phi }}_{i},{\boldsymbol {\tilde {\mu }}}_{i}}Σ~i{\displaystyle {\boldsymbol {\tilde {\Sigma }}}_{i}}θ{\displaystyle {\boldsymbol {\theta }}}

このような分布は、例えば画像やクラスターのパッチワイズな形状を仮定する場合に役立ちます。画像表現の場合、各ガウス分布は共分散行列に従って傾斜、拡大、歪曲される可能性があります。集合の1つのガウス分布は、画像内の各パッチ(通常は8×8ピクセル)に適合されます。特に、クラスター周辺の点の分布(k平均法を参照)は、十分なガウス分布成分を与えれば正確に予測できますが、特定の画像分布やデータクラスターを正確にモデル化するには、 K =20を超える成分が必要になることはほとんどありません。 Σi{\displaystyle {\boldsymbol {\Sigma }}_{i}}

カテゴリカル混合モデル

プレート記法を用いた非ベイズカテゴリカル混合モデル。小さな四角は固定パラメータ、大きな円はランダム変数を示す。塗りつぶされた図形は既知の値を示す。[K]はサイズKのベクトルを意味し、[V]も同様である。

カテゴリカル観測を含む典型的な非ベイズ混合モデルは次のようになります。

  • K,N:{\displaystyle K,N:}上記の通り
  • ϕi=1K,ϕ:{\displaystyle \phi _{i=1\dots K},{\boldsymbol {\phi }}:}上記の通り
  • zi=1N,xi=1N:{\displaystyle z_{i=1\dots N},x_{i=1\dots N}:}上記の通り
  • V:{\displaystyle V:}カテゴリカル観察の次元、例:語彙の大きさ
  • θi=1K,j=1V:{\displaystyle \theta _{i=1\dots K,j=1\dots V}:}観察項目の成分の確率i{\displaystyle i}j{\displaystyle j}
  • θi=1K:{\displaystyle {\boldsymbol {\theta }}_{i=1\dots K}:}次元ベクトルの合計は1でなければならないV,{\displaystyle V,}θi,1V;{\displaystyle \theta _{i,1\dots V};}

ランダム変数:

zi=1NCategorical(ϕ)xi=1NCategorical(θzi){\displaystyle {\begin{array}{lcl}z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\text{Categorical}}({\boldsymbol {\theta }}_{z_{i}})\end{array}}}

プレート記法を用いたベイズカテゴリカル混合モデル。小さな四角は固定パラメータ、大きな円はランダム変数を示す。塗りつぶされた図形は既知の値を示す。[K]はサイズKのベクトルを意味し、[V]も同様である。

カテゴリカル観測を含む典型的なベイズ混合モデルは次のようになります。

  • K,N:{\displaystyle K,N:}上記の通り
  • ϕi=1K,ϕ:{\displaystyle \phi _{i=1\dots K},{\boldsymbol {\phi }}:}上記の通り
  • zi=1N,xi=1N:{\displaystyle z_{i=1\dots N},x_{i=1\dots N}:}上記の通り
  • V:{\displaystyle V:}カテゴリカル観察の次元、例:語彙の大きさ
  • θi=1K,j=1V:{\displaystyle \theta _{i=1\dots K,j=1\dots V}:}観察項目の成分の確率i{\displaystyle i}j{\displaystyle j}
  • θi=1K:{\displaystyle {\boldsymbol {\theta }}_{i=1\dots K}:}次元ベクトルの合計は1でなければならないV,{\displaystyle V,}θi,1V;{\displaystyle \theta _{i,1\dots V};}
  • α:{\displaystyle \alpha :}各成分の共通濃度ハイパーパラメータθ{\displaystyle {\boldsymbol {\theta }}}
  • β:{\displaystyle \beta :}濃度ハイパーパラメータϕ{\displaystyle {\boldsymbol {\phi }}}

ランダム変数:

ϕSymmetric-DirichletK(β)θi=1KSymmetric-DirichletV(α)zi=1NCategorical(ϕ)xi=1NCategorical(θzi){\displaystyle {\begin{array}{lcl}{\boldsymbol {\phi }}&\sim &\operatorname {Symmetric-Dirichlet} _{K}(\beta )\\{\boldsymbol {\theta }}_{i=1\dots K}&\sim &{\text{Symmetric-Dirichlet}}_{V}(\alpha )\\z_{i=1\dots N}&\sim &\operatorname {Categorical} ({\boldsymbol {\phi }})\\x_{i=1\dots N}&\sim &{\text{Categorical}}({\boldsymbol {\theta }}_{z_{i}})\end{array}}}

財務モデル

異なる平均と分散でプロットされた正規分布

金融収益は、平常時と危機時ではしばしば異なる挙動を示す。収益データには混合モデル[ 4 ]が妥当と思われる。用いられるモデルとしては、ジャンプ拡散モデルや、2つの正規分布の混合モデルが用いられる場合がある。詳細については、 「金融経済学 § 課題と批判」および「金融リスク管理 § 銀行業務」を参照のこと。

住宅価格

N軒の異なる住宅の価格を観測すると仮定します。異なる地域の異なるタイプの住宅は価格が大きく異なりますが、特定の地域の特定のタイプの住宅 (たとえば、中程度に高級な地域の 3 ベッドルームの家) の価格は、平均値の周りにかなり密集する傾向があります。このような価格のモデルとして考えられるのは、価格がK個の異なる要素を持つ混合モデルによって正確に記述され、各要素が平均と分散が不明な正規分布として分布し、各要素が特定の住宅タイプ/地域の組み合わせを指定すると仮定することです。このモデルを観測された価格に当てはめると (たとえば期待最大化アルゴリズムを使用)、住宅タイプ/地域ごとに価格が密集し、各タイプ/地域における価格の広がりが明らかになる傾向があります。 (価格や収入など、正であることが保証され、指数関数的に増加する傾向がある値の場合、対数正規分布が実際には正規分布よりも優れたモデルになる可能性があることに注意してください。)

文書内のトピック

文書が、総語彙数VN個の異なる単語で構成されており、各単語がK個のトピックのいずれかに対応すると仮定します。このような単語の分布は、K 個の異なるV次元カテゴリ分布の混合としてモデル化できます。この種のモデルは、一般にトピックモデルと呼ばれます。このようなモデルに期待最大化を適用しても、パラメータ数が多すぎるなどの理由により、現実的な結果が得られないことに注意してください。良好な結果を得るには、通常、何らかの追加の仮定が必要です。通常、モデルには次の2種類の追加コンポーネントが追加されます。

  1. トピック分布を記述するパラメータ上に事前分布が配置されます。事前分布は、1 より大幅に低く設定された集中パラメータを持つディリクレ分布を使用して、スパース分布(少数の単語のみが有意にゼロ以外の確率を持つ) を促進します。
  2. 自然なクラスタリングを活用するために、単語のトピック ID に何らかの追加の制約が課されます。

手書き認識

以下の例はChristopher M. Bishop著「パターン認識と機械学習」の例に基づいています。[ 5 ]

0から9までの手書き数字のスキャンであることが分かっているN × Nの白黒画像が与えられているが、どの数字が書かれているかは分からないと想像してください。そこで、各要素がベルヌーイ分布(ピクセルごとに1つ)のサイズのベクトルである、異なる要素を持つ混合モデルを作成できます。このようなモデルは、ラベル付けされていない手書き数字のセットに対して期待値最大化アルゴリズムを使用してトレーニングすることができ、書かれている数字に応じて画像を効果的にクラスタリングします。同じモデルを使用して、パラメータを一定に保ち、新しい画像のそれぞれの数字の確率を計算し(簡単な計算)、最も高い確率を生成する数字を返すだけで、別の画像の数字を認識できます。 K=10{\displaystyle K=10}N2{\displaystyle N^{2}}

発射体の精度(円形誤差確率、CEPとも呼ばれる)の評価

混合モデルは、複数の発射体をターゲットに誘導する問題(航空、陸上、または海の防衛アプリケーションなど)に適用されます。この場合、発射体の物理的特性および/または統計的特性は複数の発射体内で異なります。例としては、複数の弾薬タイプによる発砲や、1つのターゲットに向けられた複数の場所からの発砲が挙げられます。発射体タイプの組み合わせは、ガウス混合モデルとして特徴付けることができます。[ 6 ]さらに、発射体グループの精度のよく知られた尺度は円誤差確率(CEP)で、これは平均して発射体グループの半分がターゲットポイントの周りの半径Rの円内に収まる数Rです。混合モデルを使用して、値Rを決定(または推定)できます。混合モデルは、異なるタイプの発射体を適切に捉えます。

直接的および間接的な応用

上記の金融の例は、混合モデルの直接的な応用例の一つです。混合モデルとは、各観測値が複数の異なる情報源またはカテゴリーのいずれかに属するような、ある基礎メカニズムを仮定する状況です。ただし、この基礎メカニズムは観測可能である場合もあれば、そうでない場合もあります。この混合モデルでは、各情報源は構成要素の確率密度関数で記述され、その混合重みは、観測値がその構成要素から発生する確率です。

混合モデルの間接的な応用においては、そのようなメカニズムは想定しません。混合モデルは、単にその数学的な柔軟性のために用いられます。例えば、平均値の異なる2つの正規分布を混合すると、2つの最頻値を持つ密度が生じる可能性がありますが、これは標準的なパラメトリック分布ではモデル化できません。別の例として、混合分布は、基本的なガウス分布よりも裾が太い分布をモデル化できる可能性があり、より極端な事象をモデル化するための候補となります。

予知保全

混合モデルに基づくクラスタリングは、予知保全における機械の状態特定にも主に利用されている。密度プロットは、高次元特徴量の密度を分析するために使用される。複数モデル密度が観測される場合、有限の密度集合は有限の正規混合集合によって形成されると仮定される。多変量ガウス混合モデルは、特徴データをk個のグループにクラスタリングするために使用される。ここで、kは機械の各状態を表す。機械の状態は、正常状態、電源オフ状態、または故障状態のいずれかである。[ 7 ]形成された各クラスタは、スペクトル解析などの技術を使用して診断することができる。近年、これは早期故障検出などの他の分野でも広く利用されている。[ 8 ]

あいまい画像セグメンテーション

グレーヒストグラムを用いた画像分割におけるガウス混合分布の例

画像処理とコンピュータビジョンにおいて、従来の画像セグメンテーションモデルでは、1つのピクセルに1つの排​​他的なパターンのみを割り当てることが多い。ファジーセグメンテーションやソフトセグメンテーションでは、任意のパターンが任意の1つのピクセルに対して一定の「所有権」を持つことができる。パターンがガウス分布に従う場合、ファジーセグメンテーションは自然にガウス混合分布をもたらす。このような空間的に正規化された混合モデルは、他の解析的または幾何学的ツール(例えば、拡散境界上の相転移)と組み合わせることで、より現実的で計算効率の高いセグメンテーション手法につながる可能性がある。[ 9 ]

ポイントセット登録

ガウス混合モデル(GMM)などの確率的混合モデルは、画像処理やコンピューター ビジョンの分野で点セットの登録問題を解決するために使用されます。ペアワイズ点セット登録では、一方の点セットを混合モデルの重心と見なし、もう一方の点セットをデータ ポイント (観測値) と見なします。最先端の方法には、たとえばコヒーレント ポイント ドリフト(CPD) [ 10 ]スチューデントの t 分布混合モデル (TMM) [ 11 ]などがあります。 最近の研究の結果、ハイブリッド混合モデル[ 12 ] (たとえば、スチューデントの t 分布とワトソン分布/ビンガム分布を組み合わせて空間位置と軸の向きを個別にモデル化する) は、CPD や TMM と比較して、固有の堅牢性、精度、識別能力の点で優れていることが示されています。

識別可能性

識別可能性とは、検討対象のクラス(ファミリー)内のいずれかのモデルに固有の特徴が存在することを指します。モデルが識別できない場合、推定手順は明確に定義されず、漸近理論も成立しない可能性があります。

Jをn = 2となる二項分布全体のクラスとする。すると、 Jの2つの要素の混合は

p0=π(1θ1)2+(1π)(1θ2)2p1=2πθ1(1θ1)+2(1π)θ2(1θ2){\displaystyle {\begin{aligned}p_{0}&=\pi {\left(1-\theta _{1}\right)}^{2}+\left(1-\pi \right){\left(1-\theta _{2}\right)}^{2}\\[1ex]p_{1}&=2\pi \theta _{1}\left(1-\theta _{1}\right)+2\left(1-\pi \right)\theta _{2}\left(1-\theta _{2}\right)\end{aligned}}}

そしてp 2 = 1 − p 0p 1。明らかに、p 0p 1が与えられている場合、決定すべき3つのパラメータ(πθ 1θ 2があるため、上記の混合モデルを一意に決定することはできません。

意味

同じクラスのパラメトリック分布の混合を考えてみましょう。

J={f(;θ):θΩ}{\displaystyle J=\{f(\cdot ;\theta ):\theta \in \Omega \}}

をすべての成分分布のクラスとする。すると、J凸包KはJに含まれるすべての有限混合分布のクラスを定義する。

K={p():p()=i=1naifi(;θi),ai>0,i=1nai=1,fi(;θi)J i,n}{\displaystyle K=\left\{p(\cdot ):p(\cdot )=\sum _{i=1}^{n}a_{i}f_{i}(\cdot ;\theta _{i}),a_{i}>0,\sum _{i=1}^{n}a_{i}=1,f_{i}(\cdot ;\theta _{i})\in J\ \forall i,n\right\}}

Kは、そのすべてのメンバーが一意である場合に識別可能であると言われます。つまり、 K2 つのメンバーpp′が、それぞれJのk分布とk′分布の混合である場合、まずk = k′でありすべてのiについてa i = a iおよびf i = f iとなるように合計を並べ替えることができる場合にのみ、 p = p′ が成り立ちます。

パラメータ推定とシステム同定

パラメトリック混合モデルは、分布Yが既知で、 Xからサンプルを採取できるものの、 ai値θiを決定したい場合によく用いられます。このような状況は、複数の異なる部分母集団からサンプルを採取する研究で発生する可能性があります。

確率混合モデリングは、欠損データの問題として捉えられることが一般的です。これを理解する一つの方法は、検討対象のデータポイントが、データをモデル化するために使用している分布のいずれかに「所属」していると仮定することです。開始時点では、この所属は未知、つまり欠損しています。推定の目的は、選択したモデル関数に適切なパラメータを考案し、データポイントとの関係を個々のモデル分布への所属として表現することです。

混合物の分解問題に対する様々なアプローチが提案されており、その多くは期待最大化(EM)や最大事後推定(MAP)といった最大尤度法に焦点を当てている。一般的にこれらの手法は、システム同定とパラメータ推定という問題を別々に扱う。つまり、混合物中の成分の数と機能形式を決定する手法と、対応するパラメータ値を推定する手法は区別される。注目すべき変化としては、TarterとLock [ 13 ]で概説されたグラフィカル手法、より最近ではFigueiredoとJain [ 14 ]などの最小メッセージ長(MML)手法、そしてある程度はMcWilliamとLoh (2009) によって提案されたモーメントマッチングパターン分析ルーチンが挙げられる。[ 15 ]

期待最大化(EM)

期待最大化(EM)は、事前に与えられた成分数を持つ混合体のパラメータを決定するために用いられる最も一般的な手法のようです。これは、この問題に対する最大尤度推定を実装する特別な方法です。EMは、Dempsterら(1977)[ 16 ]による以下の反復アルゴリズムのように、閉形式の表現が可能な有限正規混合体において特に魅力的です。

ws(j+1)=1Nt=1Nhs(j)(t){\displaystyle w_{s}^{(j+1)}={\frac {1}{N}}\sum _{t=1}^{N}h_{s}^{(j)}(t)}
μs(j+1)=t=1Nhs(j)(t)x(t)t=1Nhs(j)(t){\displaystyle \mu _{s}^{(j+1)}={\frac {\sum _{t=1}^{N}h_{s}^{(j)}(t)x^{(t)}}{\sum _{t=1}^{N}h_{s}^{(j)}(t)}}}
Σs(j+1)=t=1Nhs(j)(t)[x(t)μs(j+1)][x(t)μs(j+1)]t=1Nhs(j)(t){\displaystyle \Sigma _{s}^{(j+1)}={\frac {\sum _{t=1}^{N}h_{s}^{(j)}(t)[x^{(t)}-\mu _{s}^{(j+1)}][x^{(t)}-\mu _{s}^{(j+1)}]^{\top }}{\sum _{t=1}^{N}h_{s}^{(j)}(t)}}}

事後確率を用いて

hs(j)(t)=ws(j)ps(x(t);μs(j),Σs(j))i=1nwi(j)pi(x(t);μi(j),Σi(j)).{\displaystyle h_{s}^{(j)}(t)={\frac {w_{s}^{(j)}p_{s}(x^{(t)};\mu _{s}^{(j)},\Sigma _{s}^{(j)})}{\sum _{i=1}^{n}w_{i}^{(j)}p_{i}(x^{(t)};\mu _{i}^{(j)},\Sigma _{i}^{(j)})}}.}

このように、パラメータの現在の推定値に基づいて、与えられた観測値x ( t )が状態sから生成される条件付き確率が、各t = 1, …, Nについて決定されます (Nはサンプルサイズ)。次に、パラメータは更新され、新しい成分の重みが平均条件付き確率に対応し、各成分の平均と共分散がサンプル全体の平均と共分散の成分固有の加重平均となります。

Dempster [ 16 ]はまた、EM反復の各反復が尤度を減少させないことを示した。これは他の勾配ベースの最大化手法には見られない特性である。さらに、EMは確率ベクトルに対する制約を自然に組み込んでおり、十分に大きなサンプルサイズの場合、共分散反復の正定値は維持される。これは、明示的に制約された手法では適切な値をチェックして維持するために余分な計算コストがかかるため、重要な利点である。理論的にはEMは一次アルゴリズムであり、固定小数点解への収束は緩やかである。RednerとWalker (1984) はこの点を指摘し、超線形および二次ニュートン法と準ニュートン法を支持し、経験的検定に基づいてEMの収束が緩やかであることを報告している。彼らは、パラメータ値自体の収束は遅くても、尤度の収束は速かったことを認めている。収束に関してEMと他のアルゴリズムの相対的な利点については、他の文献で議論されている。[ 17 ]

EMの使用に対する他の一般的な反対意見としては、EMが誤って局所的最大値を特定する傾向があることと、初期値に対して敏感であるということが挙げられる。[ 18 ] [ 19 ]これらの問題に対処するには、パラメータ空間内の複数の初期点でEMを評価する必要があるが、これは計算コストが高く、UdeaとNakano(1998)のアニーリングEM法(初期成分が本質的に重なり合うように強制され、初期推測の異質性の少ない基盤を提供する)などの他のアプローチの方が適している可能性がある。

FigueiredoとJain [ 14 ]は、モデル成分の数が最適値/真の値を超えると、境界(例えばGhoshとSen (1985)のような正則性条件が破綻する境界)で得られる「意味のない」パラメータ値への収束が頻繁に観察されることを指摘している。これに基づき、彼らは推定と同定の統一的なアプローチを提案しており、初期nは期待される最適値を大幅に上回る値に選択される。彼らの最適化ルーチンは、最小メッセージ長(MML)基準に基づいて構築されており、この基準は、十分な情報がない場合に候補成分を効果的に排除する。このようにして、 nの削減を体系化し、推定と同定を共同で検討すること が可能になる。

期待ステップ

混合モデルのパラメータの初期推定値を用いて、各データ点の各構成分布における「部分メンバーシップ」は、各データ点のメンバーシップ変数の期待値を計算することによって算出されます。つまり、各データ点x jと分布Y iについて、メンバーシップ値y i , jは次の式で表されます。

yi,j=aifY(xj;θi)fX(xj).{\displaystyle y_{i,j}={\frac {a_{i}f_{Y}(x_{j};\theta _{i})}{f_{X}(x_{j})}}.}

最大化ステップ

グループ メンバーシップの期待値がわかれば、分布パラメータの プラグイン推定値が再計算されます。

混合係数a iは、 N 個のデータ ポイントにわたるメンバーシップ値の平均です。

ai=1Nj=1Nyi,j{\displaystyle a_{i}={\frac {1}{N}}\sum _{j=1}^{N}y_{i,j}}

コンポーネントモデルパラメータθ iも、メンバーシップ値を用いて重み付けされたデータポイントx jを用いた期待最大化によって計算される。例えば、θが平均μ

μi=jyi,jxjjyi,j.{\displaystyle \mu _{i}={\frac {\sum _{j}y_{i,j}x_{j}}{\sum _{j}y_{i,j}}}.}

a iθ i新しい推定値を用いて、期待値算出ステップを繰り返し、新たなメンバーシップ値を再計算します。この手順全体を、モデルパラメータが収束するまで繰り返します。

マルコフ連鎖モンテカルロ

EMアルゴリズムの代替として、ベイズの定理に示された事後サンプリングを用いて混合モデルのパラメータを推定することもできます。これは依然として、データ点の所属が欠損データとなる不完全データ問題とみなされます。ギブスサンプリングと呼ばれる2段階の反復手順を用いることもできます。

前述の2つのガウス分布の混合例は、この手法の仕組みを示しています。前述と同様に、混合モデルのパラメータの初期推定値が作成されます。各要素分布の部分的なメンバーシップを計算する代わりに、各データポイントのメンバーシップ値はベルヌーイ分布から抽出されます(つまり、最初のガウス分布または2番目のガウス分布のいずれかに割り当てられます)。ベルヌーイパラメータθは、構成分布の1つに基づいて各データポイントごとに決定されます。分布からの抽出により、各データポイントのメンバーシップの関連付けが生成されます。その後、EMのMステップと同様にプラグイン推定値を使用して新しい混合モデルパラメータセットを生成し、二項分布抽出ステップを繰り返します。

モーメントマッチング

モーメントマッチング法は、混合パラメータを決定するための最も古い手法の一つであり、その歴史は1894年のカール・ピアソンの画期的な研究に遡ります。このアプローチでは、混合パラメータは、複合分布のモーメントが特定の値と一致するように決定されます。多くの場合、モーメント方程式の解の抽出は、非自明な代数的または計算的問題を引き起こす可能性があります。さらに、Day [ 20 ]による数値解析では、この手法はEM法に比べて効率が悪い可能性があることが示されています。しかしながら、この手法への関心は再び高まっており、例えばCraigmile and Titterington (1998)やWang [ 21 ]などが挙げられます。

McWilliamとLoh (2009)は、EM法では計算量が膨大となるような大規模システムにおける超直方体正規混合コピュラの特性評価について考察しています。本研究では、パターン分析ルーチンを用いて、単変量および(ある意味では)二変量モーメントの集合と整合する多変量裾依存性を生成します。次に、この手法の性能を、コルモゴロフ・スミルノフ検定統計量から良好な記述的適合性が示唆される、公平性対数リターンデータを用いて評価します。

スペクトル法

混合モデル推定におけるいくつかの問題は、スペクトル法を用いて解決できます。特に、データ点x i が高次元実空間上の点であり、隠れ分布が対数凹分布(ガウス分布指数分布など)であることが分かっている場合に有用です。

混合モデルを学習するスペクトル法は、データ点を含む行列の特異値分解に基づいています。その考え方は、学習対象となる分布の数kに対して、上位k個の特異ベクトルを考慮するというものです。各データ点をこれらのベクトルが張る線形部分空間に投影すると、同じ分布に由来する点は非常に近くに集まり、異なる分布に由来する点は遠く離れた場所に集まります。

スペクトル法の特徴的な機能の 1 つは、分布が特定の分離条件 (たとえば、あまり近すぎない) を満たしいる場合、推定された混合が実際の混合に非常に近くなる可能性が高くなることを証明できることです。

グラフィカルメソッド

TarterとLock [ 13 ]は、経験的頻度プロットにカーネル関数を適用することで成分内分散を低減する、グラフィカルな混合物同定手法を述べている。この方法により、異なる平均値を持つ成分をより容易に同定することができる。このλ法は成分の数や関数形に関する事前知識を必要としないが、その成功はカーネルパラメータの選択に依存しており、カーネルパラメータには成分構造に関する仮定が暗黙的にある程度組み込まれている。

その他の方法

いくつかのモデルは、おそらく無限分散分布を含む裾の重い分布の混合を学習できるでしょう(以下の論文へのリンクを参照)。このような設定では、EMベースの手法は期待値ステップが外れ値の存在によって発散するため、機能しません 。

シミュレーション

分布F ii =1 からn、確率p i (合計 p i  = 1) の混合からサイズNのサンプルをシミュレートするには、次のようにします。

  1. 大きさがn、確率がi = 1 = から n までのカテゴリ分布からNの 乱数生成ます。これにより、 N個のそれぞれの値がFiのどのカテゴリから来るかが分かります。m ii番目カテゴリに割り当てられた乱数の個数です。
  2. iについて、Fi分布からm i個の乱数を生成します。

拡張機能

ベイズ設定では、混合モデルを定義するグラフィカルモデルに追加のレベルを追加できます。例えば、共通潜在ディリクレ配分トピックモデルでは、観測値はD個の異なる文書から抽出された単語の集合であり、K個の混合成分は文書間で共有されるトピックを表します。各文書には異なる混合重みのセットがあり、それらはその文書でよく見られるトピックを指定します。すべての混合重みのセットは共通のハイパーパラメータを共有します。

非常に一般的な拡張として、混合成分のアイデンティティを定義する潜在変数を、独立かつ同一分布に従う確率変数であると仮定するのではなく、マルコフ連鎖に連結することが挙げられます。このモデルは隠れマルコフモデルと呼ばれ、最も一般的な階層的逐次モデルの一つです。隠れマルコフモデルの拡張は数多く開発されており、詳細については関連記事を参照してください。

歴史

混合分布と混合分解の問題、すなわちその構成要素とそのパラメータの識別は、1846 年まで遡る文献で引用されている(McLachlan、[ 18 ] 2000 の Quetelet)が、一般的にはKarl Pearson (1894) [ 22 ]の研究が参照され、メスのカニの個体群における額と体長の比の非正規な属性を特徴付ける際に分解問題に明示的に取り組んだ最初の著者として挙げられている。この研究の動機は、1893 年に(Tarter と Lock [ 13 ]で)これらの比率のヒストグラムの非対称性が進化の分岐を示す可能性があると推測した動物学者Walter Frank Raphael Weldonによるものであった。Pearson のアプローチは、経験的モーメントがモデルのものと一致するように混合の 5 つのパラメータを選択して、2 つの正規分布の単変量混合をデータに当てはめるというものである。

彼の研究は、潜在的に異なる 2 つのサブ集団を識別し、モーメント マッチング ツールとしての混合物の柔軟性を実証することには成功しましたが、その定式化には 9 次 (ノニック) 多項式の解が必要であり、当時は計算上の大きな課題となっていました。

その後の研究はこれらの問題に対処することに重点が置かれましたが、研究が本格的に始まったのは、現代のコンピュータの登場と最大尤度(MLE)パラメータ化手法の普及によってでした。[ 23 ]それ以来、このテーマに関する膨大な研究が行われており、その範囲は水産研究農業植物学経済学医学遺伝学、心理学古生物学電気泳動金融、地質学、動物など多岐にわたります。[ 24 ]

参照

混合

階層モデル

外れ値検出

参考文献

  1. ^ Pal, Samyajoy; Heumann, Christian (2024). 「柔軟な多変量混合モデル:非同一分布の混合モデル化のための包括的アプローチ」International Statistical Review insr.12593. doi : 10.1111/insr.12593 .
  2. ^ Chatzis, Sotirios P.; Kosmopoulos, Dimitrios I.; Varvarigou, Theodora A. (2008). 「t分布に基づくロバスト潜在空間モデルを用いた信号モデリングと分類」. IEEE Transactions on Signal Processing . 56 (3): 949– 963. Bibcode : 2008ITSP...56..949C . doi : 10.1109/TSP.2007.907912 . S2CID 15583243 . 
  3. ^ Yu, Guoshen (2012). 「区分線形推定量を用いた逆問題の解決:ガウス混合モデルから構造化スパースモデルへ」. IEEE Transactions on Image Processing . 21 (5): 2481– 2499. arXiv : 1006.3056 . Bibcode : 2012ITIP...21.2481G . doi : 10.1109/tip.2011.2176743 . PMID 22180506. S2CID 479845 .  
  4. ^ Dinov, ID. 「期待最大化と混合モデリングチュートリアルカリフォルニアデジタルライブラリ、統計オンライン計算リソース、論文EM_MM、 http://repositories.cdlib.org/socr/EM_MM、2008年12月9日
  5. ^ビショップ、クリストファー(2006年)『パターン認識と機械学習』ニューヨーク:シュプリンガー、ISBN 978-0-387-31073-2
  6. ^ Spall, JC and Maryak, JL (1992). 「非IIDデータからの射影精度のための分位点の実現可能なベイズ推定量」アメリカ統計学会誌、第87巻(419)、676–681頁。JSTOR  2290205
  7. ^ Amruthnath, Nagdev; Gupta, Tarun (2018-02-02).モデルベースクラスタリングアプローチを用いた教師なし学習における故障クラス予測. 未発表. doi : 10.13140/rg.2.2.22085.14563 .
  8. ^ Amruthnath, Nagdev; Gupta, Tarun (2018-02-01).予知保全における故障検出のための教師なし機械学習アルゴリズムに関する研究. 未発表. doi : 10.13140/rg.2.2.28822.24648 .
  9. ^ Shen, Jianhong (Jackie) (2006). 「ソフトMumford-Shahセグメンテーションのための確率変分モデル」 . International Journal of Biomedical Imaging . 2006 092329: 2– 16. Bibcode : 2006IJBI.200649515H . doi : 10.1155/IJBI/2006/ 92329 . PMC 2324060. PMID 23165059 .  
  10. ^ Myronenko, Andriy; Song, Xubo (2010). 「ポイントセット登録:コヒーレントポイントドリフト」. IEEE Trans. Pattern Anal. Mach. Intell . 32 (12): 2262– 2275. arXiv : 0905.2635 . Bibcode : 2010ITPAM..32.2262M . doi : 10.1109 / TPAMI.2010.46 . PMID 20975122. S2CID 10809031 .  
  11. ^ Ravikumar, Nishant; Gooya, Ali; Cimen, Serkan; Frangi, Alexjandro; Taylor, Zeike (2018). 「統計的形状モデルのためのスチューデントt混合モデルを用いた点集合のグループワイズ類似度登録」 . Med. Image Anal . 44 : 156–176 . doi : 10.1016/j.media.2017.11.012 . PMID 29248842 . 
  12. ^ Bayer, Siming; Ravikumar, Nishant; Strumia, Maddalena; Tong, Xiaoguang; Gao, Ying; Ostermeier, Martin; Fahrig, Rebecca; Maier, Andreas (2018). 「ハイブリッド混合モデルを用いた術中脳シフト補正」 . Medical Image Computing and Computer Assisted Intervention – MICCAI 2018 . グラナダ、スペイン:Springer, Cham. pp.  116– 124. doi : 10.1007/978-3-030-00937-3_14 .
  13. ^ a b c Tarter, Michael E. (1993),モデル自由曲線推定, Chapman and Hall
  14. ^ a b Figueiredo, MAT; Jain, AK (2002年3月). 「有限混合モデルの教師なし学習」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 24 (3): 381– 396. Bibcode : 2002ITPAM..24..381F . CiteSeerX 10.1.1.362.9811 . doi : 10.1109/34.990138 . 
  15. ^ McWilliam, N.; Loh, K. (2008),クレジットデリバティブの評価における多次元テール依存関係の考慮(ワーキングペーパー)[1]
  16. ^ a b Dempster, AP; Laird, NM; Rubin, DB (1977). 「EMアルゴリズムによる不完全データからの最大尤度」. Journal of the Royal Statistical Society, Series B. 39 ( 1): 1– 38. CiteSeerX 10.1.1.163.7580 . doi : 10.1111/j.2517-6161.1977.tb01600.x . JSTOR 2984875 .  
  17. ^ Xu, L.; Jordan, MI (1996年1月). 「ガウス混合分布に対するEMアルゴリズムの収束特性について」.ニューラル・コンピュテーション. 8 (1): 129– 151. doi : 10.1162/neco.1996.8.1.129 . hdl : 10338.dmlcz/135225 . S2CID 207714252 . 
  18. ^ a b McLachlan, GJ (2000)、有限混合モデル、Wiley
  19. ^ Botev, ZI; Kroese, DP (2004). 「クロスエントロピー法による大域的尤度最適化と混合モデルへの応用」. 2004年冬季シミュレーション会議論文集, 2004年. 第1巻. pp.  517– 523. CiteSeerX 10.1.1.331.2319 . doi : 10.1109/WSC.2004.1371358 . ISBN  978-0-7803-8786-7. S2CID  6880171 .
  20. ^ Day, NE (1969). 「正規分布の混合の成分の推定」. Biometrika . 56 (3): 463– 474. doi : 10.2307/2334652 . JSTOR 2334652 . 
  21. ^ Wang, J. ( 2001)、「多変量正規分布の混合を用いた市場変数の日次変化の生成」、第33回シミュレーション冬季会議論文集283–289
  22. ^ Améndola, Carlos; et al . (2015). 「ガウス混合分布のモーメント多様体」. Journal of Algebraic Statistics . 7. arXiv : 1510.04654 . Bibcode : 2015arXiv151004654A . doi : 10.18409/jas.v7i1.42 . S2CID 88515304 . 
  23. ^ McLachlan, GJ; Basford, KE (1988)、「混合モデル:推論とクラスタリングへの応用」、統計:教科書とモノグラフBibcode1988mmia.book.....M
  24. ^ティタリントン、スミス、マコフ 1985

さらに読む

混合モデルに関する書籍

ガウス混合モデルの応用

  1. Reynolds, DA; Rose, RC (1995年1月). 「ガウス混合話者モデルを用いたロバストなテキスト非依存話者識別」. IEEE Transactions on Speech and Audio Processing . 3 (1): 72– 83. Bibcode : 1995ITSAP...3...72R . doi : 10.1109/89.365379 . S2CID  7319345 .
  2. Permuter, H.; Francos, J.; Jermyn, IH (2003).画像データベース検索のためのテクスチャと色のガウス混合モデル. IEEE International Conference on Acoustics, Speech, and Signal Processing , 2003. Proceedings (ICASSP '03). doi : 10.1109/ICASSP.2003.1199538 .
  3. レムケ、ヴォルフガング(2005年)『状態空間フレームワークにおける用語構造モデリングと推定』シュプリンガー・フェアラーク社、ISBN 978-3-540-28342-3
  4. Brigo, Damiano ; Mercurio, Fabio (2001).解析的に扱いやすいSmileモデルのための変位拡散と混合拡散. 数理ファイナンス – Bachelier Congress 2000. Proceedings. Springer Verlag.
  5. Brigo, Damiano; Mercurio, Fabio (2002年6月). 「対数正規混合ダイナミクスと市場ボラティリティスマイルへのキャリブレーション」. International Journal of Theoretical and Applied Finance . 5 (4): 427. CiteSeerX  10.1.1.210.4165 . doi : 10.1142/S0219024902001511 .
  6. Spall, JC; Maryak, JL (1992). 「非IIDデータを用いた射影精度のための分位点の実現可能なベイズ推定量」アメリカ統計学会誌. 87 (419): 676– 681. doi : 10.1080/01621459.1992.10475269 . JSTOR  2290205 .
  7. アレクサンダー、キャロル(2004年12月)「不確実なボラティリティを伴う正規混合拡散:短期および長期スマイル効果のモデル化」(PDF) . Journal of Banking & Finance . 28 (12): 2957–80 . doi : 10.1016/j.jbankfin.2003.10.017 .
  8. スティリアノウ、ヤニス。パンタジス、ヤニス。カルデレロ、フェリペ。ラリー、ペドロ。セヴラン、フランソワ。シムケ、サシャ。ボナル、ロランド。マッタ、フェデリコ。ヴァルサマキス、アタナシオス (2005)。GMM ベースのマルチモーダル生体認証検証(PDF)
  9. Chen, J.; Adebomi, O.E.; Olusayo, OS; Kulesza, W. (2010).複数ターゲット追跡におけるガウス混合確率仮説密度アプローチの評価. IEEE International Conference on Imaging Systems and Techniques , 2010. doi : 10.1109/IST.2010.5548541 .{{cite conference}}: CS1 maint: numeric names: authors list (link)