近似ベイズ計算

ベイズ統計における計算手法

近似ベイズ計算( ABC ) は、モデルパラメータの事後分布を推定するために使用できる ベイズ統計に基づいた計算方法のクラスを構成します。

モデルに基づく 統計的推論において、尤度関数は極めて重要です。尤度関数は、特定の統計モデルにおける観測データの確率を表し、特定のパラメータ値や異なるモデル間の選択に対するデータの支持を定量化するからです。単純なモデルであれば、尤度関数の解析式は通常導出可能です。しかし、より複雑なモデルでは、解析式が分かりにくい場合や、尤度関数の評価に非常に多くの計算コストがかかる場合があります。

ABC法は尤度関数の評価を省略します。このように、ABC法は統計的推論の対象となるモデルの範囲を広げます。ABC法は数学的に確固たる根拠を有していますが、必然的に仮定や近似値を用いるため、その影響を慎重に評価する必要があります。さらに、ABC法の適用範囲が広いため、パラメータ推定モデル選択の課題はより深刻化します。

ABCはここ数年で急速に普及しており、特に集団遺伝学生態学疫学システム生物学無線伝搬などの生物科学で生じる複雑な問題の解析に利用されています[1]

歴史

最初のABC関連のアイデアは1980年代に遡ります。ドナルド・ルービンは、1984年にベイズの命題の解釈について議論した際、[2]事後分布からサンプルを生成する仮説的なサンプリングメカニズムについて説明しました。この方式は、パラメータの事後分布を推論する際にどのような操作が行われるかを示すための概念的な思考実験でした。サンプリングメカニズムの説明は、ABC棄却方式の説明と完全に一致しており、この論文は近似的なベイズ計算を説明した最初の論文であると考えられます。しかし、 1800年代後半にはフランシス・ゴルトンによって2段階の五点形が構築されており、これは単一の未知数(パラメータ)と単一の観測値に対するABC棄却方式の物理的な実装と見なすことができます。[3]ルービンは、ベイズ推論において応用統計学者は解析的に扱いやすいモデルだけに満足するのではなく、関心のある事後分布を推定できる計算手法も考慮すべきだと主張し、先見の明のある別の点を指摘しました。これにより、より幅広いモデルを検討できるようになります。これらの議論は、特にABCの文脈において重要です。

1984年、ピーター・ディグルとリチャード・グラットンは、尤度関数の解析形式が扱いにくい状況において、体系的なシミュレーション手法を用いて尤度関数を近似することを提案した[4]彼らの手法は、パラメータ空間にグリッドを定義し、各グリッドポイントに対して複数のシミュレーションを実行することで尤度を近似するというものである。近似値は、シミュレーション結果に平滑化手法を適用することで改善された。仮説検定にシミュレーションを用いるというアイデア自体は新しいものではなかったが、[5] [6]ディグルとグラットンは、尤度が扱いにくい状況下でシミュレーションを用いて統計的推論を行う最初の手法を導入したと考えられる。

DiggleとGrattonのアプローチは新たな境地を開いたが、彼らの手法は事後分布ではなく尤度を近似することを目的としていたため、現在ABCとして知られているものと完全に同一ではなかった。Simon Tavaréらの論文は、事後推論のためのABCアルゴリズムを初めて提案した。[7]彼らの独創的な研究では、DNA配列データの系譜に関する推論、特にサンプルとなった個体の最も最近の共通祖先までの時間の事後分布を決定する問題が検討された。このような推論は多くの人口動態モデルでは解析的に扱いにくいが、著者らは推定モデルの下で合体樹をシミュレートする方法を提示した。モデルパラメータの事後分布からのサンプルは、合成データと実データにおける分離部位の数の比較に基づいて提案を承認/拒否することによって得られた。この研究に続いて、Jonathan K. PritchardらはABC法を用いてヒトY染色体の変異をモデル化する応用研究を行った。[8]最後に、マーク・ボーモントと共著者らは近似ベイズ計算という用語を確立しました[9]。この用語はABC手法をさらに拡張し、ABCアプローチが集団遺伝学の問題により適しているかどうかをより具体的に議論しました。その後、ABCはシステム生物学、疫学、系統地理学など、集団遺伝学以外の分野にも広がりました

近似ベイズ計算は間接推論の一種のベイズ版として理解することができる[10] [11]

推定および予測問題のために、ABC事後分布からのサンプリングを行うための効率的なモンテカルロベースのアプローチがいくつか開発されている。よく使われる選択肢の一つは、SMCサンプラーアルゴリズム[12] [13] [14]をABCのコンテキストに適応させたもの(SMC-ABC)である。[15] [11] [16] [17]

方法

モチベーション

ベイズの定理の一般的な具体例は、与えられたデータに対する特定のパラメータ値の条件付き確率(または密度)を、規則によって 与えられ確率関連付けるものである。 θ {\displaystyle \theta } D {\displaystyle D} D {\displaystyle D} θ {\displaystyle \theta }

p ( θ | D ) = p ( D | θ ) p ( θ ) p ( D ) {\displaystyle p(\theta |D)={\frac {p(D|\theta )p(\theta )}{p(D)}}}

ここで、は事後分布、尤度、事前分布、そして証拠(データの周辺尤度または事前予測確率とも呼ばれる)を表します。分母は事後分布の確率全体を1に正規化しており、そのように計算できることに注意してください。 p ( θ | D ) {\displaystyle p(\theta |D)} p ( D | θ ) {\displaystyle p(D|\theta )} p ( θ ) {\displaystyle p(\theta )} p ( D ) {\displaystyle p(D)} p ( D ) {\displaystyle p(D)} p ( θ | D ) {\displaystyle p(\theta |D)}

事前分布は、 が利用可能になる前のについての信念や知識(たとえば、物理的制約など)を表します。事前分布により不確実性が絞り込まれるため、事後推定値の分散は小さくなりますが、偏りがある可能性があります。便宜上、事前分布は、事前確率の評価と の値のランダム生成が比較的簡単になるように、よく知られた扱いやすい分布族の中から特定の分布を選択することで指定されることがよくあります。特定の種類のモデルでは、のすべての要素の結合分布を一連の条件付き分布に関して因数分解して事前分布を指定する方が実用的です。 の異なる値の相対的な事後尤度のみに関心がある場合、証拠は、事後確率の任意の比に対して打ち消す正規化定数を構成するため、無視できます。ただし、尤度と事前分布 を評価する必要があります。多くのアプリケーションでは、尤度を評価することは計算コストが高く、場合によっては完全に実行不可能であるため、 [18]この問題を回避するためにABCが使用されます。 θ {\displaystyle \theta } D {\displaystyle D} θ {\displaystyle \theta } p ( θ ) {\displaystyle p(\theta )} θ {\displaystyle \theta } θ {\displaystyle \theta } p ( D ) {\displaystyle p(D)} p ( D | θ ) {\displaystyle p(D|\theta )} p ( θ ) {\displaystyle p(\theta )}

ABC拒否アルゴリズム

ABCベースの手法はすべて、シミュレーションによって尤度関数を近似し、その結果を観測データと比較する。[19] [11] [20] [21] [22]より具体的には、ABCの最も基本的な形式であるABC棄却アルゴリズムでは、まず事前分布からパラメータ点の集合がサンプリングされる。サンプリングされたパラメータ点 が与えられた場合、データセットはによって指定された統計モデルの下でシミュレートされる。生成された が観測データ と大きく異なる場合、サンプリングされたパラメータ値は破棄される。正確に言うと、 が許容範囲内で受け入れられるのは以下の場合である。 θ ^ {\displaystyle {\hat {\theta }}} D ^ {\displaystyle {\hat {D}}} M {\displaystyle M} θ ^ {\displaystyle {\hat {\theta }}} D ^ {\displaystyle {\hat {D}}} D {\displaystyle D} D ^ {\displaystyle {\hat {D}}} ϵ 0 {\displaystyle \epsilon \geq 0}

ρ ( D ^ , D ) ϵ {\displaystyle \rho ({\hat {D}},D)\leq \epsilon }

ここで、距離尺度は、与えられた指標(例えばユークリッド距離)に基づいて、 との間の乖離度を決定します。シミュレーション結果がデータ(イベント )と完全に一致する確率は、ABCのごくわずかな適用を除いて無視できるため、通常は厳密に正の許容誤差が必要です。ABCのごくわずかな適用では、実際にはほぼすべてのサンプルパラメータ点が棄却されることになります。ABC棄却アルゴリズムの結果は、望ましい事後分布に従って近似的に分布するパラメータ値のサンプルであり、重要な点として、尤度関数を明示的に評価する必要なく得られます。 ρ ( D ^ , D ) {\displaystyle \rho ({\hat {D}},D)} D ^ {\displaystyle {\hat {D}}} D {\displaystyle D} D ^ = D {\displaystyle {\hat {D}}=D}

近似ベイズ計算によるパラメータ推定:概念の概要。

要約統計

データの次元が増加するにつれて、 への距離が小さいデータセットを生成する確率は通常低下します。これは、上記の基本的なABC棄却アルゴリズムの計算効率を大幅に低下させます。この問題を軽減するための一般的なアプローチは、 の関連情報を捕捉するために選択された、より低次元の要約統計量のセットに置き換えることです。ABC棄却アルゴリズムにおける受入基準は次のようになります。 D ^ {\displaystyle {\hat {D}}} D {\displaystyle D} D {\displaystyle D} S ( D ) {\displaystyle S(D)} D {\displaystyle D}

ρ ( S ( D ^ ) , S ( D ) ) ϵ {\displaystyle \rho (S({\hat {D}}),S(D))\leq \epsilon }

要約統計量がモデルパラメータに関して十分であれば、このようにして得られる効率性の向上は誤差を生じさせません。[23]実際、定義により、十分性は、約におけるすべての情報がによって捕捉されることを意味します θ {\displaystyle \theta } D {\displaystyle D} θ {\displaystyle \theta } S ( D ) {\displaystyle S(D)}

後述するように、指数分布族以外では、有限次元の十分な統計量を特定することは通常不可能です。しかしながら、ABC法を用いて推論を行うアプリケーションでは、有益ではあるものの不十分である可能性のある要約統計量がしばしば用いられます。

動的双安定隠れマルコフモデル

具体例としては、測定ノイズの影響を受ける隠れマルコフモデル(HMM)で特徴付けることができる双安定システムが挙げられる。このようなモデルは多くの生物系で採用されており、例えば、発生、細胞シグナル伝達活性化/不活性化、論理処理、非平衡熱力学などで使用されている。例えば、ショウジョウバエ(Drosophila melanogaster )のソニックヘッジホッグ(Shh)転写因子の挙動は、HMMでモデル化できる。[24](生物)動的モデルは、AとBの2つの状態で構成される。ある状態から別の状態への遷移の確率が両方向で と定義される場合、各タイムステップで同じ状態にとどまる確率は である。状態を正しく測定する確率は である(逆に、不正確な測定の確率は である)。 θ {\displaystyle \theta } 1 θ {\displaystyle {1-\theta }} γ {\displaystyle \gamma } 1 γ {\displaystyle {1-\gamma }}

異なる時点における状態間の条件依存関係のため、時系列データの尤度計算はやや面倒です。これがABCを使用する理由です。基本的なABCの計算上の課題は、このようなアプリケーションではデータの次元数が大きいことです。次元数は、2つの状態間の切り替え頻度である要約統計量 を使用することで削減できます。絶対差 は、許容範囲 を持つ距離尺度として使用されます。パラメータ に関する事後推論は、に示す5つの手順に従って実行できます。 S {\displaystyle S} ρ ( , ) {\displaystyle \rho (\cdot ,\cdot )} ϵ = 2 {\displaystyle \epsilon =2} θ {\displaystyle \theta }

ステップ1: 観測データが状態シーケンスAAAABAABBAAAAAABAAAAを形成し、これがおよびを用いて生成されたと仮定します。関連する要約統計量(実験データにおける状態間の切り替え回数)は です θ = 0.25 {\displaystyle \theta =0.25} γ = 0.8 {\displaystyle \gamma =0.8} ω E = 6 {\displaystyle \omega _{E}=6}

ステップ2:については何も分かっていないと仮定し、区間 における一様事前分布を採用する。パラメータ は既知であり、データ生成値 に固定されていると仮定するが、一般に観測値から推定することもできる。事前分布から合計 個のパラメータ点が抽出され、各パラメータ点 についてモデルがシミュレートされ、一連のシミュレートされたデータが得られる。この例ではであり、抽出された各パラメータとシミュレートされたデータセットは表1の2列目と3列目に記録されている。実際には、適切な近似値を得るには をはるかに大きくする必要がある。 θ {\displaystyle \theta } [ 0 , 1 ] {\displaystyle [0,1]} γ {\displaystyle \gamma } γ = 0.8 {\displaystyle \gamma =0.8} n {\displaystyle n} θ i :   i = 1 , , n {\displaystyle \theta _{i}:{\text{ }}i=1,\ldots ,n} n {\displaystyle n} n = 5 {\displaystyle n=5} n {\displaystyle n}

ABC拒否アルゴリズムの例
θ i {\displaystyle \theta _{i}} シミュレートされたデータセット(ステップ2) 要約統計(ステップ3)
ω S , i {\displaystyle \omega _{S,i}}
距離(ステップ4) ρ ( ω S , i , ω E ) {\displaystyle \rho (\omega _{S,i},\omega _{E})}
結果
(ステップ4)
1 0.08 ああああああああああ 8 2 承認済み
2 0.68 ああ、ああ、ああ、ああ、ああ、ああ、ああ 13 7 拒否された
3 0.87 バババババババババ 9 3 拒否された
4 0.43 ああああああああああ 6 0 承認済み
5 0.53 アブババアブバババ 9 3 拒否された

ステップ 3:シミュレートされたデータの各シーケンスの要約統計量が計算されます ω S , i :   i = 1 , , n {\displaystyle \omega _{S,i}:{\text{ }}i=1,\ldots ,n}

ステップ4:観測された遷移周波数とシミュレーションによる遷移周波数間の距離をすべてのパラメータポイントについて計算します。距離が以下のパラメータポイントは、事後分布からの近似サンプルとして受け入れられます。 ρ ( ω S , i , ω E ) = | ω S , i ω E | {\displaystyle \rho (\omega _{S,i},\omega _{E})=|\omega _{S,i}-\omega _{E}|} ϵ {\displaystyle \epsilon }

例で得られた の事後分布(赤)を、真の事後分布(黒)および が大きい を用いたABCシミュレーションと比較したものです。不十分な要約統計量の使用は、 が必要な場合でもバイアスをもたらします(薄緑)。 θ {\displaystyle \theta } n {\displaystyle n} ω {\displaystyle \omega } ϵ = 0 {\displaystyle \epsilon =0}

ステップ5:事後分布は、受け入れられたパラメータ点を用いて近似されます。データが十分に有益であれば、事後分布は、システムの真の値の近傍の領域にあるパラメータ値に対して無視できない確率を持つはずです。この例では、事後確率質量は0.08と0.43の間で均等に分割されています。 θ {\displaystyle \theta }

事後確率は、要約統計量(および)と完全なデータシーケンス()を用いて、大きなABCによって得られる。これらは、ビタビアルゴリズムを用いて正確かつ効率的に計算できる真の事後確率と比較される。この例で利用されている要約統計量は、 の厳格な要件下でも理論的な事後確率からの偏差が有意であるため、十分ではない。の真の値である の周囲に集中した事後確率を得るには、はるかに長い観測データシーケンスが必要となる n {\displaystyle n} ϵ = 0 {\displaystyle \epsilon =0} ϵ = 2 {\displaystyle \epsilon =2} ϵ = 0 {\displaystyle \epsilon =0} ϵ = 0 {\displaystyle \epsilon =0} θ = 0.25 {\displaystyle \theta =0.25} θ {\displaystyle \theta }

このABCの応用例では、説明のために簡略化を行っています。より現実的なABCの応用例は、査読済み論文で数多く発表されています。[20] [21] [22] [25] [26]

ABCとのモデル比較

パラメータ推定以外にも、ABCフレームワークは異なる候補モデルの事後確率を計算するために使用できる。[27] [28] [29]このような応用において、一つの可能​​性として、階層的に棄却サンプリング法を用いることが挙げられる。まず、モデルの事前分布からモデルをサンプリングする。次に、そのモデルに割り当てられた事前分布からパラメータをサンプリングする。最後に、単一モデルABCの場合と同様にシミュレーションを実行する。これにより、異なるモデルの相対的な受理頻度は、これらのモデルの事後分布に近似する。また、モデル空間におけるABCの計算上の改善として、モデルとパラメータの結合空間に粒子フィルタを構築するといった手法も提案されている。[29]

モデルの事後確率が推定されると、ベイズモデル比較の手法を最大限に活用できるようになります。例えば、2つのモデルとモデルの相対的な妥当性を比較するには、ベイズ係数に関連する事後比を計算することができます M 1 {\displaystyle M_{1}} M 2 {\displaystyle M_{2}} B 1 , 2 {\displaystyle B_{1,2}}

p ( M 1 | D ) p ( M 2 | D ) = p ( D | M 1 ) p ( D | M 2 ) p ( M 1 ) p ( M 2 ) = B 1 , 2 p ( M 1 ) p ( M 2 ) {\displaystyle {\frac {p(M_{1}|D)}{p(M_{2}|D)}}={\frac {p(D|M_{1})}{p(D|M_{2})}}{\frac {p(M_{1})}{p(M_{2})}}=B_{1,2}{\frac {p(M_{1})}{p(M_{2})}}}

モデルの事前分布が等しい場合、つまり、ベイズ係数は事後分布の比率に等しくなります。 p ( M 1 ) = p ( M 2 ) {\displaystyle p(M_{1})=p(M_{2})}

実際には、以下で説明するように、これらの尺度はパラメータの事前分布と要約統計の選択に非常に敏感である可能性があるため、モデル比較の結論は慎重に導き出す必要があります。

落とし穴と解決策

ABCベースの統計的推論における潜在的なリスクと対策
エラーソース 潜在的な問題 解決 サブセクション
非ゼロ許容値 ϵ {\displaystyle \epsilon } 不正確さにより、計算された事後分布にバイアスが生じます。 事後分布の許容誤差に対する感度に関する理論的・実践的研究。ノイズABC。 #事後分布の近似
不十分な要約統計 情報の損失により、信頼区間が膨張します。 十分な統計量の自動選択/半自動識別。モデル検証チェック(例:Templeton 2009 [30])。 #要約統計の選択と十分性
モデル数が少ない/モデルの指定が間違っている 調査されたモデルは代表的ではない/予測力が欠けている。 モデルの慎重な選択。予測力の評価。 #モデル数が少ない
事前分布とパラメータ範囲 結論は事前分布の選択に左右される可能性があり、モデルの選択は無意味である可能性がある。 ベイズ係数が事前分布の選択にどの程度敏感であるかを確認してください。事前分布の選択に関する理論的結果はいくつか存在します。モデル検証には代替手法を使用してください。 #事前分布とパラメータ範囲
次元の呪い パラメータの受容率が低い。モデルエラーとパラメータ空間の探索不足を区別できない。過剰適合のリスクがある。 該当する場合、モデル削減手法。パラメータ探索を高速化する方法。過剰適合を検出するための品質管理。 #次元の呪い
要約統計によるモデルランキング 要約統計量に対するベイズ係数の計算は、元のデータのベイズ係数とは関連がない可能性があり、その結果が無意味になる可能性があります。 一貫性のあるベイズモデルの選択に必要な条件と十分な条件を満たす要約統計量のみを使用してください。モデルの検証には代替手法を使用してください。 #ABCと要約統計量を使用したベイズ係数
実装 シミュレーションと推論プロセスにおける共通の仮定に対する保護が低い。 結果の妥当性チェック。ソフトウェアの標準化。 #不可欠な品質管理

あらゆる統計手法と同様に、ABCベースの手法を実際のモデリング問題に適用するには、多くの仮定と近似が本質的に必要となる。例えば、許容誤差パラメータ ϵ {\displaystyle \epsilon } をゼロに設定すると正確な結果が得られるが、通常は計算コストが法外に高くなる。そのため、実際にはゼロより大きい値が使用され、バイアスが生じる。同様に、十分な統計量が得られない場合、代わりに他の要約統計量が使用されるが、これは情報の損失による追加のバイアスをもたらす。モデル選択の文脈などにおけるバイアスの追加的な発生源は、より微妙な場合がある。[23] [31] ϵ {\displaystyle \epsilon }

同時に、ABC法、特に系統地理学の分野に向けられた批判の中には[30] [32] [33]ABCに特有のものではなく、すべてのベイズ法、さらにはすべての統計手法(事前分布やパラメータ範囲の選択など)に当てはまるものもあります。[20] [34]しかし、ABC法ははるかに複雑なモデルを処理できるため、これらの一般的な落とし穴のいくつかはABC分析の文脈で特に関連しています。

このセクションでは、これらの潜在的なリスクについて説明し、それらに対処する方法を検討します。

事後分布の近似

無視できない分布には、真の事後分布ではなく、 からサンプリングするという代償が伴う。十分に小さい許容値と適切な距離尺度を用いれば、得られる分布は多くの場合、実際の目標分布をかなりよく近似する。一方、パラメータ空間内のすべての点が受け入れられるほど大きい許容値は、事前分布の複製を生成する。 と の差を の関数として調べた実証研究 [35] [11] や、パラメータ推定値の誤差の上限が に依存する理論結果がある[ 36 ] ABCによって関数として得られる事後分布(期待される二次損失として定義される)の精度も研究されている。[37]しかし、 がゼロに近づくときの分布の収束性、そしてそれが使用される距離尺度にどのように依存するかは、まだ詳細に研究されていない重要なトピックである。特に、この近似によって生じる誤差とモデルの誤指定による誤差を切り離すことは依然として困難である。[20] ϵ {\displaystyle \epsilon } p ( θ | ρ ( D ^ , D ) ϵ ) {\displaystyle p(\theta |\rho ({\hat {D}},D)\leq \epsilon )} p ( θ | D ) {\displaystyle p(\theta |D)} p ( θ | ρ ( D ^ , D ) ϵ ) {\displaystyle p(\theta |\rho ({\hat {D}},D)\leq \epsilon )} p ( θ | D ) {\displaystyle p(\theta |D)} p ( θ | ρ ( D ^ , D ) ϵ ) {\displaystyle p(\theta |\rho ({\hat {D}},D)\leq \epsilon )} p ( θ | D ) {\displaystyle p(\theta |D)} ϵ {\displaystyle \epsilon } ϵ {\displaystyle \epsilon } ϵ {\displaystyle \epsilon } ϵ {\displaystyle \epsilon }

非ゼロによる誤差の一部を修正する試みとして、事後推定値の分散を減らすためにABCを用いた局所線形加重回帰の使用が提案されている。[9]この手法では、シミュレートされた要約が観測された要約にどれだけよく適合しているかに応じてパラメータに重みを割り当て、観測された要約の近傍の重み付きパラメータと要約との間で線形回帰を実行する。得られた回帰係数は、サンプリングされたパラメータを観測された要約の方向に修正するために使用される。フィードフォワードニューラルネットワークモデルを用いた非線形回帰の形での改良が提案されている。 [38]しかし、これらのアプローチで得られた事後分布は必ずしも事前分布と一致するとは限らないことが示されており、事前分布を尊重する回帰調整の再定式化につながった。[39] ϵ {\displaystyle \epsilon }

最後に、非ゼロ許容値を持つABCを用いた統計的推論は、本質的に欠陥があるわけではない。測定誤差を仮定すれば、最適値は実際にはゼロではないことが示される。[37] [40]実際、非ゼロ許容値によって生じるバイアスは、要約統計量に特定の形態のノイズを導入することで特徴付け、補正することができる。このような「ノイズの多いABC」の漸近的整合性は、固定許容値に対するパラメータ推定値の漸近的分散の公式とともに確立されている。[37] ϵ {\displaystyle \epsilon } ϵ {\displaystyle \epsilon }

要約統計の選択と十分性

要約統計量は、高次元データに対するABCの受け入れ率を高めるために使用できます。低次元の十分統計量は、データ内に存在するすべての関連情報を可能な限り単純な形式で捉えるため、この目的に最適です。[22] [41] [42]しかし、ABCに基づく推論が最も関連性のある統計モデルでは、低次元の十分統計量は通常達成不可能であり、その結果、有用な低次元要約統計量を特定するには何らかのヒューリスティックが必要となるのが通常です。適切に選択されていない要約統計量を使用すると、暗黙の情報損失により信用区間が膨らむことが多く、 [22]モデル間の判別にバイアスがかかる可能性があります。要約統計量を選択する方法に関するレビューが利用可能であり、[43]実践において貴重なガイダンスとなる可能性があります。

データに含まれる情報のほとんどを捉える一つの方法は、多くの統計量を用いることだが、ABCの精度と安定性は要約統計量の増加に伴って急速に低下するようだ。[20] [22]代わりに、より良い戦略は、関連する統計量のみに焦点を当てることである。関連性は推論問題全体、使用されるモデル、そして手持ちのデータに依存する。[44]

追加の統計量が事後分布に意味のある修正をもたらすかどうかを反復的に評価することにより、要約統計量の代表的なサブセットを識別するアルゴリズムが提案されている。[45]ここでの課題の一つは、ABC近似誤差が大きいと、手順のどの段階でも統計量の有用性に関する結論に重大な影響を与える可能性があることである。別の方法[44]は、主に2つのステップに分解される。まず、エントロピーを最小化することで事後分布の参照近似を構築する。次に、候補となる要約のセットを、ABC近似された事後分布を参照事後分布と比較することで評価する。

これらの戦略はどちらも、多数の候補統計量から統計量のサブセットを選択する。一方、部分最小二乗回帰法では、すべての候補統計量から適切な重み付けを施した情報を使用する。[46]最近、半自動で要約を作成する手法が大きな注目を集めている。[37]この手法は、パラメータ点推定値の二次損失を最小化する際の要約統計量の最適な選択は、シミュレーションデータに基づく線形回帰によって近似されるパラメータの事後平均から得られるという観察に基づいている。モデル選択のための要約統計量は、シミュレーションデータを用いた多項式ロジスティック回帰を用いて得られ、競合モデルを予測ラベルとして扱っている。[47]

事後分布の近似値への影響を同時に評価できる要約統計量を特定する方法は、非常に価値があるだろう。[48]これは、要約統計量の選択と許容値の選択が、結果として得られる事後分布における2つの誤差源となるためである。これらの誤差は、モデルの順位付けを歪める可能性があり、また、モデル予測の誤りにつながる可能性もある。

ABCと要約統計量を用いたベイズ係数

モデル選択において不十分な要約統計量とABCの組み合わせは問題となる可能性があることが示されている。[23] [31]実際、要約統計量に基づくベイズ係数を と表記すると、の関係は次の形になる。[23] S ( D ) {\displaystyle S(D)} B 1 , 2 s {\displaystyle B_{1,2}^{s}} B 1 , 2 {\displaystyle B_{1,2}} B 1 , 2 s {\displaystyle B_{1,2}^{s}}

B 1 , 2 = p ( D | M 1 ) p ( D | M 2 ) = p ( D | S ( D ) , M 1 ) p ( D | S ( D ) , M 2 ) p ( S ( D ) | M 1 ) p ( S ( D ) | M 2 ) = p ( D | S ( D ) , M 1 ) p ( D | S ( D ) , M 2 ) B 1 , 2 s {\displaystyle B_{1,2}={\frac {p(D|M_{1})}{p(D|M_{2})}}={\frac {p(D|S(D),M_{1})}{p(D|S(D),M_{2})}}{\frac {p(S(D)|M_{1})}{p(S(D)|M_{2})}}={\frac {p(D|S(D),M_{1})}{p(D|S(D),M_{2})}}B_{1,2}^{s}}

したがって、要約統計量は、次の場合にのみ 2つのモデルを比較するのに十分です。 S ( D ) {\displaystyle S(D)} M 1 {\displaystyle M_{1}} M 2 {\displaystyle M_{2}}

p ( D | S ( D ) , M 1 ) = p ( D | S ( D ) , M 2 ) {\displaystyle p(D|S(D),M_{1})=p(D|S(D),M_{2})}

という結果になる。また、上の式から、条件が満たされない場合、おもちゃの例で実証できるように、との間に大きな違いが生じる可能性があることも明らかである。[ 23] [28] [31]重要なのは、またはのみ、または両方のモデルが十分であることは、モデルの順位付けに十分であることを保証するものではないことが示されたことである。[23]しかし、との両方入れ子になっているモデルの十分な要約統計量はどれも、入れ子になったモデルを順位付けするのに有効であることも示された[23] B 1 , 2 = B 1 , 2 s {\displaystyle B_{1,2}=B_{1,2}^{s}} B 1 , 2 {\displaystyle B_{1,2}} B 1 , 2 s {\displaystyle B_{1,2}^{s}} M 1 {\displaystyle M_{1}} M 2 {\displaystyle M_{2}} M {\displaystyle M} M 1 {\displaystyle M_{1}} M 2 {\displaystyle M_{2}}

したがって、ベイズ係数の計算は、ベイズ係数ベイズ係数の比が利用可能であるか、少なくとも十分に近似できる場合を除き、モデル選択の目的において誤解を招く可能性があります。一方、一貫性のあるベイズモデル選択のための要約統計量に関する必要十分条件が最近導出されており、[49]有用なガイダンスとなり得ます。 S ( D ) {\displaystyle S(D)} D {\displaystyle D} S ( D ) {\displaystyle S(D)}

しかし、この問題はデータの次元が削減されたモデル選択にのみ関係します。ABCベースの推論では、実際のデータセットを直接比較します(一部のシステム生物学アプリケーションの場合(例:[50]を参照))。この問題は回避されます。

不可欠な品質管理

以上の議論から明らかなように、ABC分析はどれも、結果に大きな影響を与える可能性のある選択とトレードオフを必要とする。具体的には、競合モデル/仮説の選択、シミュレーション回数、要約統計量の選択、あるいは許容閾値などは、現時点では一般的なルールに基づいて決定することはできないが、これらの選択の影響は個々の研究において評価・検証されるべきである。[21]

ABCの品質管理には、要約統計量によって説明されるパラメータ分散の割合の定量化など、多くのヒューリスティックなアプローチが提案されている。 [21]一般的な手法の1つは、実際に観測されたデータに関わらず、推論が有効な結果をもたらすかどうかを評価することを目的としている。例えば、モデルの事前分布または事後分布から通常得られるパラメータ値のセットが与えられれば、大量の人工データセットを生成することができる。このように、選択されたABC推論法が真のパラメータ値をどれだけ正確に復元するか、また、複数の構造的に異なるモデルを同時に考慮した場合のモデルをどれだけ正確に復元するかを測定することにより、制御された設定でABC推論の品質と堅牢性を評価できる。

別の種類の方法は、例えば要約統計量の事後予測分布を観測された要約統計量と比較することによって、与えられた観測データに照らして推論が成功したかどうかを評価する。[21]さらに、交差検証技術[51]予測チェック[52] [53]は、ABC推論の安定性と標本外予測妥当性を評価するための将来有望な戦略である。これは大規模なデータセットをモデル化する場合、特に重要である。なぜなら、その場合、提案されたモデルがすべて実際には観測データの根底にある確率システムの表現として不十分であっても、特定のモデルの事後サポートが圧倒的に決定的であるように見えることがあるからである。標本外予測チェックは、モデル内の潜在的な体系的なバイアスを明らかにし、モデルの構造やパラメータ化を改善する方法の手がかりを提供することができる。

モデル選択において、品質管理をプロセスの不可欠なステップとして組み込んだ、根本的に新しいアプローチが最近提案されている。ABCは、その構造上、包括的な統計量に基づいて、観測データとモデル予測値の乖離を推定することを可能にする。これらの統計量は、必ずしも受入基準で使用される統計量と同じではない。得られた乖離分布は、データの多くの側面と同時に一致するモデルを選択するために使用されてきた。[54]また、矛盾する共依存的な要約からモデルの不整合が検出される。品質管理に基づく別のモデル選択法では、ABCを用いて、モデルパラメータの有効数と、要約とパラメータの事後予測分布の乖離度を近似する。[55]そして、乖離度情報基準がモデルの適合度の尺度として使用される。この基準に基づいて選択されたモデルは、ベイズ係数によって支持されるモデルと矛盾する可能性があることも示されている。このため、正しい結論を得るためには、モデル選択において異なる手法を組み合わせることが有用である。

品質管理は実現可能であり、多くのABCベースの研究で実際に実施されていますが、特定の問題においては、手法に関連するパラメータの影響評価が困難な場合があります。しかしながら、ABCの利用が急速に増加することで、この手法の限界と適用可能性をより深く理解できるようになることが期待されます。

統計的推論における一般的なリスクはABCで悪化する

このセクションでは、厳密にはABCに特有のリスクではなく、他の統計手法にも関連するリスクについて考察します。しかし、ABCは非常に複雑なモデルを分析できる柔軟性を備えているため、ここでこれらのリスクについて議論することは非常に重要です。

事前分布とパラメータ範囲

パラメータの範囲と事前分布の特定は、システムの特性に関する事前知識から大きな恩恵を受ける。一部の研究では「パラメータの範囲と分布は研究者の主観的な意見に基づいて推測されているに過ぎない」という批判がある[56] 。これはベイズ流アプローチに対する古典的な反論と関連している[57] 。

どのような計算手法を用いる場合でも、通常、調査対象となるパラメータの範囲を制約する必要があります。パラメータの範囲は、可能であれば研究対象のシステムの既知の特性に基づいて定義する必要がありますが、実用的には推測が必要となる場合があります。しかしながら、客観的な事前分布に関する理論的結果は利用可能であり、例えば無差別原理最大エントロピー原理に基づくものがあります。[58] [59]一方、事前分布を選択するための自動または半自動の方法は、しばしば不適切な密度を生成します。ほとんどのABC手順では事前分布からサンプルを生成する必要があるため、不適切な事前分布はABCに直接適用できません。

事前分布を選択する際には、分析の目的を念頭に置く必要があります。原則として、パラメータに関する主観的な無知を誇張する、情報量の少ない平坦な事前分布であっても、妥当なパラメータ推定値が得られる可能性があります。しかし、ベイズ係数はパラメータの事前分布に非常に敏感です。ベイズ係数に基づくモデル選択に関する結論は、事前分布の選択に対する結論の敏感性を慎重に考慮しなければ、誤った結論につながる可能性があります。

モデル数が少ない

モデルベースの手法は、仮説空間を網羅的にカバーしていないという批判を受けてきた。[33]実際、モデルベースの研究は少数のモデルを中心に行われることが多く、場合によっては単一のモデルを評価するための計算コストが高いため、仮説空間の大部分をカバーすることが困難な場合がある。

検討対象となる候補モデルの数の上限は、通常、モデルを定義し、多くの代替オプションから選択するために必要な多大な労力によって設定されます。[21]モデル構築には一般的に受け入れられているABC固有の手順がないため、代わりに経験と事前の知識が使用されます。[22]事前モデルの選択と定式化のためのより堅牢な手順が有益であるにもかかわらず、統計におけるモデル開発には万能の戦略はありません。複雑なシステムを合理的に特徴付けるには、常に多くの調査作業と問題領域の専門知識の活用が必要になります。

ABCに反対する者の中には、現実的に検討できるモデルは少数(主観的に選択された、おそらくすべて間違っている)であるため、ABC分析から得られる知見は限られていると主張する者もいる。[33]しかし、妥当な帰無仮説を特定することと、対立仮説の相対的な適合性を評価することとの間には重要な違いがある。[20]真となる可能性のある有用な帰無仮説は、複雑なモデルの文脈では極めて稀にしか提示できないため、この文脈では、統計的帰無仮説の検定よりも、複雑な現象の説明としての統計モデルの予測能力の方がはるかに重要である。また、調査したモデルを、相対的な妥当性に基づいて重み付けして平均化し、モデルの特徴(パラメータ値など)を推測して予測を行うことも一般的である。

大規模データセット

大規模なデータセットは、モデルベースの手法における計算上のボトルネックとなる可能性がある。例えば、ABCベースの解析では、一部のデータを省略する必要があることが指摘されている[33] 。多くの研究者は、大規模なデータセットは実用的な制約ではないと主張しているが[21] [57]、この問題の深刻さはモデルの特性に大きく依存する。モデリング問題のいくつかの側面、例えばサンプルサイズ、観測変数または特徴の数、時間または空間解像度などが計算の複雑さに寄与する可能性がある。しかし、計算能力の向上に伴い、この問題は潜在的に重要性を低下させる可能性がある。

各シミュレーションのパラメータを事前分布からサンプリングする代わりに、メトロポリス・ヘイスティングスアルゴリズムとABCを組み合わせるという代替案が提案されており、この方法は、単純なABCよりも高い受理率が得られると報告されている。[48]当然ながら、このようなアプローチは、収束性の評価の難しさ、事後分布からのサンプル間の相関性[35]、比較的低い並列化可能性など、MCMC法の一般的な負担を継承している。[21]

同様に、逐次モンテカルロ法(SMC)と集団モンテカルロ法(PMC)の考え方もABCの設定に応用されている。 [35] [60]基本的な考え方は、一連の目標分布を通して、事前分布から事後分布に反復的にアプローチするというものである。これらの手法は、ABC-MCMCと比較して、得られる事後分布のサンプルが独立していることが利点である。さらに、逐次モンテカルロ法では、許容レベルを分析前に指定する必要がなく、適応的に調整される。[61]

棄却サンプリング法と逐次モンテカルロ法に基づくABCアルゴリズムの複数のステップを並列化することは比較的容易です。系統発生学におけるMCMCベースの推論では、並列アルゴリズムによって大幅な高速化が実現できることも実証されており[62]、これはABCベースの手法にも適用可能なアプローチとなる可能性があります。しかし、複雑なシステムに適したモデルを構築するには、選択した推論手法に関わらず、膨大な計算量が必要になる可能性が高く、特定のアプリケーションに適した手法を選択するのはユーザー次第です。

次元の呪い

高次元データセットおよび高次元パラメータ空間では、ABCベースの研究では事後推論の精度を妥当なレベルにするために、非常に多くのパラメータ点をシミュレートする必要がある。このような状況では計算コストが大幅に増加し、最悪の場合、計算解析が手に負えなくなる可能性がある。これらはよく知られた現象の例であり、一般的に「次元の呪い」という包括的な用語で呼ばれる。[63]

データセットの次元がABCの文脈における分析にどの程度影響するかを評価するために、要約統計量の次元の関数としてABC推定量の誤差に関する解析式が導出されている。[64] [65]さらに、BlumとFrançoisは、要約統計量の次元が、ABC推定量の誤差に対する様々な補正調整における平均二乗誤差とどのように関係するかを調査した。また、要約統計量の潜在的に低次元な基礎構造に起因する次元削減手法は、次元の呪いを回避するのに有用であるとも主張された。[64] ABC推定量の二次損失を最小化することを目的として、FearnheadとPrangleは、(おそらく高次元の)データをパラメータ事後平均の推定値に投影する手法を提案した。これらの平均はパラメータと同じ次元となり、ABCの要約統計量として使用される。[65]

ABCは高次元パラメータ空間における問題を推論するために使用できるが、過剰適合の可能性を考慮する必要がある(例えば、[54]および[55]のモデル選択法を参照)。しかし、ABC棄却アルゴリズムを使用して、与えられた許容値の下でパラメータのシミュレートされた値を受け入れる確率は、通常、パラメータ空間の次元が増加するにつれて指数関数的に減少する(全体的受け入れ基準のため)。[22]次元の呪いを打破できる計算方法(ABCに基づくものもそうでないものも)はないと思われるが、最近、特定の仮定の下で高次元パラメータ空間を処理する方法が開発されている(例えば、疎グリッド上の多項式近似に基づく方法、[66]はABCのシミュレーション時間を大幅に短縮できる可能性がある)。しかし、このような方法の適用性は問題に依存し、パラメータ空間の探索の難しさは一般に過小評価されるべきではない。例えば、決定論的な大域パラメータ推定の導入により、低次元問題に関するいくつかの先行研究で得られた大域最適値が誤っていたという報告がなされた。[67]そのため、特定の問題では、モデルが誤っているのか、あるいは前述のようにパラメータ空間の探索領域が不適切なのかを判断することが困難になる場合がある。[33]より実用的なアプローチとしては、モデルの縮小、 [22]変数の離散化、そしてノイズモデルなどの標準モデルの使用によって問題の範囲を絞り込むことが考えられる。ノイズモデルは、変数間の条件付き独立性に関する情報を利用する。[68]

ソフトウェア

現在、ABC を特定のクラスの統計モデルに適用するためのソフトウェア パッケージが多数利用可能です。

ABCを組み込んだソフトウェア
ソフトウェア キーワードと機能 参照
pyABC 効率的な分散 ABC-SMC (Sequential Monte Carlo) 用の Python フレームワーク。 [69]
ピムMC ベイズ統計モデリングと確率的機械学習のための Python パッケージ。 [70]
DIY-ABC 複雑な状況に遺伝子データを適合させるためのソフトウェア。競合モデルの比較。パラメータ推定。与えられたモデルと既知のパラメータ値に対するバイアスと精度の指標の計算。 [71]
abc Rパッケージ パラメータ推定とモデル選択を行うための複数のABCアルゴリズム。ABCのための非線形異分散回帰法。クロスバリデーションツール。 [72] [73]
EasyABC R パッケージ 4 つのシーケンシャル サンプリング スキームと 3 つの MCMC スキームを含む、効率的な ABC サンプリング スキームを実行するためのいくつかのアルゴリズム。 [74] [75]
ABC-SysBio Pythonパッケージ。動的システムのパラメータ推論とモデル選択。ABC棄却サンプラー、パラメータ推論用のABC SMC、モデル選択用のABC SMCを統合。システム生物学マークアップ言語(SBML)で記述されたモデルと互換性があります。決定論的モデルと確率論的モデルに対応。 [76]
ABCツールボックス 棄却サンプリング、尤度なしMCMC、粒子ベースサンプラー、ABC-GLMなど、様々なABCアルゴリズムに対応したオープンソースプログラム。ほとんどのシミュレーションおよび要約統計計算プログラムと互換性があります。 [77]
msベイズ Perlのフロントエンドで実行される複数のCおよびRプログラムで構成されるオープンソースソフトウェアパッケージ。階層的コアレッセンスモデル。共分布する複数の種の集団遺伝データ。 [78]
ポップABC 人口動態の分岐パターンを推論するためのソフトウェアパッケージ。合体シミュレーション。ベイズモデルの選択。 [79]
ワンサンプ マイクロサテライト遺伝子型のサンプルから有効個体群サイズを推定するWebベースのプログラム。有効個体群サイズの推定値と95%信頼限界を示します。 [80]
ABC4F 優勢なデータの F 統計量を推定するソフトウェア。 [81]
2悪い 2イベントベイズ混合。最大3つの親集団と最大2つの独立した混合イベントを推定できるソフトウェア。複数のパラメータ(混合、有効サイズなど)を推定。混合モデルのペアの比較。 [82]
エルフィ 尤度フリー推論エンジン。ELFI は、尤度フリー推論、シミュレータベース推論、近似ベイズ推論などとも呼ばれる近似ベイズ計算 (ABC) 用に Python で記述された統計ソフトウェア パッケージです。 [83]
ABCpy ABCおよびその他の尤度フリー推論スキーム用のPythonパッケージ。複数の最先端アルゴリズムが利用可能です。既存の生成アルゴリズム(C++、Rなど)、MPIまたはSparkを使用したユーザーフレンドリーな並列化、そして要約統計学習(ニューラルネットワークまたは線形回帰を使用)を迅速に統合する方法を提供します。 [84]

個々のソフトウェア パッケージの適合性は、使用する特定のアプリケーション、コンピュータ システム環境、および必要なアルゴリズムによって異なります。

参照

参考文献

この記事は、 CC BY 4.0ライセンス(2013年)(査読者レポート)に基づき、以下のソースから改変したものです: Mikael Sunnåker、Alberto Giovanni Busetto、Elina Numminen、Jukka Corander、Matthieu Foll、Christophe Dessimoz (2013). 「近似ベイズ計算」. PLOS Computational Biology . 9 (1) e1002803. doi : 10.1371/JOURNAL.PCBI.1002803 . ISSN  1553-734X. PMC 3547661.  PMID 23341757.  Wikidata Q4781761  .

  1. ^ Bharti, A; Briol, F.-X.; Pedersen, T (2021). 「カーネルを用いた確率的無線チャネルモデルのキャリブレーションのための一般的な手法」. IEEE Transactions on Antennas and Propagation . 70 (6): 3986– 4001. arXiv : 2012.09612 . doi :10.1109/TAP.2021.3083761. S2CID  233880538.
  2. ^ Rubin, DB (1984). 「ベイズ的に正当化可能で適切な頻度計算:応用統計学者向け」. 『統計年報』 . 12 (4): 1151–1172 . doi : 10.1214/aos/1176346785 .
  3. ^ Stigler, Stephen M. (2010). 「ダーウィン、ゴルトン、そして統計的啓蒙」の図5を参照王立統計学会誌。シリーズA(社会における統計) . 173 (3): 469– 482. doi :10.1111/j.1467-985X.2010.00643.x. ISSN  0964-1998. S2CID  53333238.
  4. ^ Diggle, PJ (1984). 「暗黙的統計モデルのためのモンテカルロ推論法」.王立統計学会誌, シリーズB. 46 ( 2): 193– 227. doi :10.1111/j.2517-6161.1984.tb01290.x.
  5. ^ Bartlett, MS (1963). 「点過程のスペクトル解析」.王立統計学会誌, シリーズB. 25 ( 2): 264– 296. doi :10.1111/j.2517-6161.1963.tb00508.x.
  6. ^ Hoel, DG; Mitchell, TJ (1971). 「確率的細胞増殖モデルのシミュレーション、フィッティング、および検証」.バイオメトリクス. 27 (1): 191– 199. doi :10.2307/2528937. JSTOR  2528937. PMID  4926451.
  7. ^ Tavaré, S; Balding, DJ; Griffiths, RC; Donnelly, P (1997). 「DNA配列データからの凝集時間の推定」. Genetics . 145 (2): 505– 518. doi :10.1093/genetics/145.2.505. PMC 1207814. PMID 9071603  . 
  8. ^ Pritchard, JK; Seielstad, MT; Perez-Lezaun, A; et al. (1999). 「ヒトY染色体の個体数増加:Y染色体マイクロサテライトの研究」. Molecular Biology and Evolution . 16 (12): 1791– 1798. doi : 10.1093/oxfordjournals.molbev.a026091 . PMID  10605120.
  9. ^ ab Beaumont, MA; Zhang, W; Balding, DJ (2002). 「集団遺伝学における近似ベイズ計算」. Genetics . 162 (4): 2025– 2035. doi :10.1093/genetics/162.4.2025. PMC 1462356. PMID  12524368 . 
  10. ^ Christopher C Drovandi (2018). 「ABCと間接推論」. arXiv : 1803.01999 [stat.CO].
  11. ^ abcd Peters, Gareth (2009). 「近似ベイズ計算と多次元サンプリング手法の進歩」. SSRN電子ジャーナル. doi :10.2139/ssrn.3785580. hdl : 1959.4/50086 . ISSN  1556-5068.
  12. ^ デル・モラル、ピエール;ドゥーセ、アルノー。ジャスラ、アジェイ (2006)。 「シーケンシャル モンテカルロ サンプラー」。王立統計協会のジャーナル。シリーズ B (統計的方法論)68 (3): 411–436。arXiv : cond-mat / 0212648 土井:10.1111/j.1467-9868.2006.00553.x。ISSN  1369-7412。JSTOR  3879283。
  13. ^ Del Moral, Pierre; Doucet, Arnaud; Peters, Gareth (2004). 「シーケンシャル・モンテカルロ・サンプラーCUED技術レポート」 . SSRN電子ジャーナル. doi :10.2139/ssrn.3841065. ISSN  1556-5068.
  14. ^ Peters, Gareth (2005). 「シーケンシャルモンテカルロサンプラーのトピック」 . SSRN電子ジャーナル. doi :10.2139/ssrn.3785582. ISSN  1556-5068.
  15. ^ Sisson, SA; Fan, Y.; Tanaka, Mark M. (2007-02-06). 「尤度を用いない逐次モンテカルロ法」. Proceedings of the National Academy of Sciences . 104 (6): 1760– 1765. Bibcode :2007PNAS..104.1760S. doi : 10.1073/pnas.0607208104 . ISSN  0027-8424. PMC 1794282. PMID 17264216  . 
  16. ^ Peters, GW; Sisson, SA; Fan, Y. (2012-11-01). 「α安定モデルにおける尤度フリーベイズ推論」 .計算統計とデータ分析. Annals of Computational and Financial Econometrics誌第1号. 56 (11): 3743– 3756. doi :10.1016/j.csda.2010.10.004. ISSN  0167-9473.
  17. ^ Peters, Gareth W.; Wüthrich, Mario V.; Shevchenko, Pavel V. (2010-08-01). 「チェーンラダー法:ベイズブートストラップ法と古典的ブートストラップ法」. Insurance: Mathematics and Economics . 47 (1): 36– 51. arXiv : 1004.2548 . doi :10.1016/j.insmatheco.2010.03.007. ISSN  0167-6687.
  18. ^ Busetto AG、Buhmann J. 生物学的動的システムの安定したベイズパラメータ推定。; 2009年。IEEEコンピュータ協会出版、pp. 148-157。
  19. ^ ハンター、ドーン (2006年12月8日). 「ベイズ推論、モンテカルロサンプリング、そしてオペレーショナルリスク」 .オペレーショナルリスクジャーナル. 1 (3): 27– 50. doi :10.21314/jop.2006.014.
  20. ^ abcdef Beaumont, MA (2010). 「進化と生態学における近似ベイズ計算」. Annual Review of Ecology, Evolution, and Systematics . 41 : 379–406 . doi :10.1146/annurev-ecolsys-102209-144621.
  21. ^ abcdefgh Bertorelle, G; Benazzo, A; Mona, S (2010). 「ABCは空間と時間にわたって人口動態を推定するための柔軟な枠組みである:いくつかの欠点と多くの利点」. Molecular Ecology . 19 (13): 2609– 2625. Bibcode :2010MolEc..19.2609B. doi : 10.1111/j.1365-294x.2010.04690.x . PMID  20561199. S2CID  12129604.
  22. ^ abcdefgh Csilléry, K; Blum, MGB; Gaggiotti, OE; François, O (2010). 「近似ベイズ計算(ABC)の実践」. Trends in Ecology & Evolution . 25 (7): 410– 418. Bibcode :2010TEcoE..25..410C. doi :10.1016/j.tree.2010.04.001. PMID  20488578. S2CID  13957079.
  23. ^ abcdefg Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). 「モデルエビデンスの尤度フリー推定」ベイズ分析6 : 49–76 . doi : 10.1214 /11-ba602 .
  24. ^ Lai, K; Robertson, MJ; Schaffer, DV (2004). 「双安定遺伝子スイッチとしてのソニックヘッジホッグシグナル伝達システム」Biophys. J. 86 ( 5): 2748– 2757. Bibcode :2004BpJ....86.2748L. doi :10.1016/s0006-3495(04)74328-3. PMC 1304145. PMID 15111393  . 
  25. ^ Marin, JM; Pudlo, P; Robert, CP; Ryder, RJ (2012). 「近似ベイズ計算法」.統計と計算. 22 (6): 1167– 1180. arXiv : 1101.0955 . doi :10.1007/s11222-011-9288-2. S2CID  40304979.
  26. ^ Robert, Christian P. (2016). 「近似ベイズ計算:最近の成果に関する概説」. Cools, R.; Nuyens, D. (編).モンテカルロ法と準モンテカルロ法. Springer Proceedings in Mathematics & Statistics. 第163巻. pp.  185– 205. arXiv : 1506.08292 . doi :10.1007/978-3-319-33507-0_7. ISBN 978-3-319-33505-6
  27. ^ Wilkinson, RG (2007). 霊長類の分岐時期のベイズ推定、ケンブリッジ大学博士論文。
  28. ^ ab Grelaud, A; Marin, JM; Robert, C; Rodolphe, F; Tally, F (2009). 「ギブス確率場におけるモデル選択のための尤度フリー法」ベイズ解析3 : 427–442 .
  29. ^ ab Toni, Tina; Stumpf, Michael PH (2010). 「システム生物学および集団生物学における動的システムのためのシミュレーションに基づくモデル選択」.バイオインフォマティクス. 26 (1): 104– 110. arXiv : 0911.1705 . doi :10.1093/bioinformatics/btp619. PMC 2796821. PMID 19880371  . 
  30. ^ ab Templeton, AR (2009). 「なぜ失敗する方法が使われ続けるのか?その答え」. Evolution . 63 (4): 807– 812. Bibcode :2009Evolu..63..807T. doi :10.1111/j.1558-5646.2008.00600.x. PMC 2693665. PMID  19335340 . 
  31. ^ abc Robert, CP; Cornuet, JM; Marin, JM; Pillai, NS (2011). 「近似ベイズ計算モデルの選択における信頼性の欠如」Proc Natl Acad Sci USA . 108 (37): 15112– 15117. Bibcode :2011PNAS..10815112R. doi : 10.1073/pnas.1102900108 . PMC 3174657 . PMID  21876135. 
  32. ^ Templeton, AR (2008). 「ネストされたクレード解析:強力な系統地理学的推論のための広範囲に検証された手法」. Molecular Ecology . 17 (8): 1877– 1880. Bibcode :2008MolEc..17.1877T. doi : 10.1111/j.1365-294x.2008.03731.x. PMC 2746708. PMID  18346121. 
  33. ^ abcde Templeton, AR (2009). 「種内系統地理学における統計的仮説検定:ネストされたクレード系統地理学的解析と近似ベイズ計算」. Molecular Ecology . 18 (2): 319– 331. Bibcode :2009MolEc..18..319T. doi :10.1111/j.1365-294x.2008.04026.x. PMC 2696056. PMID 19192182  . 
  34. ^ Berger, JO; Fienberg, SE; Raftery, AE; Robert, CP (2010). 「非一貫性な系統地理学的推論」. Proceedings of the National Academy of Sciences of the United States of America . 107 (41): E157. Bibcode :2010PNAS..107E.157B. doi : 10.1073/pnas.1008762107 . PMC 2955098. PMID  20870964 . 
  35. ^ abc Sisson, SA; Fan, Y; Tanaka, MM (2007). 「尤度を用いない逐次モンテカルロ法」Proc Natl Acad Sci USA . 104 (6): 1760– 1765. Bibcode :2007PNAS..104.1760S. doi : 10.1073/pnas.0607208104 . PMC 1794282 . PMID  17264216. 
  36. ^ Dean, Thomas A.; Singh, Sumeetpal S.; Jasra, Ajay; Peters, Gareth W. (2011). 「扱いにくい尤度を持つ隠れマルコフモデルのパラメータ推定」arXiv : 1103.5399 [math.ST].
  37. ^ abcd Fearnhead, Paul; Prangle, Dennis (2010). 「近似ベイズ計算のための要約統計量の構築:半自動ABC」. arXiv : 1004.1112 [stat.ME].
  38. ^ Blum, M; Francois, O (2010). 「近似ベイズ計算のための非線形回帰モデル」. Stat Comp . 20 : 63–73 . arXiv : 0809.4178 . doi :10.1007/s11222-009-9116-0. S2CID  2403203.
  39. ^ Leuenberger, C; Wegmann, D (2009). 「尤度を考慮しないベイズ計算とモデル選択」.遺伝学. 184 (1): 243– 252. doi :10.1534/genetics.109.109058. PMC 2815920. PMID  19786619 . 
  40. ^ ウィルキンソン、リチャード・デイビッド (2013). 「近似ベイズ計算(ABC)はモデル誤差の仮定の下で正確な結果を与える」.遺伝学および分子生物学における統計的応用. 12 (2): 129– 141. arXiv : 0811.3355 . doi :10.1515/sagmb-2013-0010. PMID  23652634.
  41. ^ Peters, Gareth William; Wuthrich, Mario V.; Shevchenko, Pavel V. (2009). 「チェーンラダー法:ベイジアンブートストラップ法と古典的ブートストラップ法」SSRN電子ジャーナル. arXiv : 1004.2548 . doi :10.2139/ssrn.2980411. ISSN  1556-5068.
  42. ^ Peters, GW; Sisson, SA; Fan, Y. (2009-12-23). 「α安定モデルのための尤度フリーベイズ推論」arXiv : 0912.4729 [stat.CO].
  43. ^ Blum, MGB; Nunes, MA; Prangle, D.; Sisson, SA (2013). 「近似ベイズ計算における次元削減法の比較レビュー」.統計科学. 28 (2). arXiv : 1202.3819 . Bibcode :2013StaSc..28TS406B. doi :10.1214/12-STS406.
  44. ^ ab Nunes, MA; Balding, DJ (2010). 「近似ベイズ計算における要約統計量の最適選択について」. Stat Appl Genet Mol Biol . 9 : Article 34. doi :10.2202/1544-6115.1576. PMID  20887273. S2CID  207319754.
  45. ^ Joyce, P; Marjoram, P (2008). 「近似的に十分な統計量とベイズ計算」. Stat Appl Genet Mol Biol . 7 (1): Article 26. doi :10.2202/1544-6115.1389. PMID  18764775. S2CID  38232110.
  46. ^ Wegmann, D; Leuenberger, C; Excoffier, L (2009). 「尤度を用いないマルコフ連鎖モンテカルロ法と組み合わせた効率的な近似ベイズ計算」.遺伝学. 182 (4): 1207– 1218. doi :10.1534 / genetics.109.102509. PMC 2728860. PMID  19506307. 
  47. ^ Prangle, Dennis; Fearnhead, Paul; Cox, Murray P.; Biggs, Patrick J.; French, Nigel P. (2014). 「ABCモデル選択のための要約統計量の半自動選択」. Stat Appl Genet Mol Biol . 13 (1): 67– 82. arXiv : 1302.5624 . doi :10.1515/sagmb-2013-0012. PMID  24323893.
  48. ^ ab Marjoram, P; Molitor, J; Plagnol, V; Tavare, S (2003). 「尤度を用いないマルコフ連鎖モンテカルロ法」Proc Natl Acad Sci USA . 100 (26): 15324– 15328. Bibcode :2003PNAS..10015324M. doi : 10.1073/pnas.0306899100 . PMC 307566 . PMID  14663152. 
  49. ^ Marin, J. -M.; Pillai, N.; Robert, CP; Rousseau, J. (2011). 「ベイズモデル選択のための関連統計量」arXiv : 1110.4700 [math.ST].
  50. ^ Toni, T; Welch, D; Strelkowa, N; Ipsen, A; Stumpf, M (2007). 「動的システムにおけるパラメータ推論とモデル選択のための近似ベイズ計算スキーム」. JR Soc Interface . 6 (31): 187– 202. doi :10.1098/rsif.2008.0172. PMC 2658655. PMID 19205079  . 
  51. ^ Arlot, S; Celisse, A (2010). 「モデル選択のためのクロスバリデーション手順の概説」.統計調査. 4 : 40–79 . arXiv : 0907.4728 . doi :10.1214/09-ss054. S2CID  14332192.
  52. ^ Dawid, A. 「現状と今後の展開:個人的な見解:統計理論:先行研究アプローチ」王立統計学会誌、シリーズA1984年278-292頁。
  53. ^ Vehtari, A; Lampinen, J (2002). 「クロスバリデーション予測密度を用いたベイズモデルの評価と比較」. Neural Computation . 14 (10): 2439– 2468. Bibcode :2002NeCom..14.2439V. CiteSeerX 10.1.1.16.3206 . doi :10.1162/08997660260293292. PMID  12396570. S2CID  366285. 
  54. ^ ab Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S (2009). 「尤度自由推論に基づくモデル批判とタンパク質ネットワーク進化への応用」. Proceedings of the National Academy of Sciences of the United States of America . 106 (26): 10576– 10581. Bibcode :2009PNAS..10610576R. doi : 10.1073/pnas.0807882106 . PMC 2695753. PMID  19525398 . 
  55. ^ ab Francois, O; Laval, G (2011). 「近似ベイズ計算におけるモデル選択のための逸脱情報基準」. Stat Appl Genet Mol Biol . 10 : Article 33. arXiv : 1105.0269 . Bibcode :2011arXiv1105.0269F. doi :10.2202/1544-6115.1678. S2CID  11143942.
  56. ^ Templeton, AR (2010). 「系統地理学と人類進化における一貫性と非一貫性の推論」.米国科学アカデミー紀要. 107 (14): 6376– 6381. Bibcode :2010PNAS..107.6376T. doi : 10.1073/pnas.0910647107 . PMC 2851988. PMID  20308555 . 
  57. ^ ab Beaumont, MA; Nielsen, R; Robert, C; Hey, J; Gaggiotti, O; et al. (2010). 「系統地理学におけるモデルベース推論の擁護」. Molecular Ecology . 19 (3​​): 436– 446. Bibcode :2010MolEc..19..436B. doi :10.1111/j.1365-294x.2009.04515.x. PMC 5743441. PMID  29284924 . 
  58. ^ Jaynes ET (1968)「事前確率」IEEE Transactions on Systems Science and Cyber​​netics 4.
  59. ^ Berger, JO (2006). 「客観的ベイズ分析の必要性」.ベイズ分析. 1 (385–402ページと457–464ページ): 385– 402. doi : 10.1214/06-BA115 .
  60. ^ Beaumont, MA; Cornuet, JM; Marin, JM; Robert, CP (2009). 「適応型近似ベイズ計算」. Biometrika . 96 (4): 983– 990. arXiv : 0805.2256 . doi :10.1093/biomet/asp052. S2CID  16579245.
  61. ^ Del Moral P, Doucet A, Jasra A (2011) 近似ベイズ計算のための適応型逐次モンテカルロ法. 統計とコンピューティング.
  62. ^ Feng, X; Buell, DA; Rose, JR; Waddellb, PJ (2003). 「ベイズ系統推論のための並列アルゴリズム」. Journal of Parallel and Distributed Computing . 63 ( 7–8 ): 707– 718. CiteSeerX 10.1.1.109.7764 . doi :10.1016/s0743-7315(03)00079-0. 
  63. ^ Bellman R (1961) 適応制御プロセス:ガイドツアー:プリンストン大学出版局。
  64. ^ ab Blum MGB (2010) 近似ベイズ計算:ノンパラメトリックな視点、アメリカ統計学会誌(105): 1178-1187
  65. ^ ab Fearnhead, P; Prangle, D (2012). 「近似ベイズ計算のための要約統計量の構築:半自動近似ベイズ計算」. Journal of the Royal Statistical Society, Series B. 74 ( 3): 419– 474. CiteSeerX 10.1.1.760.7753 . doi :10.1111/j.1467-9868.2011.01010.x. S2CID  53861241. 
  66. ^ Gerstner, T; Griebel, M (2003). 「次元適応型テンソル積求積法」. Computing . 71 : 65–87 . CiteSeerX 10.1.1.16.2434 . doi :10.1007/s00607-003-0015-5. S2CID  16184111. 
  67. ^ Singer, AB; Taylor, JW; Barton, PI; Green, WH (2006). 「化学反応速度論におけるパラメータ推定のためのグローバル動的最適化」. J Phys Chem A. 110 ( 3): 971– 976. Bibcode :2006JPCA..110..971S. doi :10.1021/jp0548873. PMID  16419997.
  68. ^ Cardenas, IC (2019). 「斜面安定性解析における不確実性分析のためのメタモデリングアプローチとしてのベイジアンネットワークの利用について」. Georisk: 工学システムと地盤災害のリスク評価と管理. 13 (1): 53– 65. Bibcode :2019GAMRE..13...53C. doi :10.1080/17499518.2018.1498524. S2CID  216590427.
  69. ^ Klinger, E.; Rickert, D.; Hasenauer, J. (2017). pyABC: 分散型、尤度フリー推論。
  70. ^ Salvatier, John; Wiecki, Thomas V.; Fonnesbeck, Christopher (2016). 「PyMC3を用いたPythonでの確率的プログラミング」. PeerJ Computer Science . 2 e55. arXiv : 1507.08050 . doi : 10.7717/peerj-cs.55 .
  71. ^ Cornuet, JM; Santos, F; Beaumont, M; et al. (2008). 「DIY ABCによる集団史の推論:ベイズ近似計算へのユーザーフレンドリーなアプローチ」. Bioinformatics . 24 (23): 2713– 2719. doi :10.1093/bioinformatics/btn514. PMC 2639274. PMID 18842597  . 
  72. ^ Csilléry, K; François, O; Blum, MGB (2012). 「abc: 近似ベイズ計算のためのRパッケージ (ABC)」. Methods in Ecology and Evolution . 3 (3): 475– 479. arXiv : 1106.2793 . Bibcode :2012MEcEv...3..475C. doi :10.1111/j.2041-210x.2011.00179.x. S2CID  16679366.
  73. ^ Csillery, K; Francois, O; Blum, MGB (2012-02-21). 「Rにおける近似ベイズ計算(ABC):事例」(PDF) . 2013年5月10日閲覧
  74. ^ Jabot, F; Faure, T; Dumoulin, N (2013). 「EasyABC: Rを用いた効率的な近似ベイズ計算サンプリングスキームの実行」Methods in Ecology and Evolution . 4 (7): 684– 687. Bibcode :2013MEcEv...4..684J. doi : 10.1111/2041-210X.12050 .
  75. ^ Jabot, F; Faure, T; Dumoulin, N (2013-06-03). 「EasyABC: a vignette」(PDF) . 2016年8月18日時点のオリジナル(PDF)からアーカイブ。 2016年7月19日閲覧
  76. ^ Liepe, J; Barnes, C; Cule, E; Erguler, K; Kirk, P; Toni, T; Stumpf, MP (2010). 「ABC-SysBio—GPUサポートを備えたPythonによる近似ベイズ計算」. Bioinformatics . 26 (14): 1797– 1799. doi :10.1093/bioinformatics/btq278. PMC 2894518. PMID  20591907 . 
  77. ^ Wegmann, D; Leuenberger, C; Neuenschwander, S; Excoffier, L (2010). 「ABCtoolbox:近似ベイズ計算のための多用途ツールキット」. BMC Bioinformatics . 11 116. doi : 10.1186/1471-2105-11-116 . PMC 2848233. PMID  20202215 . 
  78. ^ Hickerson, MJ; Stahl, E; Takebayashi, N (2007). 「msBayes: 階層的近似ベイズ計算を用いた比較系統地理学的歴史の検証パイプライン」BMC Bioinformatics . 8 (268): 1471– 2105. doi : 10.1186/1471-2105-8-268 . PMC 1949838 . PMID  17655753. 
  79. ^ Lopes, JS; Balding, D; Beaumont, MA (2009). 「PopABC:歴史的人口統計パラメータを推定するプログラム」.バイオインフォマティクス. 25 (20): 2747– 2749. doi :10.1093/bioinformatics/btp487. PMID  19679678.
  80. ^ Tallmon, DA; Koyuk, A; Luikart, G; Beaumont, MA (2008). 「コンピュータプログラム:onesamp:近似ベイズ計算を用いた有効個体群サイズ推定プログラム」. Molecular Ecology Resources . 8 (2): 299– 301. Bibcode :2008MolER...8..299T. doi :10.1111/j.1471-8286.2007.01997.x. PMID  21585773. S2CID  9848290.
  81. ^ Foll, M; Baumont, MA; Gaggiotti, OE (2008). 「集団構造を研究するためにAFLPマーカーを使用する際に生じるバイアスを克服するための近似ベイズ計算アプローチ」. Genetics . 179 (2): 927– 939. doi :10.1534/genetics.107.084541. PMC 2429886. PMID  18505879 . 
  82. ^ Bray, TC; Sousa, VC; Parreira, B; Bruford, MW; Chikhi, L (2010). 「2BAD:2つの独立した入園イベントにおける親の寄与を推定するための応用」. Molecular Ecology Resources . 10 (3): 538– 541. Bibcode :2010MolER..10..538B. doi :10.1111/j.1755-0998.2009.02766.x. hdl : 10400.7/205 . PMID  21565053. S2CID  6528668.
  83. ^ Kangasrääsiö、アンティ;リントゥサーリ、ヤルノ。スカイテン、クスティ;ヤルヴェンパー、マルコ;ヴオレコスキー、アンリ。ガットマン、マイケル。ヴェフタリ、アキ。コランダー、ジュッカ。カスキ、サミュエル (2016)。 「ELFI: 尤度のない推論のためのエンジン」(PDF)NIPS 2016 近似ベイズ推論の進歩に関するワークショップarXiv : 1708.00707ビブコード:2017arXiv170800707L。
  84. ^ Dutta, R; Schoengens, M; Pacchiardi, L; Ummadisingu, A; Widmer, N; Onnela, JP; Mira, A (2021). 「ABCpy:ベイズ計算を近似するための高性能コンピューティングの視点」. Journal of Statistical Software . 100 (7). arXiv : 1711.04694 . doi : 10.18637/jss.v100.i07 . S2CID  88516340.
  • ダレン・ウィルキンソン (2013年3月31日). 「近似ベイズ計算入門」 . 2013年3月31日閲覧.
  • Rasmus Bååth (2014年10月20日). 「小さなデータ、近似ベイズ計算、そしてカール・ブローマンの靴下」 . 2015年1月22日閲覧
Retrieved from "https://en.wikipedia.org/w/index.php?title=Approximate_Bayesian_computation&oldid=1332071078"