尤度関数

尤度関数(単に尤度と呼ばれることが多い)は、統計モデルが観測データをどの程度適切に説明できるかを、モデルの異なるパラメータ値の下で観測データが観測される確率を計算することで測定する。尤度関数は、観測データを(おそらく)生成した確率変数結合確率分布から構築される。[ 1 ] [ 2 ] [ 3 ]実際のデータポイントで評価すると、尤度関数はモデルパラメータのみの関数となる。

最大尤度推定では、尤度関数を最大化するモデルパラメータまたは引数が未知のパラメータの点推定として機能し、一方、フィッシャー情報(多くの場合、最大値での尤度のヘッセ行列によって近似される)は推定値の精度の指標を提供します。

対照的に、ベイズ統計では、関心のある推定値は尤度の逆数、つまり観測データが与えられたパラメータの事後確率であり、ベイズの定理に従って計算される。[ 4 ]

意味

尤度関数は、(多変量パラメータの場合もある)パラメータで表され、離散確率分布と連続確率分布では異なる定義がされることが多い(より一般的な定義については後述する)。確率密度関数または質量関数が与えられた場合、 θ{\textstyle \theta }

×f×θ{\displaystyle x\mapsto f(x\mid \theta ),}

ここでは確率変数の実現値であり、尤度関数は 次のように書かれることが多い。 ×{\textstyle x}X{\textstyle X}θf×θ{\displaystyle \theta \mapsto f(x\mid \theta ),}Lθ×{\displaystyle {\mathcal {L}}(\theta \mid x).}

言い換えれば、を固定したの関数として見ると確率密度関数となり、を固定したの関数として見ると尤度関数となります。頻度主義パラダイムでは、 という表記はしばしば避けられ、代わりにまたは が、が条件付けされる 確率変数ではなく、固定された未知数として扱われることを示すために使用されます。f×θ{\textstyle f(x\mid \theta )}x{\textstyle x}θ{\textstyle \theta }θ{\textstyle \theta }x{\textstyle x}f(xθ){\textstyle f(x\mid \theta )}f(x;θ){\textstyle f(x;\theta )}f(x,θ){\textstyle f(x,\theta )}θ{\textstyle \theta }

尤度関数は、観測された標本が与えられた場合に、真実である確率を特定するものではありません。このような解釈はよくある誤りであり、悲惨な結果をもたらす可能性があります(検察官の誤謬を参照)。 θ{\textstyle \theta }X=x{\textstyle X=x}

離散確率分布

をパラメータに依存する確率質量関数を持つ離散確率変数とする。このとき、関数 X{\textstyle X}p{\textstyle p}θ{\textstyle \theta }

L(θx)=pθ(x)=Pθ(X=x)=Pr{X=xΘ=θ},{\displaystyle {\mathcal {L}}(\theta \mid x)=p_{\theta }(x)=P_{\theta }(X=x)={\text{Pr}}\{X=x\mid \Theta =\theta \},}

決定論的だが未知のパラメータ の可能な値の関数として考えられる尤度関数 は、確率変数 の結果が与えられた場合の尤度関数です。「パラメータ値 に対するの値」の確率は、 P ( X = x | θ )またはP ( X = x ; θ )と表記されることがあります。尤度は、パラメータ の真の値が であるときに特定の結果が観測される確率であり、 上の確率密度に相当します。これは、パラメータ 上の確率密度ではありません。尤度 は、データ が与えられた場合の の事後確率である と混同しないでください。 θ{\textstyle \theta }Θ{\textstyle \Theta }x{\textstyle x}X{\textstyle X}x{\textstyle x}X{\textstyle X}θ{\textstyle \theta }x{\textstyle x}θ{\textstyle \theta }x{\textstyle x}θ{\textstyle \theta }L(θx){\textstyle {\mathcal {L}}(\theta \mid x)}P(θx){\textstyle P(\theta \mid x)}θ{\textstyle \theta }x{\textstyle x}

図1. HHを観測した場合の、コインが表向きになる確率(コインの公平性に関する事前知識なし)の尤度関数( )。pH2{\textstyle p_{\text{H}}^{2}}
図 2. HHT を観察した場合の、コインが表向きに着地する確率 (コインの公平性に関する事前知識なし) の尤度関数 ( )。pH2(1pH){\textstyle p_{\text{H}}^{2}(1-p_{\text{H}})}

コイン投げの単純な統計モデルを考えてみましょう。コインの「公平性」を表す単一のパラメータがあります。このパラメータは、コインを投げた際に表が出る確率(「H」)です。は0.0から1.0の範囲の任意の値を取ります。完全に公平なコインの場合、となります。 pH{\textstyle p_{\text{H}}}pH{\textstyle p_{\text{H}}}pH=0.5{\textstyle p_{\text{H}}=0.5}

公平なコインを2回投げ、2回とも表が出る(「HH」)と仮定する。連続するコイン投げがそれぞれ独立同値であると仮定すると、HHが観測される確率は

P(HHpH=0.5)=0.52=0.25.{\displaystyle P({\text{HH}}\mid p_{\text{H}}=0.5)=0.5^{2}=0.25.}

同様に、「HH」を観測する確率は、 pH=0.5{\textstyle p_{\text{H}}=0.5}

L(pH=0.5HH)=0.25.{\displaystyle {\mathcal {L}}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.}

これは、 と言っているのとは異なります。この結論は、周辺確率と についての知識があれば、ベイズの定理によってのみ到達できるものです。 P(pH=0.5HH)=0.25{\textstyle P(p_{\text{H}}=0.5\mid {\text{HH}})=0.25}P(pH=0.5){\textstyle P(p_{\text{H}}=0.5)}P(HH){\textstyle P({\text{HH}})}

ここで、コインが公平なコインではなく、 であると仮定します。この場合、2回投げて2回とも表が出る確率は pH=0.3{\textstyle p_{\text{H}}=0.3}

P(HHpH=0.3)=0.32=0.09.{\displaystyle P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.}

したがって

L(pH=0.3HH)=0.09.{\displaystyle {\mathcal {L}}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.}

より一般的には、 の各値に対して、対応する尤度を計算することができます。この計算結果を図1に示します。 の[0, 1] における積分は 1/3 です。尤度はパラメータ空間全体で積分したり和が 1 になる必要はありません。 pH{\textstyle p_{\text{H}}}L{\textstyle {\mathcal {L}}}

連続確率分布

を、パラメータに依存する密度関数(の関数)を持つ絶対連続確率分布に従う確率変数とします。このとき、関数 X{\textstyle X}f{\textstyle f}x{\textstyle x}θ{\textstyle \theta }

L(θx)=fθ(x),{\displaystyle {\mathcal {L}}(\theta \mid x)=f_{\theta }(x),}

を の関数として考えると、 は( の、結果を与えられた場合の)尤度関数です。繰り返しますが、 は観測値 を与えられた場合の の関数であるにもかかわらず、上の確率密度関数や質量関数ではありません。 θ{\textstyle \theta }θ{\textstyle \theta }X=x{\textstyle X=x}L{\textstyle {\mathcal {L}}}θ{\textstyle \theta }θ{\textstyle \theta }X=x{\textstyle X=x}

尤度関数と確率密度関数の関係

上記の尤度関数を特定するために確率密度を使用する理由は、以下の通りです。観測値が与えられた場合、区間 (ただしは定数)の尤度は で与えられます。は正で定数であるため、 となることに注意してください 。なぜならxj{\textstyle x_{j}}[xj,xj+h]{\textstyle [x_{j},x_{j}+h]}h>0{\textstyle h>0}L(θx[xj,xj+h]){\textstyle {\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}{+}h])}argmaxθL(θx[xj,xj+h])=argmaxθ1hL(θx[xj,xj+h]),{\displaystyle \mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}{+}h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}{+}h]),}h{\textstyle h}argmaxθ1hL(θx[xj,xj+h])=argmaxθ1hPr(xjxxj+hθ)=argmaxθ1hxjxj+hf(xθ)dx,{\displaystyle {\begin{aligned}\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}{+}h])&=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\Pr(x_{j}\leq x\leq x_{j}{+}h\mid \theta )\\&=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx,\end{aligned}}}

ここで確率密度関数は f(xθ){\textstyle f(x\mid \theta )}

argmaxθL(θx[xj,xj+h])=argmaxθ1hxjxj+hf(xθ)dx.{\displaystyle \mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx.}

微積分学の第一基本定理は、 limh0+1hxjxj+hf(xθ)dx=f(xjθ).{\displaystyle \lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx=f(x_{j}\mid \theta ).}

それから argmaxθL(θxj)=argmaxθ[limh0+L(θx[xj,xj+h])]=argmaxθ[limh0+1hxjxj+hf(xθ)dx]=argmaxθf(xjθ).{\displaystyle {\begin{aligned}\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})&=\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\mathcal {L}}(\theta \mid x\in [x_{j},\,x_{j}{+}h])\right]\\[4pt]&=\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx\right]\\[4pt]&=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ).\end{aligned}}}

したがって、 における確率密度を最大化することは、特定の観測の尤度を最大化することと同義です。 argmaxθL(θxj)=argmaxθf(xjθ),{\displaystyle \mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ),}xj{\textstyle x_{j}}xj{\textstyle x_{j}}

一般的に

測度論的確率論では、密度関数は、共通の支配的測度に対する確率分布のラドン・ニコディム微分として定義されます。 [ 5 ]尤度関数は、この密度をランダム変数ではなくパラメータの関数として解釈したものです。[ 6 ]したがって、離散分布、連続分布、混合分布など、あらゆる分布に対して尤度関数を構築できます。(尤度は、例えばパラメータ推定の場合、同じ支配的測度に対するラドン・ニコディム微分である場合にのみ比較可能です。)

離散確率変数の尤度に関する上記の議論では、任意の結果における確率密度がその結果の確率に等しくなる 計数測度を使用しています。

連続・離散混合分布の尤度

上記は、離散成分と連続成分の両方を含む分布を考慮できるように簡単な方法で拡張できます。分布が多数の離散確率質量と密度で構成され、の積分に加えられたのすべての の合計が常に 1 になるとします。離散確率質量の 1 つに対応する観測値と密度成分に対応する観測値を区別することが可能であると仮定すると、連続成分からの観測値の尤度関数は、上記で示した方法で扱うことができます。離散成分からの観測値の場合、離散成分からの観測値の尤度関数は単に となります。 ここでは、観測値 に対応する離散確率質量のインデックスです。 における確率質量 (または確率) を最大化することは、特定の観測値の尤度を最大化することと同じになるからです。 pk(θ){\textstyle p_{k}(\theta )}f(xθ){\textstyle f(x\mid \theta )}p{\textstyle p}f{\textstyle f}L(θx)=pk(θ),{\displaystyle {\mathcal {L}}(\theta \mid x)=p_{k}(\theta ),}k{\textstyle k}x{\textstyle x}x{\textstyle x}

尤度関数が、釣り合わない寄与(密度と確率質量)を含む方法で定義できるという事実は、尤度関数が比例定数まで定義される方法から生じます。この「定数」は観測値 とともに変化しますが、パラメータ とともに変化することはありません。 x{\textstyle x}θ{\textstyle \theta }

規則性条件

パラメータ推定の文脈では、尤度関数は通常、正則性条件として知られる特定の条件に従うと仮定される。これらの条件は尤度関数を伴う様々な証明で仮定されており、それぞれの特定の応用において検証する必要がある。最大尤度推定では、尤度関数の大域的最大値の存在が最も重要である。極値定理によれば、最大尤度推定量が存在するためには、尤度関数がコンパクトなパラメータ空間上で連続していれば十分である。 [ 7 ]連続性の仮定は通常満たされるが、真のパラメータ値の範囲が不明な場合があるため、パラメータ空間に関するコンパクト性の仮定は満たされないことが多い。その場合、尤度関数の凹面性が重要な役割を果たします。

より具体的には、尤度関数がk次元パラメータ空間上で連続的に二回微分可能であり、その空間が の連結部分集合であると仮定した場合、第二偏微分行列が任意のに対して負定値で勾配がゼロになる唯一の最大値が存在し、尤度関数がパラメータ空間の境界、すなわち が有界でない 場合に無限遠点を含む可能性がある境界上で定数に近づくと、この結果が証明される。Mäkeläinen らは、この結果をモース理論を用いて証明し、非公式に峠特性を援用している。[ 8 ] Mascarenhas は、峠定理を用いて証明を再述している。[ 9 ]Θ{\textstyle \Theta }Rk,{\textstyle \mathbb {R} ^{k}\,,}θ^Θ{\textstyle {\hat {\theta }}\in \Theta }H(θ)[2Lθiθj]i,j=1,1ni,nj{\displaystyle \mathbf {H} (\theta )\equiv \left[\,{\frac {\partial ^{2}L}{\partial \theta _{i}\,\partial \theta _{j}}}\,\right]_{i,j=1,1}^{n_{\mathrm {i} },n_{\mathrm {j} }}\;}θΘ{\textstyle \theta \in \Theta }L[Lθi]i=1ni{\textstyle \nabla L\equiv \left[{\frac {\partial L}{\partial \theta _{i}}}\right]_{i=1}^{n_{\mathrm {i} }}}Θ,{\textstyle \partial \Theta ,}limθΘL(θ)=0,{\displaystyle \lim _{\theta \to \partial \Theta }L(\theta )=0\;,}Θ{\textstyle \Theta }

最大尤度推定量の一貫性と漸近正規性の証明では、特定の尤度関数の基礎となる確率密度について追加の仮定がなされる。これらの条件は、初めてチャンダによって確立された。[ 10 ]特に、テイラー展開の存在を保証するためには、ほぼすべての に対してが、すべての に対して が 成立する必要がある。次に、ほぼすべての に対して が成立し、すべての に対して が成立する必要がある 。 ここでは成立する。この導関数の有界性は、積分符号 の下での微分を可能にするために必要である。そして最後に、情報行列 が定値 であり、が有限であると仮定する。これにより、スコアが有限の分散を持つことが保証される。[ 11 ]x{\textstyle x}θΘ,{\textstyle \,\theta \in \Theta \,,}logfθr,2logfθrθs,3logfθrθsθt{\displaystyle {\frac {\partial \log f}{\partial \theta _{r}}}\,,\quad {\frac {\partial ^{2}\log f}{\partial \theta _{r}\partial \theta _{s}}}\,,\quad {\frac {\partial ^{3}\log f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\,}r,s,t=1,2,,k{\textstyle \,r,s,t=1,2,\ldots ,k\,}x{\textstyle x}θΘ{\textstyle \,\theta \in \Theta \,}|fθr|<Fr(x),|2fθrθs|<Frs(x),|3fθrθsθt|<Hrst(x){\displaystyle \left|{\frac {\partial f}{\partial \theta _{r}}}\right|<F_{r}(x)\,,\quad \left|{\frac {\partial ^{2}f}{\partial \theta _{r}\,\partial \theta _{s}}}\right|<F_{rs}(x)\,,\quad \left|{\frac {\partial ^{3}f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\right|<H_{rst}(x)}H{\textstyle H}Hrst(z)dzM<.{\textstyle \,\int _{-\infty }^{\infty }H_{rst}(z)\mathrm {d} z\leq M<\infty \;.}I(θ)=logfθr logfθs f dz{\displaystyle \mathbf {I} (\theta )=\int _{-\infty }^{\infty }{\frac {\partial \log f}{\partial \theta _{r}}}\ {\frac {\partial \log f}{\partial \theta _{s}}}\ f\ \mathrm {d} z}|I(θ)|{\textstyle \,\left|\mathbf {I} (\theta )\right|\,}

上記の条件は十分条件ではあるが、必須条件ではない。つまり、これらの正則性条件を満たさないモデルは、上記の特性の最尤推定値を持つ場合もあれば、持たない場合もある。さらに、観測値が独立に分布していない、あるいは同一に分布していない場合は、追加の特性を仮定する必要があるかもしれない。

ベイズ統計学では、事後確率の漸近正規性を証明し、[ 12 ] [ 13 ] 、大規模なサンプルでの事後確率のラプラス近似を正当化するために、尤度関数にほぼ同一の正則性条件が課せられます。[ 14 ]

尤度比と相対尤度

尤度比

尤度比、指定された 2 つの尤度の比であり、次のように記述されることが多いです。 Λ(θ1:θ2x)=L(θ1x)L(θ2x).{\displaystyle \Lambda (\theta _{1}:\theta _{2}\mid x)={\frac {{\mathcal {L}}(\theta _{1}\mid x)}{{\mathcal {L}}(\theta _{2}\mid x)}}.}

尤度比は尤度統計学の中心です。尤度の法則では、データ (証拠としてみなされる) が 1 つのパラメータ値と別のパラメータ値をどの程度支持するかが尤度比によって測定されると述べています。

頻度主義的推論において、尤度比は検定統計量、いわゆる尤度比検定の基礎となる。ネイマン・ピアソンの補題によれば、これは与えられた有意水準で2つの単純な仮説を比較する最も強力な検定法である。他にも多くの検定法が尤度比検定またはその近似値として考えられる。[ 15 ]検定統計量として考えられる対数尤度比の漸近分布は、ウィルクスの定理によって与えられる。

尤度比はベイズ推論においても中心的な役割を果たし、ベイズ係数として知られ、ベイズの定理で用いられます。オッズの観点から述べると、ベイズの定理は、ある事象を仮定した場合の2つの選択肢⁠の事後オッズは、事前オッズに尤度比を掛けたものになる、というものです。式で表すと、 A1{\displaystyle A_{1}}A2{\displaystyle A_{2}}B{\displaystyle B}O(A1:A2B)=O(A1:A2)Λ(A1:A2B).{\displaystyle O(A_{1}:A_{2}\mid B)=O(A_{1}:A_{2})\cdot \Lambda (A_{1}:A_{2}\mid B).}

AICベースの統計では、尤度比は直接的には使用されません。代わりに、モデルの相対的な尤度が使用されます(下記参照)。

証拠に基づく医療では、診断検査を実行する価値を評価するために、診断検査で尤度比が使用されます

相対尤度関数

尤度関数の実際の値はサンプルによって異なるため、標準化された尺度を用いると便利な場合が多い。パラメータθの最大尤度推定値が であると仮定する。他のθ値の相対的な妥当性は、それらの他の値の尤度を の尤度と比較することによって求めることができる。θ相対尤度は[ 16 ] [ 17 ] [ 18 ] [ 19 ] [ 20 ]と定義される 。したがって、相対尤度は、分母を固定した尤度比(上記で説明)である。これは、尤度を最大値 1 に標準化することに相当する。 θ^{\textstyle {\hat {\theta }}}θ^{\textstyle {\hat {\theta }}}R(θ)=L(θx)L(θ^x).{\displaystyle R(\theta )={\frac {{\mathcal {L}}(\theta \mid x)}{{\mathcal {L}}({\hat {\theta }}\mid x)}}.}L(θ^){\textstyle {\mathcal {L}}({\hat {\theta }})}

可能性地域

尤度領域とは、相対尤度が与えられた閾値以上となるθの値の集合である。パーセンテージで表すと、 θp %尤度領域は[ 16 ] [ 18 ] [ 21 ]と定義される。

{θ:R(θ)p100}.{\displaystyle \left\{\theta :R(\theta )\geq {\frac {p}{100}}\right\}.}

θが単一の実パラメータである場合、 p %尤度領域は通常、実数値の区間から構成されます。もしその領域が区間から構成される場合、それは尤度区間と呼ばれます。[ 16 ] [ 18 ] [ 22 ]

尤度区間、より一般的には尤度領域は、尤度主義統計における区間推定に用いられます。これは、頻度主義統計における信頼区間やベイズ統計における信用区間に類似しています。尤度区間は、被覆確率(頻度主義)や事後確率(ベイズ主義)ではなく、相対尤度に基づいて直接解釈されます。

モデルが与えられれば、尤度区間は信頼区間に例えることができる。θ が単一の実数パラメータである場合特定の条件下では、θの 14.65% 尤度区間(約 1:7 の尤度)は 95% 信頼区間(19/20 の被覆確率)と同じになる。[ 16 ] [ 21 ]対数尤度の使用に適したわずかに異なる定式化(ウィルクスの定理を参照)では、検定統計量は対数尤度の差の 2 倍となり、検定統計量の確率分布は、自由度(df)が 2 つのモデル間の df の差に等しいカイ 2 乗分布に近似する(したがって、 e −2尤度区間は 0.954 の信頼区間と同じであり、df の差が 1 であると仮定する)。[ 21 ] [ 22 ]

不要なパラメータを排除する尤度

多くの場合、尤度は複数のパラメータの関数ですが、関心は1つ、あるいは多くても数個のパラメータの推定に絞られ、残りは不要なパラメータとみなされます。このような不要なパラメータを排除し、尤度を関心のある1つのパラメータ(または複数のパラメータ)のみの関数として表すことができる代替アプローチがいくつか開発されています。主なアプローチは、プロファイル尤度、条件付き尤度、周辺尤度です。[ 23 ] [ 24 ]これらのアプローチは、グラフを作成するために高次元の尤度面を1つまたは2つの関心パラメータに縮小する必要がある場合にも役立ちます。

プロファイルの可能性

不要なパラメータを関心のあるパラメータの関数として表現し、それを尤度関数に置き換えることで、パラメータのサブセットの尤度関数を集中させることで次元を削減することが可能である。[ 25 ] [ 26 ]一般に、パラメータベクトルに依存する尤度関数を に分割でき、対応関係を明示的に決定できる場合、集中によって元の最大化問題の計算負荷が軽減される。 [ 27 ]θ{\textstyle \mathbf {\theta } }θ=(θ1:θ2){\textstyle \mathbf {\theta } =\left(\mathbf {\theta } _{1}:\mathbf {\theta } _{2}\right)}θ^2=θ^2(θ1){\textstyle \mathbf {\hat {\theta }} _{2}=\mathbf {\hat {\theta }} _{2}\left(\mathbf {\theta } _{1}\right)}

例えば、正規分布の誤差を持つ線形回帰において、係数ベクトルは(したがって計画行列も)に分割できます。 を に関して最大​​化すると、最適値関数 が得られます。この結果を用いて、 の最大尤度推定値はと導出できます 。 ここで、 はの射影行列です。この結果はフリッシュ・ウォーフ・ラヴェルの定理として知られています。 y=Xβ+u{\textstyle \mathbf {y} =\mathbf {X} \beta +u}β=[β1:β2]{\textstyle \beta =\left[\beta _{1}:\beta _{2}\right]}X=[X1:X2]{\textstyle \mathbf {X} =\left[\mathbf {X} _{1}:\mathbf {X} _{2}\right]}β2{\textstyle \beta _{2}}β2(β1)=(X2TX2)1X2T(yX1β1){\textstyle \beta _{2}(\beta _{1})=\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}\left(\mathbf {y} -\mathbf {X} _{1}\beta _{1}\right)}β1{\textstyle \beta _{1}}β^1=(X1T(IP2)X1)1X1T(IP2)y{\displaystyle {\hat {\beta }}_{1}=\left(\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {X} _{1}\right)^{-1}\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {y} }P2=X2(X2TX2)1X2T{\textstyle \mathbf {P} _{2}=\mathbf {X} _{2}\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}}X2{\textstyle \mathbf {X} _{2}}

グラフ上では、集中化の手順は、尤度関数を最大化する偽パラメータの値の稜線に沿って尤度面をスライスし、与えられた尤度関数の等尺プロファイルを作成することと同等であるため、この手順の結果はプロファイル尤度とも呼ばれます。[ 28 ] [ 29 ]プロファイル尤度はグラフ化できるだけでなく、信頼区間を計算するためにも使用できます。信頼区間は、完全尤度から計算される漸近標準誤差に基づく信頼区間よりも小規模サンプルの特性が優れていることがよくあります。[ 30 ] [ 31 ]β2{\textstyle \beta _{2}}β1{\textstyle \beta _{1}}

条件付き尤度

時には、不要なパラメータに対して十分な統計量を見つけることが可能であり、この統計量に基づいて条件付けを行うことで、不要なパラメータに依存しない尤度が得られる。[ 32 ]

一例として、2×2表が挙げられます。ここでは、4つの周辺合計すべてに条件付けを行うことで、非心超幾何分布に基づく条件付き尤度が得られます。この形式の条件付けは、フィッシャーの正確検定の基礎でもあります。

周辺尤度

データに含まれる情報の一部のみに基づく尤度を考慮することで、不要なパラメータを除去できる場合があります。例えば、数値ではなく順位集合を用いるなどです。別の例としては、線形混合モデルが挙げられます。このモデルでは、固定効果を当てはめた後にのみ残差の尤度を考慮することで、分散成分の 残差最大尤度推定が可能になります。

部分尤度

部分尤度は、全尤度を適応させたもので、パラメータの一部(関心のあるパラメータ)のみが含まれます。[ 33 ]これは比例ハザードモデルの重要な要素です。ハザード関数に制約を加えることで、尤度には時間の経過に伴うハザードの形状が含まれなくなります。

尤度の積

2 つ以上の独立したイベントが与えられた場合の尤度は、個々のイベントの尤度の積です。 これは、確率における独立性の定義に従います。つまり、モデルが与えられた場合、2 つの独立したイベントが発生する確率は、確率の積です。 Λ(AX1X2)=Λ(AX1)Λ(AX2).{\displaystyle \Lambda (A\mid X_{1}\land X_{2})=\Lambda (A\mid X_{1})\cdot \Lambda (A\mid X_{2}).}

これは、独立観測や復元抽出など、事象が独立かつ同一分布に従う確率変数から得られる場合に特に重要です。このような状況では、尤度関数は個々の尤度関数の積に分解されます。

空の積の値は 1 で、これはイベントがない場合の尤度が 1 であることに対応します。つまり、データが存在しない場合には尤度は常に 1 です。これはベイズ統計における均一事前分布に似ていますが、尤度統計では尤度が統合されないため、これは不適切な事前分布ではありません。

対数尤度

対数尤度関数は尤度関数の対数であり、尤度を表す大文字の L または と対比するために、小文字の l または ⁠ ⁠ で表記されることが多い。対数は厳密に増加な関数であるため尤度を最大すること{\displaystyle \ell }対数尤度を最大化することと同義である。しかし、実用上は最大尤度推定において対数尤度関数を扱う方が便利である。特に、最も一般的な確率分布(特に指数分布族)は対数的に凹面であるため、[ 34 ] [ 35 ]目的関数凹面性が最大化において重要な役割を果たすからである。 L{\textstyle {\mathcal {L}}}

各事象が独立していると仮定すると、交差の全体的対数尤度は個々の事象の対数尤度の合計に等しくなります。これは、全体的対数確率が個々の事象の対数確率の合計であるという事実に似ています。この数学的な利便性に加えて、対数尤度を加算するプロセスは直感的な解釈が可能であり、しばしばデータからの「支持」として表現されます。最大尤度推定に対数尤度を用いてパラメータを推定する場合各データポイントは全体の対数尤度に加算されて使用されます。データは推定されたパラメータを支持する証拠と見なすことができるため、このプロセスは「独立した証拠からの支持が加算される」と解釈でき、対数尤度は「証拠の重み」となります。負の対数確率を情報内容または驚きとして解釈すると、モデルのサポート (対数尤度) は、モデルを与えられた場合のイベントの驚きの負数です。つまり、モデルを与えられた場合のイベントが驚くべきものでない限り、モデルはイベントによってサポートされます。

尤度比の対数は、対数尤度の差に等しい。 logL(A)L(B)=logL(A)logL(B)=(A)(B).{\displaystyle \log {\frac {{\mathcal {L}}(A)}{{\mathcal {L}}(B)}}=\log {\mathcal {L}}(A)-\log {\mathcal {L}}(B)=\ell (A)-\ell (B).}

イベントがない場合の尤度が 1 であるのと同様に、イベントがない場合の対数尤度は 0 であり、これは空の合計の値に対応します。つまり、データがない場合、どのモデルもサポートされません。

グラフ

対数尤度のグラフは、(一変量の場合)支持曲線と呼ばれる。[ 36 ]変量場合 この概念はパラメータ空間上の支持面へと一般化される。これは分布の支持と関連があるが、異なる。

この用語は、統計的仮説検定の文脈でAWFエドワーズ[ 36 ]によって造られたもので、つまり、データが検定されている1つの仮説(またはパラメータ値)を他のものよりも「支持」しているかどうかを指す。

プロットされている対数尤度関数は、スコア(対数尤度の勾配)とフィッシャー情報量(対数尤度の曲率)の計算に使用されます。したがって、このグラフは最尤推定法尤度比検定の文脈において直接的な解釈が可能です。

尤度方程式

対数尤度関数が滑らかな場合、パラメータ に関する勾配(スコアと呼ばれ、 と表記される)が存在し、微分積分を適用することができます。微分可能関数を最大化する基本的な方法は、停留点(導関数がゼロとなる点)を見つけることです。和の導関数は単に導関数の和ですが、積の導関数には積則 が適用される必要があるため、独立事象の対数尤度の停留点を計算する方が、独立事象の尤度を計算するよりも簡単です。 sn(θ)θn(θ){\textstyle s_{n}(\theta )\equiv \nabla _{\theta }\ell _{n}(\theta )}

スコア関数の停留点によって定義される方程式は、最大尤度推定量の 推定方程式として機能します。その意味で、最大尤度推定量は、逆関数の における値によって暗黙的に定義されます。ここで、はd次元ユークリッド空間、 はパラメータ空間です。逆関数定理を用いると、がの開近傍において明確に定義され、確率が1になること、が の矛盾のない推定値であることが示されます。結果として、漸近的にほぼ確実に、 、 となるようなシーケンスが存在します。[ 37 ]ロールの定理を用いて同様の結果を得ることができます。[ 38 ] [ 39 ]sn(θ)=0{\displaystyle s_{n}(\theta )=\mathbf {0} }0{\textstyle \mathbf {0} }sn1:EdΘ{\textstyle s_{n}^{-1}:\mathbb {E} ^{d}\to \Theta }Ed{\textstyle \mathbb {E} ^{d}}Θ{\textstyle \Theta }sn1{\textstyle s_{n}^{-1}}0{\textstyle \mathbf {0} }θ^n=sn1(0){\textstyle {\hat {\theta }}_{n}=s_{n}^{-1}(\mathbf {0} )}θ{\textstyle \theta }{θ^n}{\textstyle \left\{{\hat {\theta }}_{n}\right\}}sn(θ^n)=0{\textstyle s_{n}({\hat {\theta }}_{n})=\mathbf {0} }θ^npθ0{\textstyle {\hat {\theta }}_{n}\xrightarrow {\text{p}} \theta _{0}}

で評価される2番目の導関数はフィッシャー情報として知られており、尤度面の曲率を決定し、[ 40 ]推定値の精度を示します。 [ 41 ]θ^{\textstyle {\hat {\theta }}}

指数族

対数尤度は、多くの一般的なパラメトリック確率分布を含む指数分布族にも特に有用です。指数分布族の確率分布関数(および尤度関数)には、指数関数を含む因子の積が含まれます。このような関数の対数は積の和であり、これも元の関数よりも微分化が容易です。

指数族とは、確率密度関数が次の形式であるものである(一部の関数では、内積を と書く)。 ,{\textstyle \langle -,-\rangle }

p(xθ)=h(x)exp(η(θ),T(x)A(θ)).{\displaystyle p(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }}){\Big )}.}

これらの用語にはそれぞれ解釈がありますが、[ a ]、確率から尤度に切り替えて対数を取ると、合計は次のようになります。

(θx)=η(θ),T(x)A(θ)+logh(x).{\displaystyle \ell ({\boldsymbol {\theta }}\mid x)=\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }})+\log h(x).}

とはそれぞれ座標 の変化に対応するため、これらの座標では、指数族の対数尤度は次の簡単な式で与えられます。 η(θ){\textstyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})}h(x){\textstyle h(x)}

(ηx)=η,T(x)A(η).{\displaystyle \ell ({\boldsymbol {\eta }}\mid x)=\langle {\boldsymbol {\eta }},\mathbf {T} (x)\rangle -A({\boldsymbol {\eta }}).}

言い換えれば、指数分布族の対数尤度は、自然パラメータ⁠ ⁠η{\displaystyle {\boldsymbol {\eta }}}十分統計量⁠ ⁠T(x){\displaystyle \mathbf {T} (x)}の内積から正規化係数(対数分割関数⁠ ⁠を引いたものです。したがって、例えば最大尤度推定値は、十分統計量A(η){\displaystyle A({\boldsymbol {\eta }})}Tと対数分割関数Aの導関数を取ることで計算できます。

例: ガンマ分布

ガンマ分布は、2つのパラメータとを持つ指数分布族である。尤度関数は α{\textstyle \alpha }β{\textstyle \beta }

L(α,βx)=βαΓ(α)xα1eβx.{\displaystyle {\mathcal {L}}(\alpha ,\beta \mid x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.}

単一の観測値に対する最大尤度推定値を求めるのは、一見難しそうに思えます。しかし、対数を使えばはるかに簡単に扱えます。 β{\textstyle \beta }x{\textstyle x}

logL(α,βx)=αlogβlogΓ(α)+(α1)logxβx.{\displaystyle \log {\mathcal {L}}(\alpha ,\beta \mid x)=\alpha \log \beta -\log \Gamma (\alpha )+(\alpha -1)\log x-\beta x.\,}

対数尤度を最大化するために、まずについて偏微分をとります。 β{\textstyle \beta }

logL(α,βx)β=αβx.{\displaystyle {\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x)}{\partial \beta }}={\frac {\alpha }{\beta }}-x.}

複数の独立した観測値がある場合、結合対数尤度は個々の対数尤度の合計となり、この合計の導関数は各個々の対数尤度の導関数の合計となります。 x1,,xn{\textstyle x_{1},\ldots ,x_{n}}

logL(α,βx1,,xn)β=logL(α,βx1)β++logL(α,βxn)β=nαβi=1nxi.{\displaystyle {\begin{aligned}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1},\ldots ,x_{n})}{\partial \beta }}\\&={\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1})}{\partial \beta }}+\cdots +{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{n})}{\partial \beta }}\\&={\frac {n\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}.\end{aligned}}}

結合対数尤度の最大化手順を完了するには、方程式をゼロに設定して次のように解きます。 β{\textstyle \beta }

β^=αx¯.{\displaystyle {\widehat {\beta }}={\frac {\alpha }{\bar {x}}}.}

ここで、 は最大尤度推定値を表し、 は観測値の 標本平均です。β^{\textstyle {\widehat {\beta }}}x¯=1ni=1nxi{\textstyle \textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}

背景と解釈

歴史的考察

英語では「尤度」という用語は、少なくとも中英語後期から使われてきました。[ 42 ]数理統計学における特定の関数を指すための正式な用法は、ロナルド・フィッシャーによって[ 43 ]、1921年[ 44 ]と1922年[ 45 ]に発表された2つの研究論文で提案されました。1921年の論文では、今日「尤度区間」と呼ばれるものが導入され、1922年の論文では「最大尤度法」という用語が導入されました。フィッシャーの言葉を引用します。

1922年、私は「尤度」という用語を提案した。これは、[パラメータ]に関して、尤度は確率ではなく、確率の法則にも従わないが、同時に、[パラメータ]の可能な値の中から合理的に選択するという問題と、偶然のゲームにおける出来事の予測という問題と確率の関係に類似する関係にあるからである。…しかしながら、心理学的判断に関しては、尤度は確率といくらか類似点を持つものの、この二つの概念は全く異なるものである。…」[ 46 ]

ロナルド・フィッシャー卿が述べたように、尤度の概念は確率と混同すべきではない。

私がこの点を強調するのは、確率と尤度の違いを常に強調してきたにもかかわらず、尤度を確率の一種であるかのように扱う傾向が依然として存在するためです。したがって、第一の帰結は、異なる事例に適切な合理的信念の尺度が2つ存在するということです。母集団を知ることで、標本に関する不完全な知識、あるいは期待を確率で表現できます。標本を知ることで、母集団に関する不完全な知識を尤度で表現できます。[ 47 ]

フィッシャーの統計的尤度の発明は、逆確率と呼ばれる以前の推論形式に対する反発から生まれた。[ 48 ]彼が「尤度」という用語を使用したことで、数理統計学におけるこの用語の意味が定まった。

AWF Edwards (1972) は、対数尤度比を、ある仮説に対する別の仮説の相対的な支持度を表す尺度として用いるための公理的根拠を確立した。支持関数は尤度関数の自然対数である。どちらの用語も系統学では用いられるが、統計的証拠というテーマの一般的な扱いには採用されなかった。[ 49 ]

異なる根拠に基づく解釈

統計学者の間では、統計学の基礎がどのようなものであるべきかについてコンセンサスが得られていません。その基礎として、頻度主義ベイズ主義尤度主義AICに基づくという4つの主要なパラダイムが提案されています。[ 50 ]提案されている各基礎において、尤度の解釈は異なります。以下のサブセクションでは、4つの解釈について説明します。

頻度主義的解釈

ベイズ解釈

ベイズ推論では、別のランダム変数が与えられた場合の任意の命題またはランダム変数の尤度について話すことができます。たとえば、指定されたデータまたはその他の証拠が与えられた場合のパラメータ値または統計モデルの尤度(周辺尤度を参照)です。 [ 51 ] [ 52 ] [ 53 ] [ 54 ]尤度関数は同じ実体のままですが、(i)パラメータが与えられた場合のデータの条件付き密度(パラメータはランダム変数であるため)と、(ii) パラメータ値またはモデルに関してデータがもたらす情報の尺度または量という追加の解釈があります。 [ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]パラメータ空間またはモデルの集合に確率構造が導入されたため、パラメータ値または統計モデルが与えられたデータに対して大きな尤度値を持ちながら、確率が低いこと、またはその逆が可能です。[ 53 ] [ 55 ]これは医療の分野でよくあるケースです。[ 56 ]ベイズの定理に従うと、条件付き密度として見た尤度は、パラメータの事前確率密度で乗じられ、その後正規化されて事後確率密度が得られます。[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]より一般的には、未知の量が与えられた場合の尤度は、与えられた確率に比例します。[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]X{\textstyle X}Y{\textstyle Y}Y{\textstyle Y}X{\textstyle X}

尤度主義的解釈

頻度主義統計において、尤度関数は母集団から抽出した単一サンプルを要約した統計量であり、その計算値は複数のパラメータθ 1 ... θ pの選択に依存します。ここで、pは既に選択された統計モデルにおけるパラメータの数です。尤度の値は、パラメータの選択に対する評価指標として機能し、利用可能なデータを考慮すると、尤度が最大となるパラメータセットが最適な選択となります。

尤度の具体的な計算は、選択されたモデルと複数のパラメータθの値が、観測サンプルが抽出された母集団の頻度分布の正確な近似値を与えると仮定した場合、観測サンプルが割り当てられる確率です。経験的に言えば、実際に観測されたサンプルの事後確率が最大となるようなパラメータを選択するのが適切です。ウィルクスの定理は、推定値のパラメータ値によって生成される尤度の対数と、母集団の「真の」(しかし未知である)パラメータ値によって生成される尤度の対数の差が漸近的にχ 2分布することを示すことで、この経験則を定量化します。

各独立標本の最大尤度推定値は、標本化された母集団を記述する「真の」パラメータセットの個別の推定値です。多数の独立標本から連続的に推定値を求めると、母集団の「真の」パラメータセットがその中のどこかに隠れた状態で密集します。最大尤度と隣接するパラメータセットの尤度の対数の差は、パラメータθ 1 ... θ pを座標とするプロット上に信頼領域を描くために使用できます。この領域は最大尤度推定値を囲み、その領域内のすべての点(パラメータセット)の対数尤度差は、最大で一定の値です。ウィルクスの定理によって与えられるχ 2分布は、この領域の対数尤度差を、母集団の「真の」パラメータセットが含まれる「信頼度」に変換します。固定された対数尤度差を選択する際の秘訣は、信頼度を許容できる程度に高くしつつ、領域を許容できる程度に小さく(推定値の範囲を狭く)することです。

より多くのデータが観測されるにつれて、それらを独立して推定する代わりに、以前のサンプルと組み合わせて単一の統合サンプルを作成し、その大きなサンプルを用いて新たな最尤推定値を求めることができます。統合サンプルのサイズが大きくなるにつれて、同じ信頼区間における尤度領域のサイズは縮小します。最終的には、信頼区間のサイズがほぼ単一の点になるか、母集団全体がサンプリングされます。どちらの場合も、推定されたパラメータセットは母集団パラメータセットと本質的に同じになります。

AICベースの解釈

AICパラダイムでは、尤度は情報理論の文脈の中で解釈される。[ 57 ] [ 58 ] [ 59 ]

参照

注記

参考文献

  1. ^ Casella, George; Berger, Roger L. (2002).統計的推論(第2版). Duxbury. p. 290. ISBN 0-534-24312-6
  2. ^ウェイクフィールド、ジョン(2013年)『頻度主義とベイズ回帰法(第1版)』シュプリンガー、36ページ、ISBN 978-1-4419-0925-1
  3. ^レーマン、エリック・L.; カセラ、ジョージ (1998).点推定理論(第2版). シュプリンガー. p. 444. ISBN 0-387-98502-6
  4. ^ゼルナー、アーノルド (1971).ベイズ推論入門 計量経済学. ニューヨーク: ワイリー. pp.  13– 14. ISBN 0-471-98165-6
  5. ^ビリングスリー、パトリック(1995).確率と測定(第3版). John Wiley & Sons . pp.  422– 423.
  6. ^ Shao, Jun (2003).数理統計学(第2版). Springer. §4.4.1.
  7. ^グーリエロウ, クリスチャン; モンフォール, アラン (1995).統計と計量経済モデル. ニューヨーク: ケンブリッジ大学出版局. p. 161. ISBN 0-521-40551-3
  8. ^ Mäkeläinen, Timo; Schmidt, Klaus; Styan, George PH (1981). 「固定サイズサンプルにおけるベクトル値パラメータの最大尤度推定値の存在と一意性について」 Annals of Statistics . 9 (4): 758– 767. doi : 10.1214/aos/1176345516 . JSTOR 2240844 . 
  9. ^ Mascarenhas, WF (2011). 「山岳パス補題と制約付き最小化器の一意性に関するその示唆」.最適化. 60 ( 8–9 ): 1121–1159 . doi : 10.1080/02331934.2010.527973 . S2CID 15896597 . 
  10. ^ Chanda, KC (1954). 「尤度方程式の根の一貫性と最大値に関する注記」. Biometrika . 41 ( 1–2 ): 56–61 . doi : 10.2307/2333005 . JSTOR 2333005 . 
  11. ^グリーンバーグ、エドワード、ウェブスター、チャールズ・E・ジュニア (1983). 『高度計量経済学:文献への架け橋』 ニューヨーク、ニューヨーク:ジョン・ワイリー・アンド・サンズ. pp.  24– 25. ISBN 0-471-09077-8
  12. ^ Heyde, CC; Johnstone, IM (1979). 「確率過程の漸近的事後正規性について」.王立統計学会誌. シリーズB (方法論). 41 (2): 184– 189. doi : 10.1111/j.2517-6161.1979.tb01071.x .
  13. ^チェン・チャンフー (1985). 「ベイズ的含意を持つ極限密度関数の漸近正規性について」.英国王立統計学会誌. シリーズB (方法論). 47 (3): 540– 546. doi : 10.1111/j.2517-6161.1985.tb01384.x .
  14. ^ Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1990). 「ラプラス法に基づく事後展開の妥当性」. Geisser, S.; Hodges, JS; Press, SJ; Zellner, A. (編).ベイズ法と尤度法による統計・計量経済学. Elsevier. pp.  473– 488. ISBN 0-444-88376-2
  15. ^ Buse, A. (1982). 「尤度比検定、ワルド検定、ラグランジュ乗数検定:解説ノート」アメリカ統計学者36 ( 3a): 153– 157. doi : 10.1080/00031305.1982.10482817 .
  16. ^ a b c d Kalbfleisch, JG (1985),確率と統計的推論, Springer(§9.3)。
  17. ^ Azzalini, A. (1996)、「尤度に基づく統計的推論」Chapman & HallISBN 9780412606502(§1.4.2)。
  18. ^ a b c Sprott, DA (2000)、「科学における統計的推論」、Springer (第2章)。
  19. ^ Davison, AC (2008)、「統計モデル」ケンブリッジ大学出版局(§4.1.2)。
  20. ^ Held, L.; Sabanés Bové, DS (2014),応用統計推論—尤度とベイズ, Springer(§2.1)。
  21. ^ a b c Rossi, RJ (2018)、数理統計学Wiley、p. 267
  22. ^ a bハドソン、DJ(1971)、「尤度関数からの区間推定」、王立統計学会誌、シリーズB33(2):256-262doi10.1111/j.2517-6161.1971.tb00877.x
  23. ^パウィタン、ユディ(2001年)『尤度:尤度を用いた統計モデリングと推論オックスフォード大学出版局ISBN 978-0-19-850765-9
  24. ^ Wen Hsiang Wei. 「一般化線形モデル - コースノート」台中(台湾):東海大学pp. 第5章. 2017年10月1日閲覧
  25. ^雨宮毅(1985). 「集中尤度関数」 .アドバンスト・エコノメトリクス. ケンブリッジ: ハーバード大学出版局. pp.  125–127 . ISBN 978-0-674-00560-0
  26. ^デイビッドソン、ラッセル、マッキノン、ジェームズ・G. (1993). 「対数尤度関数の集中」.計量経済学における推定と推論. ニューヨーク: オックスフォード大学出版局. pp.  267– 269. ISBN 978-0-19-506011-9
  27. ^グーリエロウ, クリスチャン; モンフォート, アラン (1995). 「集中尤度関数」 .統計と計量経済モデル. ニューヨーク: ケンブリッジ大学出版局. pp.  170– 175. ISBN 978-0-521-40551-5
  28. ^ピクルス、アンドリュー (1985). 『尤度分析入門』 ノーリッチ: WHハッチンズ・アンド・サンズ. pp.  21–24 . ISBN 0-86094-190-6
  29. ^ボルカー、ベンジャミン・M. (2008). 『生態学的モデルとRにおけるデータ』プリンストン大学出版局. pp.  187– 189. ISBN 978-0-691-12522-0
  30. ^ Aitkin, Murray (1982). 「直接尤度推論」. GLIM 82: 一般化線形モデルに関する国際会議議事録. Springer. pp.  76– 86. ISBN 0-387-90777-7
  31. ^ Venzon, DJ; Moolgavkar, SH (1988). 「プロファイル尤度に基づく信頼区間の計算方法」.英国王立統計学会誌. シリーズC (応用統計). 37 (1): 87– 94. doi : 10.2307/2347496 . JSTOR 2347496 . 
  32. ^ Kalbfleisch, JD; Sprott, DA (1973). 「周辺尤度と条件付き尤度」. Sankhyā: The Indian Journal of Statistics . Series A. 35 (3): 311– 328. JSTOR 25049882 . 
  33. ^ Cox, DR (1975). 「部分尤度」. Biometrika . 62 (2): 269– 276. doi : 10.1093/biomet/62.2.269 . MR 0400509 . 
  34. ^ Kass, Robert E.; Vos, Paul W. (1997).漸近推論の幾何学的基礎. ニューヨーク: John Wiley & Sons. p. 14. ISBN 0-471-82668-5
  35. ^ Papadopoulos, Alecos (2013年9月25日). 「MLE(最尤推定)を使用する際に、なぜ常に結合pdfの前にlog()を置く必要があるのか​​?」 . Stack Exchange .
  36. ^ a bエドワーズ、AWF (1992) [1972].尤度.ジョンズ・ホプキンス大学出版局. ISBN 0-8018-4443-6
  37. ^ Foutz, Robert V. (1977). 「尤度方程式の唯一の整合解について」アメリカ統計学会誌. 72 (357): 147– 148. doi : 10.1080/01621459.1977.10479926 .
  38. ^ Tarone, Robert E.; Gruenhage, Gary (1975). 「ベクトル値パラメータの尤度方程式の根の一意性に関する注記」アメリカ統計学会誌. 70 (352): 903– 904. doi : 10.1080/01621459.1975.10480321 .
  39. ^ライ, カムタ; ヴァン・ライジン, ジョン (1982). 「ロールの定理の多変量版と最大尤度根の一意性に関する注記」. Communications in Statistics . Theory and Methods. 11 (13): 1505– 1510. doi : 10.1080/03610928208828325 .
  40. ^ Rao, B. Raja (1960). 「十分な統計量を許容する分布から抽出された標本の尤度面の曲率の公式」. Biometrika . 47 ( 1–2 ): 203–207 . doi : 10.1093/biomet/47.1-2.203 .
  41. ^ Ward, Michael D.; Ahlquist, John S. (2018). 『社会科学のための最大尤度:分析戦略』ケンブリッジ大学出版局pp.  25– 27.
  42. ^「可能性」、 Shorter Oxford English Dictionary (2007年)。
  43. ^ Hald, A. (1999). 「最大尤度法の歴史と逆確率法および最小二乗法との関係について」 .統計科学. 14 (2): 214– 222. doi : 10.1214/ss/1009212248 . JSTOR 2676741 . 
  44. ^フィッシャー, RA (1921). 「小規模サンプルから推定される相関係数の『推定誤差』について」メトロン1 : 3–32 .
  45. ^フィッシャー, RA (1922). 「理論統計の数学的基礎について」 . Philosophical Transactions of the Royal Society A. 222 ( 594–604 ) : 309–368 . Bibcode : 1922RSPTA.222..309F . doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM 48.1280.02 . JSTOR 91208 .  
  46. ^ Klemens, Ben (2008). 『データによるモデリング:科学計算のためのツールとテクニック』プリンストン大学出版局. p. 329.
  47. ^フィッシャー、ロナルド(1930). 「逆確率」.ケンブリッジ哲学協会数学紀要. 26 (4): 528– 535. Bibcode : 1930PCPS...26..528F . doi : 10.1017/S0305004100016297 . hdl : 2440/15206 .
  48. ^ Fienberg, Stephen E. (1997). 「RAフィッシャーによる逆確率と逆尤度入門」.統計科学. 12 (3): 161. doi : 10.1214/ss/1030037905 .
  49. ^ Royall, R. (1997).統計的証拠. Chapman & Hall .
  50. ^ Bandyopadhyay, PS; Forster, MR編 (2011). 『統計の哲学North-Holland Publishing .
  51. ^ a b c d I. J. グッド:確率と証拠の重み付け(グリフィン 1950)、§6.1
  52. ^ a b c d H. ジェフリーズ:確率論(第3版、オックスフォード大学出版局、1983年)、§1.22
  53. ^ a b c d e E. T. Jaynes:確率論:科学の論理(ケンブリッジ大学出版局 2003年)、§4.1
  54. ^ a b c d D. V. Lindley:ベイズ的視点からの確率と統計入門 第1部 確率(ケンブリッジ大学出版局 1980) §1.6
  55. ^ a b c d A. Gelman、JB Carlin、HS Stern、D.B. Dunson、A. Vehtari、D.B. Rubin:ベイズデータ分析(第3版、Chapman & Hall/CRC 2014)、§1.3
  56. ^ Sox, HC; Higgins, MC; Owens, DK (2013), Medical Decision Making (第2版), Wiley, 3–4章, doi : 10.1002/9781118341544 , ISBN 9781118341544
  57. ^ Akaike, H. (1985). 「予測とエントロピー」. Atkinson, AC; Fienberg, SE (編). 『統計の祭典』 . Springer. pp.  1– 24.
  58. ^坂本 雄三; 石黒 正; 北川 剛 (1986).赤池情報量基準統計. D. ライデル. パートI.
  59. ^ Burnham, KP; Anderson, DR (2002).モデル選択とマルチモデル推論:実践的な情報理論的アプローチ(第2版). Springer-Verlag . 第7章.

さらに読む