ファノの不等式

情報理論において、ファノの不等式ファノの逆、ファノの補題とも呼ばれる)は、ノイズのある通信路で失われる平均情報量と分類誤りの確率を関連付ける。これは、1950年代初頭にロバート・ファノがMITで情報理論の博士課程セミナーを教えていた際に導出され、後に1961年の教科書に掲載された。

これは、任意のデコーダーのエラー確率の下限値と、密度推定におけるミニマックスリスクの下限値を見つけるために使用されます。

離散確率変数 とを、結合確率を持つ入力メッセージと出力メッセージとします。 をエラーの発生、つまり ( は の近似値)とします。ファノの不等式は X{\displaystyle X}はい{\displaystyle Y}P×y{\displaystyle P(x,y)}e{\displaystyle e}XX{\displaystyle X\neq {\tilde {X}}}Xfはい{\displaystyle {\tilde {X}}=f(Y)}X{\displaystyle X}

HXはいHbe+Peログ|X|1{\displaystyle H(X\mid Y)\leq H_{b}(e)+P(e)\log(|{\mathcal {X}}|-1),}

ここで はのサポートを表し、は ( の要素数)の基数を表し、 X{\displaystyle {\mathcal {X}}}X{\displaystyle X}|X|{\displaystyle |{\mathcal {X}}|}X{\displaystyle {\mathcal {X}}}

HXはいjP×yjログP×yj{\displaystyle H(X\mid Y)=-\sum _{i,j}P(x_{i},y_{j})\log P(x_{i}\mid y_{j})}

は条件付きエントロピーであり、

PePXX{\displaystyle P(e)=P(X\neq {\tilde {X}})}

通信エラーの確率であり、

HbePeログPe1Peログ1Pe{\displaystyle H_{b}(e)=-P(e)\log P(e)-(1-P(e))\log(1-P(e))}

は対応するバイナリエントロピーです。

証拠

推定値が誤っている という事象を示す指標確率変数を定義する。E{\displaystyle E}Xfはい{\displaystyle {\tilde {X}}=f(Y)}

E:={1  もし  XX 0  もし  XX {\displaystyle E:={\begin{cases}1~&{\text{ if }}~{\tilde {X}}\neq X~,\\0~&{\text{ if }}~{\tilde {X}}=X~.\end{cases}}}

を考えてみましょう。エントロピーの連鎖律を用いて、これを2つの異なる方法で展開すること ができます。HEX|X{\displaystyle H(E,X|{\tilde {X}})}

HEXXHXX+HEXX0HEX+HXEX{\displaystyle {\begin{aligned}H(E,X\mid {\tilde {X}})&=H(X\mid {\tilde {X}})+\underbrace {H(E\mid X,{\tilde {X}})} _{=0}\\&=H(E\mid {\tilde {X}})+H(X\mid E,{\tilde {X}})\end{aligned}}}

両者を同等視する

H(XX~)=H(EX~)+H(XE,X~){\displaystyle H(X\mid {\tilde {X}})=H(E\mid {\tilde {X}})+H(X\mid E,{\tilde {X}})}

一番右の項を展開すると、H(XE,X~){\displaystyle H(X\mid E,{\tilde {X}})}

H(XE,X~)=H(XE=0,X~)=0P(E=0)+H(XE=1,X~)P(E=1)=P(e)=H(XE=1,X~)P(e){\displaystyle {\begin{aligned}H(X\mid E,{\tilde {X}})&=\underbrace {H(X\mid E=0,{\tilde {X}})} _{=0}\cdot P(E=0)+H(X\mid E=1,{\tilde {X}})\cdot \underbrace {P(E=1)} _{=P(e)}\\&=H(X\mid E=1,{\tilde {X}})\cdot P(e)\end{aligned}}}

は を意味するので、 の値が与えられれば の値が確実に分かります。そのため、 という項が成り立ちます。一方、 はを意味するので、 の値が与えられれば、異なる値のいずれかに絞り込むことができ、条件付きエントロピー の上限を定めることができます。したがって、 E=0{\displaystyle E=0}X=X~{\displaystyle X={\tilde {X}}}X~{\displaystyle {\tilde {X}}}X{\displaystyle X}H(XE=0,X~)=0{\displaystyle H(X\mid E=0,{\tilde {X}})=0}E=1{\displaystyle E=1}X~X{\displaystyle {\tilde {X}}\neq X}X~{\displaystyle {\tilde {X}}}X{\displaystyle X}|X|1{\displaystyle |{\mathcal {X}}|-1}H(XE=1,X~)log(|X|1){\displaystyle H(X\mid E=1,{\tilde {X}})\leq \log(|{\mathcal {X}}|-1)}

H(XE,X~)log(|X|1)P(e).{\displaystyle H(X\mid E,{\tilde {X}})\leq \log(|{\mathcal {X}}|-1)\cdot P(e).}

もう一つの項は ​​です。これは、条件付けによってエントロピーが減少するからです。が定義されている方法により となり、 となります。これらをまとめると、 H(EX~)H(E){\displaystyle H(E\mid {\tilde {X}})\leq H(E)}E{\displaystyle E}H(E)=Hb(e){\displaystyle H(E)=H_{b}(e)}H(EX~)Hb(e){\displaystyle H(E\mid {\tilde {X}})\leq H_{b}(e)}

H(XX~)Hb(e)+P(e)log(|X|1){\displaystyle H(X\mid {\tilde {X}})\leq H_{b}(e)+P(e)\log(|{\mathcal {X}}|-1)}

マルコフ連鎖なので、データ処理不等式によって、したがって、 XYX~{\displaystyle X\rightarrow Y\rightarrow {\tilde {X}}}I(X;X~)I(X;Y){\displaystyle I(X;{\tilde {X}})\leq I(X;Y)}H(XX~)H(XY){\displaystyle H(X\mid {\tilde {X}})\geq H(X\mid Y)}

H(XY)Hb(e)+P(e)log(|X|1){\displaystyle H(X\mid Y)\leq H_{b}(e)+P(e)\log(|{\mathcal {X}}|-1)}

直感

ファノの不等式は、任意の予測子を与えられた場合の条件付き分布の不確実性を 2 つの問題に分割する方法として解釈できます。 項 に対応する最初の問題は、予測子の不確実性に関するものです。予測が正しければ、それ以上不確実性は残りません。予測子が正しくない場合、任意の離散分布の不確実性には、誤った予測を除くすべての選択肢にわたる一様分布のエントロピーの上限があります。これはエントロピー を持ちます。極端な例を見ると、予測子が常に正しい場合、不等式の 1 番目と 2 番目の項は 0 であり、完全な予測子が存在するということは、 がによって完全に決定されることを意味するため となります。予測子が常に間違っている場合、最初の項は 0 であり、 残りの選択肢にわたる一様分布でのみ上限が制限されます。 Hb(e){\displaystyle H_{b}(e)}log(|X|1){\displaystyle \log(|{\mathcal {X}}|-1)}X{\displaystyle X}Y{\displaystyle Y}H(X|Y)=0{\displaystyle H(X|Y)=0}H(XY){\displaystyle H(X\mid Y)}

代替処方

を、密度が可能な密度の1つに等しい確率変数とする。さらに、任意の密度のペア間のカルバック・ライブラー距離は、あまり大きくならない。 X{\displaystyle X}r+1{\displaystyle r+1}f1,,fr+1{\displaystyle f_{1},\ldots ,f_{r+1}}

DKL(fifj)β{\displaystyle D_{KL}(f_{i}\parallel f_{j})\leq \beta }すべての人のためにij.{\displaystyle i\not =j.}

を指数の推定値とすると 、ψ(X){1,,r+1}{\displaystyle \psi (X)\in \{1,\ldots ,r+1\}}

supiPi(ψ(X)i)1β+log2logr{\displaystyle \sup _{i}P_{i}(\psi (X)\not =i)\geq 1-{\frac {\beta +\log 2}{\log r}}}

ここで はによって誘導される確率です。 Pi{\displaystyle P_{i}}fi{\displaystyle f_{i}}

一般化

以下の一般化は、Ibragimov と Khasminskii (1979)、Assouad と Birge (1983) によるものです。

Fをr  + 1個の密度ƒθのサブクラスを持つ密度のクラスとし、任意θ  θ  に対して

fθfθL1α,{\displaystyle \|f_{\theta }-f_{\theta '}\|_{L_{1}}\geq \alpha ,}
DKL(fθfθ)β.{\displaystyle D_{KL}(f_{\theta }\parallel f_{\theta '})\leq \beta .}

最悪の場合、推定誤差の 期待値は以下のように制限される。

supfFEfnfL1α2(1nβ+log2logr){\displaystyle \sup _{f\in \mathbf {F} }E\|f_{n}-f\|_{L_{1}}\geq {\frac {\alpha }{2}}\left(1-{\frac {n\beta +\log 2}{\log r}}\right)}

ここで、ƒ nはサイズnのサンプルに基づく任意の密度推定値です。

参考文献