相互情報

{\displaystyle X} — 相関変数およびに関連する様々な情報量の加法性と減法性を示すベン図。^[¹^]どちらかの円で囲まれた領域は、結合エントロピーである。左側の円（赤と紫）は個別エントロピーであり、赤は条件付きエントロピーである。右側の円（青と紫）はであり、青はである。紫は相互情報量である。 $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X)$ $\mathrm {H} (X\mid Y)$ $\mathrm {H} (Y)$ $\mathrm {H} (Y\mid X)$ $\operatorname {I} (X;Y)$

確率論および情報理論において、 2つの確率変数の相互情報量（MI）は、2つの変数間の相互依存性の尺度です。より具体的には、一方の確率変数を観測することで、もう一方の確率変数について得られる「情報量」（シャノン（ビット）、ナット、ハートレーなどの単位）を定量化します。相互情報量の概念は、確率変数のエントロピーの概念と密接に関連しています。エントロピーは、情報理論における基本概念であり、確率変数に含まれる「情報量」の期待値を定量化します。

MI は、実数値のランダム変数や相関係数のような線形依存性に限定されず、より一般的なもので、ペアの結合分布が、およびの周辺分布の積からどれだけ異なるかを決定します。MI は、点ごとの相互情報量(PMI) の期待値です。 $(X,Y)$ $X$ $Y$

この量は、クロード・シャノンの画期的な論文『コミュニケーションの数学的理論』の中で定義・分析されましたが、彼はこれを「相互情報量」とは呼んでいませんでした。この用語は後にロバート・ファノによって造られました。^{[ 2 ]}相互情報量は情報利得とも呼ばれます。

意味

空間上の値を持つ確率変数のペアをとする。それらの結合分布が、周辺分布が、とすると、相互情報量は次のように定義される。 $(X,Y)$ ${\mathcal {X}}\times {\mathcal {Y}}$ $P_{(X,Y)}$ $P_{X}$ $P_{Y}$

I(X;Y)=D_{\mathrm {KL} }(P_{(X,Y)}\Parallel P_{X}\otimes P_{Y})

ここで、はカルバック・ライブラー情報、は各に確率を割り当てる外積分布です。 $D_{\mathrm {KL} }$ $P_{X}\otimes P_{Y}$ $P_{X}(x)\cdot P_{Y}(y)$ $(x,y)$

ランダム変数およびのエントロピーと条件付きエントロピーで表現すると、次の式も成り立ちます（条件付きエントロピーと結合エントロピーとの関係を参照）。 $H(\cdot )$ $H(\cdot |\cdot )$ $X$ $Y$

I(X;Y)=H(X)-H(X|​​Y)=H(Y)-H(Y|X)

カルバック・ライブラー情報の性質によれば、は、共分布が周辺分布の積と一致するとき、つまりとが独立であるとき（したがってを観察してもについては何も分からないとき）、まさにゼロになることに注意してください。は非負です。これは、実際には独立ではないにもかかわらず、を独立した確率変数のペアとして符号化することの代償を表す尺度です。 $I(X;Y)$ $X$ $Y$ $Y$ $X$ $I(X;Y)$ $(X,Y)$

自然対数を用いる場合、相互情報量の単位はnatです。2を底とする対数を用いる場合、相互情報量の単位はshannon（ビットとも呼ばれます）です。10を底とする対数を用いる場合、相互情報量の単位はhartley（バンまたはディットとも呼ばれます）です。

離散分布のPMFに関しては

2つの離散確率変数の相互情報量は、二重和として計算される。^[³^]^：20 $X$ $Y$

\operatorname {I} (X;Y)=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{P_{(X,Y)}(x,y)\log \left({\frac {P_{(X,Y)}(x,y)}{P_{X}(x)\,P_{Y}(y)}}\right)}

、

ここで、はおよびの結合確率質量関数であり、およびはそれぞれおよびの周辺確率質量関数です。 $P_{(X,Y)}$ $X$ $Y$ $P_{X}$ $P_{Y}$ $X$ $Y$

連続分布のPDFに関しては

共連続確率変数の場合、二重和は二重積分に置き換えられる：^{[ 3 ]}^：251

\operatorname {I} (X;Y)=\int _{\mathcal {Y}}\int _{\mathcal {X}}{P_{(X,Y)}(x,y)\log {\left({\frac {P_{(X,Y)}(x,y)}{P_{X}(x)\,P_{Y}(y)}}\right)}}\;dx\,dy

、

ここで、はとの結合確率密度関数であり、とはそれぞれとの周辺確率密度関数です。 $P_{(X,Y)}$ $X$ $Y$ $P_{X}$ $P_{Y}$ $X$ $Y$

モチベーション

直感的に言えば、相互情報量はとが共有する情報量を測るものです。つまり、これらの変数の一方を知ることで、他方の不確実性がどれだけ低減するかを測るのです。例えば、とが独立である場合、を知ってもについての情報は得られず、その逆もまた同様であるため、それらの相互情報量はゼロです。反対に、がの決定論的関数でありがの決定論的関数である場合、が伝えるすべての情報はと共有されます。つまり、を知ることでの値が決定され、その逆もまた同様です。結果として、相互情報量は(または) のみに含まれる不確実性、つまり(または)のエントロピーと同じになります。この非常に特殊なケースは、とが同じ確率変数である場合です。 $X$ $Y$ $X$ $Y$ $X$ $Y$ $X$ $Y$ $Y$ $X$ $X$ $Y$ $X$ $Y$ $Y$ $X$ $Y$ $X$ $X$ $Y$

相互情報量とは、独立性を仮定した上で、およびの周辺分布に対する、およびの結合分布で表される固有の依存性の尺度です。したがって、相互情報量は次の意味で依存性を測ります。すなわち、およびが独立確率変数である場合に限ります。これは一方向から見ると容易に理解できます。およびが独立である場合、であり、したがって、 $X$ $Y$ $X$ $Y$ $\operatorname {I} (X;Y)=0$ $X$ $Y$ $X$ $Y$ $p_{(X,Y)}(x,y)=p_{X}(x)\cdot p_{Y}(y)$

\log {\left({\frac {p_{(X,Y)}(x,y)}{p_{X}(x)\,p_{Y}(y)}}\right)}=\log 1=0

。

さらに、相互情報量は非負（つまり、下記参照）かつ対称（つまり、下記参照）です。 $\operatorname {I} (X;Y)\geq 0$ $\operatorname {I} (X;Y)=\operatorname {I} (Y;X)$

プロパティ

非負性

相互情報量の定義におけるジェンセンの不等式を用いると、が非負であることを示すことができる。すなわち^[³^]^：28 $\operatorname {I} (X;Y)$

\operatorname {I} (X;Y)\geq 0

対称

\operatorname {I} (X;Y)=\operatorname {I} (Y;X)

証明は、以下のようにエントロピーとの関係を考慮して示されます。

独立性の下でのスーパーモジュラリティ

がと独立である場合、 $C$ $(A,B)$

\operatorname {I} (Y;A,B,C)-\operatorname {I} (Y;A,B)\geq \operatorname {I} (Y;A,C)-\operatorname {I} (Y;A)

. ^{[ 4 ]}

条件付きエントロピーと結合エントロピーとの関係

相互情報量は次のように表現できます。

{\begin{aligned}\operatorname {I} (X;Y)&{}\equiv \mathrm {H} (X)-\mathrm {H} (X\mid Y)\\&{}\equiv \mathrm {H} (Y)-\mathrm {H} (Y\mid X)\\&{}\equiv \mathrm {H} (X)+\mathrm {H} (Y)-\mathrm {H} (X,Y)\\&{}\equiv \mathrm {H} (X,Y)-\mathrm {H} (X\mid Y)-\mathrm {H} (Y\mid X)\end{aligned}}

ここで、およびは周辺エントロピー、は条件付きエントロピー、はとの結合エントロピーです。 $\mathrm {H} (X)$ $\mathrm {H} (Y)$ $\mathrm {H} (X\mid Y)$ $\mathrm {H} (Y\mid X)$ $\mathrm {H} (X,Y)$ $X$ $Y$

2 つの集合の和集合、差集合、積集合との類似性に注目してください。この点で、上記のすべての式は、この記事の冒頭で示したベン図から明らかです。

出力が入力のノイズバージョンである通信チャネルに関しては、これらの関係は図にまとめられています。 $Y$ $X$

は非負なので、となる。ここでは、同時離散確率変数の場合のの詳細な導出を示す。 $\operatorname {I} (X;Y)$ $\mathrm {H} (X)\geq \mathrm {H} (X\mid Y)$ $\operatorname {I} (X;Y)=\mathrm {H} (Y)-\mathrm {H} (Y\mid X)$

{\begin{aligned}\operatorname {I} (X;Y)&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log {\frac {p_{(X,Y)}(x,y)}{p_{X}(x)p_{Y}(y)}}\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log {\frac {p_{(X,Y)}(x,y)}{p_{X}(x)}}-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log p_{Y}(y)\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{X}(x)p_{Y\mid X=x}(y)\log p_{Y\mid X=x}(y)-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log p_{Y}(y)\\&{}=\sum _{x\in {\mathcal {X}}}p_{X}(x)\left(\sum _{y\in {\mathcal {Y}}}p_{Y\mid X=x}(y)\log p_{Y\mid X=x}(y)\right)-\sum _{y\in {\mathcal {Y}}}\left(\sum _{x\in {\mathcal {X}}}p_{(X,Y)}(x,y)\right)\log p_{Y}(y)\\&{}=-\sum _{x\in {\mathcal {X}}}p_{X}(x)\mathrm {H} (Y\mid X=x)-\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\log p_{Y}(y)\\&{}=-\mathrm {H} (Y\mid X)+\mathrm {H} (Y)\\&{}=\mathrm {H} (Y)-\mathrm {H} (Y\mid X).\\\end{aligned}}

上記の他の恒等式の証明も同様です。離散的な場合だけでなく、一般的な場合の証明も同様で、和の代わりに積分を用います。

直感的に、エントロピーを確率変数に関する不確実性の尺度とみなすと、はについて何が言えないかの尺度となります。これは「が判明した後もについて残る不確実性の量」であり、したがって、これらの等式の2番目の右辺は「における不確実性の量から、が判明した後も残るにおける不確実性の量を差し引いたもの」と読むことができ、これは「を知ることでにおける不確実性が除去される」ことと等しくなります。これは、一方の変数を知ることで他方の変数について得られる情報量（つまり、不確実性の低減）としての相互情報量の直感的な意味を裏付けています。 $\mathrm {H} (Y)$ $\mathrm {H} (Y\mid X)$ $X$ $Y$ $Y$ $X$ $Y$ $Y$ $X$ $Y$ $X$

離散的なケースでは、したがってとなることに注意してください。したがって、となり、変数は、他の変数が提供できる情報と同程度以上の情報を少なくとも含むという基本原理を定式化できます。 $\mathrm {H} (Y\mid Y)=0$ $\mathrm {H} (Y)=\operatorname {I} (Y;Y)$ $\operatorname {I} (Y;Y)\geq \operatorname {I} (X;Y)$

カルバック・ライブラー距離との関係

同時に離散的なペアまたは同時に連続的なペアの場合、相互情報量は、結合分布の周辺分布、、の積からのカルバック・ライブラー分布であり、つまり、 $(X,Y)$ $p_{X}\cdot p_{Y}$ $p_{(X,Y)}$

\operatorname {I} (X;Y)=D_{\text{KL}}\left(p_{(X,Y)}\parallel p_{X}p_{Y}\right)

さらに、条件付き質量関数または密度関数とすると、次の恒等式が成り立ちます。 $p_{(X,Y)}(x,y)=p_{X\mid Y=y}(x)*p_{Y}(y)$

\operatorname {I} (X;Y)=\mathbb {E} _{Y}\left[D_{\text{KL}}\!\left(p_{X\mid Y}\parallel p_{X}\right)\right]

同時離散確率変数の証明は次のとおりです。

{\begin{aligned}\operatorname {I} (X;Y)&=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p_{(X,Y)}(x,y)\log \left({\frac {p_{(X,Y)}(x,y)}{p_{X}(x)\,p_{Y}(y)}}\right)}\\&=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X\mid Y=y}(x)p_{Y}(y)\log {\frac {p_{X\mid Y=y}(x)p_{Y}(y)}{p_{X}(x)p_{Y}(y)}}\\&=\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\sum _{x\in {\mathcal {X}}}p_{X\mid Y=y}(x)\log {\frac {p_{X\mid Y=y}(x)}{p_{X}(x)}}\\&=\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\;D_{\text{KL}}\!\left(p_{X\mid Y=y}\parallel p_{X}\right)\\&=\mathbb {E} _{Y}\left[D_{\text{KL}}\!\left(p_{X\mid Y}\parallel p_{X}\right)\right].\end{aligned}}

同様に、この同一性は、共連続ランダム変数に対しても確立できます。

ここで、カルバック・ライブラー情報量は確率変数の値のみの積分を含み、式は依然として確率変数を表すことに注意してください。なぜなら、はランダムだからです。したがって、相互情報量は、単変量分布から与えられた条件付き分布のカルバック・ライブラー情報量の期待値として理解することもできます。つまり、分布とが平均的に異なるほど、情報ゲインは大きくなります。 $X$ $D_{\text{KL}}(p_{X\mid Y}\parallel p_{X})$ $Y$ $Y$ $p_{X\mid Y}$ $X$ $Y$ $p_{X}$ $X$ $p_{X\mid Y}$ $p_{X}$

相互情報量のベイズ推定

共分布からのサンプルが利用可能な場合、ベイズ的アプローチを用いてその分布の相互情報量を推定することができる。この研究は^{[ 5 ]において初めて行われ、相互情報量以外の多くの情報理論的特性についてもベイズ推定を行う方法を示した。その後の研究者たちは}^{[ 6 ]} 、この分析を再導出し^{[ 7 ]}、拡張した。相互情報量そのものの推定に特化した事前分布に基づく最近の論文については^{[ 8 ]}を参照のこと。さらに、最近、連続出力と多変量出力を考慮した推定法が ^[⁹^]で提案された。 $Y$

独立性の仮定

相互情報量のカルバック・ライブラー・ダイバージェンス定式化は、完全に因数分解された外積との比較に関心があることを前提としている。非負値行列分解のような多くの問題では、それほど極端ではない因数分解に関心がある。具体的には、未知の変数における低ランク行列近似と比較したい場合、つまり、どの程度の近似値が得られるかを比較したい場合である。 $p(x,y)$ $p(x)\cdot p(y)$ $p(x,y)$ $w$

p(x,y)\approx \sum _{w}p^{\prime }(x,w)p^{\prime \prime }(w,y)

あるいは、因子分解によってどれだけ多くの情報が持ち越されるかを知りたい場合もあるだろう。この場合、分布全体が行列因子分解によって持ち越す余剰情報は、カルバック・ライブラー距離によって与えられる。 $p(x,y)$ $p(x,y)$

\operatorname {I} _{LRMA}=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p(x,y)\log {\left({\frac {p(x,y)}{\sum _{w}p^{\prime }(x,w)p^{\prime \prime }(w,y)}}\right)}},

相互情報量の従来の定義は、プロセスがに対して 1 つの値しか持たない極端な場合に復元されます。 $W$ $w$

バリエーション

相互情報量には、様々なニーズに合わせて様々なバリエーションが提案されています。その中には、正規化されたバリエーションや、2つ以上の変数への一般化などがあります。

メトリック

多くのアプリケーションでは、メトリック、つまり点のペア間の距離の尺度が必要になります。

{\begin{aligned}d(X,Y)&=\mathrm {H} (X,Y)-\operatorname {I} (X;Y)\\&=\mathrm {H} (X)+\mathrm {H} (Y)-2\operatorname {I} (X;Y)\\&=\mathrm {H} (X\mid Y)+\mathrm {H} (Y\mid X)\\&=2\mathrm {H} (X,Y)-\mathrm {H} (X)-\mathrm {H} (Y)\end{aligned}}

は計量の性質（三角不等式、非負性、識別不能性、対称性）を満たし、等式とはがから完全に決定できることを意味すると理解される。^[¹⁰^] $X=Y$ $X$ $Y$

この距離メトリックは、情報の変動とも呼ばれます。

が離散確率変数である場合、すべてのエントロピー項は非負なので、正規化された距離を定義することができる。 $X,Y$ $0\leq d(X,Y)\leq \mathrm {H} (X,Y)$

D(X,Y)={\frac {d(X,Y)}{\mathrm {H} (X,Y)}}\leq 1.

定義を当てはめると、

D(X,Y)=1-{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}.

これはRajski距離として知られています。^{[ 11 ]}情報の集合論的解釈では（条件付きエントロピーの図を参照）、これは実質的にと間のJaccard距離です。 $X$ $Y$

ついに、

D^{\prime }(X,Y)=1-{\frac {\operatorname {I} (X;Y)}{\max \left\{\mathrm {H} (X),\mathrm {H} (Y)\right\}}}

指標でもあります。

条件付き相互情報量

場合によっては、3 番目の変数を条件とする 2 つのランダム変数の相互情報量を表現することが便利なことがあります。

\operatorname {I} (X;Y|Z)=\mathbb {E} _{Z}[D_{\mathrm {KL} }(P_{(X,Y)|Z}\|P_{X|Z}\otimes P_{Y|Z})]

離散確率変数の場合、これは次の形をとる。

\operatorname {I} (X;Y|Z)=\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p_{Z}(z)\,p_{X,Y|Z}(x,y|z)\log \left[{\frac {p_{X,Y|Z}(x,y|z)}{p_{X|Z}\,(x|z)p_{Y|Z}(y|z)}}\right]},

これは次のように簡略化できる。

\operatorname {I} (X;Y|Z)=\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{X,Y,Z}(x,y,z)p_{Z}(z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}.

同時連続確率変数の場合、これは次の形をとる。

\operatorname {I} (X;Y|Z)=\int _{\mathcal {Z}}\int _{\mathcal {Y}}\int _{\mathcal {X}}{p_{Z}(z)\,p_{X,Y|Z}(x,y|z)\log \left[{\frac {p_{X,Y|Z}(x,y|z)}{p_{X|Z}\,(x|z)p_{Y|Z}(y|z)}}\right]}dxdydz,

これは次のように簡略化できる。

\operatorname {I} (X;Y|Z)=\int _{\mathcal {Z}}\int _{\mathcal {Y}}\int _{\mathcal {X}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{X,Y,Z}(x,y,z)p_{Z}(z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}dxdydz.

第三の確率変数を条件とすることで相互情報量は増加することも減少することもあるが、常に次のことが当てはまる。

\operatorname {I} (X;Y|Z)\geq 0

離散的かつ共分布する確率変数に対して。この結果は、情報理論における他の不等式を証明するための基本的な構成要素として用いられてきた。 $X,Y,Z$

インタラクション情報

相互情報量の2つ以上の確率変数への一般化は、全相関（または多重情報量）や双対全相関など、いくつか提案されている。多変量高次相互情報量の表現と研究は、一見独立した2つの研究によって達成された。マギル（1954）^{[ 12 ]}はこれらの関数を「相互作用情報量」と呼び、フー・クオ・ティン（1962）^{[ 13 ]}は相互作用情報を1つの変数について以下のように定義する。

\operatorname {I} (X_{1})=\mathrm {H} (X_{1})

そして $n>1,$

\operatorname {I} (X_{1};\,...\,;X_{n})=\operatorname {I} (X_{1};\,...\,;X_{n-1})-\operatorname {I} (X_{1};\,...\,;X_{n-1}\mid X_{n}).

一部の著者は、前式の右辺の項の順序を逆にしています。これは、確率変数の数が奇数の場合に符号が変わるためです。（この場合、一変数式はエントロピーの負の値になります。）

I(X_{1};\ldots ;X_{n-1}\mid X_{n})=\mathbb {E} _{X_{n}}[D_{\mathrm {KL} }(P_{(X_{1},\ldots ,X_{n-1})\mid X_{n}}\|P_{X_{1}\mid X_{n}}\otimes \cdots \otimes P_{X_{n-1}\mid X_{n}})].

多変量統計的独立性

多変量相互情報量関数は、任意の多数の変数に対して、かつその場合に限って成立する、ペアワイズ独立性のケースを一般化するものである。n個の変数が互いに独立であるためには、かつその場合に限って、相互情報量関数がでゼロとなる（定理2 ^[¹⁴^]）。この意味で、は洗練された統計的独立性基準として用いることができる。 $X_{1},X_{2}$ $I(X_{1};X_{2})=0$ $2^{n}-n-1$ $I(X_{1};\ldots ;X_{k})=0$ $n\geq k\geq 2$ $I(X_{1};\ldots ;X_{k})=0$

アプリケーション

3変数の場合、Brennerらは多変量相互情報量を神経符号化に適用し、その負性を「相乗効果」と呼びました^{[ 15 ]}。Watkinsonらはそれを遺伝子発現に適用しました^{[ 16 ]。}任意のk変数の場合、Tapiaらは多変量相互情報量を遺伝子発現に適用しました^{[ 17 ]}。^[¹⁴^]それはゼロ、正、または負の値を取ります^[¹³^]^。正性はペアワイズ相関を一般化する関係に対応し、無効性は独立性の洗練された概念に対応し、負性は高次元の「創発的」関係とクラスター化されたデータポイントを検出します^{[ 17 ]}。

共分布と他の目標変数との間の相互情報量を最大化する高次元一般化スキームの1つは、特徴選択に有用であることがわかっている。^{[ 18 ]}

相互情報量は、信号処理の分野でも、 2つの信号間の類似性を測る指標として用いられます。例えば、FMI指標^{[ 19 ]}は、相互情報量を用いて融合画像が元画像についてどの程度の情報量を持っているかを測定する画像融合性能指標です。この指標のMatlabコードは^{[ 20 ]}にあります。n変数のデータセットにおける多変量相互情報量、条件付き相互情報量、結合エントロピー、総相関、情報距離などを計算するPythonパッケージが利用可能です。^{[ 21 ]}

指示された情報

有向情報量（）は、プロセスからに流れる情報量を表す。ここではベクトル、はを表す。有向情報量という用語はジェームズ・マッセイによって造られ、次のように定義される。 $\operatorname {I} \left(X^{n}\to Y^{n}\right)$ $X^{n}$ $Y^{n}$ $X^{n}$ $X_{1},X_{2},...,X_{n}$ $Y^{n}$ $Y_{1},Y_{2},...,Y_{n}$

\operatorname {I} \left(X^{n}\to Y^{n}\right)=\sum _{i=1}^{n}\operatorname {I} \left(X^{i};Y_{i}\mid Y^{i-1}\right)

。

の場合には、有向情報は相互情報量となることに注意されたい。有向情報は、フィードバックを伴う通信路の容量など、因果関係が重要な役割を果たす問題において多くの応用がある。^[²²^]^[²³^] $n=1$

正規化された変異体

相互情報量の正規化された変種は、制約係数^{[ 24 ]} 、不確実性係数^{[ 25 ]}、または熟達度^{[ 26 ]によって提供される。}

C_{XY}={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (Y)}}~~~~{\mbox{and}}~~~~C_{YX}={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)}}.

2つの係数は[0, 1]の範囲の値を持ちますが、必ずしも等しいわけではありません。この尺度は対称ではありません。対称的な尺度が必要な場合は、次の冗長性尺度を検討してください。

R={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)+\mathrm {H} (Y)}}

変数が独立である場合に最小値はゼロとなり、最大値は

R_{\max }={\frac {\min \left\{\mathrm {H} (X),\mathrm {H} (Y)\right\}}{\mathrm {H} (X)+\mathrm {H} (Y)}}

一方の変数がもう一方の変数の知識によって完全に冗長になる場合。冗長性（情報理論）も参照。

もう一つの対称的な尺度は対称不確実性（Witten & Frank 2005）であり、次のように表される。

U(X,Y)=2R=2{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)+\mathrm {H} (Y)}}

これは2つの不確実性係数の調和平均を表す。^[²⁵^] $C_{XY},C_{YX}$

相互情報量を全相関あるいは双対全相関の特別なケースと考えると、正規化されたバージョンはそれぞれ、

{\frac {\operatorname {I} (X;Y)}{\min \left[\mathrm {H} (X),\mathrm {H} (Y)\right]}}

そして

{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}\;.

この正規化されたバージョンは情報品質比（IQR）としても知られており、ある変数の情報量を別の変数に基づいて全体の不確実性に対して定量化します。^{[ 27 ]}

IQR(X,Y)=\operatorname {E} [\operatorname {I} (X;Y)]={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}={\frac {\sum _{x\in X}\sum _{y\in Y}p(x,y)\log {p(x)p(y)}}{\sum _{x\in X}\sum _{y\in Y}p(x,y)\log {p(x,y)}}}-1

相互情報量を共分散量と類似したもの（したがってシャノンエントロピーは分散量と類似）として考えることで得られる正規化^{[ 28 ]}が存在する。そして、正規化された相互情報量はピアソン相関係数と同様に計算される。

{\frac {\operatorname {I} (X;Y)}{\sqrt {\mathrm {H} (X)\mathrm {H} (Y)}}}\;.

単純な正規化は偏った解釈につながり、誤った依存関係を導入する可能性がある。^{[ 29 ]}

加重変種

相互情報量の伝統的な定式化では、

\operatorname {I} (X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},

で指定される各イベントまたはオブジェクトは、対応する確率によって重み付けされます。これは、発生確率を除けば、すべてのオブジェクトまたはイベントが同等であると仮定しています。ただし、アプリケーションによっては、特定のオブジェクトまたはイベントが他のオブジェクトまたはイベントよりも重要であったり、特定の関連パターンが他の関連パターンよりも意味的に重要であったりする場合があります。 $(x,y)$ $p(x,y)$

例えば、これらの関係は同じ相互情報量をもたらすにもかかわらず、決定論的マッピングは決定論的マッピングよりも強いとみなされることがあります。これは、相互情報量が変数値の固有の順序に全く影響されないため（ Cronbach 1954、Coombs、Dawes & Tversky 1970、Lockhead 1970 ）、関連する変数間の関係マッピングの形式にも全く影響されないためです。前者の関係（すべての変数値で一致を示す）を後者の関係よりも強いと判断する必要がある場合、以下の重み付き相互情報量を使用することができます（Guiasu 1977）。 $\{(1,1),(2,2),(3,3)\}$ $\{(1,3),(2,1),(3,2)\}$

\operatorname {I} (X;Y)=\sum _{y\in Y}\sum _{x\in X}w(x,y)p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},

これは、各変数値の共起確率に重み付けをします。これにより、特定の確率が他の確率よりも重要度が高くなったり低くなったりする可能性があり、それによって関連する全体的要因またはプレグナンツ要因を定量化できます。上記の例では、、、に大きな相対的な重みを使用すると、関係よりも関係の 情報価値が高いと評価される効果があり、パターン認識などの一部のケースでは望ましい場合があります。この重み付き相互情報量は、重み付きKLダイバージェンスの一種であり、一部の入力に対して負の値を取ることが知られています。 ^[³⁰^]また、重み付き相互情報量も負の値を取る例があります。^[³¹^] $w(x,y)$ $p(x,y)$ $w(1,1)$ $w(2,2)$ $w(3,3)$ $\{(1,1),(2,2),(3,3)\}$ $\{(1,3),(2,1),(3,2)\}$

調整された相互情報量

確率分布は、集合の分割として考えることができます。そこで、もし集合をランダムに分割したら、確率の分布はどうなるでしょうか？相互情報量の期待値はどうなるでしょうか？調整相互情報量（AMI）はMIの期待値を差し引いたものです。つまり、2つの異なる分布がランダムな場合、AMIは0になり、2つの分布が同一の場合、AMIは1になります。AMIは、集合の2つの異なる分割の調整Rand指数に類似して定義されます。

絶対相互情報量

コルモゴロフ複雑性の考え方を用いると、確率分布に依存しない2つのシーケンスの相互情報量を考察することができる。

\operatorname {I} _{K}(X;Y)=K(X)-K(X\mid Y).

この量が対数係数（）に関して対称であることを証明するには、コルモゴロフ複雑性の連鎖律（Li & Vitányi 1997）が必要である。この量の圧縮による近似値は、シーケンスに関するドメイン知識を一切持たずに、シーケンスの階層的クラスタリングを実行するための距離尺度を定義するために使用できる（Cilibrasi & Vitányi 2005）。 $\operatorname {I} _{K}(X;Y)\approx \operatorname {I} _{K}(Y;X)$

線形相関

積率相関係数などの相関係数とは異なり、相互情報量は、相関係数が測定するような線形依存性だけでなく、線形および非線形を含むすべての依存性に関する情報を含みます。しかし、との結合分布が二変量正規分布である（特に両方の周辺分布が正規分布であることを意味する）という狭い範囲においては、と相関係数の間には正確な関係があります（Gel'fand & Yaglom 1957）。 $X$ $Y$ $\operatorname {I}$ $\rho$

\operatorname {I} =-{\frac {1}{2}}\log \left(1-\rho ^{2}\right)

上記の式は、二変量ガウス分布の場合、次のように導出できます。

{\begin{aligned}{\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}&\sim {\mathcal {N}}\left({\begin{pmatrix}\mu _{1}\\\mu _{2}\end{pmatrix}},\Sigma \right),\qquad \Sigma ={\begin{pmatrix}\sigma _{1}^{2}&\rho \sigma _{1}\sigma _{2}\\\rho \sigma _{1}\sigma _{2}&\sigma _{2}^{2}\end{pmatrix}}\\\mathrm {H} (X_{i})&={\frac {1}{2}}\log \left(2\pi e\sigma _{i}^{2}\right)={\frac {1}{2}}+{\frac {1}{2}}\log(2\pi )+\log \left(\sigma _{i}\right),\quad i\in \{1,2\}\\\mathrm {H} (X_{1},X_{2})&={\frac {1}{2}}\log \left[(2\pi e)^{2}|\Sigma |\right]=1+\log(2\pi )+\log \left(\sigma _{1}\sigma _{2}\right)+{\frac {1}{2}}\log \left(1-\rho ^{2}\right)\\\end{aligned}}

したがって、

\operatorname {I} \left(X_{1};X_{2}\right)=\mathrm {H} \left(X_{1}\right)+\mathrm {H} \left(X_{2}\right)-\mathrm {H} \left(X_{1},X_{2}\right)=-{\frac {1}{2}}\log \left(1-\rho ^{2}\right)

離散データの場合

とが離散的な状態数に限定されている場合、観測データは行変数（または）と列変数（または）を持つ分割表に要約されます。相互情報量は、行変数と列変数間の関連性または相関関係を測る尺度の一つです。 $X$ $Y$ $X$ $i$ $Y$ $j$

その他の関連性の尺度には、ピアソンのカイ2乗検定統計量、G検定統計量などがあります。実際、同じ対数底の場合、相互情報量はG検定の対数尤度統計量を（はサンプルサイズ）で割った値に等しくなります。 $2N$ $N$

アプリケーション

多くのアプリケーションでは、相互情報量を最大化（つまり依存関係を増大）することが求められますが、これは多くの場合、条件付きエントロピーを最小化することと同等です。例としては、以下のようなものが挙げられます。

検索エンジン技術では、フレーズとコンテキスト間の相互情報量は、意味クラスター（概念）を発見するためのk平均法クラスタリングの特徴量として利用される。^{[ 32 ]} 例えば、バイグラムの相互情報量は次のように計算される。

MI(x,y)=\log {\frac {P_{X,Y}(x,y)}{P_{X}(x)P_{Y}(y)}}\approx \log {\frac {\frac {f_{XY}}{B}}{{\frac {f_{X}}{U}}{\frac {f_{Y}}{U}}}}

ここで、はバイグラムxyがコーパスに出現する回数、はユニグラムxがコーパスに出現する回数、Bはバイグラムの総数、Uはユニグラムの総数である。^[³²^]

f_{XY}

f_{X}

電気通信においては、チャネル容量は相互情報量に等しく、すべての入力分布にわたって最大化されます。
最大相互情報量 (MMI) 基準に基づいて、隠れマルコフモデルの識別トレーニング手順が提案されています。
多重配列アライメントからの RNA二次構造予測。
機能的に関連する遺伝子のペアの存在と消失からの系統発生プロファイリング予測。
相互情報量は、機械学習における特徴選択と特徴変換の基準として用いられてきました。最小冗長性特徴選択など、変数の関連性と冗長性の両方を特徴付けるために使用できます。
相互情報量は、データセットの2つの異なるクラスタリングの類似性を判断する際に使用されます。そのため、従来のRand指数に比べていくつかの利点があります。
単語の相互情報量は、コーパス言語学におけるコロケーション計算の重要度関数としてよく用いられます。しかし、これは、どの単語インスタンスも2つの異なる単語のインスタンスではないという複雑な点を伴います。むしろ、2つの単語が隣接または近接して出現するインスタンスをカウントします。これは、ある単語が別の単語の単語内に出現する確率が、 $N$ $N$
相互情報量は、医用画像処理における画像位置合わせに利用されます。参照画像（例えば脳スキャン画像）と、参照画像と同じ座標系に配置する必要がある2枚目の画像が与えられた場合、この画像は参照画像との相互情報量が最大化されるまで変形されます。
時系列解析における位相同期の検出。
ニューラルネットやその他の機械学習のためのインフォマックス法、インフォマックスベースの独立成分分析アルゴリズムを含む
遅延埋め込み定理における平均相互情報量は、埋め込み遅延パラメータを決定するために使用されます。
発現マイクロアレイデータ内の遺伝子間の相互情報は、遺伝子ネットワークの再構築のための ARACNE アルゴリズムによって使用されます。
統計力学では、ロシュミットのパラドックスは相互情報量で表現されることがある。^{[ 33 ]}^{[ 34 ]}ロシュミットは、時間反転対称性を欠く物理法則（例えば、熱力学の第二法則）を、この対称性を持つ物理法則からのみ決定することは不可能であるはずだと指摘した。彼は、ボルツマンのH定理が気体中の粒子の速度は永久に無相関であるという仮定を立てており、それがH定理に固有の時間対称性をなくしていると指摘した。システムが位相空間内の確率密度で記述される場合、リウヴィルの定理より、分布の結合情報量（結合エントロピーの負）は時間で一定のままであることが示される。結合情報は、各粒子座標の相互情報量とすべての周辺情報量（周辺エントロピーの負）の合計に等しい。ボルツマンの仮定は、エントロピーの計算において相互情報量を無視することになり、その結果、熱力学的エントロピー（ボルツマン定数で割ったもの）が算出されます。
変化する環境と結びついた確率過程においては、相互情報量を用いて内部環境依存性と実効環境依存性を解明することができる。^{[ 35 ]}^{[ 36 ]}これは、物理系がそのダイナミクスを記述するパラメータ、例えば温度変化など、に変化を起こす場合に特に有用である。
相互情報量はベイジアンネットワーク/動的ベイジアンネットワークの構造を学習するために使用され、ランダム変数間の因果関係を説明すると考えられています。GlobalMITツールキット^{[ 37 ]}が示すように、相互情報量検定基準を用いてグローバルに最適な動的ベイジアンネットワークを学習します。
相互情報量はギブスサンプリングアルゴリズムの更新手順中に伝達される情報を定量化するために使用されます。^{[ 38 ]}
決定木学習における一般的なコスト関数。
相互情報量は、銀河動物園における大規模な環境が銀河の特性に与える影響をテストするために宇宙論で使用されています。
相互情報量は太陽物理学において、太陽の差動回転プロファイル、黒点の移動時間偏差マップ、静穏太陽測定からの時間距離図の導出に使用された^{[ 39 ]}
不変情報クラスタリングで使用され、ラベル付けされたデータがなくてもニューラルネットワーク分類器と画像セグメンテーションを自動的にトレーニングします。^{[ 40 ]}
複数の時間スケールを持つ確率的力学系では、相互情報量が異なる時間スケール間の機能的結合を捉えることが示されている。^{[ 41 ]}重要なのは、物理的相互作用が相互情報量を生み出すかどうかは、その力学系の典型的な時間スケールに依存していることが示されたことである。

参照

注記

^ Cover, Thomas M.; Thomas, Joy A. (2005). 『情報理論の要素』（PDF） . John Wiley & Sons, Ltd. pp. 13– 55. ISBN 978-0-471-74882-3。
^ Kreer, JG (1957). 「用語法の問題」. IRE Transactions on Information Theory . 3 (3): 208. doi : 10.1109/TIT.1957.1057418 .
^ ^a ^b ^c Cover, TM; Thomas, JA (1991). 『情報理論の要素』（Wiley版）John Wiley & Sons. ISBN 978-0-471-24195-9。
^ Janssen, Joseph; Guan, Vincent; Robeva, Elina (2023). 「超限界特徴量の重要性：因果関係の保証を伴うデータからの学習」 .人工知能と統計に関する国際会議: 10782–10814 . arXiv : 2204.09938 .
^ Wolpert, DH; Wolf, DR (1995). 「有限サンプル集合からの確率分布関数の推定」. Physical Review E. 52 ( 6): 6841– 6854. Bibcode : 1995PhRvE..52.6841W . CiteSeerX 10.1.1.55.7122 . doi : 10.1103/PhysRevE.52.6841 . PMID 9964199. S2CID 9795679 .
^ Hutter, M. (2001). 「相互情報量の分布」.ニューラル情報処理システムの進歩.
^ Archer, E.; Park, IM; Pillow, J. (2013). 「離散データからの相互情報量のためのベイズ推定量と準ベイズ推定量」 .エントロピー. 15 (12): 1738– 1755. Bibcode : 2013Entrp..15.1738A . CiteSeerX 10.1.1.294.4690 . doi : 10.3390/e15051738 .
^ Wolpert, DH; DeDeo, S. (2013). 「未知のサイズの空間上で定義された分布の関数の推定」 .エントロピー. 15 (12): 4668– 4699. arXiv : 1311.4548 . Bibcode : 2013Entrp..15.4668W . doi : 10.3390/e15114668 . S2CID 2737117 .
^ Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Slawomir Blonski; Michal Komorowski (2019). 「多変量単一細胞シグナル伝達応答の情報理論的解析」. PLOS Computational Biology . 15 (7) e1007132. arXiv : 1808.05581 . Bibcode : 2019PLSCB..15E7132J . doi : 10.1371/journal.pcbi.1007132 . PMC 6655862. PMID 31299056 .
^ Rajski, C. (1961). 「離散確率分布の計量空間」.情報制御. 4 (4): 371– 377. doi : 10.1016/S0019-9958(61)80055-7 .
^ Rajski, C. (1961). 「離散確率分布の計量空間」.情報制御. 4 (4): 371– 377. doi : 10.1016/S0019-9958(61)80055-7 .
^ McGill, W. (1954). 「多変量情報伝達」. Psychometrika . 19 (1): 97–116 . doi : 10.1007/BF02289159 . S2CID 126431489 .
^ ^a ^b Hu, KT (1962). 「情報量について」.確率理論応用. 7 ( 4): 439– 447. doi : 10.1137/1107041 .
^ ^a ^b Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). 「トポロジカル情報データ分析」.エントロピー. 21 ( 9). 869. arXiv : 1907.04242 . Bibcode : 2019Entrp..21..869B . doi : 10.3390/e21090869 . PMC 7515398. S2CID 195848308 .
^ Brenner, N.; Strong, S.; Koberle, R.; Bialek , W. (2000). 「神経コードにおけるシナジー」. Neural Comput . 12 (7): 1531– 1552. doi : 10.1162/089976600300015259 . PMID 10935917. S2CID 600528 .
^ Watkinson, J.; Liang, K.; Wang, X.; Zheng, T.; Anastassiou, D. (2009). 「三元相互情報量を用いた発現データからの調節遺伝子相互作用の推論」. Chall. Syst. Biol. Ann. NY Acad. Sci . 1158 (1): 302– 313. Bibcode : 2009NYASA1158..302W . doi : 10.1111 / j.1749-6632.2008.03757.x . PMID 19348651. S2CID 8846229 .
^ ^a ^b Tapia, M.; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, JM (2018). 「中脳ドーパミン作動性ニューロンにおける神経伝達物質のアイデンティティと電気生理学的表現型は遺伝的に結合している」. Sci . Rep . 8 (1): 13637. Bibcode : 2018NatSR...813637T . doi : 10.1038/s41598-018-31765-z . PMC 6134142. PMID 30206240 .
^クリストファー・D・マニング;プラバーカール・ラガヴァン。ヒンリヒ・シュッツェ (2008)。情報検索の概要。ケンブリッジ大学出版局。ISBN 978-0-521-86571-5。
^ Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). 「画像特徴の相互情報量に基づく非参照画像融合メトリック」. Computers & Electrical Engineering . 37 (5): 744– 756. doi : 10.1016/j.compeleceng.2011.07.012 . S2CID 7738541 .
^ 「非参照画像融合のための特徴相互情報量（FMI）メトリック - ファイル交換 - MATLAB Central」 www.mathworks.com . 2018年4月4日閲覧。
^ 「InfoTopo: トポロジカル情報データ分析。深層統計的教師なし学習と教師あり学習 - ファイル交換 - Github」。github.com /pierrebaudot /infotopopy/。 2020年9月26日閲覧。
^ Massey, James (1990). 「因果関係、フィードバック、そして指向的情報」. Proc. 1990 International Symp. on Info. Th. and its Applications, Waikiki, Hawaii, Nov. 27-30, 1990. CiteSeerX 10.1.1.36.5688 .
^ Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (2009年2月). 「時間不変の決定論的フィードバックを備えた有限状態チャネル」. IEEE Transactions on Information Theory . 55 (2): 644– 662. arXiv : cs/0608070 . doi : 10.1109/TIT.2008.2009849 . S2CID 13178 .
^クームズ、ドーズ、トヴェルスキー 1970 .
^ ^a ^b Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). 「セクション14.7.3. 条件付きエントロピーと相互情報量」 .数値レシピ：科学計算の芸術（第3版）. ニューヨーク：ケンブリッジ大学出版局. ISBN 978-0-521-88068-8. 2011年8月11日時点のオリジナルよりアーカイブ。2011年8月13日閲覧。
^ White, Jim; Steingold, Sam; Fournelle, Connie.グループ検出アルゴリズムのパフォーマンスメトリクス(PDF) . Interface 2004. 2016年7月5日時点のオリジナルよりアーカイブ。 2014年2月19日閲覧。
^ウィジャヤ、デディ・ラーマン;リヤナルト州サルノ。ズライカ、エニー（2017）。「マザーウェーブレット選択の新しい指標としての情報品質比」。化学分析およびインテリジェント実験システム。160：59–71。土井：10.1016/j.chemolab.2016.11.012。
^ Strehl, Alexander; Ghosh, Joydeep (2003). 「クラスターアンサンブル – 複数のパーティションを組み合わせるための知識再利用フレームワーク」(PDF) . The Journal of Machine Learning Research . 3 : 583–617 . doi : 10.1162/153244303321897735 .
^ Jerdee, M., Kirkley, A. & Newman, M. 正規化相互情報量は分類とコミュニティ検出におけるバイアスのある指標である。Nat Commun (2025). https://doi.org/10.1038/s41467-025-66150-8
^ Kvålseth, TO (1991). 「相対的有用情報尺度：いくつかのコメント」.情報科学. 56 (1): 35– 38. doi : 10.1016/0020-0255(91)90022-m .
^ Pocock, A. (2012).結合尤度による特徴選択(PDF) (論文).
^ ^a ^b相互情報量統計を用いた自然言語解析、 David M. MagermanとMitchell P. Marcus著
^ヒュー・エヴェレット「普遍波動関数の理論」、プリンストン大学論文（1956年、1973年）、1～140頁（30ページ）
^エヴェレット、ヒュー(1957). 「量子力学の相対状態定式化」 . Reviews of Modern Physics . 29 (3): 454– 462. Bibcode : 1957RvMP...29..454E . doi : 10.1103/revmodphys.29.454 . 2011年10月27日時点のオリジナルよりアーカイブ。 2012年7月16日閲覧。
^ Nicoletti, Giorgio; Busiello, Daniel Maria (2021-11-22). 「相互情報量による相互作用と変化する環境の分離」 . Physical Review Letters . 127 (22) 228301. arXiv : 2107.08985 . Bibcode : 2021PhRvL.127v8301N . doi : 10.1103/PhysRevLett.127.228301 . PMID 34889638. S2CID 236087228 .
^ Nicoletti, Giorgio; Busiello, Daniel Maria (2022-07-29). 「変化する環境における相互情報量：非線形相互作用、非平衡系、そして連続的に変化する拡散係数」 . Physical Review E. 106 ( 1) 014153. arXiv : 2204.01644 . Bibcode : 2022PhRvE.106a4153N . doi : 10.1103/PhysRevE.106.014153 . PMID 35974654 .
^ Google CodeのGlobalMIT
^ Lee, Se Yoon (2021). 「ギブスサンプラーと座標上昇変分推論：集合論的レビュー」. Communications in Statistics - Theory and Methods . 51 (6): 1549– 1568. arXiv : 2008.01006 . doi : 10.1080/03610926.2021.1921214 . S2CID 220935477 .
^ Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (2015年2月). 「時間距離太陽震学における相互情報量法の応用」. Solar Physics . 290 (3): 659– 671. arXiv : 1501.05597 . Bibcode : 2015SoPh..290..659K . doi : 10.1007/s11207-015-0650-y . S2CID 118472242 .
^教師なし画像分類とセグメンテーションのための不変情報クラスタリング（Xu Ji、Joao Henriques、Andrea Vedaldi著）
^ Nicoletti, Giorgio; Busiello, Daniel Maria (2024-04-08). 「時間スケールを越えた高次相互作用を伴う多層システムにおける情報伝播」 . Physical Review X. 14 ( 2) 021007. arXiv : 2312.06246 . Bibcode : 2024PhRvX..14b1007N . doi : 10.1103/PhysRevX.14.021007 .

参考文献

Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). 「トポロジカル情報データ分析」 .エントロピー. 21 (9). 869. arXiv : 1907.04242 . Bibcode : 2019Entrp..21..869B . doi : 10.3390 / e21090869 . PMC 7515398. S2CID 195848308 .
Cilibrasi, R.; Vitányi, Paul (2005). 「圧縮によるクラスタリング」(PDF) . IEEE Transactions on Information Theory . 51 (4): 1523– 1545. arXiv : cs/0312044 . doi : 10.1109/TIT.2005.844059 . S2CID 911 .
Cronbach, LJ (1954). 「心理学における情報尺度の非合理的な応用について」.ヘンリー・クワストラー編著. 『心理学における情報理論：問題と方法』 . イリノイ州グレンコー：フリープレス. pp. 14– 30.
クームズ, C.H.; ドーズ, RM.; トヴェルスキー, A. (1970). 『数理心理学：初等入門』 . ニュージャージー州エングルウッド・クリフス: プレンティス・ホール.
チャーチ、ケネス・ワード；ハンクス、パトリック（1989）「語連想規範、相互情報量、そして辞書学」。計算言語学会第27回年次大会議事録。16 （1）：76-83。doi：10.3115 /981623.981633。
ゲルファンド, IM; ヤグロム, AM (1957). 「あるランダム関数に関する情報量の計算」アメリカ数学会翻訳シリーズ2. 12 : 199–246 . doi : 10.1090/trans2/012/09 . ISBN 978-0-8218-1712-4。{{cite journal}}: ISBN / Date incompatibility (help)Uspekhi Matematicheskikh Nauk 12 (1): 3-52の原文の英語訳。
ギアス、シルヴィウ (1977).情報理論とその応用. マグロウヒル, ニューヨーク. ISBN 978-0-07-025109-0。
リー、ミン。ヴィタニ、ポール (1997 年 2 月)。コルモゴロフの複雑さとその応用についての紹介。ニューヨーク: Springer-Verlag。ISBN 978-0-387-94868-3。
ロックヘッド, GR (1970). 「同定と多次元識別空間の形態」.実験心理学ジャーナル. 85 (1): 1– 10. doi : 10.1037/h0029508 . PMID 5458322 .
デイヴィッド・J・C・マッケイ著『情報理論、推論、学習アルゴリズム』ケンブリッジ：ケンブリッジ大学出版局、2003年、ISBN 0-521-64298-1（オンラインで無料で入手可能）
Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). 「画像特徴の相互情報量に基づく非参照画像融合メトリック」. Computers & Electrical Engineering . 37 (5): 744– 756. doi : 10.1016/j.compeleceng.2011.07.012 . S2CID 7738541 .
アタナシオス・パプーリス著『確率、ランダム変数、そして確率過程』第2版、ニューヨーク：マグロウヒル、1984年（第15章参照）。
ウィッテン、イアン・H. & フランク、アイベ (2005). 『データマイニング：実践的な機械学習ツールとテクニック』モーガン・カウフマン、アムステルダム. ISBN 978-0-12-374856-0。
Peng, HC; Long, F. & Ding, C. (2005). 「相互情報量に基づく特徴選択：最大依存性、最大関連性、最小冗長性の基準」 IEEE Transactions on Pattern Analysis and Machine Intelligence . 27 (8): 1226– 1238. CiteSeerX 10.1.1.63.5765 . doi : 10.1109/tpami.2005.159 . PMID 16119262 . S2CID 206764015 .
Andre S. Ribeiro; Stuart A. Kauffman; Jason Lloyd-Price; Bjorn Samuelsson & Joshua Socolar (2008). 「制御ネットワークのランダムブールモデルにおける相互情報量」. Physical Review E. 77 ( 1) 011901. arXiv : 0707.3642 . Bibcode : 2008PhRvE..77a1901R . doi : 10.1103/physreve.77.011901 . PMID 18351870. S2CID 15232112 .
Wells, WM III; Viola, P.; Atsumi, H.; Nakajima, S.; Kikinis, R. (1996). 「相互情報量最大化によるマルチモーダルボリュームレジストレーション」（PDF） . Medical Image Analysis . 1 (1): 35– 51. doi : 10.1016/S1361-8415(01)80004-9 . PMID 9873920.オリジナル（PDF）から2008年9月6日にアーカイブ。 2010年8月5日閲覧。
Pandey, Biswajit; Sarkar, Suman (2017). 「銀河は大規模環境についてどれだけ知っているか？：情報理論的視点」 . Monthly Notices of the Royal Astronomical Society Letters . 467 (1): L6. arXiv : 1611.00283 . Bibcode : 2017MNRAS.467L...6P . doi : 10.1093/mnrasl/slw250 . S2CID 119095496 .

ジョセフ・ヤンセン、ヴィンセント・グアン、エリーナ・ロベバ (2023). 「超限界特徴量の重要性：因果関係の保証を伴うデータからの学習」人工知能統計国際会議: 10782–10814 . arXiv : 2204.09938 .

[1] Cover, Thomas M.; Thomas, Joy A. (2005). 『情報理論の要素』（PDF） . John Wiley & Sons, Ltd. pp. 13– 55. ISBN 978-0-471-74882-3。

[2] Kreer, JG (1957). 「用語法の問題」. IRE Transactions on Information Theory . 3 (3): 208. doi : 10.1109/TIT.1957.1057418 .

[cover1991-3] Cover, TM; Thomas, JA (1991). 『情報理論の要素』（Wiley版）John Wiley & Sons. ISBN 978-0-471-24195-9。

[4] Janssen, Joseph; Guan, Vincent; Robeva, Elina (2023). 「超限界特徴量の重要性：因果関係の保証を伴うデータからの学習」 .人工知能と統計に関する国際会議: 10782–10814 . arXiv : 2204.09938 .

[5] Wolpert, DH; Wolf, DR (1995). 「有限サンプル集合からの確率分布関数の推定」. Physical Review E. 52 ( 6): 6841– 6854. Bibcode : 1995PhRvE..52.6841W . CiteSeerX 10.1.1.55.7122 . doi : 10.1103/PhysRevE.52.6841 . PMID 9964199. S2CID 9795679 .

[6] Hutter, M. (2001). 「相互情報量の分布」.ニューラル情報処理システムの進歩.

[7] Archer, E.; Park, IM; Pillow, J. (2013). 「離散データからの相互情報量のためのベイズ推定量と準ベイズ推定量」 .エントロピー. 15 (12): 1738– 1755. Bibcode : 2013Entrp..15.1738A . CiteSeerX 10.1.1.294.4690 . doi : 10.3390/e15051738 .

[8] Wolpert, DH; DeDeo, S. (2013). 「未知のサイズの空間上で定義された分布の関数の推定」 .エントロピー. 15 (12): 4668– 4699. arXiv : 1311.4548 . Bibcode : 2013Entrp..15.4668W . doi : 10.3390/e15114668 . S2CID 2737117 .

[9] Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Slawomir Blonski; Michal Komorowski (2019). 「多変量単一細胞シグナル伝達応答の情報理論的解析」. PLOS Computational Biology . 15 (7) e1007132. arXiv : 1808.05581 . Bibcode : 2019PLSCB..15E7132J . doi : 10.1371/journal.pcbi.1007132 . PMC 6655862. PMID 31299056 .

[10] Rajski, C. (1961). 「離散確率分布の計量空間」.情報制御. 4 (4): 371– 377. doi : 10.1016/S0019-9958(61)80055-7 .

[11] Rajski, C. (1961). 「離散確率分布の計量空間」.情報制御. 4 (4): 371– 377. doi : 10.1016/S0019-9958(61)80055-7 .

[12] McGill, W. (1954). 「多変量情報伝達」. Psychometrika . 19 (1): 97–116 . doi : 10.1007/BF02289159 . S2CID 126431489 .

[On_the_Amount_of_Information-13] Hu, KT (1962). 「情報量について」.確率理論応用. 7 ( 4): 439– 447. doi : 10.1137/1107041 .

[e21090869-14] Baudot, P.; Tapia, M.; Bennequin, D.; Goaillard, JM (2019). 「トポロジカル情報データ分析」.エントロピー. 21 ( 9). 869. arXiv : 1907.04242 . Bibcode : 2019Entrp..21..869B . doi : 10.3390/e21090869 . PMC 7515398. S2CID 195848308 .

[15] Brenner, N.; Strong, S.; Koberle, R.; Bialek , W. (2000). 「神経コードにおけるシナジー」. Neural Comput . 12 (7): 1531– 1552. doi : 10.1162/089976600300015259 . PMID 10935917. S2CID 600528 .

[16] Watkinson, J.; Liang, K.; Wang, X.; Zheng, T.; Anastassiou, D. (2009). 「三元相互情報量を用いた発現データからの調節遺伝子相互作用の推論」. Chall. Syst. Biol. Ann. NY Acad. Sci . 1158 (1): 302– 313. Bibcode : 2009NYASA1158..302W . doi : 10.1111 / j.1749-6632.2008.03757.x . PMID 19348651. S2CID 8846229 .

[s41598-17] Tapia, M.; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, JM (2018). 「中脳ドーパミン作動性ニューロンにおける神経伝達物質のアイデンティティと電気生理学的表現型は遺伝的に結合している」. Sci . Rep . 8 (1): 13637. Bibcode : 2018NatSR...813637T . doi : 10.1038/s41598-018-31765-z . PMC 6134142. PMID 30206240 .

[18] クリストファー・D・マニング;プラバーカール・ラガヴァン。ヒンリヒ・シュッツェ (2008)。情報検索の概要。ケンブリッジ大学出版局。ISBN 978-0-521-86571-5。

[19] Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). 「画像特徴の相互情報量に基づく非参照画像融合メトリック」. Computers & Electrical Engineering . 37 (5): 744– 756. doi : 10.1016/j.compeleceng.2011.07.012 . S2CID 7738541 .

[20] 「非参照画像融合のための特徴相互情報量（FMI）メトリック - ファイル交換 - MATLAB Central」 www.mathworks.com . 2018年4月4日閲覧。

[21] 「InfoTopo: トポロジカル情報データ分析。深層統計的教師なし学習と教師あり学習 - ファイル交換 - Github」。github.com /pierrebaudot /infotopopy/。 2020年9月26日閲覧。

[22] Massey, James (1990). 「因果関係、フィードバック、そして指向的情報」. Proc. 1990 International Symp. on Info. Th. and its Applications, Waikiki, Hawaii, Nov. 27-30, 1990. CiteSeerX 10.1.1.36.5688 .

[23] Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (2009年2月). 「時間不変の決定論的フィードバックを備えた有限状態チャネル」. IEEE Transactions on Information Theory . 55 (2): 644– 662. arXiv : cs/0608070 . doi : 10.1109/TIT.2008.2009849 . S2CID 13178 .

[FOOTNOTECoombsDawesTversky1970-24] クームズ、ドーズ、トヴェルスキー 1970 .

[pressflannery-25] Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). 「セクション14.7.3. 条件付きエントロピーと相互情報量」 .数値レシピ：科学計算の芸術（第3版）. ニューヨーク：ケンブリッジ大学出版局. ISBN 978-0-521-88068-8. 2011年8月11日時点のオリジナルよりアーカイブ。2011年8月13日閲覧。

[JimWhite-26] White, Jim; Steingold, Sam; Fournelle, Connie.グループ検出アルゴリズムのパフォーマンスメトリクス(PDF) . Interface 2004. 2016年7月5日時点のオリジナルよりアーカイブ。 2014年2月19日閲覧。

[DRWijaya-27] ウィジャヤ、デディ・ラーマン;リヤナルト州サルノ。ズライカ、エニー（2017）。「マザーウェーブレット選択の新しい指標としての情報品質比」。化学分析およびインテリジェント実験システム。160：59–71。土井：10.1016/j.chemolab.2016.11.012。

[strehl-jmlr02-28] Strehl, Alexander; Ghosh, Joydeep (2003). 「クラスターアンサンブル – 複数のパーティションを組み合わせるための知識再利用フレームワーク」(PDF) . The Journal of Machine Learning Research . 3 : 583–617 . doi : 10.1162/153244303321897735 .

[29] Jerdee, M., Kirkley, A. & Newman, M. 正規化相互情報量は分類とコミュニティ検出におけるバイアスのある指標である。Nat Commun (2025). https://doi.org/10.1038/s41467-025-66150-8

[weighted-kl-30] Kvålseth, TO (1991). 「相対的有用情報尺度：いくつかのコメント」.情報科学. 56 (1): 35– 38. doi : 10.1016/0020-0255(91)90022-m .

[31] Pocock, A. (2012).結合尤度による特徴選択(PDF) (論文).

[magerman-32] 相互情報量統計を用いた自然言語解析、 David M. MagermanとMitchell P. Marcus著

[everett56-33] ヒュー・エヴェレット「普遍波動関数の理論」、プリンストン大学論文（1956年、1973年）、1～140頁（30ページ）

[everett57-34] エヴェレット、ヒュー(1957). 「量子力学の相対状態定式化」 . Reviews of Modern Physics . 29 (3): 454– 462. Bibcode : 1957RvMP...29..454E . doi : 10.1103/revmodphys.29.454 . 2011年10月27日時点のオリジナルよりアーカイブ。 2012年7月16日閲覧。

[35] Nicoletti, Giorgio; Busiello, Daniel Maria (2021-11-22). 「相互情報量による相互作用と変化する環境の分離」 . Physical Review Letters . 127 (22) 228301. arXiv : 2107.08985 . Bibcode : 2021PhRvL.127v8301N . doi : 10.1103/PhysRevLett.127.228301 . PMID 34889638. S2CID 236087228 .

[36] Nicoletti, Giorgio; Busiello, Daniel Maria (2022-07-29). 「変化する環境における相互情報量：非線形相互作用、非平衡系、そして連続的に変化する拡散係数」 . Physical Review E. 106 ( 1) 014153. arXiv : 2204.01644 . Bibcode : 2022PhRvE.106a4153N . doi : 10.1103/PhysRevE.106.014153 . PMID 35974654 .

[37] Google CodeのGlobalMIT

[38] Lee, Se Yoon (2021). 「ギブスサンプラーと座標上昇変分推論：集合論的レビュー」. Communications in Statistics - Theory and Methods . 51 (6): 1549– 1568. arXiv : 2008.01006 . doi : 10.1080/03610926.2021.1921214 . S2CID 220935477 .

[39] Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (2015年2月). 「時間距離太陽震学における相互情報量法の応用」. Solar Physics . 290 (3): 659– 671. arXiv : 1501.05597 . Bibcode : 2015SoPh..290..659K . doi : 10.1007/s11207-015-0650-y . S2CID 118472242 .

[iic-40] 教師なし画像分類とセグメンテーションのための不変情報クラスタリング（Xu Ji、Joao Henriques、Andrea Vedaldi著）

[41] Nicoletti, Giorgio; Busiello, Daniel Maria (2024-04-08). 「時間スケールを越えた高次相互作用を伴う多層システムにおける情報伝播」 . Physical Review X. 14 ( 2) 021007. arXiv : 2312.06246 . Bibcode : 2024PhRvX..14b1007N . doi : 10.1103/PhysRevX.14.021007 .

[

[ 2 ]

[

[ 4 ]

[ 5 ]において初めて行われ、相互情報量以外の多くの情報理論的特性についてもベイズ推定を行う方法を示した。その後の研究者たちは

[ 6 ]

[ 7 ]

[ 8 ]

[

[

[ 11 ]

[ 12 ]

[ 13 ]

[

[ 15 ]

[ 16 ]。

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[

[

[ 24 ]

[ 25 ]

[ 26 ]によって提供される。

[ 27 ]

[ 28 ]

[ 29 ]

[

[

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]