ジェンセン・シャノン距離

Statistical distance measure

確率論統計学においてヨハン・ジェンセンクロード・シャノンにちなんで名付けられたジェンセン・シャノン・ダイバージェンスは、2つの確率分布間の類似性を測定する手法です情報半径IRad[1] [2]あるいは平均に対する全ダイバージェンス[3]とも呼ばれます。これはカルバック・ライブラー・ダイバージェンスに基づいていますが、対称性があり、常に有限値を持つなど、いくつかの注目すべき(そして有用な)違いがあります。ジェンセン・シャノン・ダイバージェンスの平方根は、しばしばジェンセン・シャノン距離と呼ばれる指標です。分布間の類似性は、ジェンセン・シャノン距離がゼロに近いほど高くなります。 [4] [5] [6]

意味

確率分布の集合を考えてみましょう。ここで、 は測定可能な部分集合のσ-代数を備えた集合です。特に、 は有限集合または可算集合であり、その部分集合はすべて測定可能であるとすることができます。 M + 1 ( A ) {\displaystyle M_{+}^{1}(A)} A {\displaystyle A} A {\displaystyle A}

ジェンセン・シャノン・ダイバージェンス(JSD)は、カルバック・ライブラー・ダイバージェンス の対称化・平滑化版である。これは次のように定義される。 D ( P Q ) {\displaystyle D(P\parallel Q)}

J S D ( P Q ) = 1 2 D ( P M ) + 1 2 D ( Q M ) , {\displaystyle {\rm {JSD}}(P\parallel Q)={\frac {1}{2}}D(P\parallel M)+{\frac {1}{2}}D(Q\parallel M),}

ここで、 は混合分布です M = 1 2 ( P + Q ) {\displaystyle M={\frac {1}{2}}(P+Q)} P {\displaystyle P} Q {\displaystyle Q}

幾何ジェンセン・シャノン・ダイバージェンス[7](またはG-ジェンセン・シャノン・ダイバージェンス)は、幾何平均をとることで2つのガウス分布間のダイバージェンスの閉じた形式の式を生成します。

2 つ以上の確率分布の比較を可能にする、より一般的な定義は次のとおりです。

J S D π 1 , , π n ( P 1 , P 2 , , P n ) = i π i D ( P i M ) = H ( M ) i = 1 n π i H ( P i ) {\displaystyle {\begin{aligned}{\rm {JSD}}_{\pi _{1},\ldots ,\pi _{n}}(P_{1},P_{2},\ldots ,P_{n})&=\sum _{i}\pi _{i}D(P_{i}\parallel M)\\&=H\left(M\right)-\sum _{i=1}^{n}\pi _{i}H(P_{i})\end{aligned}}}

どこ

M := i = 1 n π i P i {\displaystyle {\begin{aligned}M&:=\sum _{i=1}^{n}\pi _{i}P_{i}\end{aligned}}}

およびは確率分布に対して選択される重みであり、は分布のシャノンエントロピーである。上述の2つの分布の場合、 π 1 , , π n {\displaystyle \pi _{1},\ldots ,\pi _{n}} P 1 , P 2 , , P n {\displaystyle P_{1},P_{2},\ldots ,P_{n}} H ( P ) {\displaystyle H(P)} P {\displaystyle P}

P 1 = P , P 2 = Q , π 1 = π 2 = 1 2 .   {\displaystyle P_{1}=P,P_{2}=Q,\pi _{1}=\pi _{2}={\frac {1}{2}}.\ }

したがって、これらの分布では P , Q {\displaystyle P,Q}

J S D = H ( M ) 1 2 ( H ( P ) + H ( Q ) ) {\displaystyle JSD=H(M)-{\frac {1}{2}}{\bigg (}H(P)+H(Q){\bigg )}}

境界

ジェンセン・シャノン・ダイバージェンスは、2つの離散確率分布に対して、2を底とする対数を用いると1で制限される。[8]

0 J S D ( P Q ) 1 {\displaystyle 0\leq {\rm {JSD}}(P\parallel Q)\leq 1}

この正規化により、 P と Q 間の 総変動距離の下限は次のようになります。

J S D ( P Q ) 1 2 P Q 1 = 1 2 ω Ω | P ( ω ) Q ( ω ) | {\displaystyle {\rm {JSD}}(P\parallel Q)\leq {\frac {1}{2}}\|P-Q\|_{1}={\frac {1}{2}}\sum _{\omega \in \Omega }|P(\omega )-Q(\omega )|}

統計熱力学でよく用いられるeを底とする対数では、上限は です。一般に、bを底とする対数では上限は です ln ( 2 ) {\displaystyle \ln(2)} log b ( 2 ) {\displaystyle \log _{b}(2)}

0 J S D ( P Q ) log b ( 2 ) {\displaystyle 0\leq {\rm {JSD}}(P\parallel Q)\leq \log _{b}(2)}

より一般的な境界であるジェンセン・シャノン・ダイバージェンスは、2つ以上の確率分布に対して次のように制限される:[8] log b ( n ) {\displaystyle \log _{b}(n)}

0 J S D π 1 , , π n ( P 1 , P 2 , , P n ) log b ( n ) {\displaystyle 0\leq {\rm {JSD}}_{\pi _{1},\ldots ,\pi _{n}}(P_{1},P_{2},\ldots ,P_{n})\leq \log _{b}(n)}

相互情報量との関係

ジェンセン・シャノン情報量とは、と間混合分布に関連付けられた確率変数と、混合分布を生成するためにを切り替えるために使用される2値指示変数との間の相互情報量である。事象群を事象群に対して適切に識別する抽象関数とし、 の値をの場合に従って、が等確率の場合に従って 選択する。つまり、確率測度 に従って 選択し、その分布は混合分布である。 X {\displaystyle X} P {\displaystyle P} Q {\displaystyle Q} Z {\displaystyle Z} P {\displaystyle P} Q {\displaystyle Q} X {\displaystyle X} X {\displaystyle X} P {\displaystyle P} Z = 0 {\displaystyle Z=0} Q {\displaystyle Q} Z = 1 {\displaystyle Z=1} Z {\displaystyle Z} X {\displaystyle X} M = ( P + Q ) / 2 {\displaystyle M=(P+Q)/2}

I ( X ; Z ) = H ( X ) H ( X | Z ) = M log M + 1 2 [ P log P + Q log Q ] = P 2 log M Q 2 log M + 1 2 [ P log P + Q log Q ] = 1 2 P ( log P log M ) + 1 2 Q ( log Q log M ) = J S D ( P Q ) {\displaystyle {\begin{aligned}I(X;Z)&=H(X)-H(X|Z)\\&=-\sum M\log M+{\frac {1}{2}}\left[\sum P\log P+\sum Q\log Q\right]\\&=-\sum {\frac {P}{2}}\log M-\sum {\frac {Q}{2}}\log M+{\frac {1}{2}}\left[\sum P\log P+\sum Q\log Q\right]\\&={\frac {1}{2}}\sum P\left(\log P-\log M\right)+{\frac {1}{2}}\sum Q\left(\log Q-\log M\right)\\&={\rm {JSD}}(P\parallel Q)\end{aligned}}}

上記の結果から、相互情報量は非負であり、底 2 の対数で制限されるため、Jensen–Shannon 情報量は 0 と 1 で制限されることがわかります。 H ( Z ) = 1 {\displaystyle H(Z)=1}

同じ原理を結合分布とその2つの周辺分布の積に適用し(カルバック・ライブラー情報量と相互情報量と同様に)、与えられた応答が結合分布から来たのか積分布から来たのかをどれだけ確実に判断できるかを測定することができます(ただし、これらが唯一の2つの可能性であるという仮定の下に)。[9]

量子ジェンセン・シャノン距離

密度行列上の確率分布の一般化により、量子ジェンセン・シャノン・ダイバージェンス(QJSD)を定義することができる。[10] [11]これは、密度行列 の集合と確率分布に対して次のように 定義される。 ( ρ 1 , , ρ n ) {\displaystyle (\rho _{1},\ldots ,\rho _{n})} π = ( π 1 , , π n ) {\displaystyle \pi =(\pi _{1},\ldots ,\pi _{n})}

Q J S D ( ρ 1 , , ρ n ) = S ( i = 1 n π i ρ i ) i = 1 n π i S ( ρ i ) {\displaystyle {\rm {QJSD}}(\rho _{1},\ldots ,\rho _{n})=S\left(\sum _{i=1}^{n}\pi _{i}\rho _{i}\right)-\sum _{i=1}^{n}\pi _{i}S(\rho _{i})}

ここで、 はフォン ノイマン エントロピーです。この量は量子情報理論で導入され、ホレボ情報量と呼ばれています。事前分布の下で量子状態によってエンコードされた古典情報の量の上限を与えます(ホレボの定理 を参照)。[12]および 2 つの密度行列の量子ジェンセン–シャノン ダイバージェンス は対称関数で、どこでも定義され、有界であり、2 つの密度行列が同じである場合にのみゼロに等しくなります。これは純粋状態の計量の平方であり[13]最近、この計量特性は混合状態にも当てはまることが示されました。[14] [15] ビュール計量は量子 JS ダイバージェンスと密接に関連しています。これはフィッシャー情報計量の量子版です S ( ρ ) {\displaystyle S(\rho )} ρ {\displaystyle \rho } ( ρ 1 , , ρ n ) {\displaystyle (\rho _{1},\ldots ,\rho _{n})} π {\displaystyle \pi } π = ( 1 2 , 1 2 ) {\displaystyle \pi =\left({\frac {1}{2}},{\frac {1}{2}}\right)}

ジェンセン・シャノン重心

有限集合の確率分布の重心C*は、確率分布と規定された分布集合との間のJensen-Shannonダイバージェンスの平均和を最小化するものとして定義できる。 離散分布(ヒストグラム)集合のJensen-Shannon重心を計算するための、凸関数の差に基づく 効率的なアルゴリズム[16](CCCP)が報告されている。 C = arg min Q i = 1 n J S D ( P i Q ) {\displaystyle C^{*}=\arg \min _{Q}\sum _{i=1}^{n}{\rm {JSD}}(P_{i}\parallel Q)}

アプリケーション

ジェンセン・シャノン情報量は、バイオインフォマティクスゲノム比較[17] [18]、タンパク質表面比較、[19]、社会科学、[20]、歴史の定量的研究、[21]、火災実験、[22] 、機械学習[23]などに応用されている。

注記

  1. ^ Frank Nielsen (2021). 「情報半径に基づく距離のJensen-Shannon対称化の変分定義について」. Entropy . 23 (4). MDPI: 464. Bibcode :2019Entrp..21..485N. doi : 10.3390/e21050485 . PMC  7514974. PMID  33267199 .
  2. ^ ハインリヒ・シュッツェ;クリストファー・D・マニング (1999)。統計的自然言語処理の基礎。マサチューセッツ州ケンブリッジ:MIT Press。 p. 304.ISBN 978-0-262-13360-9
  3. ^ ダガン、イド;リリアン・リー;ペレイラ、フェルナンド CN (1997)。 「単語の意味を曖昧さなくすための類似性に基づく方法」。コーエン、フィリップ R.ヴォルフガング・ワールスター(編)。第 35 回計算言語学協会年次総会および計算言語学協会欧州支部第 8 回会議、会議議事録、1997 年 7 月 7 ~ 12 日、国立教育大学 (UNED)、マドリッド、スペイン。モーガン・カウフマン出版社/ACL。ページ 56–63arXiv : cmp-lg/9708010土井:10.3115/976909.979625。
  4. ^ Endres, DM; JE Schindelin (2003). 「確率分布のための新しい指標」(PDF) . IEEE Trans. Inf. Theory . 49 (7): 1858– 1860. Bibcode :2003ITIT...49.1858E. doi :10.1109/TIT.2003.813506. hdl : 10023/1591 . S2CID  14437777.
  5. ^ Ôsterreicher, F.; I. Vajda (2003). 「確率空間における新しい計量ダイバージェンスとその統計的応用」. Ann. Inst. Statist. Math . 55 (3): 639– 653. doi :10.1007/BF02517812. S2CID  13085920.
  6. ^ Fuglede, B.; Topsoe, F. (2004). 「ジェンセン・シャノン・ダイバージェンスとヒルベルト空間埋め込み」(PDF) .国際情報理論シンポジウム論文集, 2004. IEEE. p. 30. doi :10.1109/ISIT.2004.1365067. ISBN 978-0-7803-8280-0. S2CID  7891037。
  7. ^ Frank Nielsen (2019). 「抽象的手段に基づく距離のJensen-Shannon対称化について」. Entropy . 21 (5). MDPI: 485. arXiv : 1904.04017 . Bibcode :2019Entrp..21..485N. doi : 10.3390/e21050485 . PMC 7514974. PMID 33267199  . 
  8. ^ ab Lin, J. (1991). 「シャノンエントロピーに基づく発散尺度」(PDF) . IEEE Transactions on Information Theory . 37 (1): 145– 151. CiteSeerX 10.1.1.127.9167 . doi :10.1109/18.61115. S2CID  12121632. 
  9. ^ Schneidman, Elad; Bialek, W; Berry, MJ II (2003). 「集団コードにおける相乗効果、冗長性、独立性」. Journal of Neuroscience . 23 (37): 11539– 11553. doi : 10.1523/JNEUROSCI.23-37-11539.2003 . PMC 6740962. PMID  14684857 . 
  10. ^ Majtey, A.; Lamberti, P.; Prato, D. (2005). 「混合量子状態間の識別可能性の尺度としてのジェンセン・シャノン・ダイバージェンス」. Physical Review A. 72 ( 5) 052310. arXiv : quant-ph/0508138 . Bibcode :2005PhRvA..72e2310M. doi :10.1103/PhysRevA.72.052310. S2CID  32062112.
  11. ^ Briët, Jop; Harremoës, Peter (2009). 「古典的および量子的なジェンセン・シャノン・ダイバージェンスの特性」. Physical Review A. 79 ( 5) 052311. arXiv : 0806.4472 . Bibcode :2009PhRvA..79e2311B. doi :10.1103/PhysRevA.79.052311.
  12. ^ Holevo, AS ( 1973)、「量子通信チャネルによって伝送される情報量の限界」、Problemy Peredachi Informatsii(ロシア語)、93–11. 英語訳: Probl. Inf. Transm ., 9 : 177–183 (1975) MR  0456936
  13. ^ ブラウンシュタイン、サミュエル;ケイブス、カールトン (1994). 「統計距離と量子状態の幾何学」.フィジカル・レビュー・レターズ. 72 (22): 3439– 3443.書誌コード:1994PhRvL..72.3439B. doi :10.1103/PhysRevLett.72.3439. PMID  10056200.
  14. ^ Virosztek, Dániel (2021). 「量子ジェンセン・シャノン・ダイバージェンスの計量特性」. Advances in Mathematics . 380 107595. arXiv : 1910.10447 . doi :10.1016/j.aim.2021.107595. S2CID  204837864.
  15. ^ Sra, Suvrit (2019). 「量子ジェンセン・シャノン・レニイ法によって誘導される計量と関連する発散」. arXiv : 1911.02643 [cs.IT].
  16. ^ Frank Nielsen (2021). 「ジェンセン・シャノン・ダイバージェンスとジェンセン・シャノン・セントロイドの一般化について」.エントロピー. 22 (2). MDPI: 221. doi : 10.3390/e22020221 . PMC 7516653. PMID  33285995 . 
  17. ^ Sims, GE; Jun, SR; Wu, GA; Kim, SH (2009). 「アライメントフリーゲノム比較における特徴頻度プロファイル(FFP)と最適解像度」. Proceedings of the National Academy of Sciences of the United States of America . 106 (8): 2677–82 . Bibcode :2009PNAS..106.2677S. doi : 10.1073/pnas.0813249106 . PMC 2634796. PMID  19188606 . 
  18. ^ Itzkovitz, S; Hodis, E; Segal, E (2010). 「タンパク質コード配列内の重複コード」.ゲノム研究. 20 (11): 1582–9 . doi :10.1101/gr.105072.110. PMC 2963821. PMID  20841429 . 
  19. ^ Ofran, Y; Rost, B (2003). 「6種類のタンパク質-タンパク質界面の解析」. Journal of Molecular Biology . 325 (2): 377–87 . CiteSeerX 10.1.1.6.9207 . doi :10.1016/s0022-2836(02)01223-8. PMID  12488102. 
  20. ^ DeDeo, Simon; Hawkins, Robert XD; Klingenstein, Sara; Hitchcock, Tim (2013). 「社会システムにおける意思決定と情報フローの実証研究のためのブートストラップ法」. Entropy . 15 (6): 2246– 2276. arXiv : 1302.0907 . Bibcode :2013Entrp..15.2246D. doi : 10.3390/e15062246 .
  21. ^ クリンゲンシュタイン、サラ;ヒッチコック、ティム;デデオ、サイモン (2014). 「ロンドンのオールド・ベイリーにおける文明化のプロセス」.米国科学 アカデミー紀要.111 ( 26): 9419– 9424.Bibcode :2014PNAS..111.9419K.doi : 10.1073 / pnas.1405984111.PMC 4084475.PMID 24979792 
  22. ^ Flavia-Corina Mitroi-Symeonidis; Ion Anghel; Nicuşor Minculete (2020). 「パラメトリック・ジェンセン・シャノン統計複雑性と実規模区画火災データへのその応用」Symmetry . 12 (1): 22. doi : 10.3390/sym12010022 .
  23. ^ Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks . NIPS . arXiv : 1406.2661 . Bibcode :2014arXiv1406.2661G.
  • JS ダイバージェンスを計算するための Ruby gem
  • JS距離を計算するPython関数(SciPy
  • THOTH: 経験的データから情報理論的量を効率的に推定するための Python パッケージ
  • ジェンセン・シャノン距離を含む複雑性指標を計算するための statcomp R ライブラリ
Retrieved from "https://en.wikipedia.org/w/index.php?title=Jensen–Shannon_divergence&oldid=1319763882"