ダイス・セーレンセン係数は、2つの 標本 の類似性を評価するために使用される統計量です。植物学者リー・レイモンド・ダイス [ 1 ] とソーヴァルド・セーレンセン [ 2 ] によって独立して開発され、それぞれ1945年と1948年に発表されました。
名前 この指数は、 Sørensen–Dice指数 [ 3 ] 、Sørensen指数 、Dice係数 など、様々な名称で知られています。他には、「類似度係数」や「指数」と呼ばれることもあり、例えばDice類似度係数 (DSC )などがあります。Sørensenの一般的な別綴りはSorenson 、Soerenson 、Sörensonで、これら3つ全てに -sen で終わるものもあります(デンマーク語のø はドイツ語/スウェーデン語のöと発音上等であり、ASCIIではoeと表記されます)。
その他の名前は次のとおりです。
ソレンセンの元の公式は離散データに適用することを意図していた。XとYという2つの集合が与えられたとき、それは次のように定義される。
D S C = 2 | X ∩ はい | | X | + | はい | {\displaystyle DSC={\frac {2|X\cap Y|}{|X|+|Y|}}} ここで、| X | と | Y | は2つの集合の基数 (つまり、各集合の要素数)です。セーレンセン指数は、両集合に共通する要素数の2倍を各集合の要素数の合計で割った値です。つまり、この指数は、2つの集合の平均サイズに対する交差部分のサイズの割合です。
ブールデータに適用する場合、真陽性(TP)、偽陽性(FP)、偽陰性(FN)の定義を使用して、次のように記述できます。
D S C = 2 T P 2 T P + F P + F 北 {\displaystyle DSC={\frac {2{\mathit {TP}}}{2{\mathit {TP}}+{\mathit {FP}}+{\mathit {FN}}}}} 。これは、分子と分母の両方で真陽性を1回だけカウントするジャカード指数 とは異なります。DSCは類似度の商であり、0から1の範囲をとります。 [ 9 ] これは、集合間の類似度指標 として考えることができます。
ジャカード指数 と同様に、集合演算は2値ベクトルa とb のベクトル演算で表現できます。
s v = 2 | 1つの ⋅ b | | 1つの | 2 + | b | 2 {\displaystyle s_{v}={\frac {2|{\bf {{a}\cdot {\bf {{b}|}}}}}{|{\bf {{a}|^{2}+|{\bf {{b}|^{2}}}}}}}} これにより、バイナリ ベクトルに対して同じ結果が得られ、また、一般的な観点から、ベクトルに対してより一般的な類似性メトリックも得られます。
情報検索 に用いられるキーワード集合X とY について、係数は共有情報(交差)の2倍を基数の合計で割ったものとして定義することができる。[ 10 ]
文字列の類似度 を測る尺度として考えると、2つの文字列x とyの係数は次のように バイグラムを 使って計算できる。[ 11 ]
s = 2 n t n × + n y {\displaystyle s={\frac {2n_{t}}{n_{x}+n_{y}}}} ここで、 n t は両方の文字列に含まれる文字バイグラムの数、n x は文字列x に含まれるバイグラムの数、n y は文字列y に含まれるバイグラムの数です。例えば、以下の文字列間の類似度を計算するには、
nightnacht各単語のバイグラムのセットを見つけます。
{ ni、、、}igghht { na、、、}acchht 各集合には 4 つの要素があり、これら 2 つの集合の交差には 1 つの要素のみがありますht。
これらの数値を式に代入すると、s = (2 · 1) / (4 + 4) = 0.25 となります。
連続ダイス係数 出典: [ 12 ]
離散的(バイナリ)グラウンドトゥルースと区間[0,1]内の連続的な測定値の場合、次の式を使用できます。 あ {\displaystyle A} B {\displaystyle B}
c D C = 2 | あ ∩ B | c ∗ | あ | + | B | {\displaystyle cDC={\frac {2|A\cap B|}{c*|A|+|B|}}}
どこで、| あ ∩ B | = Σ 私 1つの 私 b 私 {\displaystyle |A\cap B|=\Sigma _{i}a_{i}b_{i}} | B | = Σ 私 b 私 {\displaystyle |B|=\Sigma _{i}b_{i}}
cは次のように計算できます。
c = Σ 私 1つの 私 b 私 Σ 私 1つの 私 サイン ( b 私 ) {\displaystyle c={\frac {\Sigma _{i}a_{i}b_{i}}{\Sigma _{i}a_{i}\operatorname {sign} {(b_{i})}}}}
A と B の間に重複がない 場合は、c は任意に 1 に設定されます。Σ 私 1つの 私 サイン ( b 私 ) = 0 {\displaystyle \Sigma _{i}a_{i}\operatorname {sign} {(b_{i})}=0}
ジャカードとの違い この係数は、ジャカード指数 と形式的にはあまり変わりません。実際、セーレンセン・ダイス係数 の値が与えられれば、式 と を用いてそれぞれのジャカード指数を計算でき、その逆もまた可能であるという意味で、両者は等価です。 S {\displaystyle S} J {\displaystyle J} J = S / ( 2 − S ) {\displaystyle J=S/(2-S)} S = 2 J / ( 1 + J ) {\displaystyle S=2J/(1+J)}
ソレンセン・ダイス係数は三角不等式を 満たさないため、ジャカード指数の半距離 バージョンと考えることができる。 [ 4 ]
この関数はJaccardと同様に0から1の範囲をとる。Jaccardとは異なり、対応する差分関数は
d ( X 、 はい ) = 1 − 2 | X ∩ はい | | X | + | はい | {\displaystyle d(X,Y)=1-{\frac {2|X\cap Y|}{|X|+|Y|}}} は三角不等式を満たさないため、適切な距離計量ではない。[ 4 ] この最も簡単な反例は、3つの集合、、によって示される。つまり、およびである。三角不等式を満たすためには、任意の2辺の和が残りの辺の和以上でなければならない。しかし、。 X = { 1つの } {\displaystyle X=\{a\}} はい = { b } {\displaystyle Y=\{b\}} Z = X ∪ はい = { 1つの 、 b } {\displaystyle Z=X\cup Y=\{a,b\}} d ( X 、 はい ) = 1 {\displaystyle d(X,Y)=1} d ( X 、 Z ) = d ( はい 、 Z ) = 1 / 3 {\displaystyle d(X,Z)=d(Y,Z)=1/3} d ( X 、 Z ) + d ( はい 、 Z ) = 2 / 3 < 1 = d ( X 、 はい ) {\displaystyle d(X,Z)+d(Y,Z)=2/3<1=d(X,Y)}
アプリケーション Sørensen–Dice係数は、生態学的群集データに有用である(例えば、Looman & Campbell, 1960 [ 13 ] )。その使用の正当性は、主に経験的であり、理論的ではない(ただし、2つのあいまい集合 の交差として理論的に正当化できる[ 14 ] )。ユークリッド距離 と比較すると、Sørensen距離はより異質なデータセットでも感度を維持し、外れ値に与える重みは少ない。[ 15 ] 最近では、Diceスコア(およびそのバリエーション、例えば、その対数を取ったlogDice)は、2つの与えられた単語の語彙関連スコアを測定するためにコンピュータ辞書編集で人気になっている。 [ 16 ] logDiceは、ゲノムおよびメタゲノムの距離推定のためのMash距離の一部としても使用される。[ 17 ] 最後に、Diceは画像セグメンテーション 、特に医療アプリケーションでアルゴリズムの出力を参照マスクと比較するために使用される。[ 8 ]
豊かさバージョン この表現は、種の存在の有無ではなく、 存在量 にも容易に拡張できます。この定量的な表現は、いくつかの名前で知られています。
参照
参考文献 ^ Dice, Lee R. (1945). 「種間の生態学的 関連性の量の測定」.生態学 . 26 (3): 297– 302. Bibcode : 1945Ecol...26..297D . doi : 10.2307/1932409 . JSTOR 1932409. S2CID 53335638 . ^ ソーレンセン、T. (1948)。 「種の類似性に基づいて植物社会学において同じ振幅のグループを確立する方法と、デンマークの共有地の植生分析へのその応用」。 コンゲリーゲ・ダンスケ・ヴィデンスカベルネス・セルスカブ 。 5 (4): 1~ 34。 ^ a b Carass, A.; Roy, S.; Gherman, A.; Reinhold, JC; Jesson, A.; et al. (2020). 「改良されたSørensen-Dice解析による白質病変セグメンテーションの評価」 . Scientific Reports . 10 (1): 8242. Bibcode : 2020NatSR..10.8242C . doi : 10.1038/s41598-020-64803- w . ISSN 2045-2322 . PMC 7237671. PMID 32427874 . ^ a b c d e f g h i j Gallagher, ED, 1999. COMPAHドキュメンテーション 、マサチューセッツ大学ボストン校 ^ Nei, M.; Li, WH (1979). 「制限酵素を用いた遺伝的変異研究のための数学モデル」 . PNAS . 76 ( 10): 5269– 5273. Bibcode : 1979PNAS...76.5269N . doi : 10.1073/pnas.76.10.5269 . PMC 413122. PMID 291943 . ^ Prescott, JW; Pennell, M.; Best, TM; Swanson, MS; Haq, F.; Jackson, R.; Gurcan, MN (2009). 「変形性関節症研究のための大腿骨の自動セグメント化手法」. 2009 Annual International Conference of the IEEE Engineering in Medicine and Biology Society . IEEE. pp. 6364– 6367. doi : 10.1109/iembs.2009.5333257 . PMC 2826829 . ^ Swanson, MS; Prescott, JW; Best, TM; Powell, K.; Jackson, RD; Haq, F.; Gurcan, MN (2010). 「正常膝および変形性膝関節症における外側半月板の評価のための半自動セグメンテーション」 . 変形 性関節症と軟骨 . 18 (3): 344– 353. doi : 10.1016/j.joca.2009.10.004 . ISSN 1063-4584 . PMC 2826568. PMID 19857510 . ^ a b Zijdenbos, AP; Dawant, BM; Margolin, RA; Palmer, AC (1994). 「MR画像における白質病変の形態計測分析:方法と検証」. IEEE Transactions on Medical Imaging . 13 (4): 716– 724. Bibcode : 1994ITMI...13..716Z . doi : 10.1109/42.363096 . ISSN 0278-0062 . PMID 18218550 . ^ ムルギア、ミゲル;ルイス・ビジャセニョール、ホセ(2003)。 「生物地理学的分類に対する類似性係数とクラスター アルゴリズムの影響の推定」 (PDF) 。 アンナレス・ボタニチ・フェニチ 。 40 : 415–421。ISSN 0003-3847 。 ^ ファン・リースベルゲン、コルネリス・ジュースト (1979)。 情報検索 。ロンドン:バターワース。 ISBN 3-642-12274-4 。^ Kondrak, Grzegorz; Marcu, Daniel; Knight, Kevin (2003). 「同根語は統計翻訳モデルを改善する」 (PDF) . 計算言語学会北米支部人間言語技術会議 HLT-NAACL 2003 議事録 . pp. 46– 48. ^ シャミール、ルーベン・R.、ダチン、ユヴァル、キム、ジンヨン、サピロ、ギレルモ、ハレル、ノアム (2018-04-25). 「連続ダイス係数:確率的セグメンテーションの評価手法」 306977. arXiv : 1906.11031 . doi : 10.1101/306977 . S2CID 90993940 . ^ Looman, J.; Campbell, JB (1960). 「草原植生におけるユニットアフィニティの推定のためのSorensenのK (1948)の適応」. 生態学 . 41 (3): 409– 416. Bibcode : 1960Ecol...41..409L . doi : 10.2307/1933315 . JSTOR 1933315 . ^ Roberts, DW (1986). 「ファジー集合理論に基づく序列化」. Vegetatio . 66 (3): 123– 131. doi : 10.1007/BF00039905 . S2CID 12573576 . ^ McCune, Bruce & Grace, James (2002) 生態学的コミュニティの分析。Mjm Software Design; ISBN 0-9721290-0-6 。 ^ Rychlý, P. (2008) 辞書編集者に優しい連想スコア. スラヴ語自然言語処理の最近の進歩に関する第2回ワークショップ議事録 RASLAN 2008: 6–9 ^ Ondov, Brian D., et al. 「Mash: MinHashを用いたゲノムおよびメタゲノムの高速距離推定」ゲノム生物学17.1 (2016): 1-14. ^ Ayappa, Indu; Norman, Robert G (2000). 「鼻カニューレ/圧力トランスデューサーシステムによる呼吸努力関連覚醒(RERA)の非侵襲的検出」 . Sleep . 23 (6): 763– 771. doi : 10.1093/sleep/23.6.763 . PMID 11007443 . ^ John Uebersax. 「生の合意指標 」
外部リンク