トヴェルスキー指数

ヴェルスキー指数は、エイモス・トヴェルスキー[1]にちなんで名付けられ、集合非対称な類似度指標であり、バリアントとプロトタイプを比較する。トヴェルスキー指数は、セーレンセン・ダイス係数ジャカード指数の一般化と見ることができる

集合XYのトヴェルスキー指数は0から1の間の数値で、

S X はい | X はい | | X はい | + α | X はい | + β | はい X | {\displaystyle S(X,Y)={\frac {|X\cap Y|}{|X\cap Y|+\alpha |X\setminus Y|+\beta |Y\setminus X|}}}

ここで、はX における Y の 相対的な補数を表します。 X はい {\displaystyle X\setminus Y}

さらに、はトヴェルスキー指数のパラメータです。設定によりジャカード指数が生成され、設定によりソレンセン・ダイス係数が生成されます。 α β 0 {\displaystyle \alpha ,\beta \geq 0} α β 1 {\displaystyle \alpha =\beta =1} α β 0.5 {\displaystyle \alpha =\beta =0.5}

Xをプロトタイプ、Yをバリアントとすると、はプロトタイプの重みに対応し、はバリアントの重みに対応する。特に興味深いのは、 のTversky測度である。[2] α {\displaystyle \alpha} β {\displaystyle \beta} α + β 1 {\displaystyle \alpha +\beta =1}

トヴェルスキー指数は、その固有の非対称性のため、類似度指標の基準を満たしていません。しかし、対称性が必要な場合、最大値最小値の関数を用いた元の定式化の変形が提案されています[3]

S X はい | X はい | | X はい | + β α 1つの + 1 α b {\displaystyle S(X,Y)={\frac {|X\cap Y|}{|X\cap Y|+\beta \left(\alpha a+(1-\alpha )b\right)}}}

1つの | X はい | | はい X | {\displaystyle a=\min \left(|X\setminus Y|,|Y\setminus X|\right)}

b 最大 | X はい | | はい X | {\displaystyle b=\max \left(|X\setminus Y|,|Y\setminus X|\right)}

この定式化は、パラメータとも再配置します。したがって、 は分母におけると のバランスを制御します。同様に、 は分母における と の対称差の影響を制御します。 α {\displaystyle \alpha} β {\displaystyle \beta} α {\displaystyle \alpha} | X はい | {\displaystyle |X\setminus Y|} | はい X | {\displaystyle |Y\setminus X|} β {\displaystyle \beta} | X はい | {\displaystyle |X\,\triangle \,Y\,|} | X はい | {\displaystyle |X\cap Y|}

注記

  1. ^ Tversky, Amos (1977). 「類似性の特徴」(PDF) .心理学評論. 84 (4): 327– 352. doi :10.1037/0033-295x.84.4.327.
  2. ^ 「デイライト・セオリー:指紋」。
  3. ^ Jimenez, S., Becerra, C., Gelbukh, A. SOFTCARDINALITY-CORE: 分布尺度を用いた意味的テキスト類似性のためのテキスト重複の改善。第二回語彙意味論および計算意味論合同会議(*SEM)、第1巻:メイン会議および共有タスク「意味的テキスト類似性」の議事録、p.194-201、2013年6月7日~8日、米国ジョージア州アトランタ。
「https://en.wikipedia.org/w/index.php?title=Tversky_index&oldid=1187879260」より取得