ダン指数

1974 年に Joseph C. Dunn によって導入されたDunn 指数はクラスタリング アルゴリズムを評価するための測定基準です。[ 1 ] [ 2 ]これは、 Davies–Bouldin 指数Silhouette 指数などの妥当性指数のグループの一部であり、結果はクラスター化されたデータ自体に基づいた内部評価方式です。他のすべての同様の指数と同様に、その目的は、クラスターのメンバー間の分散が小さく、クラスター内の分散と比較して異なるクラスターの平均が十分に離れている、コンパクトで十分に分離されたクラスターのセットを識別することです。特定のクラスターの割り当てでは、Dunn 指数が高いほどクラスタリングが優れていることを示します。これを使用する欠点の 1 つは、クラスターの数とデータの次元が増加するため、計算コストが増加することです。

2025年に発表された科学論文では、凸型クラスターを評価する際にダン指数はシルエット係数デイヴィス・ボールディン指数よりも情報量が少ない可能性があると主張している[ 3 ]

予選

クラスターのサイズまたは直径を定義する方法は数多くあります。クラスター内の最も遠い2点間の距離、クラスター内のデータ点間のすべてのペアワイズ距離の平均、あるいは各データ点からクラスターの重心までの距離などです。これらの式はそれぞれ、以下のように数学的に表されます。

C i をベクトルのクラスターとします。xとy、同じクラスターC iに割り当てられた任意の2つの n 次元特徴ベクトルとします。

Δ最大×yCd×y{\displaystyle \Delta _{i}={\underset {x,y\in C_{i}}{\text{max}}}d(x,y)} 最大距離を計算します (Dunn が提案したバージョン)。
Δ2|C||C|1×yC×yd×y{\displaystyle \Delta _{i}={\dfrac {2}{|C_{i}|(|C_{i}|-1)}}{\underset {x,y\in C_{i},x\neq y}{\sum }}d(x,y)} すべてのペア間の平均距離を計算します。
Δ×Cd×μ|C|μ×C×|C|{\displaystyle \Delta _{i}={\dfrac {{\underset {x\in C_{i}}{\sum }}d(x,\mu )}{|C_{i}|}},\mu ={\dfrac {{\underset {x\in C_{i}}{\sum }}x}{|C_{i}|}}} 、平均からのすべてのポイントの距離を計算します。

クラスター間距離についても同様のことが言えます。クラスター間距離についても、最も近い2つのデータポイント(ダンが用いたもの)、各クラスターから1つずつ、あるいは最も遠い2つのデータポイント、あるいは重心間の距離などを用いて同様の定式化が可能です。この指標の定義にはこのようなあらゆる定式化が含まれており、このようにして形成された指標群はダンライク指標と呼ばれます。クラスターC iC j間のこのクラスター間距離指標を とします。 δCCj{\displaystyle \delta (C_{i},C_{j})}

意味

上記の表記法では、クラスターがm個ある場合、セットの Dunn 指数は次のように定義されます。

Dメートル1<jメートルδCCj最大1メートルΔ{\displaystyle {\mathit {DI}}_{m}={\frac {{\underset {1\leqslant i<j\leqslant m}{\text{min}}}\left.\delta (C_{i},C_{j})\right.}{{\underset {1\leqslant k\leqslant m}{\text{max}}}\left.\Delta _{k}\right.}}}

ここで、 はクラスター間のクラスター間距離であり、はクラスター内距離です。たとえば、Dunn の元の定義に従う場合、 1 つのクラスター内の最大距離です。 δCCj{\displaystyle \delta (C_{i},C_{j})}C{\displaystyle C_{i}}Cj{\displaystyle C_{j}}Δ{\displaystyle \Delta _{k}}

説明

このように定義されるため、DI は集合内のクラスター数mに依存します。クラスター数が事前に不明な場合は、 DI が最大となるmをクラスター数として選択できます。d (x,y)の定義に関しては、クラスタリング問題の幾何学的形状に基づいて、マンハッタン距離ユークリッド距離など、よく知られた指標を使用できる柔軟性もあります。この定式化には、クラスターの 1 つが不適切な動作をし、他のクラスターが密集している場合、分母に平均項ではなく「最大」項が含まれるため、そのクラスター集合の Dunn 指数が異常に低くなるという特異な問題があります。したがって、これは最悪のケースの指標であり、留意する必要があります。MATLAB 、RApache Mahoutなどのベクトルベースのプログラミング言語には Dunn 指数の実装が用意されています。[ 4 ] [ 5 ] [ 6 ]

注釈と参考文献

  1. ^ Dunn, JC (1973年9月17日). 「ISODATAプロセスのファジー類似体と、コンパクトで十分に分離されたクラスターの検出におけるその利用」. Journal of Cyber​​netics . 3 (3): 32– 57. doi : 10.1080/01969727308546046 . S2CID  120919314 .
  2. ^ Dunn, JC (1973年9月1日). 「十分に分離されたクラスターと最適なファジーパーティション」. Journal of Cyber​​netics . 4 (1) (1974年出版): 95–104 . doi : 10.1080/01969727408546059 . ISSN 0022-0280 . 
  3. ^ Chicco, Davide; Campagner, Andrea; Spagnolo, Andrea; Ciucci, Davide; Jurman, Giuseppe (2025). 「シルエット係数とDavies-Bouldin指数は、2つの凸クラスターの教師なしクラスタリング内部評価において、Dunn指数、Calinski-Harabasz指数、Shannonエントロピー、ギャップ統計よりも有益である」 . PeerJ Computer Science . 11 (e3309): 1– 49. doi : 10.7717/peerj-cs.3309 .
  4. ^ 「MATLABによるDunn指数の実装」 。 2011年12月5日閲覧
  5. ^ウカシュ、ニエグロフスキ。「パッケージ「clv」(PDF) . R プロジェクト. CRAN . 2013 年4 月 2 日閲覧.
  6. ^ 「Apache Mahout」 . Apache Software Foundation . 2013年5月9日閲覧

さらに読む