1974 年に Joseph C. Dunn によって導入されたDunn 指数は 、クラスタリング アルゴリズムを評価するための測定基準です。[ 1 ] [ 2 ]これは、 Davies–Bouldin 指数やSilhouette 指数などの妥当性指数のグループの一部であり、結果はクラスター化されたデータ自体に基づいた内部評価方式です。他のすべての同様の指数と同様に、その目的は、クラスターのメンバー間の分散が小さく、クラスター内の分散と比較して異なるクラスターの平均が十分に離れている、コンパクトで十分に分離されたクラスターのセットを識別することです。特定のクラスターの割り当てでは、Dunn 指数が高いほどクラスタリングが優れていることを示します。これを使用する欠点の 1 つは、クラスターの数とデータの次元が増加するため、計算コストが増加することです。
2025年に発表された科学論文では、凸型クラスターを評価する際にダン指数はシルエット係数やデイヴィス・ボールディン指数よりも情報量が少ない可能性があると主張している[ 3 ]。
クラスターのサイズまたは直径を定義する方法は数多くあります。クラスター内の最も遠い2点間の距離、クラスター内のデータ点間のすべてのペアワイズ距離の平均、あるいは各データ点からクラスターの重心までの距離などです。これらの式はそれぞれ、以下のように数学的に表されます。
C i をベクトルのクラスターとします。xとyを、同じクラスターC iに割り当てられた任意の2つの n 次元特徴ベクトルとします。
クラスター間距離についても同様のことが言えます。クラスター間距離についても、最も近い2つのデータポイント(ダンが用いたもの)、各クラスターから1つずつ、あるいは最も遠い2つのデータポイント、あるいは重心間の距離などを用いて同様の定式化が可能です。この指標の定義にはこのようなあらゆる定式化が含まれており、このようにして形成された指標群はダンライク指標と呼ばれます。クラスターC iとC j間のこのクラスター間距離指標を とします。
上記の表記法では、クラスターがm個ある場合、セットの Dunn 指数は次のように定義されます。
ここで、 はクラスター間のクラスター間距離であり、はクラスター内距離です。たとえば、Dunn の元の定義に従う場合、 1 つのクラスター内の最大距離です。
このように定義されるため、DI は集合内のクラスター数mに依存します。クラスター数が事前に不明な場合は、 DI が最大となるmをクラスター数として選択できます。d (x,y)の定義に関しては、クラスタリング問題の幾何学的形状に基づいて、マンハッタン距離やユークリッド距離など、よく知られた指標を使用できる柔軟性もあります。この定式化には、クラスターの 1 つが不適切な動作をし、他のクラスターが密集している場合、分母に平均項ではなく「最大」項が含まれるため、そのクラスター集合の Dunn 指数が異常に低くなるという特異な問題があります。したがって、これは最悪のケースの指標であり、留意する必要があります。MATLAB 、R、Apache Mahoutなどのベクトルベースのプログラミング言語には、 Dunn 指数の実装が用意されています。[ 4 ] [ 5 ] [ 6 ]