Calinski –Harabasz指数(CHI)は、分散比基準(VRC)としても知られ、1974年にTadeusz CalińskiとJerzy Harabaszによって導入されたクラスタリングアルゴリズムを評価するための指標です。 [ 1 ]これは内部評価指標であり、クラスタリング品質の評価は、外部のグラウンドトゥルースラベルではなく、データセットとクラスタリング結果のみに基づいています。
2025年に発表された科学論文では、凸型クラスターの評価にCalinski-Harabasz指数を使用すると、シルエット係数やDavies-Bouldin指数よりも情報量が少ない可能性があると主張しました。 [ 2 ]
n個の点のデータ セット{ x 1 , ..., x n } と、これらの点をk個のクラスター { C 1 , ..., C k } に割り当てると、Calinski–Harabasz (CH) 指数は、クラスター間の分離 (BCSS) とクラスター内の分散 (WCSS) の比として定義され、自由度の数で正規化されます。
BCSS (クラスター間の二乗和) は、各クラスターの重心(平均) と全体のデータ重心 (平均) 間のユークリッド距離の二乗の加重和です。
ここで、n iはクラスターC i内の点の数、c iはC iの重心、c はデータ全体の重心です。BCSSは、クラスターが互いにどれだけ分離されているかを測定します(値が高いほど優れています)。
WCSS (クラスター内二乗和) は、データ ポイントとそれぞれのクラスター重心間のユークリッド距離の二乗の合計です。
WCSSはクラスターのコンパクトさ、つまり凝集性(小さいほど良い)を測る指標です。WCSSを最小化することが、k-means法などの重心ベースのクラスタリングアルゴリズムの目的です。
CH指数の分子は、クラスター間分離度(BCSS)をその自由度で割った値です。BCSSの自由度はk - 1です。これは、 k - 1個のクラスターの重心を固定すると、 k番目の重心も決まるためです。k番目の重心の値によって、すべての重心の加重和が全体のデータ重心と一致するからです。
CH指数の分母は、クラスター内分散(WCSS)をその自由度で割った値です。WCSSの自由度はn - kです。これは、各クラスターの重心を固定すると自由度が1減少するためです。これは、クラスターC iの重心がc iであるとすると、そのクラスターにn i - 1個の点を割り当てると、 n i番目の点の割り当ても決定されるためです。クラスターに割り当てられた点の全体的な平均はc iに等しくなるためです。
BCSSとWCSSの両方を自由度で割ることで、値を正規化し、異なるクラスター数間で比較できるようになります。この正規化を行わないと、kの値が高い場合にCH指数が人為的に高く評価される可能性があり、指数値の増加が真にクラスタリングの改善によるものなのか、単にクラスター数の増加によるものなのかを判断することが困難になります。
CH の値が高いほど、データ ポイントがクラスター内よりもクラスター間に広がっていることを意味するため、クラスタリングが優れていることを示します。
CH指数の使用を支持する十分な確率的根拠はないが、この基準は[ 1 ]に示すようにいくつかの望ましい数学的特性を持っている。例えば、すべての点のペア間の距離が等しい特殊なケースでは、CH指数は1になる。さらに、これは単変量解析におけるF検定統計量に類似している。
Liuら[ 3 ]は、他の内部クラスタリング評価指標と比較して、CH指標をクラスタ評価に使用することの有効性を議論している。MaulikとBandyopadhyay [ 4 ]は、 Davies–Bouldin指標、Dunn指標、Calinski–Harabasz指標、および新たに開発された指標を含む4つのクラスタ妥当性指標を使用して、3つのクラスタリングアルゴリズムの性能を評価している。Wangら[ 5 ]は、シルエット指標とCalinski–Harabasz指標 に基づいて、クラスタリング検証のための改良された指標を提案している。
シルエットスコアなどの他のクラスタリング評価指標と同様に、CH指数は、 k-means法などのアルゴリズムにおいて、 kの値が事前に分かっていない場合に、最適なクラスタ数kを見つけるために使用できます。これは以下の手順で実行できます。
scikit -learn Pythonライブラリはsklearn.metricsモジュールでこのメトリックの実装を提供しています。[ 6 ]
Rはfpcパッケージで同様の実装を提供している。[ 7 ] clvなどの他のパッケージはW行列とD行列を計算する関数を提供している。[ 8 ]