カリンスキー・ハラバシュ指数

Calinski –Harabasz指数(CHI)は、分散比基準(VRC)としても知られ、1974年にTadeusz CalińskiとJerzy Harabaszによって導入されたクラスタリングアルゴリズムを評価するための指標です。 [ 1 ]これは内部評価指標であり、クラスタリング品質の評価は、外部のグラウンドトゥルースラベルではなく、データセットとクラスタリング結果のみに基づいています。

2025年に発表された科学論文では、凸型クラスターの評価にCalinski-Harabasz指数を使用すると、シルエット係数Davies-Bouldin指数よりも情報量が少ない可能性があると主張しました。 [ 2 ]

意味

n個の点のデータ セット{ x 1 , ..., x n } と、これらの点をk個のクラスター { C 1 , ..., C k } に割り当てると、Calinski–Harabasz (CH) 指数は、クラスター間の分離 (BCSS) とクラスター内の分散 (WCSS) の比として定義され、自由度の数で正規化されます。

CHBCSS/1WCSS/n{\displaystyle CH={\frac {BCSS/(k-1)}{WCSS/(nk)}}}

BCSS (クラスター間の二乗和) は、各クラスターの重心(平均) と全体のデータ重心 (平均) 間のユークリッド距離の二乗の加重和です。

BCSS1n||cc||2{\displaystyle BCSS=\sum _{i=1}^{k}n_{i}||\mathbf {c} _{i}-\mathbf {c} ||^{2}}

ここで、n iはクラスターC i内の点の数、c iはC iの重心、c はデータ全体の重心です。BCSSは、クラスターが互いにどれだけ分離されているかを測定します(値が高いほど優れています)。

WCSS (クラスター内二乗和) は、データ ポイントとそれぞれのクラスター重心間のユークリッド距離の二乗の合計です。

WCSS1×C||×c||2{\displaystyle WCSS=\sum _{i=1}^{k}\sum _{\mathbf {x} \in C_{i}}||\mathbf {x} -\mathbf {c} _{i}||^{2}}

WCSSはクラスターのコンパクトさ、つまり凝集性(小さいほど良い)を測る指標です。WCSSを最小化することが、k-means法などの重心ベースのクラスタリングアルゴリズムの目的です。

説明

CH指数の分子は、クラスター間分離度(BCSS)をその自由度で割った値です。BCSSの自由度はk - 1です。これは、 k - 1個のクラスターの重心を固定すると、 k番目の重心も決まるためです。k番目の重心の値によって、すべての重心の加重和が全体のデータ重心と一致するからです。

CH指数の分母は、クラスター内分散(WCSS)をその自由度で割った値です。WCSSの自由度はn - kです。これは、各クラスターの重心を固定すると自由度が1減少するためです。これは、クラスターC iの重心がc iであるとすると、そのクラスターにn i - 1個の点を割り当てると、 n i番目の点の割り当ても決定されるためです。クラスターに割り当てられた点の全体的な平均はc iに等しくなるためです。

BCSSとWCSSの両方を自由度で割ることで、値を正規化し、異なるクラスター数間で比較できるようになります。この正規化を行わないと、kの値が高い場合にCH指数が人為的に高く評価される可能性があり、指数値の増加が真にクラスタリングの改善によるものなのか、単にクラスター数の増加によるものなのかを判断することが困難になります。

CH の値が高いほど、データ ポイントがクラスター内よりもクラスター間に広がっていることを意味するため、クラスタリングが優れていることを示します。

CH指数の使用を支持する十分な確率的根拠はないが、この基準は[ 1 ]に示すようにいくつかの望ましい数学的特性を持っている。例えば、すべての点のペア間の距離が等しい特殊なケースでは、CH指数は1になる。さらに、これは単変量解析におけるF検定統計量に類似している。

Liuら[ 3 ]は、他の内部クラスタリング評価指標と比較して、CH指標をクラスタ評価に使用することの有効性を議論している。MaulikとBandyopadhyay [ 4 ]は、 Davies–Bouldin指標Dunn指標、Calinski–Harabasz指標、および新たに開発された指標を含む4つのクラスタ妥当性指標を使用して、3つのクラスタリングアルゴリズムの性能を評価している。Wangら[ 5 ]は、シルエット指標とCalinski–Harabasz指標 に基づいて、クラスタリング検証のための改良された指標を提案している。

最適なクラスター数を見つける

シルエットスコアなどの他のクラスタリング評価指標と同様に、CH指数は、 k-means法などのアルゴリズムにおいて、 kの値が事前に分かっていない場合に、最適なクラスタ数kを見つけるために使用できます。これは以下の手順で実行できます。

  1. 異なるk値に対してクラスタリングを実行します。
  2. 各クラスタリング結果の CH インデックスを計算します。
  3. 最大の CH インデックスを生成するkの値が、最適なクラスター数として選択されます。

実装

scikit -learn Pythonライブラリはsklearn.metricsモジュールでこのメトリックの実装を提供しています。[ 6 ]

Rはfpcパッケージで同様の実装を提供している。[ 7 ] clvなどの他のパッケージはW行列とD行列を計算する関数を提供している。[ 8 ]

参照

さらに読む

参考文献

  1. ^ a b Caliński, Tadeusz; Harabasz, Jerzy (1974). 「クラスター分析のための樹状突起法」. Communications in Statistics . 3 (1): 1– 27. doi : 10.1080/03610927408827101 .
  2. ^ Chicco, Davide; Campagner, Andrea; Spagnolo, Andrea; Ciucci, Davide; Jurman, Giuseppe (2025). 「シルエット係数とDavies-Bouldin指数は、2つの凸クラスターの教師なしクラスタリング内部評価において、Dunn指数、Calinski-Harabasz指数、Shannonエントロピー、ギャップ統計よりも有益である」 . PeerJ Computer Science . 11 (e3309): 1– 49. doi : 10.7717/peerj-cs.3309 . hdl : 10281/582043 .
  3. ^ヤンチー、リウ;李中蒙。ホイ、シオン。シュエドン、ガオ。呉俊傑(2010)。 「内部クラスタリング検証尺度の理解」。2010 年のデータ マイニングに関する IEEE 国際会議。 pp.  911–916土井10.1109/ICDM.2010.35ISBN 978-1-4244-9131-5. S2CID  8298336 .
  4. ^ Maulik, Ujjwal, Sanghamitra Bandyopadhyay. 「いくつかのクラスタリングアルゴリズムと妥当性指標の性能評価」IEEE Transactions on Pattern Analysis and Machine Intelligence 24, no. 12 (2002): 1650-1654.
  5. ^ Wang, Xu, Yusheng Xu. 「シルエット指数とCalinski–Harabasz指数に基づくクラスタリング検証のための改良指数」IOPカンファレンスシリーズ:材料科学と工学、第569巻、第5号、p. 052024。IOP出版、2019年。
  6. ^ "sklearn.metrics.calinski_harabasz_score" . scikit-learn . 2023年10月29日閲覧。
  7. ^ "R: カリンスキー・ハラバス指数" . search.r-project.org 2023-10-29に取得
  8. ^ "CRAN: パッケージ clv" . cran.r-project.org . 2025年6月5日閲覧。