単純マッチング係数(SMC)またはRand類似度係数は、サンプルセットの類似性と多様性を比較するために使用される統計です。[1] [より良い情報源が必要]
| あ | |||
|---|---|---|---|
| 0 | 1 | ||
| B | 0 | ||
| 1 | |||
それぞれn個のバイナリ属性 を持つ 2 つのオブジェクト A と B がある場合、SMC は次のように定義されます。
どこ
- AとBの両方の値が0である属性の合計数です。
- AとBの両方の値が1である属性の合計数です。
- Aの値が0でBの値が1である属性の総数であり、
- Aの値が 1 で、B の値が 0 である属性の合計数です。
サンプルセット間の相違度を測定する単純マッチング距離(SMD)は次のように与えられる。[2] [より良い情報源が必要]
SMCはハマン類似度と線形関係にあります:。また、は2つのオブジェクト(バイナリベクトル)間の2乗ユークリッド距離、nは属性の数です。
SMCは、より一般的なJaccard指数と非常によく似ています。主な違いは、SMCは分子と分母に「一致」という項を持つのに対し、Jaccard指数は持たないことです。つまり、SMCは相互存在(属性が両方のセットに存在する場合)と相互不在(属性が両方のセットに存在しない場合)の両方を一致としてカウントし、それを母集団内の属性の総数と比較します。一方、Jaccard指数は相互存在のみを一致としてカウントし、それを2つのセットのうち少なくとも一方によって選択された属性の数と比較します。
たとえば、マーケット バスケット分析では、比較対象となる 2 人の消費者のバスケットには、店舗で入手可能な全製品のごく一部しか含まれていない可能性があります。そのため、SMC は通常、バスケットの類似性がほとんどない場合でも非常に高い類似度値を返します。そのため、このコンテキストでは Jaccard 指数の方が類似度のより適切な指標となります。たとえば、1,000 個の製品と 2 人の顧客がいるスーパーマーケットを考えてみましょう。最初の顧客のバスケットには塩とコショウが入っており、2 番目の顧客のバスケットには塩と砂糖が入っています。このシナリオでは、Jaccard 指数で測定された 2 つのバスケットの類似度は 1/3 になりますが、SMC を使用すると類似度は 0.998 になります。
0 と 1 が同等の情報 (対称性) を持つ他のコンテキストでは、SMC は類似度のより適切な尺度です。たとえば、バイナリ ジェンダーなどのダミー変数に格納された人口統計変数のベクトルは、男性が 0 で女性が 1 と定義されているか、またはその逆であるかに関係なく、類似度に対するジェンダーの影響は等しいはずなので、Jaccard 指数よりも SMC と比較する方が適切です。ただし、対称ダミー変数がある場合は、ダミーを 2 つのバイナリ属性 (この場合は男性と女性) に分割して非対称属性に変換することで、SMC の動作を再現し、バイアスを導入せずに Jaccard 指数を使用できます。このトリックを使用すると、Jaccard 指数は SMC を完全に冗長なメトリックにするものと考えることができます。ただし、対称ダミー変数の場合は、余分な次元を追加する必要がないため、SMC の方が計算効率が高くなります。
Jaccard 指数は SMC よりも汎用的であり、確率測度などのバイナリ属性のベクトルだけでなく他のデータ型を比較するためにも使用できます。
参照
注記
- ^ 「データマイニングポートフォリオ」。
- ^ 「単純マッチング係数」。