最小冗長性機能の選択

最小冗長性特徴選択は遺伝子表現型の特徴を正確に識別し、それらの関連性を絞り込む手法で頻繁に用いられるアルゴリズムであり、通常、関連特徴選択と合わせて最小冗長性最大関連性(mRMR)と呼ばれます。この手法は、2003年にHanchuan PengとChris Dingによって初めて提案され[ 1 ] 、その後、相互情報量に基づく理論的定式化と、多変量相互情報量の最初の定義が、2005年にIEEE Trans. Pattern Analysis and Machine Intelligenceに掲載されました[ 2 ]。

特徴選択は、パターン認識機械学習における基本的な問題の一つであり、使用されるパラメータに関連するデータのサブセットを特定するもので、通常、最大関連性と呼ばれます。これらのサブセットには、関連性はあるものの冗長なデータが含まれることが多く、mRMRはこれらの冗長なサブセットを削除することでこの問題に対処しようとします。mRMRは、がん診断音声認識など、多くの分野で多様な応用がされています。

特徴量は様々な方法で選択できます。一つの方法は、分類変数と最も相関の高い特徴量を選択することです。これは最大関連性選択と呼ばれています。シーケンシャルフォワード選択、バックワード選択、フローティング選択など、 多くのヒューリスティックアルゴリズムを使用できます。

一方、分類変数との相関が「高い」まま、互いに離れた特徴量を選択することも可能である。この手法は、最小冗長性最大関連性(mRMR)選択と呼ばれ、最大関連性選択よりも強力であることが分かっている。

特殊なケースとして、「相関」は変数間の統計的依存関係に置き換えることができます。相互情報量を用いて依存関係を定量化することができます。この場合、mRMRは、選択された特徴量の結合分布と分類変数間の依存関係を最大化する近似値であることが示されています。

研究では、冗長性と関連性の測定に様々な尺度が試みられてきました。最近の研究では、生物医学画像における複数の尺度が比較されました。[ 3 ]

参考文献

  1. ^ Chris Ding、Hanchuan Peng、「マイクロアレイ遺伝子発現データからの最小冗長性特徴選択」。第2回IEEEコンピュータ学会バイオインフォマティクス会議(CSB 2003)、2003年8月11~14日、米国カリフォルニア州スタンフォード。523~529ページ。
  2. ^ Peng, HC, Long, F., Ding, C.、「相互情報量に基づく特徴選択:最大依存性、最大関連性、最小冗長性の基準」、IEEE Transactions on Pattern Analysis and Machine Intelligence、Vol. 27、No. 8、pp. 1226–1238、2005年。
  3. ^ Auffarth, B., Lopez, M., Cerquides, J. (2010). CT画像の組織分類における特徴選択における冗長性と関連性の尺度の比較. データマイニングの進歩. 応用と理論的側面. p. 248--262. Springer. http://www.csc.kth.se/~auffarth/publications/redrel.pdf