クラスター重み付けモデリング

データマイニングにおいて、クラスター重み付けモデリング(CWM)は、入力空間のサブ領域において概念的に適切なモデル(クラスター)の集合を用いた密度推定に基づき、入力(独立変数)から出力(従属変数)を非線形予測するアルゴリズムベースのアプローチである。このアプローチは入出力空間の両方で機能し、初期バージョンはニール・ガーシェンフェルドによって提案された。[ 1 ] [ 2 ]

モデルの基本形

入出力問題のクラスター重み付きモデリングの手順は、以下のように概説できる。[ 2 ]入力変数xから出力変数yの予測値を構築するために、モデリングとキャリブレーションの手順により、結合確率密度関数p ( y , x ) が得られる。ここで「変数」とは、単変量、多変量、時系列のことである。便宜上、モデルパラメータはここでは表記されていないが、これらについては、キャリブレーションの手順として固定値に設定するか、ベイズ分析を用いて処理するなど、いくつかの異なる処理が可能である。必要な予測値は、条件付き期待値を用いた予測値を得るための条件付き確率密度p ( y | x )を構築することで得られる。条件付き分散は、不確実性の指標となる。

モデリングの重要なステップは、p ( y | x ) が混合モデルとして次の形式を取ると仮定することです。

py×j1njpjy×{\displaystyle p(y,x)=\sum _{j=1}^{n}w_{j}p_{j}(y,x),}

ここで、nはクラスターの数、{ w j }は合計が1となる重みです。関数p j ( y , x )は、 n個のクラスターそれぞれに関連する結合確率密度関数です。これらの関数は、条件付き密度と周辺密度への分解を用いてモデル化されます。

pjy×pjy|×pj×{\displaystyle p_{j}(y,x)=p_{j}(y|x)p_{j}(x),}

どこ:

  • p j ( y | x ) は、 xが与えられた場合にy を予測するモデルであり、 xの値に基づいて入力-出力ペアがクラスターjに関連付けられる必要があると仮定します。このモデルは、最も単純なケースでは回帰モデルとなる可能性があります。
  • p j ( x ) は、入力-出力ペアがクラスターjに関連付けられている場合、形式的にはxの値の密度です。クラスター間のこれらの関数の相対的な大きさによって、特定のxの値が任意のクラスター中心に関連付けられるかどうかが決まります。この密度は、クラスター中心を表すパラメータを中心とするガウス関数となる場合があります。

回帰分析の場合と同様に、モデルの中核コンポーネントがクラスター単位の条件密度の単純回帰モデルとクラスター重み付け密度p j ( x )の正規分布である場合は、全体的なモデリング戦略の一部として予備的なデータ変換を考慮することが重要になります。

一般バージョン

基本的なCWMアルゴリズムは、入力クラスタごとに単一の出力クラスタを生成します。しかし、CWMは、同じ入力クラスタに関連付けられた複数のクラスタに拡張できます。[ 3 ] CWMの各クラスタはガウス分布の入力領域に局在し、そこには独自の学習可能なローカルモデルが含まれています。[ 4 ] CWMは、シンプルさ、汎用性、柔軟性を備えた多用途の推論アルゴリズムとして認識されています。フィードフォワード階層型ネットワークが好まれる場合でも、学習問題の性質に関する「セカンドオピニオン」として使用されることがあります。[ 5 ]

ガーシェンフェルドが提案した元の形式では、次の 2 つの革新が説明されています。

  • CWM が連続データストリームを処理できるようにする
  • CWMパラメータ調整プロセスで発生する局所最小値の問題への対処[ 5 ]

CWMはプリンタアプリケーションでメディアを分類するために使用することができ、少なくとも2つのパラメータを使用して入力パラメータに依存した出力を生成します。[ 6 ]

参考文献

  1. ^ Gershenfeld, N. (1997). 「非線形推論とクラスター重み付けモデリング」. Annals of the New York Academy of Sciences . 808 : 18–24 . Bibcode : 1997NYASA.808...18G . doi : 10.1111/j.1749-6632.1997.tb51651.x . S2CID  85736539 .
  2. ^ a b Gershenfeld, N.; Schoner; Metois, E. (1999). 「時系列分析のためのクラスター重み付けモデリング」. Nature . 397 (6717): 329– 332. Bibcode : 1999Natur.397..329G . doi : 10.1038/16873 . S2CID 204990873 . 
  3. ^ Feldkamp, LA; Prokhorov, DV; Feldkamp, TM (2001). 「マルチクラスターを用いたクラスター重み付けモデリング」. IJCNN'01. 国際ニューラルネットワーク合同会議. 議事録 (カタログ番号01CH37222) . 第3巻. pp.  1710– 1714. doi : 10.1109/IJCNN.2001.938419 . ISBN 0-7803-7044-9. S2CID  60819260 .
  4. ^ Boyden, Edward S. 「ツリーベース・クラスター加重モデリング:大規模並列リアルタイム・デジタル・ストラディバリウスの実現に向けて」(PDF)。マサチューセッツ州ケンブリッジ:MITメディアラボ。
  5. ^ a b Prokhorov, クラスター加重モデリングへの新たなアプローチ Danil V.; Lee A. Feldkamp; Timothy M. Feldkamp. 「クラスター加重モデリングへの新たなアプローチ」(PDF)ミシガン州ディアボーン: フォード・リサーチ・ラボラトリー.
  6. ^ Gao, Jun; Ross R. Allen (2003-07-24). 「メディア分類のためのクラスター加重モデリング」カリフォルニア州パロアルト: 世界知的所有権機関. 2025年5月22日閲覧