データマイニングにおいて、クラスター重み付けモデリング(CWM)は、入力空間のサブ領域において概念的に適切なモデル(クラスター)の集合を用いた密度推定に基づき、入力(独立変数)から出力(従属変数)を非線形予測するアルゴリズムベースのアプローチである。このアプローチは入出力空間の両方で機能し、初期バージョンはニール・ガーシェンフェルドによって提案された。[ 1 ] [ 2 ]
入出力問題のクラスター重み付きモデリングの手順は、以下のように概説できる。[ 2 ]入力変数xから出力変数yの予測値を構築するために、モデリングとキャリブレーションの手順により、結合確率密度関数p ( y , x ) が得られる。ここで「変数」とは、単変量、多変量、時系列のことである。便宜上、モデルパラメータはここでは表記されていないが、これらについては、キャリブレーションの手順として固定値に設定するか、ベイズ分析を用いて処理するなど、いくつかの異なる処理が可能である。必要な予測値は、条件付き期待値を用いた予測値を得るための条件付き確率密度p ( y | x )を構築することで得られる。条件付き分散は、不確実性の指標となる。
モデリングの重要なステップは、p ( y | x ) が混合モデルとして次の形式を取ると仮定することです。
ここで、nはクラスターの数、{ w j }は合計が1となる重みです。関数p j ( y , x )は、 n個のクラスターそれぞれに関連する結合確率密度関数です。これらの関数は、条件付き密度と周辺密度への分解を用いてモデル化されます。
どこ:
回帰分析の場合と同様に、モデルの中核コンポーネントがクラスター単位の条件密度の単純回帰モデルとクラスター重み付け密度p j ( x )の正規分布である場合は、全体的なモデリング戦略の一部として予備的なデータ変換を考慮することが重要になります。
基本的なCWMアルゴリズムは、入力クラスタごとに単一の出力クラスタを生成します。しかし、CWMは、同じ入力クラスタに関連付けられた複数のクラスタに拡張できます。[ 3 ] CWMの各クラスタはガウス分布の入力領域に局在し、そこには独自の学習可能なローカルモデルが含まれています。[ 4 ] CWMは、シンプルさ、汎用性、柔軟性を備えた多用途の推論アルゴリズムとして認識されています。フィードフォワード階層型ネットワークが好まれる場合でも、学習問題の性質に関する「セカンドオピニオン」として使用されることがあります。[ 5 ]
ガーシェンフェルドが提案した元の形式では、次の 2 つの革新が説明されています。
CWMはプリンタアプリケーションでメディアを分類するために使用することができ、少なくとも2つのパラメータを使用して入力パラメータに依存した出力を生成します。[ 6 ]