統計学において、クラスター分析とは、数値測定に基づいてオブジェクトを均質なグループにアルゴリズム的に分類することです。モデルベースクラスタリング[ 1 ]は、データの統計モデル(通常は混合モデル)に基づいています。これには、クラスタリングのための確固とした統計的根拠、クラスター数の選択方法、最適なクラスタリングモデルの選択方法、クラスタリングの不確実性の評価方法、どのグループにも属さない 外れ値の識別方法など、いくつかの利点があります。
モデルベースクラスタリング
各観測値について、 観測値で示される変数に関するデータがある と仮定します。モデルベースクラスタリングでは、の確率密度関数を、成分確率密度関数の 有限混合、つまり加重平均として 表します。
ここで、 はパラメータ を持つ確率密度関数、は に対応する混合確率です。そして、最も単純な形では、モデルベースクラスタリングは混合モデルの各要素をクラスターと見なし、モデルパラメータを推定し、各観測値を最も可能性の高い混合要素に対応するクラスターに割り当てます。
ガウス混合モデル
連続データの最も一般的なモデルは、平均ベクトル と共分散行列を持つ多変量正規分布であり、 となる 。これはガウス混合モデルを定義する。モデルのパラメータ およびについては、通常、期待値最大化アルゴリズム(EM) を用いた 最尤推定によって推定される。EMアルゴリズムおよびGMMモデルも参照のこと。
ベイズ推論は有限混合モデルの推論にもよく用いられる。[ 2 ]ベイズ的アプローチでは、成分数が無限大の場合も考慮され、ディリクレ過程事前分布を用いてクラスタリングのためのディリクレ過程混合モデルが得られる。[ 3 ]
クラスターの数の選択
モデルベースクラスタリングの利点は、統計的に原理的な方法でクラスター数を選択できることです。グループ数の選択はそれぞれ異なる混合モデルに対応します。そして、ベイズ情報量基準(BIC) [ 4 ]などの 標準的な統計モデル選択基準を用いて、クラスター数を選択できます。統合完全尤度(ICL)[ 5 ]は、モデル内の混合成分の数ではなく、クラスター数を選択するために設計された別の基準です。非ガウス性が高いクラスターが存在する場合、これらの値はしばしば異なります。
簡素なガウス混合モデル
高次元データ( )の場合、各混合成分について完全な共分散行列を用いると、多くのパラメータの推定が必要となり、精度、一般化可能性、解釈可能性が損なわれる可能性があります。そのため、幾何学的解釈を活用した、より簡略化された成分共分散行列を用いることが一般的です。ガウス分布のクラスターは楕円体であり、その体積、形状、方向は共分散行列によって決定されます。行列の固有値分解を考えてみましょう。
ここで、は の固有ベクトル行列 、 は の固有値に降順に比例する要素を持つ対角行列、は比例定数である。そして、は 楕円体の体積、 形状、および向きを制御する。[ 6 ] [ 7 ]
クラスターの体積、形状、向きはそれぞれ、等しい(E)ように制約することも、変化を許容する(V)ように制約することもできます。向きは球状で、固有値が等しい(I)ように制約することもできます。これにより、以下の表に示す14種類のクラスタリングモデルが考えられます。
| モデル | 説明 | # パラメータ |
|---|---|---|
| EII | 球形、等体積 | 1 |
| 7章 | 球形で体積が変化する | 9 |
| EEI | 斜め、等しい体積と形状 | 4 |
| VEI | 斜め、等角形 | 12 |
| EVI | 斜め、等体積、形状変化 | 28 |
| VVI | 斜め、ボリュームと形状が変化 | 36 |
| 電気 | 等しい | 10 |
| VEE | 等しい形状と向き | 18 |
| イブ | 均等な体積と方向 | 34 |
| VVE | 均等な向き | 42 |
| 電気自動車 | 等しい体積と形状 | 58 |
| VEV | 等形状 | 66 |
| EVV | 等量 | 82 |
| VVV | 変化する | 90 |
これらのモデルの多くは、およびのときに 90 個のパラメータを持つ制約のないモデルよりもはるかに少ないパラメータを持ち、より簡潔であることがわかります 。
これらのモデルのいくつかは、よく知られたヒューリスティッククラスタリング手法に対応しています。例えば、k-means法によるクラスタリングは、分類EMアルゴリズムを用いたEIIクラスタリングモデルの推定と同等です。[ 8 ]ベイズ情報量基準(BIC)は、最適なクラスタリングモデルとクラスタ数を選択するために使用できます。また、クラスタリングモデル内の変数を選択する方法の基礎としても使用でき、クラスタリングに役立たない変数を排除することができます。[ 9 ] [ 10 ]
高次元データの処理を念頭に、ガウスモデルに基づく様々なクラスタリング手法が開発されてきた。これらには、因子分析混合モデルに基づくpgmm法[ 11 ]や、部分空間クラスタリングの考え方に基づくHDclassif法[ 12 ]などがある。
専門家混合フレームワークは、モデルベースのクラスタリングを共変量を含めるように拡張します。[ 13 ] [ 14 ]
例
我々は、糖尿病とその種類の診断を目的として、145人の被験者の3つの測定値(グルコース、インスリン、sspg)からなるデータセットを用いてこの方法を説明します。[ 15 ] 被験者は、正常、化学的糖尿病、顕性糖尿病の3つのグループに臨床的に分類されましたが、この情報はクラスタリング手法の評価にのみ使用し、被験者の分類には使用しません。

BICプロットは、クラスター数、および表のクラスタリングモデルの各組み合わせにおけるBIC値を示しています。各曲線は異なるクラスタリングモデルに対応しています。BICは3つのグループに有利であり、これは臨床評価と一致しています。また、制約のない共分散モデルVVVにも有利です。これはデータによく適合しています。なぜなら、正常患者はSSPGとインスリンの両方の値が低いのに対し、化学的糖尿病群と顕性糖尿病群の分布は伸長していますが、方向が異なるためです。このように、3つのグループの体積、形状、および方向は明らかに異なり、モデルベースクラスタリング法によって選択された制約のないモデルが適切です。

分類プロットは、モデルベースクラスタリングによる被験者の分類を示しています。分類は非常に正確で、臨床分類で定義されたエラー率は12%でした。他のよく知られたクラスタリング手法は、シングルリンククラスタリング(46%)、平均リンククラスタリング(30%)、完全リンククラスタリング( 30%)、k-meansクラスタリング(28%)など、より高いエラー率でパフォーマンスが低下しました。
クラスタリングにおける外れ値
クラスタリングにおける外れ値とは、どのクラスターにも属さないデータポイントのことです。モデルベースクラスタリングにおいて外れ値をモデル化する一つの方法は、例えば一様分布のように、非常に分散した混合成分を追加することです。[ 6 ] [ 16 ]もう1つのアプローチは、多変量正規分布を-分布に置き換えることです。 [ 17 ]これは、 -分布の長い裾が外れ値に対する堅牢性を保証するという考えに基づいて います。しかし、これはブレイクダウンロバストではありません。[ 18 ] 3つ目のアプローチは、「tclust」またはデータトリミングアプローチです 。 [ 19 ]これは、モデルパラメータを推定する際に、外れ値として識別された観測値を除外します。
非ガウスクラスターとマージ
場合によっては、1つまたは複数のクラスターがガウス分布の仮定から大きく逸脱することがあります。このようなデータにガウス混合分布を当てはめると、強く非ガウス的なクラスターは、単一の成分ではなく複数の混合成分によって表されることがよくあります。そのような場合、クラスターのマージによってより適切なクラスタリングを行うことができます。[ 20 ]別のアプローチとして、非ガウス分布のクラスターを表すために、複素成分密度の混合分布を用いる方法があります。[ 21 ] [ 22 ]
非連続データ
カテゴリデータ
多変量カテゴリデータのクラスタリングは、潜在クラスモデルを用いて行われることが最も多い 。これは、データが有限混合モデルから生成され、各クラスター内の変数が独立していることを前提としている。
混合データ
これらは、連続データ、カテゴリカルデータ、順序データなど、変数が異なる型である場合に発生します。混合データに対する潜在クラスモデルは、変数間の局所独立性を仮定します。 [ 23 ]ロケーションモデルは、局所独立性の仮定を緩和します。[ 24 ] clustMDアプローチは、観測変数が基礎となる連続ガウス潜在変数の顕現であると仮定します。[ 25 ]
カウントデータ
多変量カウントデータに対する最も単純なモデルベースのクラスタリング手法は、 潜在クラスモデルに類似した、局所的に独立したポアソン分布を持つ有限混合に基づくものである。より現実的な手法では、カウントにおける依存性と過剰分散を考慮に入れる。[ 26 ]これらには、多変量ポアソン分布、多変量ポアソン対数正規分布、整数値自己回帰(INAR)モデル、ガウスCoxモデル に基づく手法が含まれる。
シーケンスデータ
これらは、ライフコースの軌跡のような有限な可能性集合からのカテゴリ値のシーケンスから構成されます。モデルベースのクラスタリング手法には、グループベースの軌跡モデルと成長混合モデル[ 27 ]、および距離ベースの混合モデル[ 28 ]が含まれます。
ランクデータ
これらは、個人がオブジェクトを好みの順にランク付けする際に発生します。データは、投票、教育、マーケティングなどの分野で発生するオブジェクトの順序付きリストとなります。ランクデータに対するモデルベースのクラスタリング手法には、プラケット・ルース・モデルの混合、ベンター・モデルの混合、[ 29 ] [ 30 ] 、マロウズ・モデルの混合[ 31 ]などがあります。
ネットワークデータ
これらは、個人またはノード間の接続の有無または強度から成り、社会科学および生物学において広く用いられています。確率的ブロックモデルは、潜在的なクラスタリングが存在し、そのクラスタリングを与えられた接続が独立して形成されると仮定して、ネットワーク内のノードのモデルベースのクラスタリングを実行します。[ 32 ]潜在位置クラスターモデルは、各ノードが観測されない潜在空間内の位置を占め、これらの位置はガウス分布の混合から生じ、接続の有無は潜在空間内の距離と関連していると仮定します。[ 33 ]
ソフトウェア
モデルベースのクラスタリングソフトウェアの多くは、公開され無料で利用できるRパッケージの形で提供されています。これらの多くは、CRAN Task View on Cluster Analysis and Finite Mixture Modelsに掲載されています。[ 34 ] 最もよく使われているパッケージは mclustです。[ 35 ] [ 36 ] これは連続データのクラスタリングに使用され、800万回以上ダウンロードされています。[ 37 ]
poLCAパッケージ[ 38 ]は、潜在クラスモデルを用いてカテゴリデータをクラスタリングします。clustMDパッケージ[ 25 ]は、連続変数、バイナリ変数、順序変数、名義変数を含む混合データをクラスタリングします 。
flexmixパッケージ[ 39 ]は 、様々な成分分布に対してモデルベースクラスタリングを実行します。mixtoolsパッケージ[ 40 ]は、様々なデータタイプをクラスタリングできます。flexmixとmixtoolsはどちらも、 共変量を用いたモデルベースクラスタリングを実装しています。
歴史
モデルベースクラスタリングは、1950年にポール・ラザースフェルドによって、多変量離散データのクラスタリングのために潜在クラスモデル の形で 初めて発明されました。[ 41 ]
1959年、ラザースフェルドはカリフォルニア大学バークレー校で潜在構造解析に関する講義を行いました。当時、ジョン・H・ウルフは同校の修士課程に在籍していました。この講義をきっかけにウルフは連続データに対して同様の手法を用いる方法を模索し、1965年にクラスタリングのためのガウス混合モデルを提案しました。[ 42 ] [ 43 ] 彼はまた、このモデルを推定するための最初のソフトウェアであるNORMIXを開発しました。デイ(1969年)は独立して研究を行い、このアプローチに関する最初の論文を発表しました。[ 44 ] しかし、連続データのためのモデルベースクラスタリングの発明者としてはウルフの功績が認められるべきです。
MurtaghとRaftery(1984)は、成分共分散行列の固有値分解に基づくモデルベースクラスタリング手法を開発した。[ 45 ] McLachlanとBasford(1988)はこのアプローチに関する最初の著書であり、方法論を進歩させ、関心を喚起した。[ 46 ] BanfieldとRaftery(1993)は、「モデルベースクラスタリング」という用語を作り出し、節約モデルのファミリーを紹介し、クラスター数を選択するための情報量基準を説明し、外れ値のための均一モデルを提案し、mclustソフトウェアを紹介した。[ 6 ] CeleuxとGovaert(1995)は、モデルの最大尤度推定を実行する方法を示した。[ 7 ] こうして、1995年までに方法論の中核となる要素が整い、それ以降の広範な開発の基礎が築かれた。
さらに読む
- Scrucca, L.; Fraley, C.; Murphy, TB; Raftery, AE (2023). R における mclust を用いたモデルベースクラスタリング、分類、密度推定. Chapman and Hall/CRC Press. ISBN 978-1-032-23495-3。
- Bouveyron, C.; Celeux, G.; Murphy, TB; Raftery, AE (2019). 『データサイエンスのためのモデルベースクラスタリングと分類:Rアプリケーション付き』ケンブリッジ大学出版局. ISBN 978-1-108-49420-5。
無料ダウンロード:https://math.univ-cotedazur.fr/~cbouveyr/MBCbook/
- Celeux, G; Fruhwirth-Schnatter, S.; Robert, CP (2018).混合分析ハンドブック. Chapman and Hall/CRC Press. ISBN 978-0-367-73206-6。
- McNicholas, PD (2016).混合モデルに基づくクラスタリング. Chapman and Hall/CRC Press. ISBN 978-0-367-73695-8。
- Hennig, C.; Melia, M.; Murtagh, F.; Rocci, R. (2015). 『クラスター分析ハンドブック』 Chapman and Hall/CRC Press. ISBN 978-1-4665-5188-6。
- Mengersen, KL; Robert, CP; Titterington, DM (2011).混合:推定と応用. Wiley. ISBN 978-1-119-99389-6。
- McLachlan, GJ; Peel, D. (2000).有限混合モデル. Wiley-Interscience. ISBN 978-0-471-00626-8。
参考文献
- ^ Fraley, C.; Raftery, AE (2002). 「モデルベースクラスタリング、判別分析、密度推定」.アメリカ統計学会誌. 97 (458): 611– 631. doi : 10.1198/016214502760047131 . S2CID 14462594 .
- ^ Fruhwirth-Schnatter, S. (2006).有限混合モデルとマルコフスイッチングモデル. Springer. ISBN 978-0-387-32909-3。
- ^ Quintana, FA; Iglesias, PL (2003). 「ベイズクラスタリングと積分割モデル」. Journal of the Royal Statistical Society, Series B. 65 ( 2): 557– 575. doi : 10.1111/1467-9868.00402 . hdl : 10533/174571 . S2CID 120362310 .
- ^ Dasgupta, A.; Raftery, AE (1998). 「モデルベースクラスタリングによるクラッターのある空間点プロセスの特徴検出」アメリカ統計学会誌. 93 (441): 294– 302. doi : 10.1080/01621459.1998.10474110 .
- ^ Biernacki, C.; Celeux, G.; Govaert, G. (2000). 「統合完全尤度を用いたクラスタリングのための混合モデルの評価」IEEE Transactions on Pattern Analysis and Machine Intelligence . 22 (7): 719– 725. doi : 10.1109/34.865189 .
- ^ a b c Banfield, JD; Raftery, AE (1993). 「モデルベースのガウス分布と非ガウス分布のクラスタリング」.バイオメトリクス. 49 (3): 803– 821. doi : 10.2307/2532201 . JSTOR 2532201 .
- ^ a b Celeux, G.; Govaert, G. (1995). 「ガウス簡約クラスタリングモデル」(PDF) .パターン認識. 28 (5): 781– 793. Bibcode : 1995PatRe..28..781C . doi : 10.1016/0031-3203(94)00125-6 .
- ^ Celeux, G.; Govaert, G. (1992). 「クラスタリングのための分類EMアルゴリズムと2つの確率的バージョン」(PDF) .計算統計とデータ分析. 14 (3): 315– 332. doi : 10.1016/0167-9473(92)90042-E . S2CID 121694251 .
- ^ Raftery, AE; Dean, N. (2006). 「モデルベースクラスタリングのための変数選択」. Journal of the American Statistical Association . 101 (473): 168– 178. doi : 10.1198/016214506000000113 . S2CID 7738576 .
- ^ Maugis, C.; Celeux, G.; Martin-Magniette, ML (2009). 「ガウス混合モデルを用いたクラスタリングにおける変数選択」(PDF) .バイオメトリクス. 65 (3): 701– 709. doi : 10.1111/ j.1541-0420.2008.01160.x . PMID 19210744. S2CID 1326823 .
- ^ McNicholas, PD; Murphy, TB (2008). 「簡素なガウス混合モデル」.統計と計算. 18 (3): 285– 296. doi : 10.1007/s11222-008-9056-0 . S2CID 13287886 .
- ^ Bouveyron, C.; Girard, S.; Schmid, C. (2007). 「高次元データクラスタリング」.計算統計とデータ分析. 52 : 502–519 . arXiv : math/0604064 . doi : 10.1016/j.csda.2007.02.009 .
- ^ Murphy, K.; Murphy, TB (2020). 「共変量とノイズ成分を含むガウス簡素クラスタリングモデル」.データ分析と分類の進歩. 14 (2): 293– 325. arXiv : 1711.05632 . doi : 10.1007/s11634-019-00373-8 . S2CID 204210043 .
- ^ Jacobs, RA; Jordan, MI; Nowlan, SJ; Hinton, GE (1991). 「局所的専門家の適応的混合」. Neural Computing . 3 (1): 79– 87. doi : 10.1162/neco.1991.3.1.79 . PMID 31141872. S2CID 572361 .
- ^ Reaven, GM; Miller, RG (1979). 「多次元解析を用いた化学的糖尿病の性質定義の試み」Diabetologia . 16 (1): 17– 24. doi : 10.1007/BF00423145 . PMID 761733 .
- ^ Hennig, C. (2004). 「位置・スケール混合モデルの最大尤度推定値の内訳点」Annals of Statistics . 32 (4): 1313– 1340. arXiv : math/0410073 . doi : 10.1214/009053604000000571 .
- ^ McLachlan, GJ; Peel, D. (2000).有限混合モデル. Wiley-Interscience. ISBN 978-0-471-00626-8。
- ^ Coretto, P.; Hennig, C. (2016). 「ロバストな不適正最大尤度:ロバストなガウスクラスタリングのためのチューニング、計算、および他の手法との比較」アメリカ統計学会誌. 111 (516): 1648– 1659. arXiv : 1406.0808 . doi : 10.1080/01621459.2015.1100996 .
- ^ Garcia-Escudero, LA; Gordaliza, A.; Matran, C.; Mayo-Iscar, A. (2008). 「ロバストなクラスター分析への一般的なトリミングアプローチ」Annals of Statistics . 36 (3): 1324– 1345. arXiv : 0806.2976 . doi : 10.1214/07-AOS515 .
- ^ Baudry, JP; Raftery, AE; Celeux, G.; Lo, K.; Gottardo, R. (2010). 「クラスタリングのための混合成分の結合」 . Journal of Computational and Graphical Statistics . 19 (2): 332– 353. doi : 10.1198/jcgs.2010.08111 . PMC 2953822. PMID 20953302 .
- ^ Murray, PM; Browne, RP; McNicholas, PD (2020). 「隠れた切り捨て双曲因子分析器の混合」. Journal of Classification . 37 (2): 366– 379. arXiv : 1711.01504 . doi : 10.1007/s00357-019-9309-y .
- ^ Lee, SX; McLachlan, GJ (2022). 「モデルベースクラスタリングにおける歪んだ分布の概要」. Journal of Multivariate Analysis . 188 104853. doi : 10.1016/j.jmva.2021.104853 .
- ^ Everitt, B. (1984).潜在変数モデル入門. Chapman and Hall.
- ^ Hunt, L.; Jorgensen, M. (1999). 「理論と方法:MULTIMIXプログラムを用いた混合モデルクラスタリング」.オーストラリア・ニュージーランド統計ジャーナル. 41 (2): 154– 171. doi : 10.1111/1467-842X.00071 . S2CID 118269232 .
- ^ a b McParland, D.; Gormley, IC (2016). 「混合データのためのモデルベースクラスタリング:clustMD」.データ分析と分類の進歩. 10 (2): 155– 169. arXiv : 1511.01720 . doi : 10.1007/s11634-016-0238-x . S2CID 29492339 .
- ^ Karlis, D. (2019). 「離散データの混合モデリング」. Fruhwirth-Schnatter, S.; Celeux, G.; Robert, CP (編).混合分析ハンドブック. Chapman and Hall/CRC Press. pp. 193– 218. ISBN 978-0-429-05591-1。
- ^ Erosheva, EA; Matsueda, RL; Telesca, D. (2014). 「Breaking bad: 20年間のライフコースデータ分析における犯罪学、発達心理学、そしてそれ以降の領域」. Annual Review of Statistics and Its Application . 1 (1): 301– 332. Bibcode : 2014AnRSA...1..301E . doi : 10.1146/annurev-statistics-022513-115701 .
- ^ Murphy, K.; Murphy, TB; Piccarreta, R.; Gormley, IC (2021). 「指数距離モデルの混合を用いた縦断的ライフコースシーケンスのクラスタリング」(PDF) . Journal of the Royal Statistical Society, Series A. 184 ( 4): 1414– 1451. doi : 10.1111/rssa.12712 . S2CID 235828978 .
- ^ Gormley, IC; Murphy, TB (2008). 「アイルランドの有権者における投票ブロックの探究:混合モデルによるアプローチ」アメリカ統計学会誌. 103 : 1014–1027 . doi : 10.1198/016214507000001049 . hdl : 10197/7122 . S2CID 55004915 .
- ^ Mollica, C.; Tardella, L. (2017). 「部分順位データに対するベイズ的プラケット・ルース混合モデル」Psychometrika . 82 (2): 442– 458. arXiv : 1501.03519 . doi : 10.1007/s11336-016-9530-0 . PMID 27734294. S2CID 6903655 .
- ^ Biernacki, C.; Jacques, J. (2013). 「挿入ソートアルゴリズムに基づくランクデータの生成モデル」(PDF) .計算統計とデータ分析. 58 : 162–176 . doi : 10.1016/j.csda.2012.08.008 .
- ^ Nowicki, K.; Snijders, TAB (2001). 「確率的ブロック構造の推定と予測」.アメリカ統計学会誌. 96 (455): 1077– 1087. doi : 10.1198/016214501753208735 . S2CID 9478789 .
- ^ Handcock, MS; Raftery, AE; Tantrum, JM (2007). 「ソーシャルネットワークのためのモデルベースクラスタリング」. Journal of the Royal Statistical Society, Series A. 107 ( 2): 1– 22. doi : 10.1111/j.1467-985X.2007.00471.x .
- ^ https://cran.r-project.org/web/views/Cluster.html、2024年2月25日アクセス
- ^ Scrucca, L.; Fop, M.; Murphy, TB; Raftery, AE (2016). 「mclust 5: ガウス有限混合モデルを用いたクラスタリング、分類、密度推定」. R Journal . 8 (1): 289– 317. doi : 10.32614/RJ-2016-021 . PMC 5096736. PMID 27818791 .
- ^ Scrucca, L.; Fraley, C.; Murphy, TB; Raftery, AE (2023).モデルベースのクラスタリング、分類、密度推定. Chapman and Hall/CRC Press. ISBN 978-1-032-23495-3。
- ^ https://www.datasciencemeta.com/rpackages、2024年2月25日アクセス
- ^ Linzer, DA; Lewis, JB (2011). 「poLCA: 多値変数潜在クラス分析のためのRパッケージ」 . Journal of Statistical Software . 42 (10): 1– 29. doi : 10.18637/jss.v042.i10 .
- ^ Grun, B.; Leisch, F. (2008). 「FlexMix バージョン2:同時変数と可変パラメータおよび定数パラメータを持つ有限混合」 . Journal of Statistical Software . 28 (4): 1– 35. doi : 10.18637/jss.v028.i04 .
- ^ Benaglia, T.; Chauveau, D.; Hunter, DR; Young, D. (2009). 「mixtools: 有限混合モデルを分析するためのRパッケージ」 . Journal of Statistical Software . 32 (6): 1– 29. doi : 10.18637/jss.v032.i06 .
- ^ Lazarsfeld, PF (1950). 「潜在構造分析の論理的および数学的基礎」. Stouffer, SA; Guttman, L.; Suchman, EA; Lazarsfeld, PF (編). 『第二次世界大戦における社会心理学研究 第4巻:測定と予測』 プリンストン大学出版局. pp. 362– 412.
- ^ Wolfe, JH (1965). 艦種の最大尤度分析のためのコンピュータプログラム. USNPRA技術速報65-15(報告書). 米国海軍私文書局、カリフォルニア州サンディエゴ.
- ^ Bouveyron, C.; Celeux, G.; Murphy, TB; Raftery, AE (2019). 「セクション2.8」.データサイエンスのためのモデルベースクラスタリングと分類:Rでの応用. Cambridge University Press. ISBN 978-1-108-49420-5。
- ^ Day, NE (1969). 「2つの正規分布の混合における成分の推定」. Biometrika . 56 (3): 463– 474. doi : 10.1093/biomet/56.3.463 .
- ^ Murtagh, F.; Raftery, AE (1984). 「点パターンへの直線のフィッティング」.パターン認識. 17 (5): 479– 483. Bibcode : 1984PatRe..17..479M . doi : 10.1016/0031-3203(84)90045-1 .
- ^ McLachlan, GJ; Basford, KE (1988).混合モデル:推論とクラスタリングへの応用. Marcel Dekker. ISBN 978-0-8247-7691-6。