機械学習と自然言語処理において、パチンコ配分モデル (PAM)はトピックモデルの一種である。トピックモデルとは、文書群の隠れたテーマ構造を明らかにするためのアルゴリズム群である。[1]このアルゴリズムは、トピックを構成する単語の相関関係に加えて、トピック間の相関関係をモデル化することで、潜在的ディリクレ配分(LDA) などの従来のトピックモデルを改良したものである。PAM は、潜在的ディリクレ配分よりも柔軟性が高く、表現力に優れている。 [2] このアルゴリズムは、自然言語処理の分野で初めて記述・実装されたが、バイオインフォマティクスなどの他の分野にも応用できる可能性がある。このモデルは、日本で人気のパチンコ機にちなんで名付けられている。パチンコ機では、金属のボールが複雑なピンの集まりの周りを跳ね回り、下部のさまざまなビンに落ちていく。[3]
歴史
パチンコ配分は、 2006年にWei LiとAndrew McCallumによって初めて説明されました。[3] このアイデアは、2007年にLi、McCallum、David Mimnoによって階層的パチンコ配分に拡張されました。[4] 2007年に、McCallumと彼の同僚は、階層的ディリクレ過程(HDP)の変種に基づくPAMの非パラメトリックベイズ事前分布を提案しました。[2]このアルゴリズムは、マサチューセッツ大学アマースト校のMcCallumのグループによって公開されたMALLETソフトウェアパッケージ に実装されています。
モデル
このセクションは拡張が必要です。追加していただけると助かります。 (2017年7月) |
PAM は、V 内の単語と T 内のトピックを任意の有向非巡回グラフ(DAG) で接続します。ここで、トピック ノードは内部レベルを占め、リーフは単語です。
コーパス全体を生成する確率は、各文書の確率の積である。[3]
参照
- 確率的潜在意味索引(PLSI)、1999年にトーマス・ホフマンが提唱した初期のトピックモデル。[5]
- 潜在ディリクレ分布は、2002年にDavid Blei、Andrew Ng、Michael Jordanによって開発されたPLSIの一般化であり、文書にさまざまなトピックを混在させることができます。[6]
- パチンコ割り当てを実装するオープンソースの Java ライブラリ、MALLET 。
参考文献
- ^ Blei, David. 「トピックモデリング」. 2012年10月2日時点のオリジナルよりアーカイブ。2012年10月4日閲覧。
- ^ ab Li, Wei; Blei, David; McCallum, Andrew (2007).ノンパラメトリックベイズパチンコ配分. 第23回人工知能における不確実性に関する会議. arXiv : 1206.5270 .
- ^ abc Li, Wei; McCallum, Andrew (2006). 「パチンコ配分:トピック相関のDAG構造混合モデル」(PDF) .第23回国際機械学習会議(ICML '06)の議事録. pp. 577– 584. doi :10.1145/1143844.1143917. ISBN 1595933832. S2CID 13160178。
- ^ ミムノ, デイビッド; リー, ウェイ; マッカラム, アンドリュー (2007). 「階層的トピックの混合とパチンコ配分」(PDF) .第24回国際機械学習会議論文集. pp. 633– 640. doi :10.1145/1273496.1273576. ISBN 9781595937933. S2CID 6045658. 2018年5月18日時点の オリジナル(PDF)からアーカイブ。2018年5月18日閲覧。
- ^ ホフマン、トーマス (1999). 「確率的潜在意味インデキシング」(PDF) .第22回国際SIGIR情報検索研究開発会議議事録. 2010年12月14日時点のオリジナル(PDF)からアーカイブ。
- ^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I .; Lafferty, John (2003年1月). 「潜在的ディリクレ配分」. Journal of Machine Learning Research . 3 : pp. 993–1022. 2012年5月1日時点のオリジナルよりアーカイブ。 2010年7月19日閲覧。
外部リンク
- 階層的トピックとパチンコ割り当ての混合、2007 年に David Mimno が HPAM を発表したビデオ録画。