パチンコの割り当て

統計ツール

機械学習と自然言語処理において、パチンコ配分モデル (PAM)はトピックモデルの一種である。トピックモデルとは、文書群の隠れたテーマ構造を明らかにするためのアルゴリズム群である。^[1]このアルゴリズムは、トピックを構成する単語の相関関係に加えて、トピック間の相関関係をモデル化することで、潜在的ディリクレ配分(LDA) などの従来のトピックモデルを改良したものである。PAM は、潜在的ディリクレ配分よりも柔軟性が高く、表現力に優れている。 ^[2] このアルゴリズムは、自然言語処理の分野で初めて記述・実装されたが、バイオインフォマティクスなどの他の分野にも応用できる可能性がある。このモデルは、日本で人気のパチンコ機にちなんで名付けられている。パチンコ機では、金属のボールが複雑なピンの集まりの周りを跳ね回り、下部のさまざまなビンに落ちていく。^[3]

歴史

パチンコ配分は、 2006年にWei LiとAndrew McCallumによって初めて説明されました。^[3] このアイデアは、2007年にLi、McCallum、David Mimnoによって階層的パチンコ配分に拡張されました。^[4] 2007年に、McCallumと彼の同僚は、階層的ディリクレ過程（HDP）の変種に基づくPAMの非パラメトリックベイズ事前分布を提案しました。^{[2]このアルゴリズムは}、マサチューセッツ大学アマースト校のMcCallumのグループによって公開されたMALLETソフトウェアパッケージに実装されています。

モデル

PAM は、V 内の単語と T 内のトピックを任意の有向非巡回グラフ(DAG) で接続します。ここで、トピックノードは内部レベルを占め、リーフは単語です。

コーパス全体を生成する確率は、各文書の確率の積である。^[3]

$P(\mathbf {D} |\alpha )=\prod _{d}P(d|\alpha )$

参照

確率的潜在意味索引（PLSI）、1999年にトーマス・ホフマンが提唱した初期のトピックモデル。^[5]
潜在ディリクレ分布は、2002年に David Blei、Andrew Ng、Michael Jordanによって開発されたPLSIの一般化であり、文書にさまざまなトピックを混在させることができます。^[6]
パチンコ割り当てを実装するオープンソースの Java ライブラリ、MALLET 。

参考文献

^ Blei, David. 「トピックモデリング」. 2012年10月2日時点のオリジナルよりアーカイブ。2012年10月4日閲覧。
^ ab Li, Wei; Blei, David; McCallum, Andrew (2007).ノンパラメトリックベイズパチンコ配分. 第23回人工知能における不確実性に関する会議. arXiv : 1206.5270 .
^ abc Li, Wei; McCallum, Andrew (2006). 「パチンコ配分：トピック相関のDAG構造混合モデル」（PDF） .第23回国際機械学習会議（ICML '06）の議事録. pp. 577– 584. doi :10.1145/1143844.1143917. ISBN 1595933832. S2CID 13160178。
^ ミムノ, デイビッド; リー, ウェイ; マッカラム, アンドリュー (2007). 「階層的トピックの混合とパチンコ配分」(PDF) .第24回国際機械学習会議論文集. pp. 633– 640. doi :10.1145/1273496.1273576. ISBN 9781595937933. S2CID 6045658. 2018年5月18日時点のオリジナル（PDF）からアーカイブ。2018年5月18日閲覧。
^ ホフマン、トーマス (1999). 「確率的潜在意味インデキシング」(PDF) .第22回国際SIGIR情報検索研究開発会議議事録. 2010年12月14日時点のオリジナル(PDF)からアーカイブ。
^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I .; Lafferty, John (2003年1月). 「潜在的ディリクレ配分」. Journal of Machine Learning Research . 3 : pp. 993–1022. 2012年5月1日時点のオリジナルよりアーカイブ。 2010年7月19日閲覧。

外部リンク

階層的トピックとパチンコ割り当ての混合、2007 年に David Mimno が HPAM を発表したビデオ録画。

この自然言語処理に関する記事はスタブです。この記事を拡張することで、Wikipedia に貢献できます。

この機械学習関連の記事はスタブです。記事を拡張することでWikipediaに貢献できます。

[1] Blei, David. 「トピックモデリング」. 2012年10月2日時点のオリジナルよりアーカイブ。2012年10月4日閲覧。

[mccallum07-2] Li, Wei; Blei, David; McCallum, Andrew (2007).ノンパラメトリックベイズパチンコ配分. 第23回人工知能における不確実性に関する会議. arXiv : 1206.5270 .

[li2006-3] Li, Wei; McCallum, Andrew (2006). 「パチンコ配分：トピック相関のDAG構造混合モデル」（PDF） .第23回国際機械学習会議（ICML '06）の議事録. pp. 577– 584. doi :10.1145/1143844.1143917. ISBN 1595933832. S2CID 13160178。

[mimno2007-4] ミムノ, デイビッド; リー, ウェイ; マッカラム, アンドリュー (2007). 「階層的トピックの混合とパチンコ配分」(PDF) .第24回国際機械学習会議論文集. pp. 633– 640. doi :10.1145/1273496.1273576. ISBN 9781595937933. S2CID 6045658. 2018年5月18日時点のオリジナル（PDF）からアーカイブ。2018年5月18日閲覧。

[hofmann1999-5] ホフマン、トーマス (1999). 「確率的潜在意味インデキシング」(PDF) .第22回国際SIGIR情報検索研究開発会議議事録. 2010年12月14日時点のオリジナル(PDF)からアーカイブ。

[blei2003-6] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I .; Lafferty, John (2003年1月). 「潜在的ディリクレ配分」. Journal of Machine Learning Research . 3 : pp. 993–1022. 2012年5月1日時点のオリジナルよりアーカイブ。 2010年7月19日閲覧。