制約条件モデル

機械学習と推論フレームワーク

制約付き条件モデル（CCM）は、宣言的制約を用いて条件付き（確率的または識別的）モデルの学習を拡張する機械学習および推論フレームワークです。この制約は、表現力豊かな^{[説明が必要]}事前知識をモデルに組み込み、学習済みモデルによる割り当てにこれらの制約を満たすようにバイアスをかける手段として使用できます。このフレームワークは、訓練と推論のモジュール性と扱いやすさを維持しながら、表現力豊かな出力空間における意思決定をサポートするために使用できます。

この種のモデルは、最近^{[いつから? ]}自然言語処理 ( NLP ) コミュニティで大きな注目を集めている^{[要出典] 。学習済みモデルの出力に対する}制約付き最適化問題として問題を定式化することには、いくつかの利点がある。第一階述語言語を使用してドメイン固有の知識をグローバル制約として組み込む機会を提供することで、問題のモデリングに集中できる。この宣言型フレームワークを使用すると、開発者は低レベルの特徴量エンジニアリングから解放されると同時に、問題のドメイン固有の特性を捉え、正確な推論を保証できる。機械学習の観点から見ると、モデル生成 (学習) 段階と制約付き推論段階を切り離すことができるため、学習段階を簡素化し、ソリューションの品質を向上させることができる。たとえば、圧縮文を生成する場合、言語モデルを使用して文中で最もよく使用される n-gram を保持するだけでなく、制約を使用して、修飾語が圧縮文に保持される場合は主語も保持されるようにすることができる。

モチベーション

多くの分野（自然言語処理やコンピュータービジョンの問題など）における意思決定には、相互に依存する変数の集合に値を割り当てることがしばしば含まれます。表現上の依存関係構造は、割り当て可能な値に影響を与えたり、場合によっては割り当てを決定したりすることがあります。こうした設定は、意味役割のラベル付けなどの構造化学習の問題だけでなく、要約、テキスト含意、質問応答など、複数の事前学習済みコンポーネントの利用を必要とするケースにも適用できます。これらすべての場合において、意思決定の問題を、学習済みモデルから構成される目的関数を持ち、分野固有の制約または問題固有の制約を受ける制約付き最適化問題として定式化するのが自然です。

制約付き条件モデルは、学習および推論のフレームワークであり、条件付き（確率的または識別的）モデルの学習を宣言的制約（例えば、一次表現を用いて記述）によって拡張することで、表現力豊かな出力空間における意思決定を支援しながら、学習と推論のモジュール性と扱いやすさを維持する。これらの制約は、一部の割り当てを完全に禁止するハード制約、または可能性の低い割り当てにペナルティを課すソフト制約のいずれかを表現できる。NLPにおけるこのフレームワークのほとんどの応用では、^[1]整数線形計画法（ILP）が推論フレームワークとして使用されているが、他のアルゴリズムも推論の目的に使用できる。

正式な定義

入力構造と出力構造上で定義された特徴関数のセットと制約のセットが与えられると、制約条件モデルは 2 つの重みベクトル w とによって特徴付けられ、次の最適化問題の解として定義されます。 $\{\phi _{i}(x,y)\}$ $\{C_{i}(x,y)\}$ $x\in X$ $y\in Y$ $\rho$

argmax_{y}\sum _{i}w_{i}\phi _{i}(x,y)-\sum \rho _{i}C_{i}(x,y)

。

各制約は、結合割り当てが制約に違反するかどうかを示すブールマッピングであり、制約に違反した場合に発生するペナルティです。無限ペナルティが割り当てられた制約はハード制約と呼ばれ、最適化問題への実行不可能な割り当てを表します。 $C_{i}\in C$ $(x,y)$ $\rho$

トレーニングパラダイム

ローカルモデルとグローバルモデルの学習

CCM で使用される目的関数は、モデルと制約を完全に共同学習する方法から、学習と推論段階を完全に分離する方法まで、いくつかの方法で分解して学習できます。後者の場合、複数のローカルモデルが独立して学習され、これらのモデル間の依存関係は、グローバル決定プロセスを介して決定時にのみ考慮されます。各アプローチの利点は、 2 つのトレーニングパラダイム (1) ローカルモデル: L+I (学習 + 推論) と (2) グローバルモデル: IBT (推論ベースのトレーニング) を研究した [ ^2]で説明されており、IBT (共同学習) は極限では最適ですが、特定の条件 (基本的に「良好な」コンポーネント) 下では L+I の方が一般化しやすいことが理論的および実験的に示されています。

CCMのローカルモデルを組み合わせる能力は、共同学習が計算的に困難な場合や、共同学習のための訓練データが利用できない場合に特に有益です。この柔軟性は、共同学習を重視するマルコフ論理ネットワークなど、統計情報と宣言的制約を組み合わせる他の学習フレームワークとCCMを区別するものです。

最小限の監督付きCCM

CCMは、ドメイン知識（制約として表現される）を用いて学習を駆動することで、教師あり学習の負担を軽減するのに役立ちます。これらの設定は^[3]と^[4]で研究されています。これらの研究では、半教師あり制約駆動学習（CODL）が導入され、ドメイン知識を組み込むことで学習済みモデルの性能が大幅に向上することを示しています。

潜在的表現の学習

CCMは潜在学習フレームワークにも適用されており、学習問題は潜在表現層上で定義されます。正しい表現の概念は本質的に明確に定義されていないため、学習者は表現決定に関するゴールドスタンダードのラベル付きデータを利用できません。正しい（または最適な）学習表現を特定することは構造化された予測プロセスと見なされ、CCMとしてモデル化されます。この問題は、教師あり学習^[5] と教師なし学習^[6]の両方において、いくつかの論文で取り上げられています。いずれの場合も、制約を介して表現決定間の相互依存性を明示的にモデル化することで、パフォーマンスが向上することが研究で示されています。

自然言語処理アプリケーションのための整数線形計画法

CCM宣言的定式化の利点と既製のソルバーが利用できることにより、意味役割ラベル付け、^[7] 、構文解析、 [ ^{8 ]、共}参照解決、^{[9] 、要約、[}^10]、[11]、^{[12] 、}翻字、^{[13] 、}自然言語生成^[^{14] 、共同情報抽出[}^{15 ]、[16]など、さまざまな}自然言語処理タスクがこのフレームワーク内で定式化されるようになり^ました。

これらの研究のほとんどは、決定問題を解くために整数線形計画法（ILP）ソルバーを用いています。理論的には、整数線形計画法を解くことは決定問題の規模に対して指数関数的に増大しますが、実際には最先端のソルバーと近似推論技術^[17]を用いることで、大規模な問題を効率的に解くことができます。

制約条件モデルによって定義された最適化問題を解決するために ILP ソルバーを使用する主な利点は、線形目的関数と一連の線形制約で構成される、ILP ソルバーの入力として使用される宣言型の定式化です。

リソース

CCMチュートリアルNLPにおける構造予測：制約条件モデルと整数線形計画法

外部リンク

イリノイ大学認知計算グループ
自然言語処理のための整数線形計画法ワークショップ、NAACL-2009

参考文献

^ Dan RothとWen-tau Yih、「自然言語タスクにおけるグローバル推論のための線形計画法の定式化」Wayback Machine CoNLL（2004年）に2017年10月25日にアーカイブ。
^ Vasin Punyakanok、Dan Roth、Wen-Tau Yih、Dav Zimak、「制約付き出力における学習と推論」Wayback Machine IJCAI、(2005)に2017年10月25日アーカイブ。
^ Ming-Wei Chang、Lev Ratinov、Dan Roth、「制約駆動型学習による半監督のガイド」Wayback Machine ACLに2016年3月3日アーカイブ、(2007年)。
^ Ming-Wei Chang、Lev Ratinov、Dan Roth、「事前知識としての制約」。Wayback Machineに2016年3月3日にアーカイブ 。ICML Workshop on Prior Knowledge for Text and Language Processing、(2008)。
^ Ming-Wei Chang、Dan Goldwasser、Dan Roth、Vivek Srikumar、「制約付き潜在表現による識別学習」。Wayback Machine NAACL、(2010)に2017年10月25日アーカイブ。
^ Ming-Wei Chang、Dan Goldwasser、Dan Roth、Yuancheng Tu、「翻字発見のための教師なし制約駆動型学習」^{[永久リンク切れ]} NAACL、(2009)。
^ Vasin Punyakanok、Dan Roth、Wen-tau Yih、Dav Zimak、「整数線形計画法推論による意味役割ラベル付け」。Wayback Machineに2017年8月9日アーカイブ。COLING、(2004)。
^ 寒河江健司、宮尾雄介、辻井淳一、「浅い依存性制約によるHPSG解析」ACL、(2007)。
^ Pascal Denis と Jason Baldridge、「整数計画法を用いたアナフォリシティと共参照解決の共同決定」Wayback Machineに 2010 年 6 月 21 日にアーカイブされたNAACL-HLT (2007)。
^ James ClarkeとMirella Lapata、「文圧縮のためのグローバル推論：整数線形計画法アプローチ」Wayback Machineに2013年5月10日にアーカイブ。Journal of Artificial Intelligence Research (JAIR)、(2008)。
^ Katja FilippovaとMichael Strube、「依存関係ツリーベースの文圧縮」^{[永久リンク切れ]} INLG、(2008年)。
^ Katja FilippovaとMichael Strube、「依存関係グラフ圧縮による文の融合」EMNLP、(2008)。
^ Dan GoldwasserとDan Roth、「制約付き最適化としての翻字」。Wayback Machine EMNLP（2008年）に2017年8月11日アーカイブ。
^ Regina BarzilayとMirrela Lapata、「自然言語生成のためのセット分割による集約」NAACL、(2006)。
^ Dan RothとWen-tau Yih、「自然言語タスクにおけるグローバル推論のための線形計画法の定式化」Wayback Machine CoNLL（2004年）に2017年10月25日にアーカイブ。
^ Yejin Choi、Eric Breck、Claire Cardie、「意見認識のためのエンティティと関係の共同抽出」EMNLP、(2006)。
^ André FT Martins、Noah A. Smith、Eric P. Xing、「依存関係解析のための簡潔な整数線形計画法の定式化」ACL、(2009)。

[1] Dan RothとWen-tau Yih、「自然言語タスクにおけるグローバル推論のための線形計画法の定式化」Wayback Machine CoNLL（2004年）に2017年10月25日にアーカイブ。

[2] Vasin Punyakanok、Dan Roth、Wen-Tau Yih、Dav Zimak、「制約付き出力における学習と推論」Wayback Machine IJCAI、(2005)に2017年10月25日アーカイブ。

[3] Ming-Wei Chang、Lev Ratinov、Dan Roth、「制約駆動型学習による半監督のガイド」Wayback Machine ACLに2016年3月3日アーカイブ、(2007年)。

[4] Ming-Wei Chang、Lev Ratinov、Dan Roth、「事前知識としての制約」。Wayback Machineに2016年3月3日にアーカイブ 。ICML Workshop on Prior Knowledge for Text and Language Processing、(2008)。

[5] Ming-Wei Chang、Dan Goldwasser、Dan Roth、Vivek Srikumar、「制約付き潜在表現による識別学習」。Wayback Machine NAACL、(2010)に2017年10月25日アーカイブ。

[6] Ming-Wei Chang、Dan Goldwasser、Dan Roth、Yuancheng Tu、「翻字発見のための教師なし制約駆動型学習」^{[永久リンク切れ]} NAACL、(2009)。

[7] Vasin Punyakanok、Dan Roth、Wen-tau Yih、Dav Zimak、「整数線形計画法推論による意味役割ラベル付け」。Wayback Machineに2017年8月9日アーカイブ。COLING、(2004)。

[8] 寒河江健司、宮尾雄介、辻井淳一、「浅い依存性制約によるHPSG解析」ACL、(2007)。

[9] Pascal Denis と Jason Baldridge、「整数計画法を用いたアナフォリシティと共参照解決の共同決定」Wayback Machineに 2010 年 6 月 21 日にアーカイブされたNAACL-HLT (2007)。

[10] James ClarkeとMirella Lapata、「文圧縮のためのグローバル推論：整数線形計画法アプローチ」Wayback Machineに2013年5月10日にアーカイブ。Journal of Artificial Intelligence Research (JAIR)、(2008)。

[11] Katja FilippovaとMichael Strube、「依存関係ツリーベースの文圧縮」^{[永久リンク切れ]} INLG、(2008年)。

[12] Katja FilippovaとMichael Strube、「依存関係グラフ圧縮による文の融合」EMNLP、(2008)。

[13] Dan GoldwasserとDan Roth、「制約付き最適化としての翻字」。Wayback Machine EMNLP（2008年）に2017年8月11日アーカイブ。

[14] Regina BarzilayとMirrela Lapata、「自然言語生成のためのセット分割による集約」NAACL、(2006)。

[15] Dan RothとWen-tau Yih、「自然言語タスクにおけるグローバル推論のための線形計画法の定式化」Wayback Machine CoNLL（2004年）に2017年10月25日にアーカイブ。

[16] Yejin Choi、Eric Breck、Claire Cardie、「意見認識のためのエンティティと関係の共同抽出」EMNLP、(2006)。

[17] André FT Martins、Noah A. Smith、Eric P. Xing、「依存関係解析のための簡潔な整数線形計画法の定式化」ACL、(2009)。