結合パターン学習器(CPL) は、カテゴリと関係の半教師あり学習を組み合わせて、ブートストラップ学習法に関連する意味ドリフトの問題を未然に防ぐ 機械学習アルゴリズムです。
結合パターン学習者
少数のラベル付き例と多数のラベルなし例を用いる半教師あり学習アプローチは、内部的には一貫性があるものの、不正確な抽出集合を生成するため、通常は信頼性が低い。CPLは、これらの分類器の学習を連結する制約を定義するオントロジーを用いて、多数の異なるカテゴリと関係に対する分類器を同時に学習することでこの問題を解決します。CPLは、2009年にAndrew Carlson、Justin Betteridge、Estevam R. Hruschka Jr.、 Tom M. Mitchellによって導入されました。[1] [2]
CPLの概要
CPLは、多数の情報抽出器の学習を組み合わせることで、より正確な結果を生み出す半教師あり学習のアプローチです。CPLの基本的な考え方は、「コーチ」のような単一の種類の抽出器を半教師あり学習することは、相互に関連する様々なエンティティと関係の種類をカバーする多数の抽出器を同時に学習するよりもはるかに困難であるということです。これらの異なるエンティティと関係の関係に関する事前知識を利用することで、CPLはラベルなしデータを学習中の有用な制約として利用します。例えば、「コーチ(x)」は「人(x)」と「スポーツ(x)ではない」を意味します。
CPLの説明
述語の結合
CPLは主に、半教師あり学習の問題を制約するために、複数の関数の 学習を結合するという概念に依存しています。CPLは学習した関数を2つの方法で制約します。
- 論理関係に従って同じアリティの述語間で共有する
- リレーション引数の型チェック
同じアリティの述語間の共有
オントロジー内の各述語Pには、Pが互いに排他的な、同じアリティを持つ他の述語のリストがあります。述語Aが述語Bと互いに排他的である場合、Aの正インスタンスとパターンは、述語Bの負インスタンスと負パターンになります。例えば、「city」がインスタンス「Boston」とパターン「mayor of arg1」を持ち、「scientist」と互いに排他的である場合、「Boston」と「mayor of arg1」はそれぞれ「scientist」の負インスタンスと負パターンになります。さらに、一部のカテゴリは別のカテゴリのサブセットであると宣言されています。例えば、「athlete」は「person」のサブセットです。
リレーション引数の型チェック
これは、関係とカテゴリの学習を結合するために使用される型チェック情報です。例えば、「ceoOf」関係の引数は、「person」と「company」のカテゴリに属すると宣言されています。CPLは、2つの名詞句が正しい引数型に属すると分類されない限り、名詞句のペアを関係のインスタンスとして昇格させません。
アルゴリズムの説明
以下はCPLアルゴリズムの簡単な概要です。[2]
入力: オントロジーOとテキストコーパスC
出力: 各述語の信頼できるインスタンス/パターン
i=1,2,...,∞に対して、 O 内の述語 pごとに実行する
最近昇格したパターン/インスタンスを使用して候補インスタンス/コンテキスト パターンを抽出します。
結合に違反する候補をフィルターします。
候補インスタンス/パターンをランク付けします。
優秀な候補者を昇格させる。
終わり
終わり
入力
品詞タグが付けられた文の 大規模なコーパスと、定義済みのカテゴリ、関係、同じアリティの述語間の相互排他的関係、一部のカテゴリ間のサブセット関係、すべての述語のシードのインスタンス、およびカテゴリのシードのパターンを含む初期オントロジー。
候補抽出
CPLは、新たに昇格したパターンを用いて、テキストコーパス内でそれらのパターンと共起する名詞句を抽出することで、新たな候補インスタンスを見つけます。CPLは、
- カテゴリインスタンス
- カテゴリパターン
- 関係インスタンス
- 関係パターン
候補フィルタリング
候補インスタンスとパターンは、高い精度を維持し、極端に特異なパターンを避けるため、フィルタリングされます。インスタンスは、テキストコーパス内で少なくとも2つの昇格パターンと共起し、かつすべての昇格パターンとの共起数が負のパターンとの共起数の3倍以上である場合にのみ、評価対象となります。
候補者ランキング
CPLは、候補インスタンスを、共起する昇格パターンの数に基づいてランク付けします。これにより、共起するパターンが多い候補インスタンスほど高いランク付けが行われます。パターンは、各パターンの精度の推定値に基づいてランク付けされます。
候補者の昇格
CPLは、評価スコアに基づいて候補をランク付けし、述語ごとに最大100個のインスタンスと最大5個のパターンを昇格させます。インスタンスとパターンは、それぞれ昇格されたパターンまたはインスタンスと少なくとも2つ共起する場合にのみ昇格されます。
メタブートストラップ学習者
メタブートストラップ学習器(MBL)もCPLの著者らによって提案されました[2] 。メタブートストラップ学習器は、複数の抽出手法の学習を、抽出器間の合意を必要とするマルチビュー制約と組み合わせます。これにより、既存の抽出アルゴリズムをブラックボックスとして扱いながら、結合制約を追加することが可能になります。MBLは、異なる抽出手法によって発生するエラーは独立していると仮定します。以下はMBLの簡単な概要です。
入力: オントロジーO、抽出器の集合ε
出力: 各述語の信頼されたインスタンス
for i=1,2,...,∞ do
foreach predicate p in O do
foreach extractor e in ε do
最近昇格したインスタンスで e を使用して p の新しい候補を抽出します。
終わり
相互排他性または型チェック制約に違反する候補をフィルターします。
すべての抽出器によって抽出された候補を PROMOTE します。
終わり
終わり
MBL で使用される従属アルゴリズムは、独自にインスタンスを昇格することはなく、各候補に関する証拠を MBL に報告し、MBL がインスタンスの昇格を担当します。
アプリケーション
著者らは論文[1]の中で、CPLが既存の意味知識リポジトリであるFreebase [3]に新たな事実を提供する可能性を示した結果を発表した。
参照
注記
- ^ ab Carlson, Andrew; Justin Betteridge; Estevam R. Hruschka Jr.; Tom M. Mitchell (2009). 「カテゴリと関係の半教師あり学習の結合」. NAACL HLT 2009 自然言語処理のための半教師あり学習ワークショップ議事録. 米国コロラド州: 計算言語学会: 1–9 . ISBN 9781932432381。
- ^ abc Carlson, Andrew; Justin Betteridge; Richard C. Wang; Estevam R. Hruschka Jr.; Tom M. Mitchell (2010). 「情報抽出のための結合型半教師あり学習」.第3回ACM国際ウェブ検索・データマイニング会議議事録. ニューヨーク、米国: ACM. pp. 101– 110. doi : 10.1145/1718487.1718501 . ISBN 9781605588896。
- ^ 「Freebaseデータダンプ」Metaweb Technologies. 2009年. 2011年12月6日時点のオリジナルよりアーカイブ。
{{cite journal}}:ジャーナルを引用するには|journal=(ヘルプ)が必要です
参考文献
- 劉秋華。廖雪軍。ローレンス・カリン (2008)。 「半教師ありマルチタスク学習」。NIPS。
- 新山 雄介、関根 聡 (2006). 「無制限関係発見を用いた先制情報抽出」HLT-Naacl .
- Chang, Ming-Wei; Lev-Arie Ratinov; Dan Roth (2007). 「制約駆動学習による半教師あり学習のガイド」ACL .
- Banko, Michele; Michael J. Cafarella; Stephen Soderland; Matt Broadhead; Oren Etzioni (2007). 「Webからのオープン情報抽出」IJCAI .
- Blum, Avrim; Tom Mitchell (1998). 「ラベル付きデータとラベルなしデータを組み合わせた共学習法」.第11回計算学習理論年次会議論文集. pp. 92– 100. doi :10.1145/279943.279962. ISBN 1581130570. S2CID 207228399。
- リロフ、エレン、ロージー・ジョーンズ (1999).「多段階ブートストラッピングによる情報抽出のための辞書学習」AAAI .
- Rosenfeld, Benjamin; Ronen Feldman (2007). 「コーパス統計を用いたエンティティのWebからの半教師あり関係抽出の改善」ACL .
- リチャード・C・ワン、ウィリアム・W・コーエン (2008). 「Webを用いた固有表現の反復的集合拡張」ICDM .