自然言語処理 において、オープン情報抽出( OIE ) は、テキスト内の情報の構造化された機械可読表現 (通常は 3 項命題または n 項命題の形式) を生成するタスクです。
命題は真理の担い手、つまり潜在的な事実(例:「ダンテは『神曲』を書いた」)をコンピュータが理解しやすい構造(例:(「ダンテ」、「書いた」、「神曲」))で表現したテキスト表現として理解できます。OIE抽出は通常、関係と一連の引数で構成されます。例えば、(「ダンテ」、「ラヴェンナで亡くなった」)は、関係「ラヴェンナで亡くなった」と引数「ダンテ」および「ラヴェンナ」によって形成される命題です。最初の引数は通常、主語と呼ばれ、2番目の引数は目的語と見なされます。[ 1 ]
抽出は、その要素が知識ベースにリンクされていないため、潜在的な事実のテキスト表現であると言われています。さらに、命題の事実性はまだ確立されていません。上記の例では、抽出を完全な事実に変換するには、まず、可能であれば、関係と議論を知識ベースにリンクする必要があります。次に、抽出の真偽を判断する必要があります。コンピュータサイエンスでは、OIE抽出をオントロジー的事実に変換することを関係抽出と呼びます。
実際、OIEは、関係抽出、知識ベース構築、質問応答、意味役割ラベリングといった、より深いテキスト理解タスクへの第一歩と見なすことができます。抽出された命題は、構造化検索(例えば、「Dante」を主語とするすべての命題を検索する)などのエンドユーザーアプリケーションにも直接使用できます。
OIEは、ワシントン大学チューリングセンター(オーレン・エツィオーニ率いる)で開発されたTextRunner [ 2 ]によって初めて導入されました。その後、Reverb [ 3 ] 、 OLLIE [ 4 ] 、 ClausIE [ 5 ]、CSD [ 6 ]といった手法が導入され、OIEタスクのいくつかの側面を特徴づけることで、その形成に貢献しました。これらの手法はすべて、高レベルでは、抽出結果を生成するために一連のパターンを利用しています。これらのパターンは、手法によって手動で作成されるか、学習されます。
Reverb [ 3 ] は、入力テキストの情報をより正確に捉えるためには、意味のある関係を生成する必要があると示唆した。例えば、「ファウストは悪魔と契約を結んだ」という文を与えられた場合、単に ("ファウスト", "結んだ", "契約") という抽出結果を生成するだけでは十分な情報が得られないため誤りである。より正確な抽出は ("ファウスト", "悪魔と契約を結んだ", "契約") となる。Reverb はまた、過度に具体的な関係を生成することにも反対した。
OLLIE [ 4 ]はOIEの2つの重要な側面を強調した。第一に、命題の事実性の欠如を指摘した。例えば、「ジョンが一生懸命勉強すれば、彼は試験に合格するだろう」という文では、(「ジョン」、 「合格するだろう」、 「試験」)を事実とみなすのは不正確である。さらに著者らは、OIEシステムは自然言語テキストで表現される情報のかなりの部分を占める、動詞以外の媒介関係を抽出できなければならないと指摘した。例えば、「元米国大統領のオバマはハワイで生まれた」という文では、OIEシステムは命題(「オバマ」、 「である」、 「元米国大統領」)を認識できなければならない。
ClausIE [ 5 ]は、文法的な節、命題、そしてOIE抽出の関係性を紹介した。著者らは、各文法的な節が命題を表現するため、各文で表現されている節の集合を認識するだけで、動詞を介した各命題を識別できると述べている。これは、入力文中の命題の集合を正しく認識するには、その文法構造を理解する必要があることを意味する。著者らは、7種類の節しか認められない英語の事例を研究した。つまり、各命題を識別するには、7つの文法パターンを定義するだけでよいということである。
この発見は、命題の認識とその具体化の分離も確立した。第一段階では、命題は最終的な形式を考慮せずに、ドメイン非依存かつ教師なしの方法で、主に言語原理に基づいて識別される。第二段階では、情報は、識別段階に条件付けすることなく、基盤となるアプリケーションの要件に従って表現される。
「アルバート・アインシュタインはウルムで生まれ、プリンストンで亡くなった」という文を考えてみましょう。最初のステップでは、2つの命題(「アルバート・アインシュタイン」、「生まれた」、「ウルムで」)と(「アルバート・アインシュタイン」、「亡くなった」、「プリンストンで」)を認識します。情報が正しく識別されると、命題は基礎となるアプリケーションで要求される特定の形式(例:(「アルバート・アインシュタイン」、「生まれた」、「ウルムで」)と(「アルバート・アインシュタイン」、「亡くなった」、「プリンストンで」))を取ることができます。
CSD [ 6 ]はOIEに最小性の概念を導入した。これは、抽出結果を簡潔に表現することでコンピュータがそれをより有効に活用できると考えている。これは従属節を含む文において特に重要である。このような場合、CSDは入れ子構造の抽出結果の生成を提案する。例えば、「大使館は6,700人のアメリカ人がパキスタンにいたと述べた」という文を考えてみよう。CSDは[i](「6,700人のアメリカ人」、「いた」、「パキスタンにいた」)と[ii](「大使館」、「言った」、「[i]のこと」)という2つの抽出結果を生成する。これは通常、具体化と呼ばれる。
{{cite journal}}:ジャーナルを引用するには|journal=(ヘルプ)が必要です