スライディングウィンドウベースの品詞タグ付け

スライディングウィンドウベースの品詞タグ付けは、テキストに品詞タグを付けるために使用されます。

自然言語における単語の多くは、文脈から外れると複数の品詞が割り当てられる可能性があります。こうした曖昧な単語の割合は、言語によって大きく異なりますが、通常は約30%です。この問題の解決は、自然言語処理の多くの分野において非常に重要です。例えば、機械翻訳では、単語の品詞を変えるだけで、翻訳結果が劇的に変化することがあります。

スライディングウィンドウベースの品詞タグ付けツールは、曖昧さを解消する単語の周囲の固定サイズの単語の「ウィンドウ」を調べて、単語の特定の語彙形式に単一の品詞を割り当てるプログラムです。

このアプローチの主な 2 つの利点は次のとおりです。

タグ付けツールを自動的にトレーニングすることが可能であり、コーパスに手動でタグ付けする必要がなくなります。
タグ付け装置は有限状態オートマトン（ミーリーマシン）として実装できる。

正式な定義

させて

\Gamma =\{\gamma _{1},\gamma _{2},\ldots ,\gamma _{|\Gamma |}\}

をアプリケーションの文法タグの集合、つまり単語に割り当てられる可能性のあるすべてのタグの集合とし、

W=\{w1,w2,\ldots \}

アプリケーションの語彙とする。

T:W\rightarrow P(\Gamma )

を形態素解析関数とし、各タグの可能な集合を割り当てる。これは完全形辞書または形態素解析器によって実装できる。 $w$ $T(w)\subseteq \Gamma$

\Sigma =\{\sigma _{1},\sigma _{2},\ldots ,\sigma _{|\Sigma |}\}

単語クラスのセットは、一般にの分割になりますが、各単語クラスすべてに同じタグセットが割り当てられるという制限があります。つまり、各単語クラス内のすべての単語は同じ曖昧性クラスに属します。 $W$ $\sigma \in \Sigma$ $w,\Sigma ,\sigma$ $\sigma$

通常、高頻度単語については各単語クラスが単一の単語を含み、低頻度単語については各単語クラスが単一の曖昧性クラスに対応するように構築されます。これにより、高頻度の曖昧語に対して良好なパフォーマンスが得られ、タグ付けツールに必要なパラメータもそれほど多くありません。 $\Sigma$

これらの定義を用いると、問題を次のように表現することができます。テキストが与えられた場合、各単語に（語彙集または形態素解析器を用いて）単語クラスを割り当て、曖昧なタグが付けられたテキストを作成します。タグ付けツールの役割は、（）を含む）タグ付きテキストを可能な限り正確に作成することです。 $w[1]w[2]\ldots w[L]\in W^{*}$ $w[t]$ $T(w[t])\in \Sigma$ $\sigma [1]\sigma [2]\ldots \sigma [L]\in W^{*}$ $\gamma [1]\gamma [2]\ldots \gamma [L]$ $\gamma [t]\in T(\sigma [t])$

統計タグ付け機能は、曖昧にタグ付けされたテキストに対して最も可能性の高いタグを探します。 $\sigma [1]\sigma [2]\ldots \sigma [L]$

\gamma^{*}[1]\ldots \gamma^{*}[L]=\operatorname {\arg \,max} _{\gamma [t]\in T(\sigma [t])}p(\gamma [1]\ldots \gamma [L]\sigma [1]\ldots \sigma [L])

ベイズの式を使用すると、これは次のように変換されます。

\gamma^{*}[1]\ldots \gamma^{*}[L]=\operatorname {\arg \,max} _{\gamma [t]\in T(\sigma [t])}p(\gamma [1]\ldots \gamma [L])p(\sigma [1]\ldots \sigma [L]\gamma [1]\ldots \gamma [L])

ここで、は特定のタグの確率 (構文確率) であり、はこのタグがテキストに対応する確率(語彙確率) です。 $p(\ガンマ [1]\ガンマ [2]\ldots \ガンマ [L])$ $p(\sigma [1]\dots \sigma [L]\gamma [1]\ldots \gamma [L])$ $\sigma [1]\ldots \sigma [L]$

マルコフモデルでは、これらの確率は積として近似されます。統語的確率は、一次マルコフ過程によってモデル化されます。

p(\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\gamma [t+1]\gamma [t])

ここで、およびは区切り記号です。 $\gamma [0]$ $\gamma [L+1]$

語彙の確率は文脈に依存しません。

p(\sigma [1]\sigma [2]\ldots \sigma [L]\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\sigma [t]\gamma [t])

タグ付けの 1 つの形式は、最初の確率式を近似することです。

p(\sigma [1]\sigma [2]\ldots \sigma [L]\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\gamma [t]C_{(-)}[t]\sigma [t]C_{(+)}[t])

サイズの適切なコンテキストはどこですか。 $C_{(-)}[t]=\sigma [t-N_{(-)}]\sigma [t-N_{(-)}]\ldots \sigma [t-1]$ $N_{(+)}$

このように、スライディングウィンドウアルゴリズムは、サイズのコンテキストのみを考慮すれば済みます。ほとんどのアプリケーションでは、例えば「彼は危険から逃げる」という文中の曖昧な単語「run」にタグを付けるには、「彼」と「から」という単語のタグのみを考慮すれば済みます。 $N_{(-)}+N_{(+)}+1$ $N_{(-)}=N_{(+)}=1$

さらに読む

Sanchez-Villamil, E., Forcada, ML, Carrasco, RC (2005). 「有限状態スライディングウィンドウ品詞タグの教師なし学習」コンピュータサイエンス講義ノート / 人工知能講義ノート、第3230巻、p. 454-463