語彙選択は自然言語生成のサブタスクであり、生成されるテキストの内容語(名詞、非助動詞、形容詞、副詞)を選択することが含まれます。機能語(例えば限定詞)は通常、実現化の際に選択されます。
例
最も単純な語彙選択は、ドメイン概念(おそらくオントロジーで表現されている)を単語にマッピングすることです。例えば、「Finger」という概念は「finger」という単語にマッピングされるかもしれません。
より複雑な状況は、ドメイン概念が状況に応じて異なる言葉で表現される場合です。例えば、「価値変化」というドメイン概念は、様々な方法で表現できます。
- 気温が上昇しました。動詞rose は、気温が上昇して値が上昇することを意味します。
- 気温が下がりました: 動詞fell は、気温が値の変化によって減少することを意味します。
- 雨が激しくなった: 「got heavier」というフレーズは、降水量が雨の場合の降水量の変化を表すために使用されます。
場合によっては、単語によって追加の文脈情報が伝達されることもあります。たとえば、次のようになります。
- 気温が急激に下がりました: 動詞「plumeted」は、気温の変化が急激かつ大きい場合に、値が下がるという意味で使用されます。
文脈情報は、 「背が高い」などの曖昧な語句において特に重要です。例えば、身長2メートルの男性は「背が高い」ですが、身長2メートルの馬は「背が低い」です。
言語的観点
語彙選択モジュールは、システムの入力データがどのように単語にマッピングされるかに関する言語的知識に基づいて動作する必要があります。これは意味論の問題ですが、統語的要因(コロケーション効果など)や語用論的要因(文脈など) の影響も受けます。
したがって、NLGシステムには、NLGシステムの対象ドメイン(ジャンル)における単語に意味がどのようにマッピングされるかを示す言語モデルが必要です。ジャンルは非常に重要になる傾向があります。例えば、動詞「veer」は天気予報において非常に特殊な意味(風向が時計回りに変化すること)を持ちますが、これは一般的な英語には当てはまりません。天気予報生成器は、このジャンル特有の意味を認識する必要があります。
場合によっては、同じ単語の使い方が人によって大きく異なることがあります。[1]例えば、「by evening」を午後6時の意味で使う人もいれば、真夜中の意味で使う人もいます。心理言語学者は、人々が互いに話すとき、語彙の整合によって共通の解釈に同意することを示しました。[2]これは、NLGシステムではまだ実現できていません。
最終的に、語彙の選択は、言語が非言語世界とどのように関係しているかという根本的な問題に取り組まなければなりません。[3] たとえば、デジタル画像内のオブジェクトを説明するために赤などの色用語を選択するシステムは、どのRGBピクセル値が一般的に赤として説明できるか、これが視覚的(照明、シーン内の他のオブジェクト)および言語的(議論されている他のオブジェクト)コンテキストによってどのように影響を受けるか、赤にはどのような実用的な意味合いが関連付けられているか(たとえば、リンゴが赤と呼ばれる場合、リンゴは赤い色をしているだけでなく、熟しているものと想定されます)などを知る必要があります。
アルゴリズムとモデル
研究コミュニティでは、語彙選択のためのアルゴリズムやモデルが数多く開発されてきました。[4]例えば、エドモンズは類義語(核となる意味は似ているが含意が異なる単語)を選択するためのモデルを開発しました。[5] しかし、このようなアルゴリズムやモデルは応用自然言語処理システムでは広く利用されていません。むしろ、応用自然言語処理システムでは、非常に単純な計算モデルが用いられることが多く、アルゴリズム開発よりも言語分析に開発努力が注がれてきました。
参考文献
- ^ E ReiterとS Sripada (2002). 人間の多様性と語彙選択.計算言語学28:545-553. [1]
- ^ S BrennanとH Clark (1996). 会話における概念的協定と語彙選択.実験心理学ジャーナル: 学習、記憶、認知22:1482-1493
- ^ D RoyとE Reiter (2005). 言語と世界をつなぐ.人工知能167:1-12.
- ^ Perera, R. および Nand, P 2015. リンクトオープンデータを語彙化するためのマルチ戦略アプローチ。
- ^ P EdmondsとG Hirst (2002). 類義語と語彙選択.計算言語学28:105-144. [2]