自然言語生成

自然言語によるテキスト生成

自然言語生成NLG )は、自然言語出力を生成するソフトウェアプロセスです。広く引用されているNLG手法の調査では、NLGは「人工知能と計算言語学のサブフィールドであり、基礎となる非言語的な情報表現から英語やその他の人間の言語で理解可能なテキストを生成できるコンピュータシステムの構築に関係している」と説明されています。[1]

NLGプロセスの出力はテキストであることは広く認められていますが、NLGシステムの入力が非言語的である必要があるかどうかについては意見の相違があります。[2] NLG手法の一般的な用途には、天気予報[3]や患者レポートなどのさまざまなレポートの作成、 [4]画像のキャプション、[5] 、 ChatGPTのようなチャットボットなどがあります

自動化されたNLGは、人間がアイデアを文章や音声に変換するプロセスに例えることができます。心理言語学者はこのプロセスを「言語生成」という用語で表現することを好みますが、これは数学的な用語で記述することも、心理学研究のためにコンピュータでモデル化することもできます。NLGシステムは、デコンパイラトランスパイラなどの人工コンピュータ言語の翻訳機と比較することもできます。これらの翻訳機も、中間表現から人間が読めるコードを生成します。人間の言語はプログラミング言語よりもはるかに複雑で、表現の曖昧さと多様性がはるかに大きい傾向があるため、NLGはより困難になっています。

NLGは自然言語理解(NLU)を補完するものと見なすことができます。自然言語理解では、システムは入力文の曖昧性を解消して機械表現言語を生成する必要がありますが、NLGでは、システムは表現をどのように言葉にするかを決定する必要があります。NLUシステムとNLGシステムの構築における実際的な考慮事項は対称的ではありません。NLUは曖昧または誤ったユーザー入力に対処する必要がありますが、システムがNLGを通じて表現しようとするアイデアは、一般的に正確に分かっています。NLGは多くの潜在的な表現の中から、特定の自己一貫性のあるテキスト表現を選択する必要がありますが、NLUは通常、表現されたアイデアの単一の正規化された表現を生成しようとします。[6]

NLGは1960年代半ばにELIZAが開発されて以来存在していましたが、その手法が初めて商業的に使用されたのは1990年代でした。 [7] NLG技術は、定型書簡を生成する差し込み印刷のような単純なテンプレートベースのシステムから、人間の文法を複雑に理解するシステムまで多岐にわたります。NLGは、機械学習を用いて統計モデルを訓練することによっても実現できます。通常は、人間が書いたテキストの大規模なコーパスを用いて行われます。 [8]

スコットランドの花粉予報システム[ 9]は、基本的にテンプレートに基づくことができる単純なNLGシステムの簡単な例です。このシステムは、スコットランドのさまざまな地域における花粉レベルの予測を示す6つの数値を入力として受け取ります。これらの数値から、システムは花粉レベルの短いテキスト要約を出力として生成します。

たとえば、2005年7月1日の履歴データを使用して、ソフトウェアは次のものを生成します

金曜日のイネ科植物の花粉レベルは、昨日の中程度から高レベルに上昇し、全国のほとんどの地域で6~7程度となりました。しかし、北部地域では花粉レベルは中程度で、4程度となるでしょう。

対照的に、このデータに基づく実際の予報(人間の気象学者によって作成されたもの)は次のとおりです。

スコットランドの大部分では花粉数はレベル6で高止まりし、南東部ではレベル7に達すると予想されています。唯一の緩和は、ノーザン諸島とスコットランド本土の北東部で、花粉数は中程度です。

これら2つを比較することで、NLGシステムが行うべき選択のいくつかが明らかになります。これらについては、以下でさらに詳しく説明します。

ステージ

テキスト生成のプロセスは、コピー&ペーストで貼り付けられる定型テキストのリストを保持し、場合によっては何らかのグルーテキストでリンクするだけの単純なものになることがあります。星占いマシンやパーソナライズされたビジネスレターのジェネレーターなどの単純な分野では、結果は満足のいくものになるかもしれません。しかし、高度なNLGシステムでは、自然で繰り返しのないテキストを生成できるように、情報の計画と統合の段階を含める必要があります。DaleとReiter [6]が提案した自然言語生成の典型的な段階は次のとおりです 。

コンテンツの決定
テキストでどのような情報を記載するかを決定する。たとえば、上記の花粉の例では、南東部の花粉レベルが7であることを明示的に記載するかどうかを決定する。
文書の構造化
伝える情報の全体的な構成。たとえば、花粉レベルの低い地域ではなく、花粉レベルの高い地域を最初に説明することを決定する。
集約
読みやすさと自然さを向上させるために、類似の文を結合します。例えば、「金曜日のイネ科植物の花粉レベルは、昨日の中程度から高レベルに増加しました。」「全国のほとんどの地域で、イネ科植物の花粉レベルは6~7程度になるでしょう。」という文を、「金曜日のイネ科植物の花粉レベルは、昨日の中程度から高レベルに増加し、全国のほとんどの地域で6~7程度になるでしょう。」 という1つの文に結合します。
語彙の選択
概念に言葉を与えます。例えば、花粉レベルが4であることを説明する場合、中程度中程度のどちらを使用するかを決定します。
参照表現の生成
物や地域を識別する指示表現を作成します。例えば、スコットランドの特定の地域を指すために、「北部諸島およびスコットランド本土の北東部」を使用することを決定します。このタスクには、代名詞やその他の種類の照応表現についての決定も含まれます
実現
実際のテキストを作成します。これは、統語論形態論正書法の規則に従って正しくなければなりません例えば、to beの未来形にはwill beを使用します

NLGの代替アプローチは、上記のような個別の段階を経ずに、「エンドツーエンド」の機械学習を使用してシステムを構築することです。[10] つまり、入力データと対応する(人間が書いた)出力テキストの大規模なデータセットで機械学習アルゴリズム(多くの場合、LSTM)をトレーニングすることで、NLGシステムを構築します。エンドツーエンドのアプローチは、おそらく画像キャプション[11]つまり画像のテキストキャプションを自動的に生成する分野で最も成功しています。

アプリケーション

自動レポート生成

商業的な観点から見ると、最も成功したNLGアプリケーションは、データベースやデータセットのテキスト要約を生成するデータテキストシステムです。これらのシステムは通常、テキスト生成だけでなくデータ分析も実行します。研究によると、意思決定支援において、テキスト要約はグラフやその他のビジュアルよりも効果的である可能性があり、 [12] [13] [14]、コンピューター生成テキストは(読者の観点から)人間が書いたテキストよりも優れている可能性があることが示されています。[15]

最初の商用データテキスト変換システムは、気象データから天気予報を作成しました。最も早く導入されたそのようなシステムはFoG [3]で、 1990年代初頭にカナダ環境省がフランス語と英語の天気予報を生成するために使用されました。FoGの成功は、研究と商業の両方における他の取り組みのきっかけとなりました。最近の応用例としては、英国気象庁のテキスト強化予報[16]があります

データテキスト変換システムは、その後、さまざまな場面で応用されてきました。2014年3月17日、カリフォルニア州ビバリーヒルズ近郊で発生した小規模地震の後、ロサンゼルス・タイムズ紙は発生から3分以内に地震の時刻、場所、強度に関する詳細を報じました。このレポートは「ロボジャーナリスト」によって自動的に生成され、入力データを事前に設定されたテンプレートを使用してテキストに変換しました。[17] [18]現在、NLGを使用して財務データやビジネスデータを要約することには、商業的な関心が寄せられています。実際、ガートナーは、NLGが最新のBIおよび分析プラットフォームの90%の標準機能になると述べています。[19] NLGは、自動ジャーナリズムチャットボット、eコマースサイトの製品説明の生成、医療記録の要約、[20] [4] 、アクセシビリティの向上(例えば、視覚障碍者へのグラフやデータセットの説明など[21]) にも商業的に利用されています

NLGのインタラクティブな使用例として、WYSIWYMフレームワークがあります。これは「What you see is what you mean(あなたが見ているものがあなたが意味するもの)」の略で、ユーザーは基礎となる形式言語文書(NLG入力)の連続的にレンダリングされたビュー(NLG出力)を見て操作できるため、形式言語を学習することなく編集 できます。

今後、データからテキストへの生成における現在の進歩は、特定の対象者に合わせてテキストをカスタマイズする道を開きます。例えば、新生児ケアにおける乳児のデータは、臨床現場では、テキストの対象となる受信者(医師、看護師、患者)に応じて、異なるレベルの技術的詳細と説明言語を使用して、異なる方法でテキストに変換できます。同じ考え方をスポーツの現場にも適用でき、特定のチームのファン向けに異なるレポートを作成できます。[22]

画像キャプション

ここ数年、視覚と言語のインターフェースを調査する幅広い取り組みの一環として、画像のキャプションを自動生成することへの関心が高まっています。データからテキストを生成する手法の一つである画像キャプション(または自動画像説明)のアルゴリズムは、画像を撮影し、その視覚的コンテンツを分析し、画像の最も重要な側面を言葉で表現したテキスト説明(通常は文章)を生成します

画像キャプションシステムには2つのサブタスクが含まれます。画像解析では、画像の特徴と属性を検出し、ラベル付けした後、これらの出力を言語構造にマッピングします。最近の研究では、 AlexNet、VGG、Caffeなどの事前学習済み畳み込みニューラルネットワークの特徴を用いて深層学習アプローチを活用しており、キャプション生成器は事前学習済みネットワークの活性化層を入力特徴として使用します。2つ目のタスクであるテキスト生成は、幅広い技術を用いて実行されます。例えば、Midgeシステムでは、入力画像は物体/物の検出、動作/姿勢の検出、空間関係からなるトリプルとして表現されます。これらはその後、<名詞、動詞、前置詞>のトリプルにマッピングされ、木置換文法を用いて実現されます。[22]

画像キャプションの一般的な方法は、視覚モデル( ResNetなど)を使用して画像をベクトルにエンコードし、言語モデル( RNNなど)を使用してベクトルをキャプションにデコードすることです。[23] [24]

画像キャプチャ研究には進歩があるにもかかわらず、課題と機会が残っています。Flickr30K、MS COCO、その他の大規模データセットの導入により、ニューラルネットワークなどのより複雑なモデルのトレーニングが可能になったにもかかわらず、画像キャプションの研究は、より大規模で多様なデータセットから恩恵を受ける可能性があると主張されてきました。画像の説明の適切性を評価する際に人間の判断を模倣できる自動尺度の設計も、この分野におけるもう一つのニーズです。その他の未解決の課題としては、視覚的質問応答(VQA)[25]や、画像説明のための多言語リポジトリの構築と評価[22]などがあります。

チャットボット

NLGが広く適用されているもう1つの分野は、自動対話システムであり、多くの場合チャットボットの形で用いられます。チャットボットまたはチャッターボットは、生身の人間との直接のやり取りの代わりに、テキストまたは音声合成を介してオンラインチャット会話を行うために使用されるソフトウェアアプリケーションです。自然言語処理(NLP)技術は人間の入力を解読するために使用されますが、NLGはチャットボットアルゴリズムの出力部分に情報を提供し、リアルタイムの対話を促進します

1988年にロロ・カーペンターによって作成され、1997年に公開されたCleverbot含む初期のチャットボットシステムは、情報検索(IR)技術 を用いて会話データベース内で人間が同じ質問にどのように応答したかを識別することで質問に答えます。 [出典]現代のチャットボットシステムは主にシーケンスツーシーケンス学習や強化学習などの機械学習(ML)モデルに依存して自然言語出力を生成します。ハイブリッドモデルも研究されています。例えば、Alibabaのショッピングアシスタントは、まずIRアプローチを使用して知識ベースから最適な候補を取得し、次にML駆動型のseq2seqモデルを使用して候補の応答を再ランク付けして回答を生成します。[26]

創作と計算ユーモア

NLGによる創造的言語生成は、この分野の起源以来、仮説として立てられてきました。この分野における最近の先駆者はフィリップ・パーカー氏で、彼は教科書、クロスワードパズル、詩、製本から白内障まで幅広いトピックの本を自動生成できるアルゴリズムを開発しました。[27] GPT-3のような大規模な事前学習済みトランスフォーマーベースの言語モデルの登場もまた、ブレークスルーを可能にし、そのようなモデルは創作・ライティングタスクにおいて認識可能な能力を示しています。[28]

NLG応用の関連分野として、計算によるユーモア生成があります。JAPE(Joke Analysis and Production Engine)は、テンプレートベースの手作業によるコーディングを用いて子供向けのしゃれなぞなぞを作成する、大規模で自動化されたユーモア生成システムの初期の1つです。HAHAcronymは、任意の頭字語をユーモラスに再解釈するだけでなく、いくつかのキーワードに基づいて、より適切な新しい頭字語を提案します。[29]

進歩はあるものの、人間の出力に匹敵する創造的でユーモラスなコンテンツを自動化して作成するには、依然として多くの課題が残っています。風刺的な見出しを生成する実験では、最高のBERTベースモデルの出力は9.4%の確率で面白いと認識されました(The Onionの実際の見出しは38.4%でした)。また、風刺的な見出しに合わせて微調整されたGPT-2モデルは6.9%の確率で面白いと認識されました。[30]  ユーモア生成システムの主な2つの問題は、注釈付きデータセットの不足と正式な評価方法の不足であると指摘されており、[29]これらは他の創造的なコンテンツ生成にも適用できる可能性があります。他のアプリケーションと比較して、NLGにおける言語生成の創造的な側面への注意が不足していると主張する人もいます。NLG研究者は、創造的な言語生成を構成するものについての洞察、およびデータからテキストへのシステムにおいてもNLG出力を改善する可能性のある物語の構造的特徴から恩恵を受けることができます。[22]

評価

他の科学分野と同様に、NLG研究者はシステム、モジュール、アルゴリズムがどれだけうまく機能するかをテストする必要があります。これは評価と呼ばれます。NLGシステムを評価するには、3つの基本的な手法があります。

  • タスクベース(外的)評価:生成されたテキストを人に渡し、タスクの実行にどれだけ役立つか(またはコミュニケーションの目標を達成するか)を評価します。たとえば、医療データの要約を生成するシステムは、これらの要約を医師に渡し、要約が医師のより良い意思決定に役立つかどうかを評価することで評価できます。[4]
  • 人間による評価:生成されたテキストを人に渡し、テキストの品質と有用性を評価してもらいます。
  • メトリクスBLEUMETEORROUGELEPORなどの自動メトリクスを使用して、生成されたテキストと、同じ入力データから人が書いたテキストを比較します

最終的な目標は、NLGシステムが人々の支援にどれほど役立つかであり、これは上記の技術の1つ目です。しかし、タスクベースの評価は時間と費用がかかり、実施が困難な場合があります(特に医師など専門知識を持つ対象者を必要とする場合)。したがって、(NLPの他の分野と同様に)タスクベースの評価は例外であり、標準ではありません。

最近、研究者たちは、人間による評価と指標がタスクベースの評価とどの程度相関(予測)するかを評価しています。この研究は、Generation Challenges [31]の共有タスクイベントの文脈で行われています。初期の結果は、この点において人間による評価が指標よりもはるかに優れていることを示唆しています。言い換えれば、人間の評価は通常、少なくともある程度はタスクの有効性を予測しますが(例外もありますが)、指標によって生成された評価はタスクの有効性を十分に予測しないことがよくあります。これらの結果は予備的なものです。いずれにせよ、人間による評価はNLGにおいて最も人気のある評価手法です。これは、指標が広く使用されている 機械翻訳とは対照的です。

AIは、トレーニングデータへの忠実度、または事実性に基づいて評価できます。トレーニングデータを反映しているが現実を反映していない応答は、忠実ですが事実ではありません。自信があるが不忠実な応答は幻覚です。自然言語処理では、幻覚はしばしば「提供されたソースコンテンツに対して無意味または不忠実な生成されたコンテンツ」と定義されます。[32]

関連項目

参考文献

  1. ^ Reiter, Ehud; Dale, Robert (1997年3月). 「応用自然言語生成システムの構築」 . Natural Language Engineering . 3 (1): 57– 87. doi :10.1017/S1351324997001502. ISSN  1469-8110. S2CID  8460470
  2. ^ Gatt A, Krahmer E (2018). 「自然言語生成における最先端技術の調査:コアタスク、アプリケーション、評価」. Journal of Artificial Intelligence Research . 61 (61): 65–170 . arXiv : 1703.09902 . doi :10.1613/jair.5477. S2CID  16946362.
  3. ^ Goldberg E, Driedger N, Kittredge R (1994). 「自然言語処理を用いた天気予報の生成」. IEEE Expert . 9 (2): 45–53 . doi :10.1109/64.294135. S2CID  9709337
  4. ^ abc Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Freer Y, Sykes C (2009). 「新生児集中治療データからのテキスト要約の自動生成」(PDF) .人工知能. 173 ( 7–8 ): 789– 816. doi :10.1016/j.artint.2008.12.002.
  5. ^ Farhadi A, Hejrati M, Sadeghi MA, Young P, Rashtchian C, Hockenmaier J, Forsyth D (2010-09-05). すべての絵は物語を語る:画像からの文章生成(PDF) . ヨーロッパコンピュータビジョン会議. ベルリン、ハイデルベルク:シュプリンガー. pp.  15– 29. doi :10.1007/978-3-642-15561-1_2.
  6. ^ ab Dale, Robert; Reiter, Ehud (2000).自然言語生成システムの構築. ケンブリッジ、英国:ケンブリッジ大学出版局. ISBN 978-0-521-02451-8.
  7. ^ Ehud Reiter (2021-03-21). NLGの歴史. 2021年12月12日時点のオリジナルからのアーカイブ
  8. ^ Perera R, Nand P (2017). 「自然言語生成における最近の進歩:実証的文献の概観と分類」. Computing and Informatics . 36 (1): 1– 32. doi :10.4149/cai_2017_1_1. hdl : 10292/10691 .
  9. ^ R Turner, S Sripada, E Reiter, I Davy (2006). 花粉予報における時空間記述の生成. EACL06議事録
  10. ^ 「E2E NLGチャレンジ」. 2022年12月4日時点のオリジナルからアーカイブ。 2018年6月28日閲覧
  11. ^ 「DataLabCup: 画像キャプション」
  12. ^ Law A, Freer Y, Hunter J, Logie R, McIntosh N, Quinn J (2005). 「新生児集中治療室における医療意思決定を支援するための時系列データのグラフィック表示とテキスト表示の比較」Journal of Clinical Monitoring and Computing . 19 (3​​): 183–94 . doi :10.1007/s10877-005-0879-3. PMID  16244840. S2CID  5569544
  13. ^ Gkatzia D, Lemon O, Reiser V (2017). 「データからテキストへの生成は不確実性下での意思決定を改善する」(PDF) . IEEE Computational Intelligence Magazine . 12 (3): 10– 17. Bibcode :2017ICIM...12c..10G. doi :10.1109/MCI.2017.2708998. S2CID  9544295.
  14. ^ 「テキストかグラフィックスか?」. 2016年12月日
  15. ^ Reiter E, Sripada S, Hunter J, Yu J, Davy I (2005). 「コンピュータ生成天気予報における単語の選択」.人工知能. 167 ( 1–2 ): 137–69 . doi : 10.1016/j.artint.2005.06.006 .
  16. ^ S Sripada, N Burnett, R Turner, J Mastin, D Evans (2014). ケーススタディの生成:NLGが気象業界のテキスト天気予報の質と量に対する需要を満たす. INLG 2014 Proceedings of INLG 2014
  17. ^ Schwencke, Ken Schwencke Ken; ジャーナリスト、A.; プログラマー、コンピューター; 2014年、ロサンゼルス・タイムズを退職 (2014-03-17). 「地震の余震:ウエストウッド近郊で2.7の地震が発生」.ロサンゼルス・タイムズ. 2022-06-03閲覧.{{cite web}}: CS1 maint: 数値名: 著者一覧 (リンク)
  18. ^ Levenson, Eric (2014-03-17). 「ロサンゼルス・タイムズのジャーナリストが、ボットが地震記事を書いた方法を説明」.アトランティック. 2022-06-03閲覧
  19. ^ 「ニューラルネットワークと最新のBIプラットフォームがデータと分析を進化させる」
  20. ^ Harris MD (2008). 「EMR向け大規模商用NLGシステムの構築」(PDF) .第5回国際自然言語生成会議議事録. pp.  157–60 .
  21. ^ 「iGraph-Liteページへようこそ」. www.inf.udec.cl. 2010年3月16日時点のオリジナルからのアーカイブ
  22. ^ abcd Gatt, Albert; Krahmer, Emiel (2018年1月29日). 「自然言語生成の現状調査:コアタスク、アプリケーション、評価」. arXiv : 1703.09902 [cs.CL]
  23. ^ Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2015). 「Show and Tell: A Neural Image Caption Generator」: 3156– 3164. {{cite journal}}:ジャーナルの引用には|journal=ヘルプが必要です)
  24. ^ Karpathy, Andrej; Fei-Fei, Li (2015). 「Deep Visual-Semantic Alignments for Generating Image Descriptions」: 3128– 3137. {{cite journal}}:ジャーナルの引用には|journal=ヘルプが必要です)
  25. ^ Kodali, Venkat; Berleant, Daniel (2022). 「視覚的質問応答アーキテクチャの最近の急速な進歩:レビュー」第22回IEEE国際EIT会議議事録. pp.  133– 146. arXiv : 2203.01322 .
  26. ^ Mnasri, Maali (2019-03-21). 「会話型NLPの最近の進歩:チャットボット構築の標準化に向けて」arXiv : 1903.09025 [cs.CL].
  27. ^ 「100万冊以上の本を執筆する方法」HuffPost . 2013-02-11 . 2022-06-03閲覧
  28. ^ 「GPT-3の探索:スケール、機能、初期デモ、そして真の限界」SanishTech . 2021年3月12日. 2020年8月15日時点のオリジナルよりアーカイブ。 2025年10月11日閲覧
  29. ^ ab Winters, Thomas (2021-04-30). 「コンピューターがユーモアを学ぶのは冗談ではない」. Harvard Data Science Review . 3 (2). doi : 10.1162/99608f92.f13a2337 . S2CID  235589737.
  30. ^ Horvitz, Zachary; Do, Nam; Littman, Michael L. (2020年7月). 「文脈駆動型風刺ニュース生成」.第2回比喩言語処理ワークショップ議事録. オンライン:Association for Computational Linguistics: 40–50 . doi : 10.18653/v1/2020.figlang-1.5 . S2CID  220330989.
  31. ^ 生成の課題
  32. ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (2022年11月17日). 「自然言語生成における幻覚の調査」. ACM Computing Surveys . 55 (12) 3571730. arXiv : 2202.03629 . doi : 10.1145/3571730 . S2CID  246652372.

さらに詳しく

  • デール、ロバート、ライター、エフード(2000年)『自然言語生成システムの構築』ケンブリッジ大学出版局(英国)ISBN 978-0-521-02451-8.
  • エヴァンス、ロジャー;ピウェック、ポール;ケイヒル、リン(2002).NLGとは何か?.INLG2002.ニューヨーク、米国。論文
  • ガット、アルバート;クラマー、エミール(2018).「自然言語生成の最新技術の調査:コアタスク、アプリケーション、評価」.人工知能研究ジャーナル.61 65–170.arXiv1703.09902.doi:10.1613/jair.5477.S2CID 16946362。
  • ライター、エフード(2018年1月16


「https://en.wikipedia.org/w/index.php?title=Natural_language_generation&oldid=1316151844」より取得