ドキュメント構造化

文書構造化は自然言語生成のサブタスクであり、生成されたテキスト内の文の順序とグループ化（例えば段落へのグループ化）を決定します。これは、コンテンツ決定NLGタスクと密接に関連しています。

例

生成されたテキストに含めたい4つの文があると仮定します。

土曜日は雨が降るでしょう
日曜日は晴れるでしょう
土曜日の最高気温は10℃
日曜日の最高気温は15℃

これらのメッセージには24通り（4通り！）の順序があり、

(1234) 土曜日は雨が降ります。日曜日は晴れます。土曜日の最高気温は10℃、日曜日の最高気温は15℃です。
(2341) 日曜日は晴れでしょう。土曜日の最高気温は10℃でしょう。日曜日の最高気温は15℃でしょう。土曜日は雨が降るでしょう。
(4321) 日曜日の最高気温は15℃です。土曜日の最高気温は10℃です。日曜日は晴れです。土曜日は雨が降ります。

これらの順序付けの中には、他の順序付けよりも優れているものがあります。例えば、上に示したテキストのうち、人間の読者は(1234)を(2314)や(4321)よりも好みます。

どのような順序であっても、文を段落や節などの高次の構造にグループ化する方法は数多くあります。例えば、(1234)の文を段落にグループ化する方法は8通り（2**3）あります。

（12）（34）

土曜日は雨が降ります。日曜日は晴れます。

土曜日の最高気温は10℃、日曜日の最高気温は15℃になるでしょう。

（１）（２３）（４）

土曜日は雨が降るでしょう。

日曜日は晴れ。土曜日の最高気温は10℃でしょう。

日曜日の最高気温は15℃になるでしょう。

順序付けと同様に、人間の読者はあるグループ分けを他のグループ分けよりも好みます。例えば、(12)(34)は(1)(23)(4)よりも好まれます。

文書構造化タスクは、読者の観点から一貫性があり整理されたテキストになるような文の順序とグループ化を選択することです。

アルゴリズムとモデル

ドキュメント構造化には、スキーマ、コーパスベース、ヒューリスティックの 3 つの基本的なアプローチがあります。

スキーマ^[1]は、文書の文の順序とグループ化（および内容決定情報）を明示的に指定するテンプレートです。通常、スキーマは、対象ジャンルの人間が書いたテキストのコーパスを手動で分析し、これらのテキストから文書テンプレートを抽出することで構築されます。スキーマは、短い（5文以下）テキストや標準化された構造を持つテキストでは実用的に有効ですが、より長く、固定された構造を持たないテキストを生成するには問題があります。

コーパスベースの構造化技術は、統計的なコーパス分析技術を用いて、順序付けモデルやグループ化モデルを自動的に構築します。このような技術は、コンピュータプログラムがテキスト文書の要約を自動生成する自動要約において広く用いられています。^[2] 原理的には、非言語データから生成されたテキストにも適用可能ですが、この研究はまだ初期段階にあります。課題の一つは、自然言語生成システムによって生成されるテキストは一般的にかなり高品質であることが期待されるのに対し、自動要約システムによって生成されるテキストでは必ずしもそうではないことです。

最後のアプローチは、ヒューリスティックに基づく構造化です。このアルゴリズムは、修辞学理論、^[3] 、心理言語モデル^[4] 、および/または潜在的なユーザーとのパイロット実験からの直感とフィードバックの組み合わせから得られるヒューリスティックなルールに基づいて構造化タスクを実行します。^[5] ヒューリスティックに基づく構造化は知的には魅力的ですが、実際にうまく機能させるのは難しい場合があります。その理由の1つは、ヒューリスティックが意味情報（文同士の関係性）に依存することが多く、それが必ずしも利用可能ではないためです。^[6] 一方、ヒューリスティックなルールはテキストの読者にとって最適なものに焦点を当てることができますが、他のアプローチは著者の模倣に焦点を当てています（そして、人間が作成したテキストの多くは適切に構造化されていません）。

物語

おそらく、文書構造化における究極の課題は、優れた物語を生成することだろう。言い換えれば、物語とは、まず場面設定と序論／概要から始まり、次に一連の出来事を分かりやすく描写し、読者が個々の出来事がどのように関連し、繋がっているかを容易に理解できるようにし、最後に要約／結末で締めくくられるような文章である。ここで言う物語とは、物語だけでなく事実に基づく文章にも適用されることに注意されたい。現在の自然言語処理システムは物語生成をうまく行っておらず、これがユーザーからの批判の大きな原因となっている。^[7]

優れた物語を生成することは NLG のあらゆる側面における課題ですが、最も根本的な課題はおそらくドキュメントの構造化にあります。

参考文献

^ K・マッケオン（1985年）『テキスト生成』ケンブリッジ大学出版局
^ M Lapata (2003). 確率的テキスト構造化：文順序付けの実験. ACL-2003議事録 [1]
^ D Scott and C de Souza (1990). RSTベースのテキスト生成におけるメッセージの伝達. Dale, Mellish, Zock (編) Current research in natural language generation , 47-73ページ
^ N Karamanis, M Poesio, C Mellish, J Oberlander (2004). 信頼性の高い注釈付きコーパスを用いたテキスト構造化のためのセンターリングベースの一貫性指標の評価. ACL-2004議事録 [2]
^ S WilliamsとE Reiter. 低スキル読者向けの基本スキルレポートの生成.自然言語工学14:495-535
^ Raue, Martina; Scholl, Sabine G. (2018), Raue, Martina; Lermer, Eva; Streicher, Bernhard (編)、「リスクと不確実性の下での意思決定におけるヒューリスティックの活用」、心理学的視点とリスク分析：理論、モデル、およびアプリケーション、Cham: Springer International Publishing、pp. 153– 179、doi :10.1007/978-3-319-92478-6_7、ISBN 978-3-319-92478-6、 2023年5月8日取得
^ E Reiter, A Gatt, F Portet, M van der Meulen (2008). 臨床データを要約するNLGシステムの評価から得られた物語の重要性とその他の教訓. INLG-2008 Proceedings [3]

[1] K・マッケオン（1985年）『テキスト生成』ケンブリッジ大学出版局

[2] M Lapata (2003). 確率的テキスト構造化：文順序付けの実験. ACL-2003議事録 [1]

[3] D Scott and C de Souza (1990). RSTベースのテキスト生成におけるメッセージの伝達. Dale, Mellish, Zock (編) Current research in natural language generation , 47-73ページ

[4] N Karamanis, M Poesio, C Mellish, J Oberlander (2004). 信頼性の高い注釈付きコーパスを用いたテキスト構造化のためのセンターリングベースの一貫性指標の評価. ACL-2004議事録 [2]

[5] S WilliamsとE Reiter. 低スキル読者向けの基本スキルレポートの生成.自然言語工学14:495-535

[6] Raue, Martina; Scholl, Sabine G. (2018), Raue, Martina; Lermer, Eva; Streicher, Bernhard (編)、「リスクと不確実性の下での意思決定におけるヒューリスティックの活用」、心理学的視点とリスク分析：理論、モデル、およびアプリケーション、Cham: Springer International Publishing、pp. 153– 179、doi :10.1007/978-3-319-92478-6_7、ISBN 978-3-319-92478-6、 2023年5月8日取得

[7] E Reiter, A Gatt, F Portet, M van der Meulen (2008). 臨床データを要約するNLGシステムの評価から得られた物語の重要性とその他の教訓. INLG-2008 Proceedings [3]