語彙連鎖

意味的に関連する順序付き単語の並びは、語彙連鎖に分類されます。[1]語彙連鎖とは、文章中の関連する単語の並びで、狭い範囲(隣接する単語や文または広い範囲(テキスト全体)にまたがります。語彙連鎖はテキストの文法構造とは独立しており、実質的にはテキストのまとまりのある構造の一部をとらえた単語のリストです。語彙連鎖は、曖昧な用語を解決するための文脈を提供し、その用語が表す概念の曖昧さを解消することができます。例としては、以下のものがあります。

  • ローマ → 首都 → 都市 → 住民
  • ウィキペディア → リソース → ウェブ

について

モリスとハースト[1]は、語彙的結束性の拡張として語彙連鎖という用語を導入している[2] 。多くの文が意味的に繋がっているテキストは、しばしばその概念に一定の連続性を生み出し、文間の良好な結束性をもたらす。語彙的結束性の定義では、一貫性は結束性の結果であり、その逆ではないとされている[2] 。 [3]結束性は、抽象的または具体的な関係によって一緒に属する単語の集合に関連している。一方、一貫性はテキスト全体の実際の意味に関係している[1] 。

モリスとハースト[1] は、語彙連鎖は単語、概念、文を解釈する際に意味的文脈を利用すると定義しています。対照的に、語彙の結束性は単語対の関係性により重点を置いています。語彙連鎖はこの概念を隣接する単語の連続数にまで拡張します。語彙連鎖が不可欠である主な理由は2つあります。[1]

  • 曖昧さを解消し、単語の特定の意味に問題を絞り込むのに役立つ実行可能な文脈。
  • 一貫性と談話を決定するための手がかり、したがってテキストのより深い意味的・構造的意味。

モリスとハースト[1]が提示した手法は、語彙連鎖を介して語彙の凝集性の概念をコンピュータシステムに初めて導入した手法である。彼らは直感を用いてテキスト文書中の語彙連鎖を識別し、ハリデイとハッサン[2]の観察を考慮してその構造を構築した。このタスクでは、異なる非特定の情報源から抽出された5つのテキスト文書、合計183文を検討した。反復語(高頻度語、代名詞、命題、助動詞など)は、それ自体が構造に意味的価値をあまりもたらさないため、連鎖要素として考慮されなかった。

語彙連鎖は、テキスト文書中の単語間の一連の関係に基づいて構築されます。MorrisとHirstの先駆的な研究[1]では、これらの関係を抽出するための語彙データベースとして、 外部シソーラス(Rogetのシソーラス)が用いられています。語彙連鎖は、この順序で出現する単語の列によって形成され、連続する2つの単語は、以下の特性(語彙データベースにおけるカテゴリインデックスポインタなどの属性)を示します。 [1] [4] 1 2 n {\displaystyle w_{1},w_{2},\dotsc ,w_{n}} + 1 {\displaystyle w_{i},w_{i+1}}

  • 2 つの単語がインデックス内で 1 つの共通カテゴリを共有します。
  • これらの単語の 1 つのカテゴリが他の単語を指します。
  • 単語の 1 つが他の単語のエントリまたはカテゴリに属している。
  • 2つの単語は意味的に関連している。
  • それらのカテゴリは共通のカテゴリに一致します。

アプローチと方法

自然言語処理タスク(テキスト類似性語義の曖昧性解消文書クラスタリングなど)における語彙連鎖の利用は、文献において広く研究されてきました。Barzilayら[5]は、語彙連鎖を用いてテキストから要約を作成します。彼らは、原文の分割、語彙連鎖の構築、信頼できる連鎖の識別、そして重要な文の抽出という4つのステップに基づく手法を提案しています。SilberとMcCoy [6]テキスト要約を研究していますが、彼らの語彙連鎖構築アプローチは線形時間で実行されます。

一部の著者は、語彙連鎖の検索と評価を改善するためにWordNet [7] [8]を使用しています。Budanitsky と Kirst [9] [10] は、語彙連鎖をWordNet と組み合わせて使用​​​​し、意味的距離と関連性のいくつかの測定値を比較しています。彼らの研究では、 Jiang と Conrath [11]の類似度測定が全体的に最も良い結果を示すと結論付けています。Moldovan と Adrian [12]は、質問応答システムでトピック的に関連する単語を見つけるための語彙連鎖の使用を研究しています。これは、WordNet の各synsetの注釈を考慮して行われます。彼らの調査結果によると、語彙連鎖を介したトピック関係は、 WordNetと組み合わせた場合に質問応答システムのパフォーマンスを向上させます。McCarthy ら[13]は、 WordNetを使用してラベルなしテキストで最も優勢な synset を分類して見つける方法論を提示しています。従来のアプローチ ( BOWなど) とは異なり、 ErcanとCicekli [14]は、教師あり機械学習の観点から、キーワード抽出タスクにおける語彙連鎖の影響を調査している。Weiら[15]は、語彙連鎖とWordNetを組み合わせて、テキストから意味的に関連する単語の集合を抽出し、クラスタリングに用いている。彼らのアプローチでは、オントロジー的な階層構造を用いることで、語義の曖昧性解消タスクにおける用語間の類似性をより正確に評価している

語彙連鎖と単語埋め込み

語彙連鎖の適用範囲は多岐にわたるが、NLP、特に単語埋め込みの最近の進歩を用いて語彙連鎖を探求した研究はほとんどない。 [16]では、WordNet [7]で見つかった特定のパターンを使用して語彙連鎖が構築され、単語埋め込みの学習に使用されている。その結果得られるベクトルは、文書類似性タスクで検証されている。Gonzalesら[17]は、語義埋め込みを使用して、ニューラル機械翻訳モデルに統合される語彙連鎖を生成している。Mascarelli [18]は、文書エンコーダを使用することで語彙連鎖を使用して統計的機械翻訳を活用するモデルを提案している。彼らは、外部の語彙データベースを使用する代わりに、単語埋め込みを使用してソーステキスト内の語彙連鎖を検出している。

Ruasら[4]は、語彙データベース、語彙連鎖、単語埋め込みを組み合わせた2つの手法Flexible Lexical Chain II (FLLC II)とFixed Lexical Chain II (FXLC II)を提案している。FLLC IIとFXLC IIの主な目的は、単語のコレクションをより簡潔に意味値で表現することである。FLLC IIでは、評価される各用語の意味内容と隣接する単語との関係に応じて、語彙連鎖が動的に組み立てられる。2つ以上の単語を接続する意味関係がある限り、それらの単語は一意の概念に結合されるはずである。意味関係は、グラウンドトゥルースを使用して2つの単語を接続する語彙構造(上位語、下位語、多義語など)を示すWordNetを通じて取得される。現在の連鎖と意味的類似性のない単語が現れた場合、新しい語彙連鎖が初期化される。一方、FXLC IIは、テキストセグメントを特定の単語数を持つ事前定義されたチャンクに分割します。FLLC IIとは異なり、FXLC II手法は、語彙データベースで表現された意味的関連性に関係なく、一定数の単語を同じ構造にグループ化します。どちらの手法でも、形成された各チェーンは、事前学習済みの単語埋め込みベクトルが、そのチェーンを構成する単語の平均ベクトルに最も類似する単語で表されます。

参照

参考文献

  1. ^ abcdefgh MorrisJane; HirstGraeme (1991-03-01). 「シソーラス関係から計算された語彙の結束性はテキスト構造の指標となる」.計算言語学. 17 (1): 21– 48.
  2. ^ abc ハリデイ、マイケル・アレクサンダー・カークウッド (1976).英語の結束性. ハサン、ルカイヤ. ロンドン: ロングマン. ISBN 0-582-55031-9OCLC  2323723
  3. ^ Carrell, Patricia L. (1982). 「Cohesion Is Not Coherence」. TESOL Quarterly . 16 (4): 479– 488. doi :10.2307/3586466. ISSN  0039-8322. JSTOR  3586466.
  4. ^ ab ルアス、テリー;フェレイラ、シャルル・エンリケ・ポルト。グロスキー、ウィリアム。デ・フランサ、ファブリシオ・オリベッティ。デ・メデイロス、デボラ・マリア・ロッシ(2020-09-01)。 「語彙連鎖によるマルチセマンティック表現を使用した強化された単語埋め込み」。情報科学532 : 16–32.arXiv : 2101.09023 土井:10.1016/j.ins.2020.04.048。ISSN  0020-0255。S2CID  218954068。
  5. ^ Barzilay, Regina; McKeown, Kathleen R.; Elhadad, Michael (1999). 「複数文書の要約における情報融合」.計算言語学協会第37回年次会議論文集. メリーランド州カレッジパーク: 計算言語学協会: 550–557 . doi : 10.3115/1034678.1034760 . ISBN 1558606092
  6. ^ シルバー、グレゴリー、マッコイ、キャスリーン (2001). 「語彙連鎖を用いた効率的なテキスト要約 | 第5回国際インテリジェントユーザーインターフェース会議議事録」252–255 . doi : 10.1145/325737.325861 . S2CID  8403554. {{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  7. ^ ab "WordNet | 英語の語彙データベース". wordnet.princeton.edu . 2020年5月20日閲覧
  8. ^ WordNet: 電子語彙データベース。フェルバウム、クリスティアーネ。マサチューセッツ州ケンブリッジ:MIT Press。 1998.ISBN 0-262-06197-X. OCLC  38104682。{{cite book}}: CS1 メンテナンス: その他 (リンク)
  9. ^ Budanitsky, Alexander; Hirst, Graeme (2001). 「WordNetにおける意味的距離:5つの尺度の実験的かつ応用指向的な評価」(PDF) . WordNetおよびその他の語彙リソースに関するワークショップ議事録、計算言語学協会北米支部第2回会議 (NAACL-2001). pp.  24– 29. 2020年5月20日閲覧{{cite web}}: CS1 maint: location (link)
  10. ^ ブダニツキー, アレクサンダー; ハースト, グレアム (2006). 「WordNetベースの語彙的意味的関連性尺度の評価」.計算言語学. 32 (1): 13– 47. doi : 10.1162/coli.2006.32.1.13 . ISSN  0891-2017. S2CID  838777.
  11. ^ Jiang, Jay J.; Conrath, David W. (1997-09-20). 「コーパス統計と語彙分類に基づく意味的類似性」. arXiv : cmp-lg/9709008 .
  12. ^ Moldovan, Dan; Novischi, Adrian (2002). 「質問応答のための語彙連鎖」.第19回国際計算言語学会議議事録 -第1巻. 台北(台湾):計算言語学協会. pp.  1– 7. doi : 10.3115/1072228.1072395 .
  13. ^ マッカーシー, ダイアナ; ケーリング, ロブ; ウィーズ, ジュリー; キャロル, ジョン (2004). 「タグなしテキストにおける主要な語義の検出」.第42回計算言語学協会年次会議議事録 - ACL '04 . バルセロナ, スペイン: 計算言語学協会: 279–es. doi : 10.3115/1218955.1218991 .
  14. ^ Ercan, Gonenc; Cicekli, Ilyas (2007). 「語彙連鎖を用いたキーワード抽出」.情報処理と管理. 43 (6): 1705– 1714. doi :10.1016/j.ipm.2007.01.015. hdl : 11693/23343 .
  15. ^ Wei, Tingting; Lu, Yonghe; Chang, Huiyou; Zhou, Qiang; Bao, Xianyu (2015). 「WordNetと語彙連鎖を用いたテキストクラスタリングのための意味的アプローチ」. Expert Systems with Applications . 42 (4): 2264– 2275. doi : 10.1016/j.eswa.2014.10.023 .
  16. ^ ブルガリア科学アカデミー情報通信技術研究所言語モデル・知識処理部門; シモフ, キリル; ボイチェヴァ, スヴェトラ; オセノヴァ, ペチャ (2017-11-10). 「知識グラフベースの単語埋め込みのための語彙連鎖に向けて」(PDF) . RANLP 2017 - 自然言語処理と深層学習の最近の進歩. Incoma Ltd. ショウメン, ブルガリア: 679– 685. doi : 10.26615/978-954-452-049-6_087 . ISBN 978-954-452-049-6. S2CID  41952796。{{cite journal}}: CS1 maint: multiple names: authors list (link)
  17. ^ Rios Gonzales, Annette; Mascarell, Laura; Sennrich, Rico (2017). 「意味埋め込みを用いたニューラル機械翻訳における語義曖昧性解消の改善」.第2回機械翻訳会議議事録. コペンハーゲン、デンマーク:計算言語学協会. pp.  11– 19. doi : 10.18653/v1/W17-4702 .
  18. ^ Mascarell, Laura (2017). 「文書レベルの統計的機械翻訳における語彙連鎖と単語埋め込みの融合」.第3回機械翻訳談話ワークショップ議事録. コペンハーゲン、デンマーク: 計算言語学協会: 99–109 . doi : 10.18653/v1/W17-4813 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Lexical_chain&oldid=1310192004"