| シリーズの一部 |
| 機械学習 とデータマイニング |
|---|
自然言語処理において、文の埋め込みとは、意味のある意味情報を符号化した数値ベクトルとして文を表現することである。 [1] [2] [3] [4] [5] [6] [7]
最先端の埋め込みは、専用の文変換モデルの学習済み隠れ層表現に基づいています。BERTは、モデルに入力される各文の先頭に専用の[CLS]トークンを付加する手法を開発しました。このトークンの最終的な隠れ状態ベクトルは文に関する情報をエンコードし、文分類タスクで使用するために微調整できます。しかし実際には、BERTの[CLS]トークンを用いた文埋め込みはパフォーマンスが低く、多くの場合、非文脈的な単語埋め込みを単純に平均化するよりも悪い結果になります。SBERTは後に、SNLIデータセットでシャムニューラルネットワークアーキテクチャを使用してBERTの[CLS]トークン埋め込みを微調整することで、優れた文埋め込みパフォーマンスを実現しました[8]。
他のアプローチは、文に適用される分布意味論の考え方に大まかに基づいています。Skip-Thoughtは、隣接する文の予測タスクのためにエンコーダー・デコーダー構造を訓練しますが、InferSentやSBERTなどのアプローチよりもパフォーマンスが低いことが示されています。
別の方向性としては、 Word2vecによって返されるような単語埋め込みを文埋め込みに集約することが挙げられます。最も直接的なアプローチは、単語ベクトルの平均を計算するだけのもので、連続バッグオブワード(CBOW)と呼ばれます。[9]しかし、単語ベクトル量子化に基づくより精巧なソリューションも提案されています。そのようなアプローチの一つに、局所的に集約された単語埋め込みのベクトル(VLAWE)[10]があり、これは下流のテキスト分類タスクにおいて性能向上を実証しました。
アプリケーション
近年、文章埋め込みは、セマンティック検索のためのベクトルインデックスの利用を通じて、自然言語クエリ可能な知識ベースへの応用により、ますます注目を集めています。例えば、 LangChainは文書のインデックス作成に文章変換器を利用しています。具体的には、文書のチャンクの埋め込みを生成し、(文書チャンク、埋め込み)タプルを保存することでインデックスを生成します。そして、自然言語によるクエリが与えられると、クエリの埋め込みを生成します。そして、クエリ埋め込みと文書チャンクの埋め込みの間で上位k個の類似度検索アルゴリズムを用いることで、質問応答タスクのコンテキスト情報として最も関連性の高い文書チャンクを取得します。このアプローチは、正式には検索拡張生成(retrieval-augmented generation )[11]としても知られています。
BERTScoreほど普及しているわけではありませんが、文埋め込みは文の類似性評価によく用いられます。これは、大規模な言語モデルの生成パラメータを最適化するタスクでよく用いられます。この生成パラメータは、候補文と参照文を比較することで評価されることが多いです。候補文と参照文の文埋め込みのコサイン類似度を評価関数として用いることで、グリッドサーチアルゴリズムを用いてハイパーパラメータの最適化を自動化できます [要出典]。
評価
文のエンコーディングをテストする方法としては、SICK(Sentences Involving Compositional Knowledge)コーパス[12]に エンタイトルメント(SICK-E)と関連性(SICK-R)の両方を適用する方法がある。
[13]では、スタンフォード自然言語推論(SNLI)コーパスで学習したBiLSTMネットワークを用いて最良の結果が得られました。SICK-Rのピアソン相関係数は0.885、SICK-Eの結果は86.3でした。以前のスコアと比べてわずかに改善したのが[14]です。双方向ゲート付きリカレントユニットの連結を用いた場合、SICK-Rは0.888、SICK-Eは87.8でした。
参照
外部リンク
- InferSent 文埋め込みとトレーニングコード
- ユニバーサルセンテンスエンコーダー
- 大規模マルチタスク学習による汎用分散文表現の学習
参考文献
- ^ バーカン、オーレン;ラジン、ノーム。マルキエル、イツィク。カッツ、オリ。カシウラル、アヴィ。ケーニヒシュタイン、ノーム (2019)。 「抽出された文の埋め込みによるスケーラブルな注意深い文ペアのモデリング」。arXiv : 1908.05161 [cs.LG]。
- ^ ユニバーサル単語埋め込みと文埋め込みの現在のベスト
- ^ サー、ダニエル;ヤン、インフェイ。コン・シェンイー。フア、ナン。リムティアコ、ニコール。ジョン、ロムニ通り。コンスタント、ノア。グアハルド=セスペデス、マリオ。ユアン、スティーブ。タール、クリス。ソン、ユンシュアン;ストロープ、ブライアン。レイ・カーツワイル (2018)。 「ユニバーサルセンテンスエンコーダー」。arXiv : 1803.11175 [cs.CL]。
- ^ ウー、レデル;フィッシュ、アダム。チョプラ、スミット。アダムズ、キース。ボルデス、アントワーヌ。ウェストン、ジェイソン (2017)。 「StarSpace: あらゆるものを埋め込みます!」。arXiv : 1709.03856 [cs.CL]。
- ^ Sanjeev Arora、Yingyu Liang、Tengyu Ma. 「文埋め込みのためのシンプルだが打ち負かすのが難しいベースライン」、2016年、オープンレビュー:SyK00v5xx。
- ^ トリファン、ミルチャ;イヨネスク、ボグダン。ガデア、クリスティアン。ダン・イオネスク (2015)。 「意味解析のためのグラフデジタル信号処理手法」。応用計算知能と情報学に関する 2015 IEEE 10 回ジュビリー国際シンポジウム。 pp. 187–192。土井:10.1109/SACI.2015.7208196。ISBN 978-1-4799-9911-8. S2CID 17099431。
- ^ Basile, Pierpaolo; Caputo, Annalina; Semeraro, Giovanni (2012). 「分布空間における単語の構成的意味論に関する研究」2012 IEEE 第6回国際セマンティックコンピューティング会議pp. 154– 161. doi :10.1109/ICSC.2012.55. ISBN 978-1-4673-4433-3. S2CID 552921。
- ^ Reimers, Nils; Gurevych, Iryna (2019). 「Sentence-BERT: Siamese BERTネットワークを用いた文埋め込み」. arXiv : 1908.10084 [cs.CL].
- ^ Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-09-06). 「ベクトル空間における単語表現の効率的な推定」arXiv : 1301.3781 [cs.CL].
- ^ Ionescu, Radu Tudor; Butnaru, Andrei (2019). 「局所的に集約された単語埋め込みのベクトル (」). 2019年北部カンファレンス議事録. ミネアポリス, ミネソタ州: 計算言語学協会. pp. 363– 369. doi :10.18653/v1/N19-1033. S2CID 85500146.
- ^ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). 「知識集約型NLPタスクのための検索拡張生成」arXiv : 2005.11401 [cs.CL].
- ^ マルコ・マレッリ、ステファノ・メニーニ、マルコ・バローニ、ルイーザ・ベンティヴォーリ、ラファエラ・ベルナルディ、ロベルト・ザンパレッリ。 「構成分布意味論的モデルの評価のための病気の治療法。」 LREC、216 ~ 223 ページ。 2014年[1]。
- ^ Conneau, Alexis; Kiela, Douwe; Schwenk, Holger; Barrault, Loic; Bordes, Antoine (2017). 「自然言語推論データからの普遍的な文表現の教師あり学習」arXiv : 1705.02364 [cs.CL].
- ^ Subramanian, Sandeep; Trischler, Adam; Bengio, Yoshua; Christopher J Pal (2018). 「大規模マルチタスク学習による汎用分散文表現の学習」arXiv : 1804.00079 [cs.CL].