テキストコーパス

言語学および自然言語処理 において、コーパス複数形corpora)またはテキストコーパスとは、元々デジタル化された言語リソースと、それ以前にデジタル化された言語リソース(注釈付きまたは注釈なし)から構成されるデータセットです。注釈付きのコーパスは、コーパス言語学において、統計的仮説検定、出現頻度の確認、または特定の言語領域における言語規則の検証 に利用されてきました。

概要

コーパスには、単一言語のテキスト (単一言語コーパス) または複数言語のテキスト データ (多言語コーパス) が含まれます。コーパスを言語研究に役立てるために、多くの場合、アノテーションと呼ばれる処理が行われます。コーパスにアノテーションを付ける例としては、品詞タグ付け、またはPOS タグ付け があります。これは、各単語の品詞 (動詞、名詞、形容詞など) に関する情報をタグの形式でコーパスに追加します。もう 1 つの例としては、各単語の見出し語(基本) 形式を示すことが挙げられます。コーパスの言語が、それを使用する研究者の作業言語でない場合は、行間注釈を使用してアノテーションをバイリンガルにします。

一部のコーパスには、さらに構造化された分析レベルが適用されます。特に、小規模なコーパスは完全に解析されている場合があります。このようなコーパスは通常、ツリーバンクまたは解析済みコーパスと呼ばれます。コーパス全体に完全かつ一貫した注釈を付与することは困難であるため、これらのコーパスは通常、100万語から300万語程度と小規模です。形態論意味論語用論に関する注釈など、他のレベルの言語構造分析も可能です。

アプリケーション

コーパスはコーパス言語学における主要な知識基盤です。その他の注目すべき応用分野には以下が含まれます。

  • 機械翻訳
    • 並列比較のために特別にフォーマットされた多言語コーパスは、整列対訳コーパスと呼ばれます。2つの言語のテキストを含む対訳コーパスには、主に2つのタイプがあります。翻訳コーパスでは、一方の言語のテキストは、もう一方の言語のテキストの翻訳です。比較可能なコーパスでは、テキストは同じ種類で同じ内容をカバーしていますが、お互いの翻訳ではありません。[ 2 ]対訳テキストを活用するには、同等のテキストセグメント(フレーズまたは文)を識別する何らかのテキストアライメントが分析の前提条件です。2つの言語間の翻訳を行う機械翻訳アルゴリズムは、多くの場合、第1言語コーパスと第2言語コーパス(第1言語コーパスの要素ごとの翻訳)で構成される対訳フラグメントを使用してトレーニングされます。[ 3 ]
  • 文献学
    • テキストコーパスは、古代文字の解読聖書学など、歴史文書の研究にも用いられます。考古学コーパスの中には、非常に短期間で作成されたものもあり、ある時点のスナップショットを提供することもあります。最も短期間のコーパスの一つは、15~30年間保存されたアマルナ書簡(紀元前1350年)でしょう。古代都市のコーパス(例えばトルコの「キュルテペ・テキスト」)は、発見された場所の年代によって決定される一連のコーパスに分けられることがあります。

注目すべきテキストコーパス

参照

参考文献

  1. ^ Yoon, H., & Hirvela, A. (2004). ESL学生のL2ライティングにおけるコーパス利用に対する態度. Journal of Second Language Writing, 13 (4), 257–283. 2012年3月21日閲覧。
  2. ^ Wołk, K.; Marasek, K. (2014年4月7日). 「リアルタイム統計音声翻訳」.情報システムと技術における新しい展望, 第1巻. インテリジェントシステムとコンピューティングの進歩. 第275巻. Springer. pp.  107– 114. arXiv : 1509.09090 . doi : 10.1007/978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN  2194-5357 . S2CID  15361632 .
  3. ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). 「Tuned and GPU-accelerated parallel data mining from Comparative corporas」. Král, Pavel; Matoušek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Plzeň, Czech Republic, September 14–17, 2015, Proceedings . Lecture Notes in Computer Science. Vol. 9302. Springer. pp.  32– 40. arXiv : 1509.08639 . doi : 10.1007/978-3-319-24033-6_4 . ISBN 978-3-319-24032-9