テキストコーパス

言語学および自然言語処理において、コーパス（複数形：corpora）またはテキストコーパスとは、元々デジタル化された言語リソースと、それ以前にデジタル化された言語リソース（注釈付きまたは注釈なし）から構成されるデータセットです。注釈付きのコーパスは、コーパス言語学において、統計的仮説検定、出現頻度の確認、または特定の言語領域における言語規則の検証に利用されてきました。

概要

コーパスには、単一言語のテキスト (単一言語コーパス) または複数言語のテキストデータ (多言語コーパス) が含まれます。コーパスを言語研究に役立てるために、多くの場合、アノテーションと呼ばれる処理が行われます。コーパスにアノテーションを付ける例としては、品詞タグ付け、またはPOS タグ付けがあります。これは、各単語の品詞 (動詞、名詞、形容詞など) に関する情報をタグの形式でコーパスに追加します。もう 1 つの例としては、各単語の見出し語(基本) 形式を示すことが挙げられます。コーパスの言語が、それを使用する研究者の作業言語でない場合は、行間注釈を使用してアノテーションをバイリンガルにします。

一部のコーパスには、さらに構造化された分析レベルが適用されます。特に、小規模なコーパスは完全に解析されている場合があります。このようなコーパスは通常、ツリーバンクまたは解析済みコーパスと呼ばれます。コーパス全体に完全かつ一貫した注釈を付与することは困難であるため、これらのコーパスは通常、100万語から300万語程度と小規模です。形態論、意味論、語用論に関する注釈など、他のレベルの言語構造分析も可能です。

アプリケーション

コーパスはコーパス言語学における主要な知識基盤です。その他の注目すべき応用分野には以下が含まれます。

言語技術、自然言語処理、計算言語学
- 様々なタイプのコーパスの分析と処理は、計算言語学、音声認識、機械翻訳の分野でも盛んに研究されており、品詞タグ付けなどの目的で隠れマルコフモデルを作成するためによく利用されています。コーパスとそこから得られる頻度リストは言語教育に有用です。コーパスは外国語ライティングの補助として活用できます。なぜなら、非ネイティブ言語使用者がコーパス内の実際のテキストに触れることで獲得する文脈化された文法知識は、学習者に目標言語における文の構成方法の理解と効果的なライティングを可能にするからです。^{[ 1 ]}

機械翻訳
- 並列比較のために特別にフォーマットされた多言語コーパスは、整列対訳コーパスと呼ばれます。2つの言語のテキストを含む対訳コーパスには、主に2つのタイプがあります。翻訳コーパスでは、一方の言語のテキストは、もう一方の言語のテキストの翻訳です。比較可能なコーパスでは、テキストは同じ種類で同じ内容をカバーしていますが、お互いの翻訳ではありません。^{[ 2 ]}対訳テキストを活用するには、同等のテキストセグメント（フレーズまたは文）を識別する何らかのテキストアライメントが分析の前提条件です。2つの言語間の翻訳を行う機械翻訳アルゴリズムは、多くの場合、第1言語コーパスと第2言語コーパス（第1言語コーパスの要素ごとの翻訳）で構成される対訳フラグメントを使用してトレーニングされます。^{[ 3 ]}

文献学
- テキストコーパスは、古代文字の解読や聖書学など、歴史文書の研究にも用いられます。考古学コーパスの中には、非常に短期間で作成されたものもあり、ある時点のスナップショットを提供することもあります。最も短期間のコーパスの一つは、15～30年間保存されたアマルナ書簡（紀元前1350年）でしょう。古代都市のコーパス（例えばトルコの「キュルテペ・テキスト」）は、発見された場所の年代によって決定される一連のコーパスに分けられることがあります。

注目すべきテキストコーパス

参照

参考文献

^ Yoon, H., & Hirvela, A. (2004). ESL学生のL2ライティングにおけるコーパス利用に対する態度. Journal of Second Language Writing, 13 (4), 257–283. 2012年3月21日閲覧。
^ Wołk, K.; Marasek, K. (2014年4月7日). 「リアルタイム統計音声翻訳」.情報システムと技術における新しい展望, 第1巻. インテリジェントシステムとコンピューティングの進歩. 第275巻. Springer. pp. 107– 114. arXiv : 1509.09090 . doi : 10.1007/978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .
^ Wolk, Krzysztof; Marasek, Krzysztof (2015). 「Tuned and GPU-accelerated parallel data mining from Comparative corporas」. Král, Pavel; Matoušek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Plzeň, Czech Republic, September 14–17, 2015, Proceedings . Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32– 40. arXiv : 1509.08639 . doi : 10.1007/978-3-319-24033-6_4 . ISBN 978-3-319-24032-9。

外部リンク

ACL SIGLEX リソースリンク: テキストコーパス Archived 2013-08-13 at the Wayback Machine
言語コーパスの開発：優れた実践のためのガイド
無料サンプル（有料）、ウェブベースのコーパス（各4500万語から4億2500万語）：アメリカ語（COCA、COHA、TIME）、イギリス語（BNC）、スペイン語、ポルトガル語
Intercorpカレル大学文学部で教えられている言語の同期パラレルコーパスを構築します。
スケッチエンジン: 無料でアクセスできるオープンコーパス
TS コーパス – 学術研究に無料で利用できるトルコ語コーパス。
トルコ国立コーパス – 現代トルコ語の汎用コーパス 2015年4月2日アーカイブ、 Wayback Machine
香港バプテスト大学図書館が開発した、アメリカと中国の政治家による政治演説のコーパス（無料アクセス）
ロシア国立コーパス

[Yoon-1] Yoon, H., & Hirvela, A. (2004). ESL学生のL2ライティングにおけるコーパス利用に対する態度. Journal of Second Language Writing, 13 (4), 257–283. 2012年3月21日閲覧。

[2] Wołk, K.; Marasek, K. (2014年4月7日). 「リアルタイム統計音声翻訳」.情報システムと技術における新しい展望, 第1巻. インテリジェントシステムとコンピューティングの進歩. 第275巻. Springer. pp. 107– 114. arXiv : 1509.09090 . doi : 10.1007/978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .

[3] Wolk, Krzysztof; Marasek, Krzysztof (2015). 「Tuned and GPU-accelerated parallel data mining from Comparative corporas」. Král, Pavel; Matoušek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Plzeň, Czech Republic, September 14–17, 2015, Proceedings . Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32– 40. arXiv : 1509.08639 . doi : 10.1007/978-3-319-24033-6_4 . ISBN 978-3-319-24032-9。

[ 1 ]

[ 2 ]

[ 3 ]