ドイツ語参考コーパス

ドイツ語参考コーパス原文:Deutsches Referenzkorpus、略称:DeReKo )は、現代ドイツ語書き言葉テキストコーパスの電子アーカイブです。1964年に初めて作成され、ドイツマンハイムにあるドイツ語研究所(ライプニッツ・ドイツ語研究所、略称 :IDS)が所蔵しています。このコーパスアーカイブは継続的に更新・拡張されています。現在、40億語以上(2010年8月時点)の単語トークンを収録し、言語学に基づいた現代ドイツ語テキストの最大のコレクションとなっています。今日、ドイツ語書き言葉研究のための世界有数の主要なリソースの一つとなっています。

別名

ドイツ語参考コーパスは、マンハイム・コーパスIDSコーパスCOSMASコーパス、および対応するドイツ語訳など、様々な名称で呼ばれることがあります。Deutsches Referenzkorpus (DeReKo)という名称は、1999年から2002年にかけて複数の機関が同名の共同プロジェクトで収集した現在のアーカイブの一部を指して用いられていました。2004年以降、Deutsches Referenzkorpus (DeReKo)はコーパスアーカイブ全体の正式名称となっています。

構想と構成

ドイツ語参考コーパスは、フィクション、学術論文、多数の新聞記事、その他様々な種類のテキストで構成されています。テキストは1950年頃から現在までの期間をカバーしています。

しかし、他のよく知られたコーパスやコーパス アーカイブ ( British National Corpusなど) とは対照的に、German Reference Corpus はバランスのとれたコーパスとして明示的に設計されていません。つまり、時間やテキストの種類にわたる DeReKo テキストの分布は、事前に定義されたパーセンテージと一致しません。

この概念は、あるコーパスがバランスのとれた、あるいは代表的な言語サンプルを構成するかどうかは、特定の言語領域(すなわち統計母集団)に関してのみ評価できるという事実に合致する。言語学的調査は一般的に異なる言語領域を対象としているため、ドイツ語参照コーパスの宣言された目的は、現代ドイツ語書き言葉の汎用的な上位サンプル、あるいは原初サンプル(ドイツ語:Ur-Stichprobe)として機能することであり、コーパス利用者はそこから、調査したい言語領域を代表する特殊なサブサンプル(いわゆる仮想コーパス)を抽出することができる。

アクセス

著作権およびライセンスの制限により、DeReKoアーカイブは複製およびダウンロード提供できません。COSMAS IIシステムを通じて無料で検索および分析できます。エンドユーザーは氏名を登録し、コーパスデータを非営利の学術目的にのみ使用することに同意する必要があります。COSMAS IIを使用すると、ユーザーはDeReKoから特定の研究課題に適した仮想コーパスを作成できます

参照

参考文献

  • Kupietz, M. & C. Belica & H. Keibel & A. Witt (2010): ドイツ語参考コーパス DeReKo:言語研究のための原始的サンプル. Calzolari, N. 他編: Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010) (pp. 1848–1854). マルタ、バレッタ:欧州言語資源協会 (ELRA).
  • Kupietz, M. & H. Keibel (2009): マンハイム・ドイツ語参考コーパス(DeReKo)を実証言語研究の基盤として.コーパスに基づく言語学と言語教育に関するワーキングペーパー第3号(pp. 53–59).東京:東京外国語大学(TUFS).
  • DeReKoウェブサイト(ドイツ語)
  • COSMAS II - 無料のDeReKoインターフェース(ドイツ語のウェブサイト)
Retrieved from "https://en.wikipedia.org/w/index.php?title=German_Reference_Corpus&oldid=1135944080"