クロアチア語コーパス(CLC、クロアチア語:Hrvatski jezični korpus、HJK)は、クロアチア語・言語学研究所(IHJJ) で編纂されたクロアチア語のコーパスです。
背景
CLCは当初、 2005年5月からクロアチア共和国科学・教育・スポーツ省(MZOŠ )による研究プログラムRiznica(クロアチア語リポジトリ)のサブプロジェクトとして資金提供を受けていました(プロジェクト番号0212010)。2007年以来の第二の開発フェーズでは、CLCのさらなる拡張と開発が、MZOŠによって助成された研究プログラムクロアチア語リポジトリ(CLR)に組み込まれました(ĆavarとBrozovićRončević、2012 [1]参照)。この研究プログラム(PI Dunja Brozović Rončević)にはCLCを利用する多数の独立した研究プロジェクトが組み込まれているため、コーパスは主にCLR内の研究プロジェクトの副産物として開発されています。現在、Dunja Brozović RončevićとDamir Ćavarがコーパスの開発を担当しています。
目標
CLCプロジェクトの主な目標の一つは、複数のレベルで注釈が付与された、公開可能なクロアチア語 コーパスを作成することです。具体的には、語形化、形態素分節化、形態統語論的注釈、音韻転写・音節化、統語解析が行われています。現在のコーパスはクロアチア語標準規格のリソースを提供していますが、写本やクロアチア語辞書のデジタル化など、クロアチア語の様々な発展段階におけるコーパスも複数作成されています。
フォーマットと入手方法
CLCに収集・デジタル化されたテキストは、当初からText Encoding Initiative ( TEI ) P5 XML標準を用いて注釈が付けられてきました。現在、約9,000万トークンがTEI P5 XML形式で利用可能です。このコーパスはPhilologic [2]インターフェースを介してオンラインでアクセスできます(ARTFLプロジェクト[3] 、シカゴ大学ロマンス語文学部を参照)。コーパスは様々なサブコーパスに仮想化されており、サブコーパスの個別または特定の定義は要求に応じて提供できます。
コンテンツ
CLCは、様々な機能領域とジャンルを網羅するクロアチア語の選集から構成されています。クロアチア語の標準化が最終的に形作られ始めた時期、すなわち19世紀後半以降の文学作品やその他の文献が含まれています。
CLC は次のものから構成されます。
- クロアチア文学の基礎(小説、短編小説、演劇、詩など)
- ノンフィクション
- さまざまな分野の科学出版物や大学の教科書
- 教科書
- 優れたクロアチア語翻訳者による翻訳文学
- オンラインジャーナルと新聞
- クロアチア語の標準化以前の時代に書かれた本を、現在の標準クロアチア語に適応させたもの
協力
CLC の実現は、以下の団体との協力により実現しました。
- Školska knjiga dd
- クロアチア科学芸術アカデミー(HAZU)
- ストリエチャ・フルヴァツケ・クニジェフノスチ、マティカ・フルヴァツカ
参考文献
- ^ チャヴァルとブロゾヴィッチ・ロンチェヴィッチ、2012
- ^ 文献学
- ^ “The ARTFL Project”. 2009年12月4日時点のオリジナルよりアーカイブ。2011年5月22日閲覧。