タタール語文集

タタール語文集
サイトの種類
研究・教育プロジェクト
入手可能な英語/ロシア語/タタール語
設立2011 (2011)
本部カザンロシア
創設者サイクノフ MR、イブラギモフ TI、クサイノフ RR
URLwww .corpus .tatar /en
発売2012年3月15日 (2012-03-15)
現在の状況プロジェクトは活発に開発中です。

タタール語書き言葉コーパス(タタール語コーパス)は、オンラインで公開されているタタール語の電子 コーパスです。この電子形式のタタール語テキストコレクションは、タタール語の構造、現状、そして将来性に関心を持つ人々を対象としています。タタール語書き言葉コーパスは、コーパス言語学の手法を用いてタタール語を研究したいすべての人にとって不可欠なものです。このウェブサイトは2012年3月15日に開設され、タタール語、ロシア語、英語で利用可能です。

コーパスのサイズ

2014年末現在、タタール語コーパスの収録語数は1億1600万語を超えています。文数は1000万語、異なる語形の数は約150万語です。 コピー防止のため、コーパス内のテキストは混合文として保存されています。

アクセス

研究目的でのタタール語コーパスへのアクセスは無料です。

コーパス作成プロセスについて

タタール語コーパスの作成は、2010年に熱心なグループによって開始されました。この作業は、タタール語の機械翻訳システムの開発に必要なテキストデータベースを提供するだけでなく、タタール語の音声合成と認識における問題の解決にも不可欠であったため、緊急の課題とみなされていました。

実用価値と使用分野

タタール語書き言葉コーパスの基本的な目的は、タタール語語彙の研究を支援することです。さらに、このコーパスは言語学習や、様々な種類の文書のモデルソースとして利用できます。 タタール語書き言葉コーパスでは、特定の特徴で単語を検索したり、文脈の中で単語を確認したり、頻度データも提供されます。

文脈(統計)コーパス

このタイプの検索では、特定の単語の右コンテキスト、左コンテキスト、および意味コンテキストを頻度順に表示できます。 右コンテキスト - 現在の単語の直後に配置される単語。 左コンテキスト - 現在の単語の直前に配置される単語。 意味コンテキスト - 現在の単語と同じ文に位置する単語。つまり、単語間に何らかの意味的なつながりが暗黙的に存在する単語。

2014年には、タタール語コーパスの形態素解析が行われました。文法ラベルのメタ言語は、国際プロジェクトApertiumが開発したチュルク語系言語のタグシステムに基づいています。このプロジェクトは、多種多様な言語の自動翻訳システムの開発を目指しています。コーパスの解析にApertiumの形態素解析ツールを採用した主な理由は、以下のとおりです。- 形態素解析の質が高いこと。- オープンソースプロジェクトであること(すべてのソースコードとデータは誰でも無料で公開されている)。 2015年から2016年にかけて私たちが開発した複合形態素解析システムでは、語形、見出し、形態素(文法)タグセット、語頭、語中、語尾、検索語間の距離など、さまざまなパラメータを組み合わせてコーパス内を検索できます。検索クエリの最大長は5トークン+トークン間の距離4つです。

タタール語音声合成

タタール語コーパスは、検索で見つかった文章を聞くだけでなく、ユーザーがこの機能に入力した他のテキストを聞くというユニークな機会をユーザーに提供します。http://search.corpus.tatar/search/sintez_en.htmlを参照してください。

統計データ

タタール語コーパスの作成者は、コーパスの処理の結果として利用可能になり次第、さまざまな追加の統計データをアップロードします。http ://corpus.tatar/stat_en.htmを参照してください。

欠点と展望

  • オフライン コーパス バージョンが存在しません。
  • 自動的な曖昧さ回避。

著者

コーパスの作成者:

  • サイクノフ MR(言語学候補、情報学研究所研究員)
  • イブラギモフ TI(カザン連邦大学応用言語学部准教授、言語学候補)
  • クサイノフ RR (エンジニア、「GDC」)

協力:

  • 伝統文化発展のための共和党センター
  • トゥルク大学ヴォルガ語研究ユニット(フィンランド)
  • 「RX5」社
  • 人気科学誌「Фưн ͻ͙м Тел」編集部

文学

[ 1 ]

参考文献