ACLデータ収集イニシアチブ

ACLデータ収集イニシアチブ(ACL/DCI)は、計算言語学研究のための大規模なテキストおよび音声コーパスの作成と配布を目的として、 1989年に計算言語学協会(ACL)によって設立されたプロジェクトでした。このイニシアチブは、自然言語処理音声認識計算言語学などの分野における研究を支援するための、充実したテキストデータベースへの需要の高まりに対応することを目的としていました。1993年までに、このイニシアチブの活動は事実上停止し、その機能とデータセットは1992年に設立された言語データコンソーシアム(LDC)に吸収されました。 [ 1 ]

目的

ACL/DCI にはいくつかの重要な目的がありました。

  • さまざまな情報源から大規模かつ多様なテキストコーパスを取得する
  • 収集したテキストを標準汎用マークアップ言語(SGML)に基づく共通フォーマットに変換する
  • 最小限の制限で低コストで科学研究に利用できるようにすること
  • 研究者が公表された結果を再現または拡張できるようにする共通データベースを提供する
  • テキストデータの取得と準備における研究者間の労力の重複を減らす

これらの目的は、テキストおよび音声の認識・分析アプリケーションから生じる膨大なテキストへの需要の高まりに対応するために策定されました。その中核的な目的は、「科学研究のために原価でロイヤリティなしで利用できる大規模なテキストコーパスの取得と準備を監督すること」でした。[ 2 ]

歴史

1980年代後半、計算言語学と音声認識の研究者たちは、統計モデルの開発やアルゴリズムの検証に利用できる大規模でアクセス可能なテキストコーパスの不足という重大な問題に直面していました。既存の一般に利用可能なテキストデータベースは、テキストおよび音声認識アプリケーションの開発ニーズを満たすには小さすぎました。このニーズを満たすために、科学研究のための制限を最小限に抑えながら、大量のテキストデータを収集、標準化、配布するイニシアチブが設立されました。Liberman (1990) が述べているように、「研究者は適切な資料の不足、特に、発表された研究結果を他者が再現または拡張できるほど十分な量のテキストの不足によって、深刻な障害に直面してきました。」[ 2 ]

ACL/DCI委員会は1989年2月に設立されました。委員会には米国とヨーロッパの学術機関や産業界の研究機関のメンバーが含まれていました。[ 3 ]

このイニシアチブの議長は、ペンシルベニア大学(旧AT&Tベル研究所)のマーク・リバーマン氏が務めた。委員会メンバーには、ベルコアIBM TJワトソン研究所ケンブリッジ大学バージニア工科大学ノースイースタン大学ペンシルベニア大学SRIインターナショナルMCCゼロックスPARCISSCOピサ大学などの組織の代表者が含まれていた。[ 3 ]

このプロジェクトは当初、専用の資金援助なしに運営され、委員会メンバーとその関連機関によるボランティア活動に頼っていました。主要な支援者には、AT&Tベル研究所、ベルコア、IBM、ゼロックス、そしてペンシルベニア大学が含まれ、ペンシルベニア大学はACL/DCI関連の作業のために計算機施設の使用を許可しました。[ 2 ]

以前はボランティアの無償の努力で運営されていましたが、1991年にゼネラルエレクトリック国立科学財団(IRI-9113530)から資金提供を受けました。[ 4 ]

データ

1990年時点で、ACL/DCIは数億語に及ぶ多様なテキストを収集していた。そのコレクションには以下のものが含まれていた。[ 2 ] [ 3 ]

この取り組みは北米英語のテキストから始まりましたが、カナダのフランス語も含め拡大され、日本語、中国語、その他のアジア言語も含める予定でした。[ 2 ]

コレクションの少なくとも500万語はペン・ツリーバンク・プロジェクトの下でタグ付けされ、それらのタグはDCIによっても配布されました。[ 2 ] [ 3 ] [ 7 ]

DCIがLDCに吸収された後、データセットはLDCの下で管理されました。[ 8 ]

形式

ACL/DCIコーパスは、SGML(Standard Generalized Markup Language、ISO 8879)[ 2 ]に基づく標準形式でコーディングされており、DCIはTEI(Text Encoding Initiative )の関連プロジェクトでした。TEIはACL、コンピュータと人文科学協会文学言語コンピューティング協会の共同プロジェクトであり、文学データと言語データの共通交換フォーマットを提供することを目的としていました。

この取り組みでは、時間の経過とともに、品詞や統語的・意味的構造のさまざまな側面など、合意に基づいて承認された言語的特徴を反映した注釈を追加することを計画しました。[ 2 ]

ACL/DCIの活用例として、音声認識研究におけるウォール・ストリート・ジャーナル(WSJ)コーパスが挙げられます。WSJコーパスは、 DARPA音声言語システム(SLS)[ 9 ]コミュニティの連続音声認識(CSR)コーパス[ 10 ]の基礎として利用されました。WSJコーパスは音声認識システムの評価における標準的なベンチマークとなり、数多くの研究論文で使用されています。

WSJ CSRコーパスは、1987年から1989年にかけて、DARPAに初めて提供された汎用英語、大語彙、自然言語、高パープレキシティのコーパスで、音声(400時間)とテキスト(4700万語)を収録していました。テキストコーパスのサイズは313MBでした。[ 10 ]

テキストは、読者が選択する可能性のある単語の並びの曖昧さを排除するために前処理され、言語モデルの学習に使用された未読テキストが、試験音声資料の代表性を確保することとなった。前処理には、数字の正書法への変換、略語の展開、アポストロフィ引用符の解決、句読点のマーク付けなどが含まれていた。[ 10 ]

別の例として、ヤロウスキーアルゴリズムはDCIからのバイテキストデータを使用して、より小規模なデータセットで訓練された高度なモデルと競合できる単純な単語意味の曖昧性解消モデルを訓練しました。[ 11 ]

分布

ACL/DCIコレクションの資料は、非営利目的で研究グループに配布されました。1990年までに、約25の研究グループと個人研究者が、収集された資料の様々な部分を収録したテープを受け取りました。[ 2 ]

データを入手するには、研究者はデータの再配布や直接的な商業利用を行わないという契約に署名する必要がありました。ただし、統計表や文法規則など、テキストから派生した「分析資料」の商業利用は明示的に許可されていました。[ 2 ]

この取り組みは当初、12インチリールの9トラックテープでデータを配布し、その後CD-ROMに移行しました。各テープには、レンペル・ジブアルゴリズムによって圧縮された3000万語を収録できました。[ 2 ]最初のCD-ROM配布は1991年にドラゴンシステムズ社の資金提供を受けて行われました。これには、コリンズ英語辞典、ウォール・ストリート・ジャーナル、米国エネルギー省提供の科学論文抄録、そしてペン・ツリーバンクが含まれていました。[ 4 ]

参照

参考文献

  1. ^言語データコンソーシアム (1993)、ACL/DCI、言語データコンソーシアム、doi : 10.35111/VDFV-AV77
  2. ^ a b c d e f g h i j k Liberman, Mark Y. (1990). 「ACLデータ収集イニシアチブ」.第5回エルサレム情報技術会議議事録. IEEE. pp.  781– 786.
  3. ^ a b c dリーバーマン、マーク (1989). 「Text on Tap: the ACL/DCI」.音声と自然言語:マサチューセッツ州ケープコッドで開催されたワークショップの議事録、1989年10月15~18日. pp.  173~ 178.
  4. ^ a b ACL/DCI CD-ROM 1のREADMEファイル、1991年9月
  5. ^ MacWhinney, Brian; Snow, Catherine (1990年6月). 「児童言語データ交換システム:最新情報」 . Journal of Child Language . 17 (2): 457– 472. doi : 10.1017/ S0305000900013866 . ISSN 0305-0009 . PMC 9807025. PMID 2380278 .   
  6. ^ハンブルトン、ジェームズ・E.「法務省における法情報:Juris Law Libr. J. 69 (1976): 199。
  7. ^ Church, Kenneth W.; Mercer, Robert L. (1993). Hirschberg, Julia (編). 「大規模コーパスを用いた計算言語学特集号の紹介」 .計算言語学. 19 (1): 1– 24.
  8. ^ 「Linguistic Data Consortium - Linguistic Data Consortium」 . catalog.ldc.upenn.edu . 2025年3月26日閲覧
  9. ^ Sears, J. Allen (1988年11月1日). 「DARPA音声言語システムプログラム:過去、現在、そして未来」 .アメリカ音響学会誌. 84 (S1): S188. doi : 10.1121/1.2026042 . ISSN 0001-4966 . 
  10. ^ a b cポール・ダグラス・B; ベイカー・ジャネット (1992). 「ウォール・ストリート・ジャーナルに基づくCSRコーパスの設計」.音声と自然言語:1992年2月23~26日にニューヨーク・ハリマンで開催されたワークショップの議事録.
  11. ^ Gale, William A.; Church, Kenneth W.; Yarowsky, David (1992年12月). 「大規模コーパスにおける語義の曖昧性解消法」 . Computers and the Humanities . 26 ( 5–6 ): 415–439 . doi : 10.1007/bf00136984 . ISSN 0010-4817 .