ACLデータ収集イニシアチブ(ACL/DCI)は、計算言語学研究のための大規模なテキストおよび音声コーパスの作成と配布を目的として、 1989年に計算言語学協会(ACL)によって設立されたプロジェクトでした。このイニシアチブは、自然言語処理、音声認識、計算言語学などの分野における研究を支援するための、充実したテキストデータベースへの需要の高まりに対応することを目的としていました。1993年までに、このイニシアチブの活動は事実上停止し、その機能とデータセットは1992年に設立された言語データコンソーシアム(LDC)に吸収されました。 [ 1 ]
ACL/DCI にはいくつかの重要な目的がありました。
これらの目的は、テキストおよび音声の認識・分析アプリケーションから生じる膨大なテキストへの需要の高まりに対応するために策定されました。その中核的な目的は、「科学研究のために原価でロイヤリティなしで利用できる大規模なテキストコーパスの取得と準備を監督すること」でした。[ 2 ]
1980年代後半、計算言語学と音声認識の研究者たちは、統計モデルの開発やアルゴリズムの検証に利用できる大規模でアクセス可能なテキストコーパスの不足という重大な問題に直面していました。既存の一般に利用可能なテキストデータベースは、テキストおよび音声認識アプリケーションの開発ニーズを満たすには小さすぎました。このニーズを満たすために、科学研究のための制限を最小限に抑えながら、大量のテキストデータを収集、標準化、配布するイニシアチブが設立されました。Liberman (1990) が述べているように、「研究者は適切な資料の不足、特に、発表された研究結果を他者が再現または拡張できるほど十分な量のテキストの不足によって、深刻な障害に直面してきました。」[ 2 ]
ACL/DCI委員会は1989年2月に設立されました。委員会には米国とヨーロッパの学術機関や産業界の研究機関のメンバーが含まれていました。[ 3 ]
このイニシアチブの議長は、ペンシルベニア大学(旧AT&Tベル研究所)のマーク・リバーマン氏が務めた。委員会メンバーには、ベルコア、IBM TJワトソン研究所、ケンブリッジ大学、バージニア工科大学、ノースイースタン大学、ペンシルベニア大学、SRIインターナショナル、MCC、ゼロックスPARC、ISSCO、ピサ大学などの組織の代表者が含まれていた。[ 3 ]
このプロジェクトは当初、専用の資金援助なしに運営され、委員会メンバーとその関連機関によるボランティア活動に頼っていました。主要な支援者には、AT&Tベル研究所、ベルコア、IBM、ゼロックス、そしてペンシルベニア大学が含まれ、ペンシルベニア大学はACL/DCI関連の作業のために計算機施設の使用を許可しました。[ 2 ]
以前はボランティアの無償の努力で運営されていましたが、1991年にゼネラルエレクトリックと国立科学財団(IRI-9113530)から資金提供を受けました。[ 4 ]
1990年時点で、ACL/DCIは数億語に及ぶ多様なテキストを収集していた。そのコレクションには以下のものが含まれていた。[ 2 ] [ 3 ]
この取り組みは北米英語のテキストから始まりましたが、カナダのフランス語も含め拡大され、日本語、中国語、その他のアジア言語も含める予定でした。[ 2 ]
コレクションの少なくとも500万語はペン・ツリーバンク・プロジェクトの下でタグ付けされ、それらのタグはDCIによっても配布されました。[ 2 ] [ 3 ] [ 7 ]
DCIがLDCに吸収された後、データセットはLDCの下で管理されました。[ 8 ]
ACL/DCIコーパスは、SGML(Standard Generalized Markup Language、ISO 8879)[ 2 ]に基づく標準形式でコーディングされており、DCIはTEI(Text Encoding Initiative )の関連プロジェクトでした。TEIはACL、コンピュータと人文科学協会、文学言語コンピューティング協会の共同プロジェクトであり、文学データと言語データの共通交換フォーマットを提供することを目的としていました。
この取り組みでは、時間の経過とともに、品詞や統語的・意味的構造のさまざまな側面など、合意に基づいて承認された言語的特徴を反映した注釈を追加することを計画しました。[ 2 ]
ACL/DCIの活用例として、音声認識研究におけるウォール・ストリート・ジャーナル(WSJ)コーパスが挙げられます。WSJコーパスは、 DARPA音声言語システム(SLS)[ 9 ]コミュニティの連続音声認識(CSR)コーパス[ 10 ]の基礎として利用されました。WSJコーパスは音声認識システムの評価における標準的なベンチマークとなり、数多くの研究論文で使用されています。
WSJ CSRコーパスは、1987年から1989年にかけて、DARPAに初めて提供された汎用英語、大語彙、自然言語、高パープレキシティのコーパスで、音声(400時間)とテキスト(4700万語)を収録していました。テキストコーパスのサイズは313MBでした。[ 10 ]
テキストは、読者が選択する可能性のある単語の並びの曖昧さを排除するために前処理され、言語モデルの学習に使用された未読テキストが、試験音声資料の代表性を確保することとなった。前処理には、数字の正書法への変換、略語の展開、アポストロフィと引用符の解決、句読点のマーク付けなどが含まれていた。[ 10 ]
別の例として、ヤロウスキーアルゴリズムはDCIからのバイテキストデータを使用して、より小規模なデータセットで訓練された高度なモデルと競合できる単純な単語意味の曖昧性解消モデルを訓練しました。[ 11 ]
ACL/DCIコレクションの資料は、非営利目的で研究グループに配布されました。1990年までに、約25の研究グループと個人研究者が、収集された資料の様々な部分を収録したテープを受け取りました。[ 2 ]
データを入手するには、研究者はデータの再配布や直接的な商業利用を行わないという契約に署名する必要がありました。ただし、統計表や文法規則など、テキストから派生した「分析資料」の商業利用は明示的に許可されていました。[ 2 ]
この取り組みは当初、12インチリールの9トラックテープでデータを配布し、その後CD-ROMに移行しました。各テープには、レンペル・ジブアルゴリズムによって圧縮された3000万語を収録できました。[ 2 ]最初のCD-ROM配布は1991年にドラゴンシステムズ社の資金提供を受けて行われました。これには、コリンズ英語辞典、ウォール・ストリート・ジャーナル、米国エネルギー省提供の科学論文抄録、そしてペン・ツリーバンクが含まれていました。[ 4 ]