ACLデータ収集イニシアチブ

ACLデータ収集イニシアチブ（ACL/DCI）は、計算言語学研究のための大規模なテキストおよび音声コーパスの作成と配布を目的として、 1989年に計算言語学協会（ACL）によって設立されたプロジェクトでした。このイニシアチブは、自然言語処理、音声認識、計算言語学などの分野における研究を支援するための、充実したテキストデータベースへの需要の高まりに対応することを目的としていました。1993年までに、このイニシアチブの活動は事実上停止し、その機能とデータセットは1992年に設立された言語データコンソーシアム（LDC）に吸収されました。 ^{[ 1 ]}

目的

ACL/DCI にはいくつかの重要な目的がありました。

さまざまな情報源から大規模かつ多様なテキストコーパスを取得する
収集したテキストを標準汎用マークアップ言語（SGML）に基づく共通フォーマットに変換する
最小限の制限で低コストで科学研究に利用できるようにすること
研究者が公表された結果を再現または拡張できるようにする共通データベースを提供する
テキストデータの取得と準備における研究者間の労力の重複を減らす

これらの目的は、テキストおよび音声の認識・分析アプリケーションから生じる膨大なテキストへの需要の高まりに対応するために策定されました。その中核的な目的は、「科学研究のために原価でロイヤリティなしで利用できる大規模なテキストコーパスの取得と準備を監督すること」でした。^{[ 2 ]}

歴史

1980年代後半、計算言語学と音声認識の研究者たちは、統計モデルの開発やアルゴリズムの検証に利用できる大規模でアクセス可能なテキストコーパスの不足という重大な問題に直面していました。既存の一般に利用可能なテキストデータベースは、テキストおよび音声認識アプリケーションの開発ニーズを満たすには小さすぎました。このニーズを満たすために、科学研究のための制限を最小限に抑えながら、大量のテキストデータを収集、標準化、配布するイニシアチブが設立されました。Liberman (1990) が述べているように、「研究者は適切な資料の不足、特に、発表された研究結果を他者が再現または拡張できるほど十分な量のテキストの不足によって、深刻な障害に直面してきました。」^{[ 2 ]}

ACL/DCI委員会は1989年2月に設立されました。委員会には米国とヨーロッパの学術機関や産業界の研究機関のメンバーが含まれていました。^{[ 3 ]}

このイニシアチブの議長は、ペンシルベニア大学（旧AT&Tベル研究所）のマーク・リバーマン氏が務めた。委員会メンバーには、ベルコア、IBM TJワトソン研究所、ケンブリッジ大学、バージニア工科大学、ノースイースタン大学、ペンシルベニア大学、SRIインターナショナル、MCC、ゼロックスPARC、ISSCO、ピサ大学などの組織の代表者が含まれていた。^[³^]

このプロジェクトは当初、専用の資金援助なしに運営され、委員会メンバーとその関連機関によるボランティア活動に頼っていました。主要な支援者には、AT&Tベル研究所、ベルコア、IBM、ゼロックス、そしてペンシルベニア大学が含まれ、ペンシルベニア大学はACL/DCI関連の作業のために計算機施設の使用を許可しました。^{[ 2 ]}

以前はボランティアの無償の努力で運営されていましたが、1991年にゼネラルエレクトリックと国立科学財団（IRI-9113530）から資金提供を受けました。^{[ 4 ]}

データ

1990年時点で、ACL/DCIは数億語に及ぶ多様なテキストを収集していた。そのコレクションには以下のものが含まれていた。^{[ 2 ]}^{[ 3 ]}

ウォールストリートジャーナルの記事（2,500万〜5,000万語）
カナダの Hansard (議会記録) の英語版とフランス語版: IBM の配置モデルグループから寄贈された整理された英語の Hansard (1 億語) と、直接入手したオリジナルのバイリンガル Hansard (別の時期のもの) (2 億語)。
コリンズ英語辞典（1979年版）。全文（300万語）と、コリンズが寄贈した「タイポグラファーのテープ」を使用して構築されたさまざまな「データベース」バージョンの両方があり、辞書の1979年版をタイプセットして印刷するために使用された構造化デジタルデータを含むコンピュータテープでした。
ACM Special Interest Group on Information Retrieval Forum (IRLIST) のARPANETニュースレターからの電子メールと、ARPANET (AILIST) 経由で配信された AIList Digest 号 (500 万語)。どちらもVIPSUの Edward A. Fox が収集したものです。
ネットワーキングに関する記事（200万語）
米国農務省農業普及局ファクトシート（100 万語以上）
エネルギー省の約 1,500 語の科学的概要 200,000 件(2,500 万語)
チャレンジャー調査委員会のアーカイブ（証言録取書および公聴会の記録を含む、250万語）
アメリカ図書館所蔵の書籍（マーク・トウェイン、ユージン・オニール、ラルフ・ワルド・エマーソン、ハーマン・メルヴィル、WEBデュボイス、ウィラ・キャザー、ベンジャミン・フランクリンの作品を含む、130冊、2,000万語）
キングジェームズ聖書、トリストラム・シャンディ、フェデラリスト論文などのパブリックドメイン書籍。
Kurzweil Applied Intelligence Inc.の Francis Ganong 氏から寄贈された、数百万語に及ぶ放射線科医の報告書の転写(約 500 万語)。
児童言語習得記録の児童言語データ交換コーパス^{[ 5 ]}
米国司法省司法情報検索・照会システム（JURIS）資料^{[ 6 ]}
スイス民法（ドイツ語、フランス語、イタリア語に並行）
スイス・ユニオン銀行の経済レポート（英語、ドイツ語、フランス語、イタリア語で同時配信）
UCSCのGeoff Pullumが寄稿した、約 12,000 語の管理ポリシーマニュアルと 14,000 語の管理メモ。
さまざまなACMジャーナルおよび ACL ジャーナルComputational Linguisticsからの資料。
CSLI出版物シリーズ: 50 ～ 100 件のレポート (各 8K 語) と 5 ～ 10 冊の書籍 (各 80K 語)。

この取り組みは北米英語のテキストから始まりましたが、カナダのフランス語も含め拡大され、日本語、中国語、その他のアジア言語も含める予定でした。^{[ 2 ]}

コレクションの少なくとも500万語はペン・ツリーバンク・プロジェクトの下でタグ付けされ、それらのタグはDCIによっても配布されました。^{[ 2 ]}^{[ 3 ]}^{[ 7 ]}

DCIがLDCに吸収された後、データセットはLDCの下で管理されました。^{[ 8 ]}

形式

ACL/DCIコーパスは、SGML（Standard Generalized Markup Language、ISO 8879）^{[ 2 ]}に基づく標準形式でコーディングされており、DCIはTEI（Text Encoding Initiative ）の関連プロジェクトでした。TEIはACL、コンピュータと人文科学協会、文学言語コンピューティング協会の共同プロジェクトであり、文学データと言語データの共通交換フォーマットを提供することを目的としていました。

この取り組みでは、時間の経過とともに、品詞や統語的・意味的構造のさまざまな側面など、合意に基づいて承認された言語的特徴を反映した注釈を追加することを計画しました。^{[ 2 ]}

例

ACL/DCIの活用例として、音声認識研究におけるウォール・ストリート・ジャーナル（WSJ）コーパスが挙げられます。WSJコーパスは、 DARPA音声言語システム（SLS）^[⁹^]コミュニティの連続音声認識（CSR）コーパス^[¹⁰^]の基礎として利用されました。WSJコーパスは音声認識システムの評価における標準的なベンチマークとなり、数多くの研究論文で使用されています。

WSJ CSRコーパスは、1987年から1989年にかけて、DARPAに初めて提供された汎用英語、大語彙、自然言語、高パープレキシティのコーパスで、音声（400時間）とテキスト（4700万語）を収録していました。テキストコーパスのサイズは313MBでした。^{[ 10 ]}

テキストは、読者が選択する可能性のある単語の並びの曖昧さを排除するために前処理され、言語モデルの学習に使用された未読テキストが、試験音声資料の代表性を確保することとなった。前処理には、数字の正書法への変換、略語の展開、アポストロフィと引用符の解決、句読点のマーク付けなどが含まれていた。^{[ 10 ]}

別の例として、ヤロウスキーアルゴリズムはDCIからのバイテキストデータを使用して、より小規模なデータセットで訓練された高度なモデルと競合できる単純な単語意味の曖昧性解消モデルを訓練しました。^{[ 11 ]}

分布

ACL/DCIコレクションの資料は、非営利目的で研究グループに配布されました。1990年までに、約25の研究グループと個人研究者が、収集された資料の様々な部分を収録したテープを受け取りました。^{[ 2 ]}

データを入手するには、研究者はデータの再配布や直接的な商業利用を行わないという契約に署名する必要がありました。ただし、統計表や文法規則など、テキストから派生した「分析資料」の商業利用は明示的に許可されていました。^{[ 2 ]}

この取り組みは当初、12インチリールの9トラックテープでデータを配布し、その後CD-ROMに移行しました。各テープには、レンペル・ジブアルゴリズムによって圧縮された3000万語を収録できました。^{[ 2 ]}最初のCD-ROM配布は1991年にドラゴンシステムズ社の資金提供を受けて行われました。これには、コリンズ英語辞典、ウォール・ストリート・ジャーナル、米国エネルギー省提供の科学論文抄録、そしてペン・ツリーバンクが含まれていました。^{[ 4 ]}

参照

参考文献

^言語データコンソーシアム (1993)、ACL/DCI、言語データコンソーシアム、doi : 10.35111/VDFV-AV77
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k Liberman, Mark Y. (1990). 「ACLデータ収集イニシアチブ」.第5回エルサレム情報技術会議議事録. IEEE. pp. 781– 786.
^ ^a ^b ^c ^dリーバーマン、マーク (1989). 「Text on Tap: the ACL/DCI」.音声と自然言語：マサチューセッツ州ケープコッドで開催されたワークショップの議事録、1989年10月15～18日. pp. 173～ 178.
^ ^a ^b ACL/DCI CD-ROM 1のREADMEファイル、1991年9月
^ MacWhinney, Brian; Snow, Catherine (1990年6月). 「児童言語データ交換システム：最新情報」 . Journal of Child Language . 17 (2): 457– 472. doi : 10.1017/ S0305000900013866 . ISSN 0305-0009 . PMC 9807025. PMID 2380278 .
^ハンブルトン、ジェームズ・E.「法務省における法情報：Juris」 Law Libr. J. 69 (1976): 199。
^ Church, Kenneth W.; Mercer, Robert L. (1993). Hirschberg, Julia (編). 「大規模コーパスを用いた計算言語学特集号の紹介」 .計算言語学. 19 (1): 1– 24.
^ 「Linguistic Data Consortium - Linguistic Data Consortium」 . catalog.ldc.upenn.edu . 2025年3月26日閲覧。
^ Sears, J. Allen (1988年11月1日). 「DARPA音声言語システムプログラム：過去、現在、そして未来」 .アメリカ音響学会誌. 84 (S1): S188. doi : 10.1121/1.2026042 . ISSN 0001-4966 .
^ ^a ^b ^cポール・ダグラス・B; ベイカー・ジャネット (1992). 「ウォール・ストリート・ジャーナルに基づくCSRコーパスの設計」.音声と自然言語：1992年2月23～26日にニューヨーク・ハリマンで開催されたワークショップの議事録.
^ Gale, William A.; Church, Kenneth W.; Yarowsky, David (1992年12月). 「大規模コーパスにおける語義の曖昧性解消法」 . Computers and the Humanities . 26 ( 5–6 ): 415–439 . doi : 10.1007/bf00136984 . ISSN 0010-4817 .

[1] 言語データコンソーシアム (1993)、ACL/DCI、言語データコンソーシアム、doi : 10.35111/VDFV-AV77

[liberman1990-2] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k Liberman, Mark Y. (1990). 「ACLデータ収集イニシアチブ」.第5回エルサレム情報技術会議議事録. IEEE. pp. 781– 786.

[liberman1989-3] リーバーマン、マーク (1989). 「Text on Tap: the ACL/DCI」.音声と自然言語：マサチューセッツ州ケープコッドで開催されたワークショップの議事録、1989年10月15～18日. pp. 173～ 178.

[:0-4] ACL/DCI CD-ROM 1のREADMEファイル、1991年9月

[5] MacWhinney, Brian; Snow, Catherine (1990年6月). 「児童言語データ交換システム：最新情報」 . Journal of Child Language . 17 (2): 457– 472. doi : 10.1017/ S0305000900013866 . ISSN 0305-0009 . PMC 9807025. PMID 2380278 .

[6] ハンブルトン、ジェームズ・E.「法務省における法情報：Juris」 Law Libr. J. 69 (1976): 199。

[7] Church, Kenneth W.; Mercer, Robert L. (1993). Hirschberg, Julia (編). 「大規模コーパスを用いた計算言語学特集号の紹介」 .計算言語学. 19 (1): 1– 24.

[8] 「Linguistic Data Consortium - Linguistic Data Consortium」 . catalog.ldc.upenn.edu . 2025年3月26日閲覧。

[9] Sears, J. Allen (1988年11月1日). 「DARPA音声言語システムプログラム：過去、現在、そして未来」 .アメリカ音響学会誌. 84 (S1): S188. doi : 10.1121/1.2026042 . ISSN 0001-4966 .

[paul1992-10] ポール・ダグラス・B; ベイカー・ジャネット (1992). 「ウォール・ストリート・ジャーナルに基づくCSRコーパスの設計」.音声と自然言語：1992年2月23～26日にニューヨーク・ハリマンで開催されたワークショップの議事録.

[11] Gale, William A.; Church, Kenneth W.; Yarowsky, David (1992年12月). 「大規模コーパスにおける語義の曖昧性解消法」 . Computers and the Humanities . 26 ( 5–6 ): 415–439 . doi : 10.1007/bf00136984 . ISSN 0010-4817 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[

[

[ 11 ]