コモンクロール

コモンクロール
事業の種類	501(c)(3)非営利団体
設立	2007
本部	サンフランシスコ、カリフォルニア州、ロサンゼルス、アメリカ合衆国
創設者	ジル・エルバス
主要人物	ピーター・ノーヴィグ、リッチ・スクレンタ、エヴァ・ホー
URL	コモンクロール.org
コンテンツライセンス	Apache 2.0 (ソフトウェア)

Common Crawlは、ウェブをクロールし、そのアーカイブとデータセットを一般に無料で提供する非営利の 501(c)(3)組織です。 ^[¹^]^[²^]

Common Crawlはギル・エルバスによって設立されました。^{[ 1 ]}^{[ 2 ]}エルバス・ファミリー財団トラストとAI業界からの多額の寄付によって資金提供されています。^{[ 3 ]}

Common Crawlによってアーカイブされたコンテンツはミラーリングされ^{[ 4 ]} 、 Wayback Machineでオンライン公開されています^{[ 5 ]}。研究者やAI企業による大規模言語モデルの学習に利用されています^[³^]。

2025年11月、アトランティック誌の調査により、コモン・クロールがスクレイピングにおいてペイウォールを尊重し、出版社からデータベースからコンテンツを削除するよう求める要請に応じていると主張していたのは嘘だったことが明らかになった。^{[ 6 ]}^{[ 3 ]}

歴史

この非営利団体の顧問にはピーター・ノーヴィグ氏や伊藤穰一氏などが含まれている。^{[ 7 ]}

2013年までに、TinEyeのようなサイトはCommon Crawlをベースに製品を構築していました。^{[ 8 ]}

2016年現在、Common Crawlデータセットには著作権で保護された作品が含まれており、米国からフェアユースの権利に基づいて配布されています。他の国の研究者は、文章のシャッフルやCommon Crawlデータセットへの参照といった手法を用いて、他の法域の著作権法を回避しています。^{[ 9 ]}

2020年に発表されたOpenAIのGPT-3言語モデルのトレーニングには、Common Crawlのフィルタリングバージョンが使用されました。^{[ 10 ]} 2023年には、 AnthropicやOpenAIなどのAI企業からそれぞれ25万ドルの寄付を受けるなど、多額の資金援助を受け始めました。^{[ 3 ]}

2024年現在、Common Crawlは10,000件以上の学術研究で引用されています。^{[ 11 ]}

2025年11月、テクノロジージャーナリストのアレックス・ライスナー氏がアトランティック誌に寄稿した調査で、コモン・クロールがスクレイピングにおいてペイウォールを尊重し、出版社からデータベースからコンテンツを削除するよう求める要請を受け入れていると主張していたのは嘘だったことが明らかになった。^{[ 3 ]}同社のウェブサイトの公開検索機能には、アーカイブの削除を要請したウェブサイトのエントリが表示されず、誤解を招くような結果が表示されていたが、実際には、それらのサイトはAI企業が使用するスクレイピングにまだ含まれていた。^{[ 3 ]}

巨大なクリーンクロールコーパス

Google版Common Crawlは、Colossal Clean Crawled Corpus（略してC4）と呼ばれています。これは2019年にT5言語モデルシリーズのトレーニング用に構築されました。^{[ 12 ]} C4に含まれる著作権で保護されたコンテンツについては、懸念がいくつか存在します。^{[ 13 ]}ある調査によると、営利企業によるAIトレーニングなどの目的で、報酬なしでスクレイピングされることを望まないウェブサイトによって、コンテンツの45%が明示的に制限されていることがわかりました。^{[ 11 ]}

参照

参考文献

^ ^a ^b Rosanna Xia (2012年2月5日). 「テック起業家のギル・エルバスがロサンゼルスで大成功を収める」ロサンゼルス・タイムズ. 2014年7月31日閲覧。
^ ^a ^b「ギル・エルバスとコモン・クロール」 NBCニュース、2013年4月4日。 2014年7月31日閲覧。
^ ^a ^b ^c ^d ^e ^f Reisner, Alex (2025年11月4日). 「企業はAI開発者に有料記事をひっそりと配信している」 .アトランティック誌. 2025年11月14日閲覧。
^ Leetaru, Kalev (2016年1月28日). 「インターネット・アーカイブ20周年：ウェブアーカイブの舞台裏」 . Forbes (寄稿) . 2017年10月16日時点のオリジナルよりアーカイブ。 2017年10月16日閲覧。
^ 「インターネットアーカイブ：無料で借りられるテキスト、映画、音楽、ウェイバックマシンのデジタルライブラリ」 . archive.org . 2025年5月26日閲覧。
^ニブス、ケイト. 「出版社、AIトレーニングデータ争奪戦でCommon Crawlをターゲットに」 . Wired . ISSN 1059-1028 . 2025年12月10日閲覧。
^ Tom Simonite (2013年1月23日). 「Web全体の無料データベースが次世代のGoogleを生み出す可能性」 . MIT Technology Review. 2014年6月26日時点のオリジナルよりアーカイブ。 2014年7月31日閲覧。
^ Brandom, Russell (2013年3月1日). 「Common Crawl: 非営利予算でGoogleを追う」 The Verge . 2025年12月10日閲覧。
^ Schäfer, Roland (2016年5月). 「CommonCOW: CommonCrawlデータから得られる膨大なウェブコーパスと、EUの著作権法の制限下でそれらを自由に配布する方法」 .第10回国際言語資源評価会議 (LREC'16) 議事録. ポルトロス（スロベニア）：欧州言語資源協会 (ELRA): 4501.
^ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (2020-06-01). 「言語モデルは少数ショット学習者」. p. 14. arXiv : 2005.14165 [ cs.CL ].データの大部分は、品質に基づくフィルタリングのみを適用した生のCommon Crawlから取得されています。
^ ^a ^bケビン・ルース（2024年7月19日）「AIの原動力となるデータは急速に消えつつある」ニューヨーク・タイムズ。
^ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). 「統合テキスト・ツー・テキスト・トランスフォーマーによる転移学習の限界の探究」 . Journal of Machine Learning Research . 21 (140): 1– 67. arXiv : 1910.10683 . ISSN 1533-7928 .
^ Hern, Alex (2023年4月20日). 「AIシステムのトレーニング教材のソースをめぐる新たな懸念」 . The Guardian . ISSN 0261-3077 . 2023年4月21日閲覧。

外部リンク

公式サイト
クローラー、ライブラリ、サンプルコードを含むCommon Crawl GitHub リポジトリ

[latimes-1] Rosanna Xia (2012年2月5日). 「テック起業家のギル・エルバスがロサンゼルスで大成功を収める」ロサンゼルス・タイムズ. 2014年7月31日閲覧。

[pressheretv-2] 「ギル・エルバスとコモン・クロール」 NBCニュース、2013年4月4日。 2014年7月31日閲覧。

[:1-3] ^ ^a ^b ^c ^d ^e ^f Reisner, Alex (2025年11月4日). 「企業はAI開発者に有料記事をひっそりと配信している」 .アトランティック誌. 2025年11月14日閲覧。

[4] Leetaru, Kalev (2016年1月28日). 「インターネット・アーカイブ20周年：ウェブアーカイブの舞台裏」 . Forbes (寄稿) . 2017年10月16日時点のオリジナルよりアーカイブ。 2017年10月16日閲覧。

[5] 「インターネットアーカイブ：無料で借りられるテキスト、映画、音楽、ウェイバックマシンのデジタルライブラリ」 . archive.org . 2025年5月26日閲覧。

[6] ニブス、ケイト. 「出版社、AIトレーニングデータ争奪戦でCommon Crawlをターゲットに」 . Wired . ISSN 1059-1028 . 2025年12月10日閲覧。

[technologyreview-7] Tom Simonite (2013年1月23日). 「Web全体の無料データベースが次世代のGoogleを生み出す可能性」 . MIT Technology Review. 2014年6月26日時点のオリジナルよりアーカイブ。 2014年7月31日閲覧。

[8] Brandom, Russell (2013年3月1日). 「Common Crawl: 非営利予算でGoogleを追う」 The Verge . 2025年12月10日閲覧。

[9] Schäfer, Roland (2016年5月). 「CommonCOW: CommonCrawlデータから得られる膨大なウェブコーパスと、EUの著作権法の制限下でそれらを自由に配布する方法」 .第10回国際言語資源評価会議 (LREC'16) 議事録. ポルトロス（スロベニア）：欧州言語資源協会 (ELRA): 4501.

[10] Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (2020-06-01). 「言語モデルは少数ショット学習者」. p. 14. arXiv : 2005.14165 [ cs.CL ].データの大部分は、品質に基づくフィルタリングのみを適用した生のCommon Crawlから取得されています。

[:2-11] ケビン・ルース（2024年7月19日）「AIの原動力となるデータは急速に消えつつある」ニューヨーク・タイムズ。

[:0-12] Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). 「統合テキスト・ツー・テキスト・トランスフォーマーによる転移学習の限界の探究」 . Journal of Machine Learning Research . 21 (140): 1– 67. arXiv : 1910.10683 . ISSN 1533-7928 .

[13] Hern, Alex (2023年4月20日). 「AIシステムのトレーニング教材のソースをめぐる新たな懸念」 . The Guardian . ISSN 0261-3077 . 2023年4月21日閲覧。

[

[

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]