| 会社の種類 | 非営利 |
|---|---|
| 業界 | 人工知能 |
| 創設者 |
|
| Webサイト | ライオン |
LAION ( Large-scale Artificial Intelligence Open Networkの略)は、オープンソースの人工知能モデルとデータセットを作成するドイツの非営利団体です。[1] Webから収集した画像やキャプションの大規模なデータセットを多数公開していることでよく知られており、これらのデータセットは、 Stable DiffusionやImagenなど、多くの有名なテキスト画像変換モデルのトレーニングに使用されています。[2] [3]
2023年2月、LAIONはゲッティイメージズによるStable Diffusionに対する訴訟において非当事者として名指しされた。[4] 2023年4月、LAIONは、自身の画像をトレーニングセットから削除するよう求めるドイツ人写真家から直接訴えられた。[5] 2024年9月、ハンブルク地方裁判所は訴訟を棄却した。これは、ドイツおよびEU全体における「AIトレーニングデータに対するTDM(テキストおよびデータマイニング)の例外に関する画期的な判決」と評された。[6]
2023年4月15日、LAIONとその貢献者は、OpenAssistantと呼ばれるオープンソースのAIアシスタントチャットボットを一般公開しました。
画像データセット
LAIONは、AI研究者によって広く利用されている画像とキャプションのペアからなる大規模なデータセットを多数公開している。[要出典]このデータは、スクレイピングされたウェブページのデータセットであるCommon Crawlから取得されている。開発者は、クロールされたHTMLから<img>タグを検索し、そのalt属性をキャプションとして扱った。また、 CLIPを用いて、キャプションと一致しない画像を特定し、破棄した。[7] LAIONはスクレイピングされた画像自体のコンテンツをホストしているわけではなく、データセットには画像を指すURLが含まれており、研究者は自分でダウンロードする必要がある。[8]
最初のデータセットであるLAION-400Mは2021年8月に公開され、4億点の画像キャプションのペアで構成されていました。これらのペアは、Common Crawlによって2014年から2021年の間にスクレイピングされたウェブページのランダムなサブセットから抽出されました。[9]これは、OpenAIがCLIPモデルのトレーニングに使用した4億点の画像キャプションのペアを収集するために使用したプロセスを再現する試みでした。OpenAIはモデルのコードと重みをオープンソース化することを選択しましたが、トレーニングデータセットはオープンソース化しませんでした。[7] Google Brainが2022年に発表したテキスト画像変換モデルであるImagenは、LAION-400Mと非公開の内部データセットを組み合わせてトレーニングされました。 [10]
50億以上のペアの後継であるLAION-5Bは、2022年3月にリリースされました。[11]リリース時点では、無料で利用できる画像とキャプションのペアのデータセットとしては最大でした。[7]その作成は、Doodlebot、 Hugging Face、およびこのデータセットでトレーニングされたStable Diffusionテキスト画像変換モデルの資金提供元であるAI企業Stability AIによって資金提供されました。 [12]
批判
いくつかの研究によると、LAION-5Bの画像には、レイプ、ポルノ、悪意のあるステレオタイプ、人種差別や民族差別的な中傷、その他極めて問題のある内容を含む問題のある画像やテキストが含まれていることが示されています。[13] [14]
バイエルン放送の調査によると、Hugging FaceにホストされているLAIONのデータセットには、公共のウェブサイトから収集された大量の個人情報や機密データが含まれていることが明らかになりました。[15]
2023年12月、スタンフォード・インターネット・オブザーバトリーはLAION-5Bに関する報告書を発表し、児童性的虐待コンテンツへのリンクが疑われる事例が3,226件見つかり、そのうち1,008件は外部機関によって検証済みであることが判明しました。これを受けて、LAIONは「違法コンテンツに対するゼロトレランスポリシー」と「十分な注意」を理由に、LAION-5BとLAION-400Mを一時的に削除しました。[16] 2024年8月、LAIONはRe-LAION-5Bと呼ばれるクリーンアップされたデータセットを公開しました。[17]
オープンアシスタント
| オープンアシスタント | |
|---|---|
データ収集ウェブポータルのスクリーンショット | |
| 開発者 | LAIONと貢献者 |
| 初回リリース | 2023年4月15日 ( 2023-04-15 ) |
| タイプ | |
| ライセンス | Apacheライセンス2.0 |
| Webサイト | オープンアシスタント.io |
OpenAssistantは、タスクを理解し、サードパーティのシステムと対話し、そのために動的に情報を取得できるオープンソースの人工知能(AI)チャットベースのアシスタントでした。このプロジェクトは、LAIONと共同でボランティアのグループによって開発されました。開発目標の1つは、消費者向けハードウェアでローカルに実行できる大規模な言語モデルへの無料アクセスでした。 [18] [19]このプロジェクトは、13,500人以上のボランティアが参加する世界的なクラウドソーシングの取り組みによって支援され、60万の人間生成データポイントが作成されました。[19] [20]その後、プロジェクトは閉鎖されましたが、データセットとモデルはHugging Faceで引き続き利用できます。
参照
参考文献
- ^ 「About」. LAION.ai . 2022年9月26日閲覧。
- ^ Edwards, Benj (2022年9月15日). 「AI画像ジェネレーターはあなたのアートを同化しましたか?新しいツールで確認できます」Ars Technica .
- ^ ニューマン、マリッサ、キャントリル、アギー(2023年4月24日)「AIの未来は高校教師の無料データベースにかかっている」ブルームバーグニュース。 2023年4月24日閲覧。
- ^ 「Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135」。CourtListener 。2023年2月8日閲覧。
- ^ 「写真家がAIデータセットから自分の写真を削除しようとしたが、代わりに請求書が届いた」Vice、2023年4月28日。 2023年5月4日閲覧。
- ^ Goldstein, Paul ; Stuetzle, Christiane ; Bischoff, Susan (2024年11月13日). 「Kneschke vs. LAION - AIトレーニングデータにおけるTDM例外に関する画期的な判決 – パート1」Kluwer Copyright Blog . 2024年11月25日閲覧。
- ^ abc Alford, Anthony (2022年5月17日). 「LAIONが50億枚の画像とテキストのペアからなるデータセットLAION-5Bをリリース」InfoQ .
- ^ Edwards, Benj (2022年9月21日). 「アーティストが人気のAIトレーニングデータセットで個人の医療記録写真を発見」Ars Technica .
- ^ シューマン、クリストフ (2021 年 8 月 8 日)。 「LAION-4億-百万のオープンデータセット」。LAIONブログ。2022 年9 月 26 日に取得。
- ^ チトワン州サハリア;チャン、ウィリアム。サクセナ、サウラブ。リー、ララ。ワン、ジェイ。デントン、エミリー。カムヤル・セイド・ガセミプール、セイド。カラゴル・アヤン、ブルク。サラ・マハダヴィ、S.ゴンティホ・ロペス、ラファ。サリマンズ、ティム。やあ、ジョナサン。 J・フリート、デヴィッド;ノルージ、モハマド(2022年5月23日)。 「深い言語理解によるフォトリアリスティックなテキストから画像への拡散モデル」。arXiv : 2205.11487 [cs.CV]。
- ^ Beaumont, Romain (2022年3月3日). 「LAION-5B:オープンな大規模マルチモーダルデータセットの新時代」. LAIONブログ.
- ^ Wiggers, Kyle (2022年8月12日). 「このスタートアップはDALL-E 2のようなAIを解放しようとしている。どんな結果になっても構わない」TechCrunch .
- ^ Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). 「マルチモーダルデータセット:女性蔑視、ポルノ、そして悪性ステレオタイプ」arXiv : 2110.01963 .
{{cite journal}}:ジャーナルを引用するには|journal=(ヘルプ)が必要です - ^ ビルハネ、アベバ;プラブ、ヴィナイ;ハン、サン。ボデティ、ヴィシュヌ・ナレシュ。ルッチョーニ、アレクサンドラ サーシャ(2023-11-06)、LAION の巣窟へ: マルチモーダル データセットにおける憎悪の調査、arXiv : 2311.03449
- ^ ブルナー、カタリーナ;ハーラン、エリサ (2023-06-07)。 「私たちは皆、AIの原料です。」バイエルン国立競技場。
- ^ Cole, Samantha (2023年12月20日). 「児童性的虐待資料の発見後、AI画像に活用される最大のデータセットが削除される」. 404 Media . 2023年12月22日閲覧。
- ^ Belanger, Ashley (2024年8月30日). 「非営利団体が物議を醸すAIトレーニングデータセットから違法コンテンツを削除」Ars Technica . 2024年8月31日閲覧。
- ^ Open-Assistant、LAION AI、2023年3月9日、 2023年3月9日閲覧
- ^ ab ケプフ、アンドレアス;キルチャー、ヤニック。フォン・リュッテ、ディミトリ。アナグノスティディス、ソティリス。タム、ジールイ。スティーブンス、キース。バルフム、アブドラ。ドック、グエン・ミン。スタンリー、オリバー。ナジフィ、リチャード。 ES、シャフル。スリ、サミール。グルシコフ、デビッド。ダントゥルリ、アルナブ;マグワイア、アンドリュー (2023-04-14)。 「OpenAssistant の会話 -- 大規模言語モデルの調整の民主化」。arXiv : 2304.07327 [cs.CL]。
- ^ 「Open Assistant:オープンで協調的なチャットボット開発の可能性を探る」KDnuggets . 2023年5月5日閲覧。[永久リンク切れ]