ライオン

ライオン
会社の種類非営利
業界人工知能
創設者
  • クリストフ・シューマン
  • ジェニア・ジツェフ
  • リチャード・ベンク
  • ロバート・カチマルチク
  • テオ・クームズ
  • メディ・チェルティ
  • アーラッシュ・カッタ
  • ヤン・エバート
Webサイトライオン.ai ウィキデータで編集する

LAION ( Large-scale Artificial Intelligence Open Networkの略)は、オープンソースの人工知能モデルとデータセットを作成するドイツの非営利団体です。[ 1 ] Webから収集した画像とキャプションの大規模なデータセットを多数公開していることで最もよく知られており、これらのデータセットは、 Stable DiffusionImagenなど、多くの有名なテキスト画像変換モデルのトレーニングに使用されています。[ 2 ] [ 3 ]

2023年2月、LAIONはゲッティイメージズによるStable Diffusionに対する訴訟で非当事者として名指しされた。[ 4 ] 2023年4月、LAIONは、自分の画像をトレーニングセットから削除することを望んでいたドイツ人写真家から直接訴えられた。[ 5 ] 2024年9月、ハンブルク地方裁判所は訴訟を棄却した。これは、ドイツおよびEU全体における「AIトレーニングデータに対するTDM(テキストおよびデータマイニング)の例外に関する画期的な判決」と評された。[ 6 ]

2023年4月15日、LAIONとその貢献者は、OpenAssistantと呼ばれるオープンソースのAIアシスタントチャットボットを一般公開しました。

画像データセット

LAIONは、AI研究者によって広く利用されている画像とキャプションのペアからなる大規模なデータセットを多数公開しています。このデータは、スクレイピングされたウェブページのデータセットであるCommon Crawlから取得されています。開発者は、クロールされたHTMLから<img>タグを検索し、そのalt属性をキャプションとして扱いました。また、キャプションと一致しない画像を特定し、破棄するためにCLIPを使用しました。 [ 7 ] LAIONはスクレイピングされた画像自体のコンテンツをホストしているわけではなく、データセットには画像を指すURLが含まれており、研究者は自分でダウンロードする必要があります。[ 8 ]

最初のデータセットであるLAION-400Mは2021年8月に公開され、4億点の画像キャプションのペアで構成されていました。これらのペアは、Common Crawlによって2014年から2021年の間にスクレイピングされたウェブページのランダムなサブセットから抽出されました。[ 9 ]これは、OpenAIがCLIPモデルのトレーニングに使用した4億点の画像キャプションのペアを収集するために使用したプロセスを再現する試みでした。OpenAIはモデルのコードと重みをオープンソース化することを選択しましたが、トレーニングデータセットはオープンソース化しませんでした。[ 7 ] Google Brainが2022年に発表したテキストから画像への変換モデルであるImagenは、LAION-400Mと非公開の内部データセットを組み合わせてトレーニングされました。[ 10 ]

50億以上のペアの後継であるLAION-5Bは、2022年3月にリリースされました。[ 11 ]リリース時点では、無料で利用できる画像とキャプションのペアのデータセットとしては最大でした。[ 7 ]その作成は、Doodlebot、 Hugging Face、およびこのデータセットでトレーニングされたStable Diffusionテキスト画像変換モデルの資金提供元であるAI企業Stability AIによって資金提供されました。 [ 12 ]

批判

いくつかの研究によると、LAION-5Bの画像には、レイプ、ポルノ、悪意のあるステレオタイプ、人種差別や民族差別的な中傷、その他の非常に問題のあるコンテンツを含む問題のある画像とテキストが含まれています。[ 13 ] [ 14 ]

バイエルン放送の調査によると、Hugging FaceにホストされているLAIONのデータセットには、公共のウェブサイトから収集された大量の個人情報や機密データが含まれていることが明らかになりました。[ 15 ]

2023年12月、スタンフォード・インターネット・オブザーバトリーはLAION-5Bに関する報告書を発表し、児童性的虐待コンテンツへのリンクが疑われる事例が3,226件見つかり、そのうち1,008件は外部機関によって検証済みであることが判明しました。これを受けて、LAIONは「違法コンテンツに対するゼロトレランスポリシー」と「十分な注意」を理由に、LAION-5BとLAION-400Mを一時的に削除しました。[ 16 ] 2024年8月、LAIONはRe-LAION-5Bと呼ばれるクリーンアップされたデータセットを公開しました。[ 17 ]

オープンアシスタント

オープンアシスタント
開発者LAIONと貢献者
初回リリース2023年4月15日 ( 2023-04-15 )
タイプ
ライセンスApacheライセンス2.0
Webサイトオープンアシスタント.io

OpenAssistantは、タスクを理解し、サードパーティのシステムと対話し、そのために情報を動的に取得できるオープンソースのチャットベースの人工知能(AI)アシスタントでした。このプロジェクトは、LAIONと共同でボランティアのグループによって開発されました。開発の目標の1つは、消費者向けハードウェアでローカルに実行できる大規模な言語モデルへの無料アクセスでした。 [ 18 ] [ 19 ]このプロジェクトは、13,500人以上のボランティアが参加する世界的なクラウドソーシングの取り組みによって支援され、60万の人間生成データポイントが作成されました。[ 19 ] [ 20 ]その後、プロジェクトは閉鎖されましたが、データセットとモデルはHugging Faceで引き続き利用できます。

参照

参考文献

  1. ^ 「About」 . LAION.ai . 2022年9月26日閲覧
  2. ^エドワーズ、ベンジ(2022年9月15日)「AI画像ジェネレーターはあなたのアートを同化しましたか?新しいツールで確認できますArs Technica
  3. ^ニューマン、マリッサ、キャントリル、アギー(2023年4月24日)。「AIの未来は高校教師の無料データベースにかかっている」ブルームバーグニュース。 2023年4月24日閲覧
  4. ^ 「Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135」。CourtListener 2023年2月8日閲覧
  5. ^ 「写真家がAIデータセットから自分の写真を削除しようとしたが、代わりに請求書が届いた」 Vice 2023年4月28日。 2023年5月4日閲覧
  6. ^ Goldstein, Paul ; Stuetzle, Christiane ; Bischoff, Susan (2024年11月13日). 「Kneschke vs. LAION - AIトレーニングデータにおけるTDM例外に関する画期的な判決 – パート1」 . Kluwer Copyright Blog . 2024年11月25日閲覧
  7. ^ a b c Alford, Anthony (2022年5月17日). 「LAIONが50億の画像テキストペアデータセットLAION-5Bをリリース」 . InfoQ .
  8. ^エドワーズ、ベンジ(2022年9月21日)「アーティストが人気のAIトレーニングデータセットで個人の医療記録写真を発見Ars Technica
  9. ^シューマン、クリストフ (2021 年 8 月 8 日)。「LAION-4 億オープン データセット」LAIONブログ2022 年9 月 26 日に取得
  10. ^チトワン州サハリア;チャン、ウィリアム。サクセナ、サウラブ。リー、ララ。ワン、ジェイ。デントン、エミリー。カムヤール・セイド・ガセミプール、セイド。カラゴル・アヤン、ブルク。サラ・マハダヴィ、S.ゴンティホ・ロペス、ラファ。サリマンズ、ティム。やあ、ジョナサン。 J・フリート、デヴィッド;ノルージ、モハマド(2022年5月23日)。 「深い言語理解によるフォトリアリスティックなテキストから画像への拡散モデル」。arXiv : 2205.11487 [ cs.CV ]。
  11. ^ Beaumont, Romain (2022年3月3日). 「LAION-5B:オープンな大規模マルチモーダルデータセットの新時代」 LAIONブログ.
  12. ^ Wiggers, Kyle (2022年8月12日). 「このスタートアップはDALL-E 2のようなAIを解放しようとしている。どんな結果になっても構わない」 TechCrunch .
  13. ^ Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). 「マルチモーダルデータセット:女性蔑視、ポルノ、そして悪性ステレオタイプ」arXiv : 2110.01963 .{{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  14. ^ビルハネ、アベバ;プラブ、ヴィナイ;ハン、サン。ボデティ、ヴィシュヌ・ナレシュ。ルッチョーニ、アレクサンドラ サーシャ(2023-11-06)、LAION の巣窟へ: マルチモーダル データセットにおける憎悪の調査arXiv : 2311.03449
  15. ^ブルナー、カタリーナ;ハーラン、エリサ (2023-06-07)。「私たちは皆、AI の原材料です。 」バイエルン国立競技場
  16. ^ Cole, Samantha (2023年12月20日). 「児童性的虐待資料の発見後、AI画像に活用される最大規模のデータセットが削除される」 . 404 Media . 2023年12月22日閲覧
  17. ^ Belanger, Ashley (2024年8月30日). 「非営利団体が物議を醸すAIトレーニングデータセットから違法コンテンツを削除」 Ars Technica . 2024年8月31日閲覧
  18. ^ Open-Assistant、LAION AI、2023年3月9日、 2023年3月9日閲覧
  19. ^ a bキョプフ、アンドレアス;キルチャー、ヤニック。フォン・リュッテ、ディミトリ。アナグノスティディス、ソティリス。タム、ジールイ。スティーブンス、キース。バルフム、アブドラ。ドック、グエン・ミン。スタンリー、オリバー。ナジフィ、リチャード。 ES、シャフル。スリ、サミール。グルシコフ、デビッド。ダントゥルリ、アルナブ;マグワイア、アンドリュー (2023-04-14)。 「OpenAssistant の会話 -- 大規模言語モデルの調整の民主化」。arXiv : 2304.07327 [ cs.CL ]。
  20. ^ 「Open Assistant:オープンで協調的なチャットボット開発の可能性を探る」 KDnuggets 2023年5月5日閲覧