| 会社の種類 | 非営利 |
|---|---|
| 業界 | 人工知能 |
| 創設者 |
|
| Webサイト | ライオン |
LAION ( Large-scale Artificial Intelligence Open Networkの略)は、オープンソースの人工知能モデルとデータセットを作成するドイツの非営利団体です。[ 1 ] Webから収集した画像とキャプションの大規模なデータセットを多数公開していることで最もよく知られており、これらのデータセットは、 Stable DiffusionやImagenなど、多くの有名なテキスト画像変換モデルのトレーニングに使用されています。[ 2 ] [ 3 ]
2023年2月、LAIONはゲッティイメージズによるStable Diffusionに対する訴訟で非当事者として名指しされた。[ 4 ] 2023年4月、LAIONは、自分の画像をトレーニングセットから削除することを望んでいたドイツ人写真家から直接訴えられた。[ 5 ] 2024年9月、ハンブルク地方裁判所は訴訟を棄却した。これは、ドイツおよびEU全体における「AIトレーニングデータに対するTDM(テキストおよびデータマイニング)の例外に関する画期的な判決」と評された。[ 6 ]
2023年4月15日、LAIONとその貢献者は、OpenAssistantと呼ばれるオープンソースのAIアシスタントチャットボットを一般公開しました。
LAIONは、AI研究者によって広く利用されている画像とキャプションのペアからなる大規模なデータセットを多数公開しています。このデータは、スクレイピングされたウェブページのデータセットであるCommon Crawlから取得されています。開発者は、クロールされたHTMLから<img>タグを検索し、そのalt属性をキャプションとして扱いました。また、キャプションと一致しない画像を特定し、破棄するためにCLIPを使用しました。 [ 7 ] LAIONはスクレイピングされた画像自体のコンテンツをホストしているわけではなく、データセットには画像を指すURLが含まれており、研究者は自分でダウンロードする必要があります。[ 8 ]
最初のデータセットであるLAION-400Mは2021年8月に公開され、4億点の画像キャプションのペアで構成されていました。これらのペアは、Common Crawlによって2014年から2021年の間にスクレイピングされたウェブページのランダムなサブセットから抽出されました。[ 9 ]これは、OpenAIがCLIPモデルのトレーニングに使用した4億点の画像キャプションのペアを収集するために使用したプロセスを再現する試みでした。OpenAIはモデルのコードと重みをオープンソース化することを選択しましたが、トレーニングデータセットはオープンソース化しませんでした。[ 7 ] Google Brainが2022年に発表したテキストから画像への変換モデルであるImagenは、LAION-400Mと非公開の内部データセットを組み合わせてトレーニングされました。[ 10 ]
50億以上のペアの後継であるLAION-5Bは、2022年3月にリリースされました。[ 11 ]リリース時点では、無料で利用できる画像とキャプションのペアのデータセットとしては最大でした。[ 7 ]その作成は、Doodlebot、 Hugging Face、およびこのデータセットでトレーニングされたStable Diffusionテキスト画像変換モデルの資金提供元であるAI企業Stability AIによって資金提供されました。 [ 12 ]
いくつかの研究によると、LAION-5Bの画像には、レイプ、ポルノ、悪意のあるステレオタイプ、人種差別や民族差別的な中傷、その他の非常に問題のあるコンテンツを含む問題のある画像とテキストが含まれています。[ 13 ] [ 14 ]
バイエルン放送の調査によると、Hugging FaceにホストされているLAIONのデータセットには、公共のウェブサイトから収集された大量の個人情報や機密データが含まれていることが明らかになりました。[ 15 ]
2023年12月、スタンフォード・インターネット・オブザーバトリーはLAION-5Bに関する報告書を発表し、児童性的虐待コンテンツへのリンクが疑われる事例が3,226件見つかり、そのうち1,008件は外部機関によって検証済みであることが判明しました。これを受けて、LAIONは「違法コンテンツに対するゼロトレランスポリシー」と「十分な注意」を理由に、LAION-5BとLAION-400Mを一時的に削除しました。[ 16 ] 2024年8月、LAIONはRe-LAION-5Bと呼ばれるクリーンアップされたデータセットを公開しました。[ 17 ]
| オープンアシスタント | |
|---|---|
データ収集ウェブポータルのスクリーンショット | |
| 開発者 | LAIONと貢献者 |
| 初回リリース | 2023年4月15日 ( 2023-04-15 ) |
| タイプ | |
| ライセンス | Apacheライセンス2.0 |
| Webサイト | オープンアシスタント |
OpenAssistantは、タスクを理解し、サードパーティのシステムと対話し、そのために情報を動的に取得できるオープンソースのチャットベースの人工知能(AI)アシスタントでした。このプロジェクトは、LAIONと共同でボランティアのグループによって開発されました。開発の目標の1つは、消費者向けハードウェアでローカルに実行できる大規模な言語モデルへの無料アクセスでした。 [ 18 ] [ 19 ]このプロジェクトは、13,500人以上のボランティアが参加する世界的なクラウドソーシングの取り組みによって支援され、60万の人間生成データポイントが作成されました。[ 19 ] [ 20 ]その後、プロジェクトは閉鎖されましたが、データセットとモデルはHugging Faceで引き続き利用できます。
{{cite journal}}:ジャーナルを引用するには|journal=(ヘルプ)が必要です