安定拡散

安定拡散
安定拡散
	テキストプロンプトに基づいてStable Diffusion 3.5で生成された画像a photograph of an astronaut riding a horse
原作者	Runway（企業）、CompVis、Stability AI
開発者	安定性AI
初回リリース	2022年8月22日
安定版リリース	SD 3.5（モデル） / 2024年10月22日
リポジトリ	github .com /安定性AI /生成モデル;
書かれた	パイソン
タイプ	テキストから画像へのモデル
ライセンス	安定性AIコミュニティライセンス
Webサイト	安定性.ai /stable-image

Stable Diffusionは、拡散技術に基づいて2022年にリリースされたディープラーニングによるテキスト画像変換モデルです。この生成型人工知能技術は Stability AIの主力製品であり、現在進行中のAIブームの一翼を担うものと考えられています。

これは主にテキストの説明を条件とした詳細な画像を生成するために使用されますが、インペインティング、アウトペインティング、テキストプロンプトによって誘導される画像間翻訳の生成などの他のタスクにも適用できます。^{[ 3 ]}開発には、LMUミュンヘンのCompVisグループとRunwayの研究者が参加し、Stabilityからの計算の寄付と非営利団体からのトレーニングデータが使用されました。^{[ 4 ]}^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}

Stable Diffusionは潜在拡散モデルであり、深層生成型人工ニューラルネットワークの一種です。そのコードとモデルの重みは公開されており[ ^{8 ] 、}最適化版は2.4GBのVRAMを搭載した中程度の GPUを搭載したほとんどのコンシューマーハードウェアで動作可能です^[⁹^]。これは、クラウドサービス経由でしかアクセスできなかったDALL-EやMidjourneyといった従来の独自仕様のテキスト画像変換モデルからの脱却を示しました^[¹⁰^]^[¹¹^]。

発達

^{Stable Diffusionは、}ドイツのミュンヘンにあるLMU Munichとハイデルベルク大学の研究者によって開発されたLatent Diffusion [ ¹²^]と呼ばれるプロジェクトから生まれました。元の5人の著者のうち4人（Robin Rombach、Andreas Blattmann、Patrick Esser、Dominik Lorenz）は後にStability AIに加わり、Stable Diffusionの後継バージョンをリリースしました。^[¹³^]

このモデルの技術ライセンスは、LMUミュンヘンのCompVisグループによってリリースされました。^{[ 11 ]}開発は、RunwayのPatrick Esser氏とCompVisのRobin Rombach氏が主導しました。この2人は、Stable Diffusionで使用されている潜在拡散モデルアーキテクチャを以前に発明した研究者の1人です。^{[ 7 ]} Stability AIはまた、EleutherAIとLAION（Stable Diffusionのトレーニングに使用されたデータセットをまとめたドイツの非営利団体）をプロジェクトの支援者として認めています。^{[ 7 ]}

テクノロジー

建築

2015年に導入された拡散モデルは、訓練画像にガウスノイズを連続的に適用して除去することを目的として学習されます。これは、ノイズ除去オートエンコーダのシーケンスと考えることができます。拡散モデルという名称は、熱力学から着想を得て最初に開発されたため、熱力学的拡散に由来しています。^{[ 14 ]}^{[ 15 ]}

SD 3以前の安定拡散シリーズのモデルはすべて、2021年にLMUミュンヘンのCompVis（コンピュータビジョン＆学習）^[¹⁶^]グループによって開発された潜在拡散モデル（LDM）と呼ばれる拡散モデルの変種を使用していました。^[¹⁷^]^[⁸^]

安定拡散は、変分オートエンコーダ（VAE）、U-Net、オプションのテキストエンコーダの3つの部分で構成されています。 ^{[ 18 ]} VAEエンコーダは、画像をピクセル空間からより低次元の潜在空間に圧縮し、画像のより基本的な意味を捉えます。^{[ 17 ]}ガウスノイズは、順方向拡散中に圧縮された潜在表現に反復的に適用されます。^{[ 18 ]} ResNetバックボーンで構成されるU-Netブロックは、順方向拡散からの出力を逆方向にノイズ除去して潜在表現を取得します。最後に、VAEデコーダは、表現をピクセル空間に変換することで最終画像を生成します。^{[ 18 ]}

ノイズ除去ステップは、テキスト文字列、画像、またはその他のモダリティに基づいて柔軟に条件付けできます。エンコードされた条件付けデータは、クロスアテンションメカニズムを介してノイズ除去U-Netに提示されます。^{[ 18 ]}テキスト条件付けには、固定された事前学習済みのCLIP ViT-L/14テキストエンコーダーを使用して、テキストプロンプトを埋め込み空間に変換します。^{[ 8 ]}研究者たちは、LDMの利点として、学習と生成における計算効率の向上を指摘しています。^{[ 7 ]}^{[ 17 ]}

U-Netのパラメータが8億6000万、テキストエンコーダのパラメータが1億2300万である安定拡散は、2022年の基準では比較的軽量であると考えられており、他の拡散モデルとは異なり、コンシューマー GPUで実行でき、^[¹⁹^] OpenVINOバージョンの安定拡散を使用する場合はCPUのみでも実行できます。^[²⁰^]

SD XL

XLバージョンは、以前のバージョンと同じLDMアーキテクチャを使用していますが^{[ 21 ]}、UNetバックボーンが大きく、クロスアテンションコンテキストが大きく、テキストエンコーダが1つではなく2つあり、複数のアスペクト比（以前のバージョンのような正方形のアスペクト比だけでなく）でトレーニングされています。

同時にリリースされた SD XL Refiner は SD XL と同じアーキテクチャを備えていますが、テキスト条件付き img2img を介して既存の画像に細かいディテールを追加するようにトレーニングされています。

SD 3.0

バージョン3.0 ^{[ 22 ]}ではバックボーンが完全に変更されました。UNetではなく、整流フロートランスフォーマーが採用され、整流フロー方式^{[ 23 ]}^{[ 24 ]}をトランスフォーマーで実装しています。

SD 3.0で使用されるTransformerアーキテクチャには、元のテキストエンコーディング、変換されたテキストエンコーディング、そして画像エンコーディング（潜在空間）の3つの「トラック」があります。変換されたテキストエンコーディングと画像エンコーディングは、各Transformerブロック内で混合されます。

このアーキテクチャは「マルチモーダル拡散トランスフォーマー（MMDiT）」と名付けられています。「マルチモーダル」とは、テキストエンコーディングと画像エンコーディングを演算処理内で混在させることを意味します。これは、テキストエンコーディングが画像エンコーディングに影響を与えるものの、その逆は起こらないという以前のバージョンのDiTとは異なります。

トレーニングデータ

Stable Diffusionは、ウェブからスクレイピングされたCommon Crawlデータから派生した公開データセットLAION-5Bから取得した画像とキャプションのペアでトレーニングされました。このデータセットでは、50億の画像とテキストのペアが言語に基づいて分類され、解像度、透かしが含まれる可能性の予測、および「美的」スコアの予測（主観的な視覚品質など）によって別々のデータセットにフィルタリングされました。^{[ 25 ]}データセットは、Stability AIから資金提供を受けているドイツの非営利団体LAIONによって作成されました。 ^{[ 25 ]}^{[ 26 ]} Stable Diffusionモデルは、LAION-5Bの3つのサブセット、laion2B-en、laion-high-resolution、およびlaion-aesthetics v2 5+でトレーニングされました。^{[ 25 ]}モデルのトレーニングデータに対する第三者による分析では、元のより広範なデータセットから抽出された1200万枚の画像のより小さなサブセットのうち、サンプルサイズの約47％の画像が100の異なるドメインからのものであり、Pinterestがサブセットの8.5％を占め、WordPress、Blogspot、Flickr、DeviantArt、Wikimedia Commonsなどのウェブサイトがそれに続いていることが判明しました。バイエルン放送の調査では、Hugging FaceでホストされているLAIONのデータセットには、大量の個人情報や機密データが含まれていることが示されました。^{[ 27 ]}

トレーニング手順

このモデルは、当初 laion2B-en と laion-high-resolution のサブセットでトレーニングされ、最後の数回のトレーニングは LAION-Aesthetics v2 5+ で行われました。これは、LAION-Aesthetics Predictor V2 が、人間が平均して、画像の好みを評価するよう求められた場合、少なくとも 10 点満点中 5 点を付けると予測した 6 億枚のキャプション付き画像のサブセットです。^{[ 28 ]}^{[ 25 ]}^{[ 29 ]} LAION-Aesthetics v2 5+ サブセットでは、低解像度の画像と、LAION-5B-WatermarkDetection が80% を超える確率で透かしが含まれていると識別した画像も除外されました。 ^{[ 25 ]}トレーニングの最終ラウンドでは、さらに、Classifier-Free Diffusion Guidance を改善するために、テキスト条件付けが 10% 削減されました。^{[ 30 ]}

このモデルは、Amazon Web Services上の256個の Nvidia A100 GPUを使用して、合計15万GPU時間、60万ドルの費用でトレーニングされました。 ^[³¹^]^[³²^]^[³³^]

制限事項

Stable Diffusionには、特定のシナリオにおいて品質の低下や不正確さの問題があります。モデルの初期リリースは、512×512解像度の画像で構成されるデータセットでトレーニングされていました。つまり、ユーザーの仕様が「期待される」512×512解像度から逸脱すると、生成される画像の品質が著しく低下します。^{[ 34 ]} Stable Diffusionモデルのバージョン2.0アップデートでは、後に768×768解像度の画像をネイティブに生成する機能が導入されました。^{[ 35 ]}もう一つの課題は、LAIONデータベースの四肢データの品質が低いため、人間の四肢を生成することです。^{[ 36 ]}データベースには代表的な特徴が不足しているため、モデルは人間の四肢や顔を再現するためのトレーニングが不十分であり、そのようなタイプの画像を生成するようにモデルに指示すると、モデルが混乱する可能性があります。^{[ 37 ]}人間の手足に加えて、Stable Diffusionは判読可能なアンビグラムやその他のテキストやタイポグラフィを生成することができません。2023年7月にリリースされたStable Diffusion XL（SDXL）バージョン1.0では、ネイティブ1024x1024解像度が導入され、手足とテキストの生成が改善されました。^{[ 38 ]}^{[ 39 ]}

個々の開発者にとってのアクセシビリティも問題となる可能性がある。データセットに含まれていないアニメキャラクターの生成（「waifu diffusion」）など、新しいユースケース向けにモデルをカスタマイズするには、 ^{[ 40 ]}新しいデータと追加のトレーニングが必要である。追加の再トレーニングを通じて作成された安定拡散の微調整された適応は、医療用画像^{[ 41 ]}からアルゴリズムで生成された音楽^{[ 42 ]}まで、さまざまなユースケースに使用されている。しかし、この微調整プロセスは新しいデータの品質に敏感であり、低解像度の画像や元のデータとは異なる解像度は、新しいタスクを学習できないだけでなく、モデルの全体的なパフォーマンスを低下させる可能性がある。モデルが高品質の画像で追加的にトレーニングされたとしても、個人が民生用電子機器でモデルを実行することは困難である。例えば、waifu-diffusionのトレーニングプロセスには最低30GBのVRAMが必要ですが^{[ 43 ]} 、これはNvidiaのGeForce 30シリーズなどのコンシューマーGPUに通常提供されるリソース（約12GBしかありません）を超えています。^{[ 44 ]}

Stable Diffusionの開発者は、このモデルが主に英語の説明が付いた画像で学習されたため、アルゴリズムによるバイアスの可能性を認めています。 ^{[ 32 ]}その結果、生成された画像は社会的バイアスを強化し、西洋的な視点からのものになります。開発者は、このモデルには他のコミュニティや文化のデータが欠けていると指摘しています。このモデルは、英語で書かれたプロンプトに対しては、他の言語で書かれたプロンプトと比較してより正確な結果を提供し、西洋文化や白人文化がデフォルトの表現となることが多いです。^{[ 32 ]}

エンドユーザーの微調整

モデルの初期トレーニングの限界に対処するため、エンドユーザーは追加のトレーニングを実施し、より具体的なユースケースに合わせて生成出力を微調整することができます。このプロセスはパーソナライゼーションとも呼ばれます。安定拡散モデルのチェックポイントにユーザーがアクセス可能な微調整を適用するには、以下の3つの方法があります。

「埋め込み」は、ユーザーが提供する画像のコレクションから学習させることができ、生成プロンプト内で埋め込みの名前が使用されるたびに、モデルが視覚的に類似した画像を生成することを可能にします。^{[ 45 ]}埋め込みは、2022年にテルアビブ大学の研究者が Nvidiaの支援を受けて開発した「テキスト反転」の概念に基づいています。この概念では、モデルのテキストエンコーダーで使用される特定のトークンのベクトル表現が、新しい疑似単語にリンクされます。埋め込みは、元のモデル内のバイアスを低減したり、視覚スタイルを模倣したりするために使用できます。^{[ 46 ]}
「ハイパーネットワーク」とは、大規模なニューラルネットワーク内の様々なポイントに適用される、事前学習済みの小規模なニューラルネットワークであり、NovelAIの開発者であるKurumuzが2021年に開発した技術を指し、元々はテキスト生成トランスフォーマーモデル向けに開発されました。ハイパーネットワークは結果を特定の方向に導き、安定拡散ベースのモデルが特定のアーティストのアートスタイルを模倣できるようにします。たとえ元のモデルがそのアーティストを認識していなくてもです。ハイパーネットワークは、髪や目などの重要な領域を見つけて画像を処理した後、これらの領域を二次潜在空間にパッチします。^{[ 47 ]}
DreamBoothは、2022年に Google Researchとボストン大学の研究者によって開発されたディープラーニング生成モデルであり、特定の被写体を描写した一連の画像によるトレーニングの後、モデルを微調整して、特定の被写体を描写する正確でパーソナライズされた出力を生成することができます。^{[ 48 ]}

機能

安定拡散モデルは、出力に含める要素または省略する要素を記述したテキストプロンプトを使用することで、ゼロから新しい画像を生成する機能をサポートしています。^{[ 8 ]}既存の画像は、テキストプロンプトで記述された新しい要素を組み込むようにモデルによって再描画されます（「ガイド付き画像合成」と呼ばれるプロセス^{[ 49 ]}）拡散ノイズ除去メカニズムを介して。^{[ 8 ]}さらに、このモデルでは、適切なユーザーインターフェース（このような機能をサポートするもの）と併用することで、プロンプトを使用して既存の画像を部分的にインペインティングおよびアウトペインティングによって変更することもできます。このような機能には、さまざまなオープンソース実装が存在します。^{[ 50 ]}

安定拡散は10GB以上のVRAMで実行することが推奨されますが、VRAMが少ないユーザーは、モデルのパフォーマンスとVRAM使用量のトレードオフとして、デフォルトのfloat32ではなくfloat16精度で重みをロードすることを選択できます。^[³⁴^]

テキストから画像への生成

ネガティブプロンプトがイメージ生成に与える影響の実証

上：否定プロンプトなし
中央：「緑の木々」
下：「丸い石、丸い岩」

Stable Diffusion内のテキストから画像へのサンプリングスクリプト（「txt2img」と呼ばれる）は、サンプリングタイプ、出力画像のサイズ、シード値などを含む様々なオプションパラメータに加えて、テキストプロンプトを使用します。スクリプトは、モデルによるプロンプトの解釈に基づいて画像ファイルを出力します。^{[ 8 ]}生成された画像には、Stable Diffusionによって生成された画像であることをユーザーが識別できるように、目に見えないデジタル透かしが付けられます。 ^{[ 8 ]}ただし、この透かしは、画像のサイズが変更されたり回転したりすると効果を失います。^{[ 51 ]}

txt2imgの各生成には、出力画像に影響を与える特定のシード値が含まれます。ユーザーは、異なる生成出力を調べるためにシードをランダム化することも、同じシードを使用して以前に生成された画像と同じ画像出力を得ることもできます。 ^{[ 34 ]}ユーザーはサンプラーの推論ステップ数を調整することもできます。値が高いほど時間がかかりますが、値が小さいと視覚的な欠陥が発生する可能性があります。^{[ 34 ]}もう一つの設定可能なオプションである分類器フリーのガイダンススケール値を使用すると、出力画像がプロンプトにどれだけ忠実であるかを調整できます。^{[ 30 ]}より実験的なユースケースでは低いスケール値を選択し、より具体的な出力を目指すユースケースでは高い値を使用する場合があります。^{[ 34 ]}

Stable Diffusionのフロントエンド実装では、text2imgの追加機能が提供されており、ユーザーはテキストプロンプトの特定の部分に与えられる重みを変更できます。強調マーカーを使用すると、キーワードを括弧で囲むことで、強調度を増減できます。^{[ 52 ]}プロンプトの一部に重みを調整する別の方法は、「ネガティブプロンプト」です。ネガティブプロンプトは、Stability AI独自のDreamStudioクラウドサービスを含む一部のフロントエンド実装に含まれる機能で、ユーザーは画像生成中にモデルが回避すべきプロンプトを指定できます。指定されたプロンプトは、ユーザーが提供したポジティブなプロンプト、またはモデルの元のトレーニング方法（よくある例として、人間の手が損傷しているもの）によって、画像出力内に存在する可能性のある望ましくない画像特徴である可能性があります。^{[ 50 ]}^{[ 53 ]}

画像の修正

img2imgの変更のデモンストレーション

左：Stable Diffusion 1.5で作成したオリジナル画像
右：Stable Diffusion XL 1.0で作成した修正画像

Stable Diffusionには、別のサンプリングスクリプト「img2img」も含まれています。このスクリプトは、テキストプロンプト、既存画像へのパス、そして0.0から1.0までの強度値を受け取ります。このスクリプトは、元の画像に基づいて、テキストプロンプトで指定された要素も含む新しい画像を出力します。強度値は、出力画像に追加されるノイズの量を示します。強度値が高いほど、画像内のバリエーションは多くなりますが、プロンプトの意味と一致しない画像が生成される場合があります。^{[ 8 ]}

img2imgを実行するには様々な方法があります。主な方法はSDEdit ^{[ 54 ]}で、最初に画像にノイズを追加し、その後text2imgと同様にノイズを除去します。

img2imgは元の画像にノイズを加えることができるため、画像データの視覚的特徴を変更して匿名化するデータ匿名化やデータ拡張に潜在的に有用である。 ^{[ 55 ]}同じプロセスは画像の解像度を上げ、より多くの詳細を画像に追加できる画像アップスケーリングにも有用である可能性がある。^{[ 55 ]}さらに、安定拡散は画像圧縮ツールとして実験されてきた。JPEGやWebPと比較して、安定拡散で画像圧縮に用いられる最近の手法は、小さなテキストや顔を保存する上で限界がある。^[⁵⁶^]

img2imgによる画像修正のさらなるユースケースは、Stable Diffusionモデルの多数のフロントエンド実装によって提供されています。インペインティングは、ユーザーが提供するレイヤーマスクで囲まれた既存の画像の一部を選択的に修正し、提供されたプロンプトに基づいてマスクされた空間を新しく生成されたコンテンツで埋める処理です。^{[ 50 ]}インペインティングユースケース向けに特別に微調整された専用モデルは、Stable Diffusion 2.0のリリースに合わせてStability AIによって作成されました。^{[ 35 ]}逆に、アウトペインティングは画像を元の寸法を超えて拡張し、以前は空だった空間を提供されたプロンプトに基づいて生成されたコンテンツで埋めます。^{[ 50 ]}

2022年11月24日のStable Diffusion 2.0のリリースで、「depth2img」と呼ばれる深度ガイドモデルが導入されました。このモデルは、提供された入力画像の深度を推測し、テキストプロンプトと深度情報の両方に基づいて新しい出力画像を生成します。これにより、生成された出力で元の入力画像の一貫性と深度が維持されます。^{[ 35 ]}

コントロールネット

ControlNet ^{[ 57 ]}は、追加条件を組み込むことで拡散モデルを管理するように設計されたニューラルネットワークアーキテクチャです。ニューラルネットワークブロックの重みを「ロックされた」コピーと「学習可能な」コピーに複製します。「学習可能な」コピーは望ましい条件を学習し、「ロックされた」コピーは元のモデルを保持します。このアプローチにより、画像ペアの小規模データセットを用いた学習でも、実運用可能な拡散モデルの整合性が損なわれることはありません。「ゼロ畳み込み」は、重みとバイアスが両方ともゼロに初期化された1×1畳み込みです。学習前には、すべてのゼロ畳み込みはゼロ出力を生成するため、ControlNetによる歪みを防ぎます。どの層も最初から学習されるわけではなく、微調整プロセスが継続されるため、元のモデルは安全です。この方法により、小規模デバイスや個人用デバイスでも学習が可能になります。

ControlNetは、最終画像に望ましい特性をマッピングする入力画像に基づいて、画像生成を変更するために一般的に使用されます。一般的なマッピング画像の種類には、深度マップ、エッジ、または1つ以上の骨格ポーズなどがあります。これらの入力は直接生成される場合もありますが、ニューラルネットワークやエッジ検出などのプロセスを用いて、他の画像から導出されることもよくあります。

ユーザーインターフェース

StabilityはDreamStudioというオンライン画像生成サービスを提供している。^{[ 58 ]}^{[ 59 ]}同社はまた、StableStudioというDreamStudioのオープンソース版をリリースした。^[⁶⁰^]^[⁶¹^] Stabilityのインターフェースに加えて、AUTOMATIC1111 Stable Diffusion Web UI（最も人気があり追加機能も提供）、^[⁶²^] Fooocus（ユーザーによる入力操作の回数を減らすことを目指している）、^[⁶³^] ComfyUI（ノードベースのユーザーインターフェースを持ち、基本的に多くの3Dモデリングアプリケーションに似たビジュアルプログラミング言語）など、多くのサードパーティ製のオープンソースインターフェースが存在する。^[⁶⁴^]^[⁶⁵^]^[⁶⁶^]

リリース


バージョン番号	発売日	パラメータ	注記
1.1、1.2、1.3、1.4 ^{[ 67 ]}	2022年8月		すべてCompVisによってリリースされました。「バージョン1.0」というものはありません。1.1から1.2が生まれ、1.2から1.3と1.4が生まれました。^{[ 68 ]}
1.5 ^{[ 69 ]}^{[ 70 ]}	2022年10月	983M	1.4ではなく1.2の重みで初期化されました。2022年10月20日にRunwayMLによってリリースされ、バージョン1.4から若干の改良が加えられています。^{[ 69 ]}
2.0 ^{[ 71 ]}	2022年11月		フィルタリングされたデータセットで最初から再トレーニングしました。^{[ 72 ]}
2.1 ^{[ 73 ]}	2022年12月		重み 2.0 で初期化されました。
XL 1.0 ^{[ 74 ]}^{[ 21 ]}	2023年7月	35億	XL 1.0ベースモデルは35億のパラメータを持ち、以前のバージョンよりも約3.5倍大きくなっています。^{[ 75 ]}
XLターボ^{[ 76 ]}	2023年11月		XL 1.0から蒸留され、より少ない拡散ステップで実行されます。^{[ 77 ]}
3.0 ^{[ 78 ]}^{[ 22 ]}	2024年2月（早期プレビュー）	800Mから8B	モデルのファミリー。
3.5 ^{[ 1 ]}	2024年10月	25億から80億	Large (80 億のパラメータ)、Large Turbo (SD 3.5 Large から抽出)、および Medium (25 億のパラメータ) のモデルファミリ。

主要論文

自然言語教師からの転移可能な視覚モデルの学習(2021). ^{[ 79 ]}この論文では、テキストを浮動小数点ベクトルに変換するテキストエンコーダーの学習にCLIP法を用いている。このようなテキストエンコーディングは、拡散モデルによって画像を作成する際に用いられる。
SDEdit: 確率微分方程式を用いたガイド付き画像合成と編集(2021). ^{[ 54 ]}この論文ではSDEdit（別名「img2img」）について説明しています。
潜在拡散モデルを用いた高解像度画像合成（2021年、2022年に更新）。^{[ 80 ]}この論文では、潜在拡散モデル（LDM）について説明しています。これは安定拡散アーキテクチャのバックボーンです。
分類器フリー拡散ガイダンス（2022）。^{[ 30 ]}この論文では、テキストエンコーディングベクトルが拡散モデルを操作してテキストで記述された画像を作成することを可能にするCFGについて説明しています。
SDXL: 高解像度画像合成のための潜在拡散モデルの改良（2023）。^{[ 21 ]} SDXLについて説明しています。
Flow Straight and Fast: 整流フローによるデータ生成と転送の学習(2022)。^{[ 23 ]}^{[ 24 ]} SD 3.0のバックボーンアーキテクチャに使用される整流フローについて説明します。
高解像度画像合成のための整流フロー変圧器のスケーリング（2024年）。^{[ 22 ]} SD 3.0について説明しています。

研修費用

SD 2.0: A100（40GB）で20万時間^{[ 71 ]}

Stable Diffusion 3.5 LargeはAmazon Web ServicesのAmazon Bedrock上でエンタープライズ向けに利用可能になりました。^[⁸¹^]

使用法と論争

Stable Diffusionは生成された画像に対する権利を主張せず、画像の内容が違法または個人に有害でない限り、モデルから生成された画像の使用権をユーザーに自由に付与します。^{[ 82 ]}

Stable Diffusionの訓練に使用された画像は人間の介入なしにフィルタリングされており、訓練データには有害な画像や大量の個人情報や機密情報が含まれている。^{[ 27 ]}

より伝統的なビジュアルアーティストは、Stable Diffusionなどの画像合成ソフトウェアの普及により、写真家、モデル、撮影監督、俳優など人間のアーティストが、AIベースの競合他社に対して徐々に商業的な成功を失うことになるのではないかと懸念を表明している。^{[ 83 ]}

Stable Diffusionは、生成AIをベースにした他の商用製品と比較して、暴力的または性的に露骨な画像など、ユーザーが生成するコンテンツの種類に関して、はるかに寛容である。^{[ 84 ]}このモデルが悪用目的で使用される可能性があるという懸念に対して、Stability AIのCEOであるEmad Mostaque氏は、「この技術をどのように運用するかが倫理的、道徳的、合法的であるかどうかは、人々の責任である」と主張している。^{[ 11 ]}また、Stable Diffusionの機能を一般の人々の手に委ねることで、潜在的な悪影響にもかかわらず、この技術が純利益をもたらすことになると主張している。^{[ 11 ]}さらにMostaque氏は、Stable Diffusionをオープンに利用できるようにした意図は、これまで画像合成用のクローズドAIシステムしか開発していなかった企業の、このような技術に対するコントロールと支配を終わらせることだと主張している。^{[ 11 ]}^{[ 84 ]}これは、ユーザーが生成するコンテンツに対してStability AIが課す制限は、ソースコードが利用可能であるため簡単に回避できるという事実に反映されています。^{[ 85 ]}

Stable Diffusionによって生成された未成年キャラクターの写実的な性的描写をめぐる論争が巻き起こっている。これは、そのような画像がPixivなどのウェブサイトで共有されているためである。^{[ 86 ]}

2024年6月、 Stable DiffusionのユーザーインターフェースであるComfyUIの拡張機能に対するハッキングが発生し、ハッカーはAIによるアート生成、アートの盗難、暗号通貨の宣伝など、「私たちの罪の一つ」を犯したユーザーを標的にしたと主張した。^{[ 87 ]}

訴訟

アンダーセン、マッカーナン、オルティス対スタビリティAI、ミッドジャーニー、デビアントアート

2023年1月、サラ・アンダーセン、ケリー・マッケルナン、カーラ・オルティスの3人のアーティストが、 Stability AI、Midjourney、DeviantArtを相手取り著作権侵害訴訟を起こし、これらの企業がウェブから収集した50億枚の画像を使ってAIツールを訓練し、元のアーティストの同意なしに何百万人ものアーティストの権利を侵害したと主張した。^[⁸⁸^]

2023年7月、米国地方裁判所のウィリアム・オリック判事は、アンダーセン、マッカーナン、オルティスの3人が起こした訴訟の大部分を却下する傾向にあったが、新たな訴状を提出することを認め、彼らに主張を再構築する機会を与えた。^{[ 89 ]}

ゲッティイメージズ対スタビリティAI

2023年1月、ゲッティイメージズは、スタビリティAIに対し、知的財産権の重大な侵害を理由に、英国高等裁判所に訴訟を起こした。ゲッティイメージズは、スタビリティAIがゲッティのウェブサイトから数百万枚の画像を無断で「スクレイピング」し、それらの画像を自社のディープラーニング「安定拡散モデル」の学習と開発に使用したと主張している。^{[ 90 ]}^{[ 91 ]}

訴訟の要点は次のようなものであった。

ゲッティイメージズは、ステーブル・ディフュージョンのトレーニングと開発において、同社の画像が不正に使用され、英国内にある可能性のあるサーバーやコンピュータにダウンロードされたと主張した。一方、スタビリティAIは、すべてのトレーニングと開発は英国外、具体的にはアマゾン・ウェブ・サービスが運営する米国のデータセンターで行われたと主張した。^{[ 92 ]}
Stability AI社は、研修および開発に関する請求と二次的著作権侵害に関する請求の2件について、逆略式判決および／または却下を申し立てた。しかし、高等裁判所はこれらの請求の却下を拒否し、裁判手続きを進めることを許可した。裁判所は、Stable Diffusion社の研修および開発が英国で行われたかどうかを判断することになっており、これは英国の1988年著作権・意匠・特許法（CDPA）に基づく管轄権を確立する上で極めて重要である。^{[ 93 ]}
二次的な侵害の主張は、GitHub、HuggingFace、DreamStudioなどのプラットフォームを通じて英国で利用可能になっている、事前学習済みのStable Diffusionソフトウェアが、CDPAの第22条および第23条に規定される「物品」を構成するかどうかを中心に展開された。^{[ 93 ]}

2025年11月4日現在、ゲッティイメージズはAI画像ジェネレーターをめぐる訴訟でスタビリティAIにほぼ敗訴しており、ゲッティと一部の弁護士はイギリスの著作権者に対するより強力な保護を求めるようになった。^{[ 94 ]}

ライセンス

DALL-Eなどのモデルとは異なり、Stable Diffusionはソースコード^{[ 95 ]}^{[ 8 ]}をモデル（事前学習済みの重み）と共に公開しています。Stable Diffusion 3より前は、Responsible AI License（RAIL）の一種であるCreative ML OpenRAIL-Mライセンスをモデル（M）に適用していました。^{[ 96 ]}このライセンスでは、犯罪、名誉毀損、嫌がらせ、ドクシング、「未成年者の搾取」、医療アドバイスの提供、法的義務の自動作成、法的証拠の作成、「社会的行動または個人的または性格的特性に基づく個人またはグループへの差別または危害」など、特定の使用例が禁止されています。^{[ 97 ]}^{[ 98 ]}ユーザーは生成された出力画像の権利を所有し、商業的に自由に使用できます。^{[ 99 ]}

Stable Diffusion 3.5では、許容度の高いStability AI Community Licenseが適用されますが、収益が100万ドルを超える商業企業はStability AI Enterprise Licenseが必要です。^{[ 100 ]} OpenRAIL-Mライセンスと同様に、ユーザーは生成された出力画像の権利を保持し、自由に商用利用できます。^{[ 1 ]}

参照

参考文献

^ ^a ^b ^c「Stable Diffusion 3.5」。Stability AI。2024年10月23日時点のオリジナルよりアーカイブ。2024年10月23日閲覧。
^ Ryan O'Connor (2022年8月23日). “How to Run Stable Diffusion Locally to Generate Images” . 2023年10月13日時点のオリジナルよりアーカイブ。2023年5月4日閲覧。
^ 「Diffuse The Rest - a Hugging Face Space by huggingface」 . huggingface.co . 2022年9月5日時点のオリジナルよりアーカイブ。 2022年9月5日閲覧。
^ 「リークされた資料、Stability AIの投資家向けシリーズAプレゼンテーションに疑問符」 sifted.eu . 2023年6月29日時点のオリジナルよりアーカイブ。 2023年6月20日閲覧。
^ 「AIによる画像生成の革命：テキストを画像に変える」www.lmu.de . 2022年9月17日時点のオリジナルよりアーカイブ。2023年6月21日閲覧。
^ Mostaque, Emad (2022年11月2日). 「Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen」 . Twitter . 2023年7月20日時点のオリジナルよりアーカイブ。 2023年6月22日閲覧。
^ ^a ^b ^c ^d「Stable Diffusion Launch Announcement」 . Stability.Ai . 2022年9月5日時点のオリジナルよりアーカイブ。2022年9月6日閲覧。
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ「GitHub上の安定した拡散リポジトリ」。CompVis - マシンビジョンと学習研究グループ、LMUミュンヘン。2022年9月17日。 2023年1月18日時点のオリジナルよりアーカイブ。 2022年9月17日閲覧。
^ “basujindal/stable-diffusion” . GitHub . 2022年11月16日. 2025年3月20日時点のオリジナルよりアーカイブ。2025年3月30日閲覧。
^ 「新たなキラーアプリ：AIアートの制作はPCを圧倒する」PCWorld . 2022年8月31日時点のオリジナルよりアーカイブ。2022年8月31日閲覧。
^ ^a ^b ^c ^d ^e Vincent, James (2022年9月15日). 「このAIアートジェネレーターは誰でも使える ― それがリスクだ」 The Verge . 2023年1月21日時点のオリジナルよりアーカイブ。 2022年9月30日閲覧。
^ "CompVis/Latent-diffusion" . GitHub .
^ 「安定拡散3：研究論文」。
^ David, Foster. 「8. 拡散モデル」.生成的ディープラーニング（第2版）. O'Reilly.
^ Jascha Sohl-Dickstein、Eric A. Weiss、Niru Maheswaranathan、Surya Ganguli (2015 年 3 月 12 日)。「非平衡熱力学を使用した教師なし深層学習」。arXiv : 1503.03585 [ cs.LG ]。{{cite arXiv}}: CS1 maint: 複数の名前: 著者リスト (リンク)
^ "ホーム" .コンピュータビジョン＆ラーニンググループ. 2024年9月5日閲覧。
^ ^a ^b ^c Rombach; Blattmann; Lorenz; Esser; Ommer (2022年6月).潜在拡散モデルによる高解像度画像合成(PDF) . International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684– 10695. arXiv : 2112.10752 . 2023年1月20日時点のオリジナルよりアーカイブ(PDF) . 2022年9月17日閲覧。
^ ^a ^b ^c ^d Alammar, Jay. 「The Illustrated Stable Diffusion」 . jalammar.github.io . 2022年11月1日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。
^ “安定拡散パイプライン” . huggingface.co . 2023年6月25日時点のオリジナルよりアーカイブ。 2023年6月22日閲覧。
^ 「Stable DiffusionとOpenVINO™によるテキストから画像への生成」 openvino.ai.Intel . 2024年2月10日閲覧。
^ ^a ^b ^cダスティン・ポデル、ザイオン・イングリッシュ、カイル・レイシー、アンドレアス・ブラットマン、ティム・ドックホーン、ジョナス・ミュラー、ジョー・ペンナ、ロビン・ロンバッハ（2023年7月4日）。「SDXL：高解像度画像合成のための潜在拡散モデルの改良」arXiv：2307.01952 [ cs.CV ]。
^ ^a ^b ^c Esser, Patrick; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Levi, Yam; Lorenz, Dominik; Sauer, Axel (2024年3月5日)「高解像度画像合成のための整流フロートランスフォーマーのスケーリング」arXiv : 2403.03206
^ ^a ^b Liu, Xingchao; Gong, Chengyue; Liu, Qiang (2022年9月7日)「Flow Straight and Fast: Rectified Flowによるデータ生成と転送の学習」arXiv : 2209.03003
^ ^a ^b「整流フロー — 整流フロー」www.cs.utexas.edu . 2024年3月6日閲覧。
^ ^a ^b ^c ^d ^e Baio, Andy (2022年8月30日). “Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator” . Waxy.org . 2023年1月20日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。
^ 「このアーティストはAI生成アートの頂点に立っている。そして彼はそれに満足していない」。MITテクノロジーレビュー。2023年1月14日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。
^ ^a ^b Brunner, Katharina; Harlan, Elisa (2023年7月7日). 「私たちは皆、AIの原料である」 . Bayerischer Rundfunk (BR). 2023年9月12日時点のオリジナルよりアーカイブ。 2023年9月12日閲覧。
^ Schuhmann, Christoph (2022年11月2日)、CLIP+MLP Aesthetic Score Predictor、2023年6月8日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。
^ “LAION-Aesthetics | LAION” . laion.ai . 2022年8月26日時点のオリジナルよりアーカイブ。2022年9月2日閲覧。
^ ^a ^b ^c Ho, Jonathan; Salimans, Tim (2022年7月25日). 「分類器を使用しない拡散ガイダンス」. arXiv : 2207.12598 [ cs.LG ].
^ Mostaque, Emad (2022年8月28日). 「建設費用」 . Twitter . 2022年9月6日時点のオリジナルよりアーカイブ。 2022年9月6日閲覧。
^ ^a ^b ^c “CompVis/stable-diffusion-v1-4 · Hugging Face” . huggingface.co . 2023年1月11日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。
^ Wiggers, Kyle (2022年8月12日). 「スタートアップ企業がDALL-E 2の技術を民主化しようとしている。どんな結果になっても構わない」 TechCrunch . 2023年1月19日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。
^ ^a ^b ^c ^d ^e「🧨ディフューザーによる安定した拡散」 huggingface.co . 2023年1月17日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。
^ ^a ^b ^c「Stable Diffusion 2.0 Release」 . stability.ai . 2022年12月10日時点のオリジナルよりアーカイブ。
^ "LAION" . laion.ai . 2023年10月16日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。
^ 「安定拡散法による画像生成」 . Paperspace Blog . 2022年8月24日. 2022年10月31日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。
^ 「SDXL 1.0の発表」。Stability AI。2023年7月26日時点のオリジナルよりアーカイブ。 2023年8月21日閲覧。
^ Edwards, Benj (2023年7月27日). 「Stability AI、次世代画像合成モデル「Stable Diffusion XL」をリリース」Ars Technica . 2023年8月21日時点のオリジナルよりアーカイブ。 2023年8月21日閲覧。
^ “hakurei/waifu-diffusion · Hugging Face” . huggingface.co . 2023年10月8日時点のオリジナルよりアーカイブ。2022年10月31日閲覧。
^ Chambon, Pierre; Bluethgen, Christian; Langlotz, Curtis P.; Chaudhari, Akshay (2022年10月9日). 「事前学習済みの視覚・言語基礎モデルの医用画像領域への適応」. arXiv : 2210.04133 [ cs.CV ].
^ Seth Forsgren、Hayk Martiros. 「Riffusion - リアルタイム音楽生成のための安定した拡散」 . Riffusion . 2022年12月16日時点のオリジナルよりアーカイブ。
^ Mercurio, Anthony (2022年10月31日), Waifu Diffusion、2022年10月31日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。
^ライアン・スミス「NVIDIAがGeForce RTX 3080 12GBをひっそり発売：VRAM増量、消費電力増、価格増」 www.anandtech.comオリジナルより2023年8月27日時点のアーカイブ。 2022年10月31日閲覧。
^ Dave James (2022年10月28日). 「RTX 4090を8時間連続でStable Diffusionのトレーニングに使い、Hermannおじさんのような絵を描けた」 . PC Gamer . 2022年11月9日時点のオリジナルよりアーカイブ。
^ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2022年8月2日). 「画像は一言で表せる：テキスト反転を用いたテキストから画像への生成のパーソナライズ」. arXiv : 2208.01618 [ cs.CV ].
^ “NovelAI Improvements on Stable Diffusion” . NovelAI . 2022年10月11日. 2022年10月27日時点のオリジナルよりアーカイブ。
^山下裕貴 (2022年9月1日). "愛犬の合成画像を生成できるAI文章で指示するだけでコスプレ米Googleが開発" .アイティメディア株式会社2022年8月31日のオリジナルよりアーカイブ。
^メン、チェンリン;彼、ユートン。ソン、ヤン。宋嘉明。ウー、ジアジュン。朱潤燕。エルモン、ステファノ（2021年8月2日）。「SDEdit: 確率微分方程式を使用したガイド付き画像合成と編集」。arXiv : 2108.01073 [ cs.CV ]。
^ ^a ^b ^c ^d “Stable Diffusion web UI” . GitHub . 2022年11月10日. 2023年1月20日時点のオリジナルよりアーカイブ。2022年9月27日閲覧。
^ invisible-watermark、Shield Mountain、2022年11月2日、2022年10月18日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。
^ “stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools” . GitHub . 2022年10月2日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。
^ 「Stable Diffusion v2.1 and DreamStudio Updates 7-Dec 22」 . stability.ai . 2022年12月10日時点のオリジナルよりアーカイブ。
^ ^a ^bメン、チェンリン;彼、ユートン。ソン、ヤン。宋嘉明。ウー、ジアジュン。朱潤燕。エルモン、ステファノ（2022年1月4日）。「SDEdit: 確率微分方程式を使用したガイド付き画像合成と編集」。arXiv : 2108.01073 [ cs.CV ]。
^ ^a ^bルジ、ロレンツォ;シアクーヒ、アリ。メイヤー、ポール M.カスコ・ロドリゲス、ジョスエ。リチャード・バラニューク（2022年10月21日）。「ブーメラン: 拡散モデルを使用した画像多様体上のローカルサンプリング」。arXiv : 2210.12100 [ cs.CV ]。
^ Bühlmann, Matthias (2022年9月28日). 「Stable Diffusion Based Image Compression」 . Medium . 2022年11月2日時点のオリジナルよりアーカイブ。2022年11月2日閲覧。
^ Zhang, Lvmin (2023年2月10日). 「テキストから画像への拡散モデルへの条件付き制御の追加」. arXiv : 2302.05543 [ cs.CV ].
^ Edwards, Benj (2022年11月10日). 「ポケットに安定した拡散？『Draw Things』でiPhoneにAI画像が追加」 Ars Technica . 2024年7月10日閲覧。
^ Wendling, Mike (2024年3月6日). 「AIは簡単に偽の選挙写真を作るのに使える - 報告書」 . bbc.com . 2024年7月10日閲覧。キャンペーン団体CCDHは、Midjourney、OpenAIのChatGPT Plus、Stability.aiのDreamStudio、MicrosoftのImage Creatorという、最大規模の一般向けAIプラットフォーム4つをテストした。
^ Wiggers, Kyle (2023年5月18日). 「Stability AI、AI搭載デザインスタジオをオープンソース化」 . TechCrunch . 2024年7月10日閲覧。
^ Weatherbed, Jess (2023年5月17日). 「Stability AIがDreamStudioウェブアプリをオープンソース化」 The Verge .
^ Mann, Tobias (2024年6月29日). 「Stable DiffusionとAutomatic1111を用いたローカルAI画像生成の分かりやすいガイド」The Register .
^ Hachman, Mak. 「FooocusはPC上でAIアートを作成する最も簡単な方法です」。PCWorld 。
^ 「ComfyUIワークフローと知っておくべきこと」 thinkdiffusion.com 2023年12月. 2024年7月10日閲覧。
^ "ComfyUI" . github.com . 2024年7月10日閲覧。
^ Huang, Yenkai (2024年5月10日).潜在的自動再帰合成エンジン(MSコンピュータサイエンス論文).ダートマス大学. 2024年7月10日閲覧。
^ “CompVis/stable-diffusion-v1-4 · Hugging Face” . huggingface.co . 2023年1月11日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。
^ “CompVis (CompVis)” . huggingface.co . 2023年8月23日. 2024年3月6日閲覧。
^ ^a ^b “runwayml/stable-diffusion-v1-5 · Hugging Face” . huggingface.co . 2023年9月21日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。
^ “stable-diffusion-v1-5/stable-diffusion-v1-5 · Hugging Face” . huggingface.co . 2025年5月26日時点のオリジナルよりアーカイブ。 2025年6月1日閲覧。
^ ^a ^b “stabilityai/stable-diffusion-2 · Hugging Face” . huggingface.co . 2023年9月21日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。
^ "stabilityai/stable-diffusion-2-base · Hugging Face" . huggingface.co . 2024年1月1日閲覧。
^ “stabilityai/stable-diffusion-2-1 · Hugging Face” . huggingface.co . 2023年9月21日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。
^ “stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face” . huggingface.co . 2023年10月8日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。
^ 「SDXL 1.0の発表」 . Stability AI . 2024年1月1日閲覧。
^ "stabilityai/sdxl-turbo · Hugging Face" . huggingface.co . 2024年1月1日閲覧。
^ 「Adversarial Diffusion Distillation」 . Stability AI . 2024年1月1日閲覧。
^ 「Stable Diffusion 3」 . Stability AI . 2024年3月5日閲覧。
^ Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela (2021年2月26日). 「自然言語教師からの転送可能な視覚モデルの学習」. arXiv : 2103.00020 [ cs.CV ].
^ Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patrick; Ommer, Björn (2022). 「潜在拡散モデルを用いた高解像度画像合成」 IEEE /CVF コンピュータビジョンおよびパターン認識会議 (CVPR) の議事録pp. 10684– 10695. arXiv : 2112.10752 .
^ Kerner, Sean Michael (2024年12月19日). 「Stable Diffusion 3.5 が Amazon Bedrock に登場：エンタープライズAIワークフローにとっての意味」 . VentureBeat . 2024年12月25日閲覧。
^ "LICENSE.md · stabilityai/stable-diffusion-xl-base-1.0 at main" . huggingface.co . 2023年7月26日. 2024年1月1日閲覧。
^ Heikkilä, Melissa (2022年9月16日). 「このアーティストはAI生成アートを席巻している。そして彼はそれについて満足していない」 . MIT Technology Review . 2023年1月14日時点のオリジナルよりアーカイブ。 2022年9月26日閲覧。
^ ^a ^b清水涼 (2022年8月26日)。「Midjourneyを超えた？無料の絵AI「#StableDiffusion」が「AIを民主化した」と認められる理由」 . Business Insider Japan（日本語）2022年12月10日のオリジナルからアーカイブ。2022 年10 月 4 日に取得。
^ Cai, Kenrick. 「AI画像ジェネレーターStable Diffusionを開発するスタートアップが、評価額10億ドルまでの資金調達に向けて協議中」 Forbes . 2023年9月30日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。
^ 「AIによる児童性的虐待画像の違法取引が明らかに」BBCニュース。2023年6月27日。2023年9月21日時点のオリジナルよりアーカイブ。2023年9月26日閲覧。
^マイバーグ、エマニュエル（2024年6月11日）「ハッカーがGitHub上の悪意ある安定拡散ツールでAIユーザーを標的に、『芸術品盗難』に抗議」. 404 Media . 2024年6月14日閲覧。
^ Vincent, James (2023年1月16日). 「AIアートツールStable DiffusionとMidjourneyが著作権訴訟の標的に」 The Verge . 2023年3月9日時点のオリジナルよりアーカイブ。 2023年1月16日閲覧。
^ Brittain, Blake (2023年7月19日). 「米判事、AI企業に対するアーティストの訴訟に欠陥を発見」ロイター. 2023年9月6日時点のオリジナルよりアーカイブ。2023年8月6日閲覧。
^ Goosens, Sophia (2024年2月28日). 「Getty Images対Stability AI：英国の著作権法とライセンスへの影響」 .
^ Gill, Dennis (2023年12月11日). 「ゲッティイメージズ対スタビリティAI：著作権侵害の申し立ては裁判に進むことができる」 .
^グーセンス、ソフィア（2024年2月28日）「ゲッティ対スタビリティAI訴訟、英国で裁判へ ― そこから学んだこと」
^ ^a ^b Hill, Charlotte (2024年2月16日). 「法廷における生成AI：ゲッティイメージズ対スタビリティAI」 .
^ Tobin, Sam (2025年11月4日). 「ゲッティイメージズ、AI画像ジェネレーターをめぐる英国での画期的な訴訟でほぼ敗訴」 .
^ 「Stable Diffusion Public Release」 . Stability.Ai . 2022年8月30日時点のオリジナルよりアーカイブ。 2022年8月31日閲覧。
^ 「RAILからOpen RAILへ：RAILライセンスのトポロジー」Responsible AI Licenses (RAIL) 2022年8月18日。2023年7月27日時点のオリジナルよりアーカイブ。 2023年2月20日閲覧。
^ 「準備はできているかどうかに関わらず、大量のディープフェイク動画がやってくる」ワシントン・ポスト、2022年8月30日。2022年8月31日時点のオリジナルよりアーカイブ。 2022年8月31日閲覧。
^ “License - a Hugging Face Space by CompVis” . huggingface.co . 2022年9月4日時点のオリジナルよりアーカイブ。2022年9月5日閲覧。
^石田勝男 (2022年8月26日). 「言葉で指示した画像をすごいAIが描く「安定拡散」～画像は商業利用も可能』 .株式会社インプレス2022年11月14日のオリジナルからアーカイブ。2022 年10 月 4 日に取得。
^ 「コミュニティライセンス」 . Stability AI . 2024年7月5日. 2024年10月23日閲覧。

外部リンク

安定拡散デモ
「拡散モデルのステップバイステップのビジュアル紹介 - Kemal Erdemのブログ」。 2024年8月31日閲覧。
「安定拡散のためのU-Net」。安定拡散のためのU-Net 。 2024年8月31日閲覧。
安定拡散のインタラクティブな説明
「私たちは皆、AIの原料です」：安定拡散学習データにおける機密データと個人情報の調査
「安定拡散におけるネガティブプロンプト」
「安定拡散におけるネガティブプロンプト」

[release-sd3.5-1] 「Stable Diffusion 3.5」。Stability AI。2024年10月23日時点のオリジナルよりアーカイブ。2024年10月23日閲覧。

[2] Ryan O'Connor (2022年8月23日). “How to Run Stable Diffusion Locally to Generate Images” . 2023年10月13日時点のオリジナルよりアーカイブ。2023年5月4日閲覧。

[:0-3] 「Diffuse The Rest - a Hugging Face Space by huggingface」 . huggingface.co . 2022年9月5日時点のオリジナルよりアーカイブ。 2022年9月5日閲覧。

[sifted_financialtimes-4] 「リークされた資料、Stability AIの投資家向けシリーズAプレゼンテーションに疑問符」 sifted.eu . 2023年6月29日時点のオリジナルよりアーカイブ。 2023年6月20日閲覧。

[lmu_lauch-5] 「AIによる画像生成の革命：テキストを画像に変える」www.lmu.de . 2022年9月17日時点のオリジナルよりアーカイブ。2023年6月21日閲覧。

[6] Mostaque, Emad (2022年11月2日). 「Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen」 . Twitter . 2023年7月20日時点のオリジナルよりアーカイブ。 2023年6月22日閲覧。

[stable-diffusion-launch-7] 「Stable Diffusion Launch Announcement」 . Stability.Ai . 2022年9月5日時点のオリジナルよりアーカイブ。2022年9月6日閲覧。

[stable-diffusion-github-8] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ「GitHub上の安定した拡散リポジトリ」。CompVis - マシンビジョンと学習研究グループ、LMUミュンヘン。2022年9月17日。 2023年1月18日時点のオリジナルよりアーカイブ。 2022年9月17日閲覧。

[optimized-stable-diffusion-9] “basujindal/stable-diffusion” . GitHub . 2022年11月16日. 2025年3月20日時点のオリジナルよりアーカイブ。2025年3月30日閲覧。

[pcworld-10] 「新たなキラーアプリ：AIアートの制作はPCを圧倒する」PCWorld . 2022年8月31日時点のオリジナルよりアーカイブ。2022年8月31日閲覧。

[verge-11] Vincent, James (2022年9月15日). 「このAIアートジェネレーターは誰でも使える ― それがリスクだ」 The Verge . 2023年1月21日時点のオリジナルよりアーカイブ。 2022年9月30日閲覧。

[:9-12] "CompVis/Latent-diffusion" . GitHub .

[13] 「安定拡散3：研究論文」。

[14] David, Foster. 「8. 拡散モデル」.生成的ディープラーニング（第2版）. O'Reilly.

[15] Jascha Sohl-Dickstein、Eric A. Weiss、Niru Maheswaranathan、Surya Ganguli (2015 年 3 月 12 日)。「非平衡熱力学を使用した教師なし深層学習」。arXiv : 1503.03585 [ cs.LG ]。{{cite arXiv}}: CS1 maint: 複数の名前: 著者リスト (リンク)

[16] "ホーム" .コンピュータビジョン＆ラーニンググループ. 2024年9月5日閲覧。

[paper-17] Rombach; Blattmann; Lorenz; Esser; Ommer (2022年6月).潜在拡散モデルによる高解像度画像合成(PDF) . International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684– 10695. arXiv : 2112.10752 . 2023年1月20日時点のオリジナルよりアーカイブ(PDF) . 2022年9月17日閲覧。

[:02-18] Alammar, Jay. 「The Illustrated Stable Diffusion」 . jalammar.github.io . 2022年11月1日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。

[19] “安定拡散パイプライン” . huggingface.co . 2023年6月25日時点のオリジナルよりアーカイブ。 2023年6月22日閲覧。

[20] 「Stable DiffusionとOpenVINO™によるテキストから画像への生成」 openvino.ai.Intel . 2024年2月10日閲覧。

[:4-21] ダスティン・ポデル、ザイオン・イングリッシュ、カイル・レイシー、アンドレアス・ブラットマン、ティム・ドックホーン、ジョナス・ミュラー、ジョー・ペンナ、ロビン・ロンバッハ（2023年7月4日）。「SDXL：高解像度画像合成のための潜在拡散モデルの改良」arXiv：2307.01952 [ cs.CV ]。

[:6-22] Esser, Patrick; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Levi, Yam; Lorenz, Dominik; Sauer, Axel (2024年3月5日)「高解像度画像合成のための整流フロートランスフォーマーのスケーリング」arXiv : 2403.03206

[:7-23] Liu, Xingchao; Gong, Chengyue; Liu, Qiang (2022年9月7日)「Flow Straight and Fast: Rectified Flowによるデータ生成と転送の学習」arXiv : 2209.03003

[:8-24] 「整流フロー — 整流フロー」www.cs.utexas.edu . 2024年3月6日閲覧。

[Waxy-25] Baio, Andy (2022年8月30日). “Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator” . Waxy.org . 2023年1月20日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。

[26] 「このアーティストはAI生成アートの頂点に立っている。そして彼はそれに満足していない」。MITテクノロジーレビュー。2023年1月14日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。

[:2-27] Brunner, Katharina; Harlan, Elisa (2023年7月7日). 「私たちは皆、AIの原料である」 . Bayerischer Rundfunk (BR). 2023年9月12日時点のオリジナルよりアーカイブ。 2023年9月12日閲覧。

[28] Schuhmann, Christoph (2022年11月2日)、CLIP+MLP Aesthetic Score Predictor、2023年6月8日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。

[LAION-Aesthetics-29] “LAION-Aesthetics | LAION” . laion.ai . 2022年8月26日時点のオリジナルよりアーカイブ。2022年9月2日閲覧。

[:5-30] Ho, Jonathan; Salimans, Tim (2022年7月25日). 「分類器を使用しない拡散ガイダンス」. arXiv : 2207.12598 [ cs.LG ].

[31] Mostaque, Emad (2022年8月28日). 「建設費用」 . Twitter . 2022年9月6日時点のオリジナルよりアーカイブ。 2022年9月6日閲覧。

[stable-diffusion-model-card-1-4-32] “CompVis/stable-diffusion-v1-4 · Hugging Face” . huggingface.co . 2023年1月11日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。

[33] Wiggers, Kyle (2022年8月12日). 「スタートアップ企業がDALL-E 2の技術を民主化しようとしている。どんな結果になっても構わない」 TechCrunch . 2023年1月19日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。

[diffusers-34] 「🧨ディフューザーによる安定した拡散」 huggingface.co . 2023年1月17日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。

[release2.0-35] 「Stable Diffusion 2.0 Release」 . stability.ai . 2022年12月10日時点のオリジナルよりアーカイブ。

[36] "LAION" . laion.ai . 2023年10月16日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。

[37] 「安定拡散法による画像生成」 . Paperspace Blog . 2022年8月24日. 2022年10月31日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。

[38] 「SDXL 1.0の発表」。Stability AI。2023年7月26日時点のオリジナルよりアーカイブ。 2023年8月21日閲覧。

[39] Edwards, Benj (2023年7月27日). 「Stability AI、次世代画像合成モデル「Stable Diffusion XL」をリリース」Ars Technica . 2023年8月21日時点のオリジナルよりアーカイブ。 2023年8月21日閲覧。

[40] “hakurei/waifu-diffusion · Hugging Face” . huggingface.co . 2023年10月8日時点のオリジナルよりアーカイブ。2022年10月31日閲覧。

[41] Chambon, Pierre; Bluethgen, Christian; Langlotz, Curtis P.; Chaudhari, Akshay (2022年10月9日). 「事前学習済みの視覚・言語基礎モデルの医用画像領域への適応」. arXiv : 2210.04133 [ cs.CV ].

[42] Seth Forsgren、Hayk Martiros. 「Riffusion - リアルタイム音楽生成のための安定した拡散」 . Riffusion . 2022年12月16日時点のオリジナルよりアーカイブ。

[43] Mercurio, Anthony (2022年10月31日), Waifu Diffusion、2022年10月31日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。

[44] ライアン・スミス「NVIDIAがGeForce RTX 3080 12GBをひっそり発売：VRAM増量、消費電力増、価格増」 www.anandtech.comオリジナルより2023年8月27日時点のアーカイブ。 2022年10月31日閲覧。

[45] Dave James (2022年10月28日). 「RTX 4090を8時間連続でStable Diffusionのトレーニングに使い、Hermannおじさんのような絵を描けた」 . PC Gamer . 2022年11月9日時点のオリジナルよりアーカイブ。

[46] Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2022年8月2日). 「画像は一言で表せる：テキスト反転を用いたテキストから画像への生成のパーソナライズ」. arXiv : 2208.01618 [ cs.CV ].

[47] “NovelAI Improvements on Stable Diffusion” . NovelAI . 2022年10月11日. 2022年10月27日時点のオリジナルよりアーカイブ。

[48] 山下裕貴 (2022年9月1日). "愛犬の合成画像を生成できるAI文章で指示するだけでコスプレ米Googleが開発" .アイティメディア株式会社2022年8月31日のオリジナルよりアーカイブ。

[49] メン、チェンリン;彼、ユートン。ソン、ヤン。宋嘉明。ウー、ジアジュン。朱潤燕。エルモン、ステファノ（2021年8月2日）。「SDEdit: 確率微分方程式を使用したガイド付き画像合成と編集」。arXiv : 2108.01073 [ cs.CV ]。

[webui_showcase-50] “Stable Diffusion web UI” . GitHub . 2022年11月10日. 2023年1月20日時点のオリジナルよりアーカイブ。2022年9月27日閲覧。

[51] invisible-watermark、Shield Mountain、2022年11月2日、2022年10月18日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。

[52] “stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools” . GitHub . 2022年10月2日時点のオリジナルよりアーカイブ。 2022年11月2日閲覧。

[release2.1-53] 「Stable Diffusion v2.1 and DreamStudio Updates 7-Dec 22」 . stability.ai . 2022年12月10日時点のオリジナルよりアーカイブ。

[:10-54] メン、チェンリン;彼、ユートン。ソン、ヤン。宋嘉明。ウー、ジアジュン。朱潤燕。エルモン、ステファノ（2022年1月4日）。「SDEdit: 確率微分方程式を使用したガイド付き画像合成と編集」。arXiv : 2108.01073 [ cs.CV ]。

[:1-55] ルジ、ロレンツォ;シアクーヒ、アリ。メイヤー、ポール M.カスコ・ロドリゲス、ジョスエ。リチャード・バラニューク（2022年10月21日）。「ブーメラン: 拡散モデルを使用した画像多様体上のローカルサンプリング」。arXiv : 2210.12100 [ cs.CV ]。

[56] Bühlmann, Matthias (2022年9月28日). 「Stable Diffusion Based Image Compression」 . Medium . 2022年11月2日時点のオリジナルよりアーカイブ。2022年11月2日閲覧。

[controlnet-paper-57] Zhang, Lvmin (2023年2月10日). 「テキストから画像への拡散モデルへの条件付き制御の追加」. arXiv : 2302.05543 [ cs.CV ].

[58] Edwards, Benj (2022年11月10日). 「ポケットに安定した拡散？『Draw Things』でiPhoneにAI画像が追加」 Ars Technica . 2024年7月10日閲覧。

[59] Wendling, Mike (2024年3月6日). 「AIは簡単に偽の選挙写真を作るのに使える - 報告書」 . bbc.com . 2024年7月10日閲覧。キャンペーン団体CCDHは、Midjourney、OpenAIのChatGPT Plus、Stability.aiのDreamStudio、MicrosoftのImage Creatorという、最大規模の一般向けAIプラットフォーム4つをテストした。

[60] Wiggers, Kyle (2023年5月18日). 「Stability AI、AI搭載デザインスタジオをオープンソース化」 . TechCrunch . 2024年7月10日閲覧。

[61] Weatherbed, Jess (2023年5月17日). 「Stability AIがDreamStudioウェブアプリをオープンソース化」 The Verge .

[62] Mann, Tobias (2024年6月29日). 「Stable DiffusionとAutomatic1111を用いたローカルAI画像生成の分かりやすいガイド」The Register .

[63] Hachman, Mak. 「FooocusはPC上でAIアートを作成する最も簡単な方法です」。PCWorld 。

[64] 「ComfyUIワークフローと知っておくべきこと」 thinkdiffusion.com 2023年12月. 2024年7月10日閲覧。

[65] "ComfyUI" . github.com . 2024年7月10日閲覧。

[66] Huang, Yenkai (2024年5月10日).潜在的自動再帰合成エンジン(MSコンピュータサイエンス論文).ダートマス大学. 2024年7月10日閲覧。

[67] “CompVis/stable-diffusion-v1-4 · Hugging Face” . huggingface.co . 2023年1月11日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。

[68] “CompVis (CompVis)” . huggingface.co . 2023年8月23日. 2024年3月6日閲覧。

[:11-69] “runwayml/stable-diffusion-v1-5 · Hugging Face” . huggingface.co . 2023年9月21日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。

[70] “stable-diffusion-v1-5/stable-diffusion-v1-5 · Hugging Face” . huggingface.co . 2025年5月26日時点のオリジナルよりアーカイブ。 2025年6月1日閲覧。

[:3-71] “stabilityai/stable-diffusion-2 · Hugging Face” . huggingface.co . 2023年9月21日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。

[72] "stabilityai/stable-diffusion-2-base · Hugging Face" . huggingface.co . 2024年1月1日閲覧。

[73] “stabilityai/stable-diffusion-2-1 · Hugging Face” . huggingface.co . 2023年9月21日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。

[74] “stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face” . huggingface.co . 2023年10月8日時点のオリジナルよりアーカイブ。 2023年8月17日閲覧。

[75] 「SDXL 1.0の発表」 . Stability AI . 2024年1月1日閲覧。

[76] "stabilityai/sdxl-turbo · Hugging Face" . huggingface.co . 2024年1月1日閲覧。

[77] 「Adversarial Diffusion Distillation」 . Stability AI . 2024年1月1日閲覧。

[78] 「Stable Diffusion 3」 . Stability AI . 2024年3月5日閲覧。

[79] Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela (2021年2月26日). 「自然言語教師からの転送可能な視覚モデルの学習」. arXiv : 2103.00020 [ cs.CV ].

[80] Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patrick; Ommer, Björn (2022). 「潜在拡散モデルを用いた高解像度画像合成」 IEEE /CVF コンピュータビジョンおよびパターン認識会議 (CVPR) の議事録pp. 10684– 10695. arXiv : 2112.10752 .

[81] Kerner, Sean Michael (2024年12月19日). 「Stable Diffusion 3.5 が Amazon Bedrock に登場：エンタープライズAIワークフローにとっての意味」 . VentureBeat . 2024年12月25日閲覧。

[82] "LICENSE.md · stabilityai/stable-diffusion-xl-base-1.0 at main" . huggingface.co . 2023年7月26日. 2024年1月1日閲覧。

[MIT-LAION-83] Heikkilä, Melissa (2022年9月16日). 「このアーティストはAI生成アートを席巻している。そして彼はそれについて満足していない」 . MIT Technology Review . 2023年1月14日時点のオリジナルよりアーカイブ。 2022年9月26日閲覧。

[bijapan-84] 清水涼 (2022年8月26日)。「Midjourneyを超えた？無料の絵AI「#StableDiffusion」が「AIを民主化した」と認められる理由」 . Business Insider Japan（日本語）2022年12月10日のオリジナルからアーカイブ。2022 年10 月 4 日に取得。

[:13-85] Cai, Kenrick. 「AI画像ジェネレーターStable Diffusionを開発するスタートアップが、評価額10億ドルまでの資金調達に向けて協議中」 Forbes . 2023年9月30日時点のオリジナルよりアーカイブ。 2022年10月31日閲覧。

[86] 「AIによる児童性的虐待画像の違法取引が明らかに」BBCニュース。2023年6月27日。2023年9月21日時点のオリジナルよりアーカイブ。2023年9月26日閲覧。

[87] マイバーグ、エマニュエル（2024年6月11日）「ハッカーがGitHub上の悪意ある安定拡散ツールでAIユーザーを標的に、『芸術品盗難』に抗議」. 404 Media . 2024年6月14日閲覧。

[88] Vincent, James (2023年1月16日). 「AIアートツールStable DiffusionとMidjourneyが著作権訴訟の標的に」 The Verge . 2023年3月9日時点のオリジナルよりアーカイブ。 2023年1月16日閲覧。

[Reuters-SDLawsuit-89] Brittain, Blake (2023年7月19日). 「米判事、AI企業に対するアーティストの訴訟に欠陥を発見」ロイター. 2023年9月6日時点のオリジナルよりアーカイブ。2023年8月6日閲覧。

[90] Goosens, Sophia (2024年2月28日). 「Getty Images対Stability AI：英国の著作権法とライセンスへの影響」 .

[91] Gill, Dennis (2023年12月11日). 「ゲッティイメージズ対スタビリティAI：著作権侵害の申し立ては裁判に進むことができる」 .

[92] グーセンス、ソフィア（2024年2月28日）「ゲッティ対スタビリティAI訴訟、英国で裁判へ ― そこから学んだこと」

[pinsentmasons2024GettyvsStabilityAI-93] Hill, Charlotte (2024年2月16日). 「法廷における生成AI：ゲッティイメージズ対スタビリティAI」 .

[94] Tobin, Sam (2025年11月4日). 「ゲッティイメージズ、AI画像ジェネレーターをめぐる英国での画期的な訴訟でほぼ敗訴」 .

[stability-95] 「Stable Diffusion Public Release」 . Stability.Ai . 2022年8月30日時点のオリジナルよりアーカイブ。 2022年8月31日閲覧。

[96] 「RAILからOpen RAILへ：RAILライセンスのトポロジー」Responsible AI Licenses (RAIL) 2022年8月18日。2023年7月27日時点のオリジナルよりアーカイブ。 2023年2月20日閲覧。

[washingtonpost-97] 「準備はできているかどうかに関わらず、大量のディープフェイク動画がやってくる」ワシントン・ポスト、2022年8月30日。2022年8月31日時点のオリジナルよりアーカイブ。 2022年8月31日閲覧。

[98] “License - a Hugging Face Space by CompVis” . huggingface.co . 2022年9月4日時点のオリジナルよりアーカイブ。2022年9月5日閲覧。

[99] 石田勝男 (2022年8月26日). 「言葉で指示した画像をすごいAIが描く「安定拡散」～画像は商業利用も可能』 .株式会社インプレス2022年11月14日のオリジナルからアーカイブ。2022 年10 月 4 日に取得。

[100] 「コミュニティライセンス」 . Stability AI . 2024年7月5日. 2024年10月23日閲覧。

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

8 ] 、

[

[

[

Stable Diffusionは、

[

[ 14 ]

[ 15 ]

[

[

[ 18 ]

[

[

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[

[

[

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[

[ 57 ]

[ 58 ]

[ 59 ]

[

[

[

[

[

[

[

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]

[ 79 ]

[ 80 ]

[

[ 82 ]

[ 83 ]

[ 84 ]

[ 85 ]

[ 86 ]

[ 87 ]

[

[ 89 ]

[ 90 ]

[ 91 ]

[ 92 ]

[ 93 ]

[ 94 ]

[ 95 ]

[ 96 ]

[ 97 ]

[ 98 ]

[ 99 ]

[ 100 ]