テキストから画像へのパーソナライゼーション

テキストから画像へのパーソナライゼーションは、コンピュータグラフィックスのディープラーニングにおけるタスクであり、事前学習済みのテキストから画像への生成モデルを拡張する。このタスクでは、大規模データ（通常は基礎モデル）で学習された生成モデルを、ユーザーが提供する新しい概念の画像を生成できるように適応させる。^[¹^]^[²^]これらの概念は通常、学習中には表示されず、特定のオブジェクト（ユーザーのペットなど）またはより抽象的なカテゴリ（新しい芸術的スタイル^[³^]やオブジェクトの関係^[⁴^]）を表す場合がある。

テキストから画像へのパーソナライゼーション手法では、通常、新しい（個人的な）概念をモデルの語彙に含まれる新しい単語に結び付けます。これらの単語は、その後のプロンプトでその概念を呼び出すために使用され、主語駆動型生成^{[ 5 ]} 、インペインティング[6] 、スタイルトランスファー^{[ 7 ]} 、さらにはモデルのバイアス修正にも使用されます。そのために、モデルは単語埋め込みを最適化するか、生成モデル自体を微調整するか、あるいは両方のアプローチを組み合わせて使用します。

テクノロジー

テキストから画像へのパーソナライゼーションは、2022年8月にTextual Inversion ^{[ 7 ]}とDreamBooth [ ⁸^{]という2つの同時研究によって初めて提案されました}^。

どちらの場合も、ユーザーは、例えば飼い犬などの概念の画像をいくつか（通常3～5枚）と、その概念クラスの大まかな記述子（「犬」という単語など）と共に提供します。モデルは再構成に基づく目標設定を通して、対象を表現する方法を学習します。この目標設定では、対象に関するプロンプトがトレーニングセットから画像を再構成することが期待されます。

Textual Inversionでは、パーソナライズされた概念がテキスト画像モデルに導入されます。これは、モデルの語彙に新しい単語を追加することによって行われます。典型的なテキスト画像モデルは、単語（場合によっては単語の一部）をトークン、つまり定義済み辞書のインデックスとして表します。生成時に、入力プロンプトはそのようなトークンに変換され、各トークンは「単語埋め込み」に変換されます。単語埋め込みとは、モデルのトレーニングの一環として各トークンに対して学習される連続的なベクトル表現です。Textual Inversionは、新しい概念を表現するために新しい単語埋め込みベクトルを最適化することを提案します。この新しい埋め込みベクトルは、ユーザーが選択した文字列に割り当てられ、ユーザーのプロンプトにこの文字列が含まれるたびに呼び出されます。^{[ 7 ]}

DreamBoothでは、新しい単語ベクトルを最適化するのではなく、生成モデル全体を微調整します。ユーザーはまず既存のトークン（通常はプロンプトにほとんど現れないトークン）を選択します。次に、対象自体は、このトークンを含む文字列と、それに続く対象のクラスを表す大まかな記述子で表されます。対象を説明するプロンプトは、「<トークン> <クラス>の写真」という形式になります（例えば、特定の猫を表現する場合は「sks catの写真」）。テキスト画像変換モデルは、この形式のプロンプトから対象の画像が生成されるように調整されます。^{[ 8 ]}

テキストの反転

Textual Inversion の重要なアイデアは、新しい (パーソナライズされた) 概念に対応する新しい用語を普及モデルの語彙に追加することです。

テキスト反転は、事前学習済みのテキスト画像変換モデルのテキスト埋め込み空間内で、概念を新たな擬似単語に反転させることで機能します。これらの擬似単語は、単純な自然言語記述を用いて新たなシーンに挿入することができ、シンプルで直感的な変更が可能になります。この手法により、ユーザーはマルチモーダル情報を活用できます。テキスト駆動型のインターフェースを用いて編集を容易にしつつ、自然言語の限界に近づく際には視覚的な手がかりを提供します。

結果として得られるモデルは、概念ごとに非常に軽量で、わずか1Kの長さですが、概念の詳細な視覚的特性をエンコードすることに成功しています。^{[ 9 ]}

拡張機能

元の方法を改良・改善するために、いくつかのアプローチが提案されました。これらには以下が含まれます。

低ランク適応（LoRA） - モデルの効率的な微調整のためのアダプタベースの技術。^{[ 10 ]}テキストから画像へのモデルの場合、LoRAは通常、拡散モデルのクロスアテンション層を修正するために使用されます。^[¹¹^]
灌流 - 拡散モデルのクロスアテンション層におけるキーマトリックスの活性化を概念の粗いクラスに固定する低ランク更新法。^{[ 12 ]}
拡張テキスト反転 - 拡散モデルのノイズ除去ネットワークの各層に個別の単語埋め込みを学習する技術。^{[ 13 ]}
別のニューラルネットワークを使用してモデルを迅速にパーソナライズするエンコーダベースの方法^{[ 14 ]}^{[ 15 ]}

課題と限界

テキストから画像へのパーソナライゼーション手法は、いくつかの課題に対処しなければなりません。その核となるのは、個人のコンセプトに高い忠実度を保ちつつ、主題を含む斬新なプロンプトと生成された画像（一般的に「編集可能性」と呼ばれます）の高い整合性を維持することです。

パーソナライゼーション手法が対処しなければならないもう一つの課題は、メモリ要件です。パーソナライゼーション手法の初期の実装では20ギガバイト以上のGPUメモリが必要でしたが、最近のアプローチでは40ギガバイトを超える要件が報告されています。^{[ 14 ]しかし、Flash Attention}^{[ 16 ]}などの最適化により、この要件は大幅に削減されました。

生成モデル全体を調整するアプローチは、数ギガバイトにも及ぶチェックポイントを作成する可能性があり、多くのモデルの共有や保存が困難になります。埋め込みベースのアプローチは数キロバイトしか必要としませんが、編集可能性を維持しながらモデル自体の同一性を維持するのが困難です。最近のアプローチでは、埋め込みとネットワーク重みのサブセットの両方を最適化するハイブリッドなチューニング目標が提案されています。これにより、完全なチューニング手法に匹敵する品質を実現しながら、必要なストレージ容量を100キロバイト程度まで削減できます。^{[ 12 ]}

最後に、最適化プロセスは長くなる可能性があり、新しい概念ごとに数分間の調整が必要になります。エンコーダーとクイックチューニング手法は、これを数秒以内に短縮することを目指しています。^{[ 17 ]}

参考文献

^マーフィー、ブレンダン・ポール (2022年10月12日). 「AIによる画像生成は驚異的なスピードで進歩している。それでも偽物かどうか見分けられるのか？」 The Conversation . 2023年9月14日閲覧。
^ "「好きなキャラに近い絵をAIが量産」――ある概念を「単語」に圧縮し入力テキストに使える技術" . ITmedia NEWS . 2023-09-14に取得。
^ Baio, Andy (2022年11月1日). 「侵襲的拡散：ある不本意なイラストレーターがいかにしてAIモデルになったのか」 . Waxy.org . 2023年9月14日閲覧。
^黄子斉;呉、天興。ジャン、ユーミン。チャン、ケルビンCK。劉紫偉（2023）。「ReVersion: 画像からの拡散ベースの関係反転」。arXiv : 2303.13495 [ cs.CV ]。
^ Jr, Edward Ongweso (2022年10月14日). 「AIで偽の自撮り写真を作る人々が増えている」 . Vice . 2023年9月20日閲覧。
^ Dave James (2022年12月27日). 「RTX 4090を8時間連続で使い倒し、Stable Diffusionのトレーニングでヘルマンおじさんのような絵を描けるようになった」 . PC Gamer . 2023年9月20日閲覧。
^ ^a ^b Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit Haim; Chechik, Gal; Cohen-or, Daniel (2022-09-29). 「画像は一言に値する：テキスト反転を用いたテキストから画像への生成のパーソナライズ」arXiv : 2208.01618 .{{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です
^ ^a ^b Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir (2023). 「DreamBooth: 主観主導型生成のためのテキストから画像への拡散モデルの微調整」 : 22500–22510 . arXiv : 2208.12242 .{{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です
^ 「紙のページ - 画像は一言の価値がある：テキスト反転を使用したテキストから画像への生成のパーソナライズ」 huggingface.co 2025年4月9日 2025年8月29日閲覧。
^ Singh, Niharika (2023年2月18日). 「HuggingFaceが効率的で安定した拡散の微調整を可能にするLoRAスクリプトを公開」 . MarkTechPost . 2023年9月14日閲覧。
^胡、エドワード J.シェン、イェロン。ウォリス、フィリップ。アレン・ジュー、ゼユアン。李元志。ワン、シーン。王、陸。陳偉珠（2021-10-06）。「LoRA: 大規模言語モデルの低ランク適応」。arXiv : 2106.09685。{{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です
^ ^a ^b Tewel, Yoad; Gal, Rinon; Chechik, Gal; Atzmon, Yuval (2023-07-23). 「テキストから画像へのパーソナライゼーションのためのキーロック付きランク1編集」 .コンピュータグラフィックスとインタラクティブ技術に関する特別利益団体会議議事録. SIGGRAPH '23. ニューヨーク州ニューヨーク：米国計算機協会. pp. 1– 11. arXiv : 2305.01644 . doi : 10.1145/3588432.3591506 . ISBN 979-8-4007-0159-7. S2CID 258436985 .
^ Lorenzi, Daniele (2023年7月22日). 「Meet P+: A Rich Embeddings Space for Extended Textual Inversion in Text-to-Image Generation」 . MarkTechPost . 2023年8月29日閲覧。
^ ^a ^b Gal, Rinon; Arar, Moab; Atzmon, Yuval; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2023-07-26). 「エンコーダベースのドメインチューニングによるテキスト画像モデルの高速パーソナライゼーション」 . ACM Transactions on Graphics . 42 (4): 150:1–150:13. arXiv : 2302.12228 . doi : 10.1145/3592133 . ISSN 0730-0301 . S2CID 257364757 .
^魏、玉祥;チャン、ヤーボ。ジー・ジーロン。バイ、ジンフェン。張、雷。左、王夢（2023）。「ELITE: カスタマイズされたテキストから画像への生成のためのビジュアルコンセプトをテキスト埋め込みにエンコードする」。arXiv : 2302.13848 [ cs.CV ]。
^ Dao, Tri; Fu, Daniel Y.; Ermon, Stefano; Rudra, Atri; Ré, Christopher (2022). 「FlashAttention: IOを考慮した高速かつメモリ効率の高いExact Attention」. arXiv : 2205.14135 [ cs.LG ].
^ Shi, Jing; Xiong, Wei; Lin, Zhe; Jung, Hyun Joon (2023). 「InstantBooth: テスト時の微調整を必要としないパーソナライズされたテキストから画像への生成」. arXiv : 2304.03411 [ cs.CV ].

[1] マーフィー、ブレンダン・ポール (2022年10月12日). 「AIによる画像生成は驚異的なスピードで進歩している。それでも偽物かどうか見分けられるのか？」 The Conversation . 2023年9月14日閲覧。

[2] "「好きなキャラに近い絵をAIが量産」――ある概念を「単語」に圧縮し入力テキストに使える技術" . ITmedia NEWS . 2023-09-14に取得。

[3] Baio, Andy (2022年11月1日). 「侵襲的拡散：ある不本意なイラストレーターがいかにしてAIモデルになったのか」 . Waxy.org . 2023年9月14日閲覧。

[4] 黄子斉;呉、天興。ジャン、ユーミン。チャン、ケルビンCK。劉紫偉（2023）。「ReVersion: 画像からの拡散ベースの関係反転」。arXiv : 2303.13495 [ cs.CV ]。

[5] Jr, Edward Ongweso (2022年10月14日). 「AIで偽の自撮り写真を作る人々が増えている」 . Vice . 2023年9月20日閲覧。

[6] Dave James (2022年12月27日). 「RTX 4090を8時間連続で使い倒し、Stable Diffusionのトレーニングでヘルマンおじさんのような絵を描けるようになった」 . PC Gamer . 2023年9月20日閲覧。

[:0-7] Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit Haim; Chechik, Gal; Cohen-or, Daniel (2022-09-29). 「画像は一言に値する：テキスト反転を用いたテキストから画像への生成のパーソナライズ」arXiv : 2208.01618 .{{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です

[:1-8] Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir (2023). 「DreamBooth: 主観主導型生成のためのテキストから画像への拡散モデルの微調整」 : 22500–22510 . arXiv : 2208.12242 .{{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です

[9] 「紙のページ - 画像は一言の価値がある：テキスト反転を使用したテキストから画像への生成のパーソナライズ」 huggingface.co 2025年4月9日 2025年8月29日閲覧。

[10] Singh, Niharika (2023年2月18日). 「HuggingFaceが効率的で安定した拡散の微調整を可能にするLoRAスクリプトを公開」 . MarkTechPost . 2023年9月14日閲覧。

[11] 胡、エドワード J.シェン、イェロン。ウォリス、フィリップ。アレン・ジュー、ゼユアン。李元志。ワン、シーン。王、陸。陳偉珠（2021-10-06）。「LoRA: 大規模言語モデルの低ランク適応」。arXiv : 2106.09685。{{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です

[:2-12] Tewel, Yoad; Gal, Rinon; Chechik, Gal; Atzmon, Yuval (2023-07-23). 「テキストから画像へのパーソナライゼーションのためのキーロック付きランク1編集」 .コンピュータグラフィックスとインタラクティブ技術に関する特別利益団体会議議事録. SIGGRAPH '23. ニューヨーク州ニューヨーク：米国計算機協会. pp. 1– 11. arXiv : 2305.01644 . doi : 10.1145/3588432.3591506 . ISBN 979-8-4007-0159-7. S2CID 258436985 .

[13] Lorenzi, Daniele (2023年7月22日). 「Meet P+: A Rich Embeddings Space for Extended Textual Inversion in Text-to-Image Generation」 . MarkTechPost . 2023年8月29日閲覧。

[:3-14] Gal, Rinon; Arar, Moab; Atzmon, Yuval; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2023-07-26). 「エンコーダベースのドメインチューニングによるテキスト画像モデルの高速パーソナライゼーション」 . ACM Transactions on Graphics . 42 (4): 150:1–150:13. arXiv : 2302.12228 . doi : 10.1145/3592133 . ISSN 0730-0301 . S2CID 257364757 .

[15] 魏、玉祥;チャン、ヤーボ。ジー・ジーロン。バイ、ジンフェン。張、雷。左、王夢（2023）。「ELITE: カスタマイズされたテキストから画像への生成のためのビジュアルコンセプトをテキスト埋め込みにエンコードする」。arXiv : 2302.13848 [ cs.CV ]。

[16] Dao, Tri; Fu, Daniel Y.; Ermon, Stefano; Rudra, Atri; Ré, Christopher (2022). 「FlashAttention: IOを考慮した高速かつメモリ効率の高いExact Attention」. arXiv : 2205.14135 [ cs.LG ].

[17] Shi, Jing; Xiong, Wei; Lin, Zhe; Jung, Hyun Joon (2023). 「InstantBooth: テスト時の微調整を必要としないパーソナライズされたテキストから画像への生成」. arXiv : 2304.03411 [ cs.CV ].

[

[

[

[

[ 5 ]

[ 7 ]

[ 7 ]

8

[ 9 ]

[ 10 ]

[

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]