arXiv	https://arxiv.org/abs/2412.03632
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

MV-Adapter: Multi-view Consistent Image Generation Made Easy

Zehuan Huang¹, Yuan-Chen Guo^{2 $\dagger$}, Haoran Wang³, Ran Yi³, Lizhuang Ma³,
Yan-Pei Cao^2🖂, Lu Sheng^1🖂
¹School of Software, Beihang University ²VAST ³Shanghai Jiao Tong University
Project page: https://huanngzh.github.io/MV-Adapter-Page/

Abstract

既存のマルチビュー画像生成手法は、事前学習済みのテキストから画像への (T2I) モデルに侵襲的な修正を加え、完全な微調整を必要とすることが多い。これにより、(1) 特に大規模な基本モデルや高解像度画像の場合、計算コストが高くなり、(2) 最適化の困難さと高品質な3Dデータの不足により、画像品質が低下するという問題がある。本稿では、マルチビュー画像生成のための初のアダプターベースのソリューションを提案し、MV-Adapterを紹介する。これは、元のネットワーク構造や特徴空間を変更することなく、T2Iモデルとその派生モデルを強化する汎用的なプラグアンドプレイアダプターである。より少ないパラメータを更新することで、MV-Adapterは効率的な学習を可能にし、事前学習済みモデルに埋め込まれた事前知識を保持し、過学習のリスクを軽減する。アダプター内の3D幾何学的知識を効率的にモデル化するために、我々は複製された自己注意層と並列注意アーキテクチャを含む革新的な設計を導入し、アダプターが事前学習済みモデルの強力な事前知識を継承して新しい3D知識をモデル化できるようにしている。さらに、我々はカメラパラメータと幾何学的情報をシームレスに統合する統一条件エンコーダーを提案し、テキストおよび画像ベースの3D生成やテクスチャリングなどのアプリケーションを容易にしている。 MV-Adapterは、Stable Diffusion XL (SDXL) 上で768解像度でのマルチビュー生成を実現し、適応性と汎用性を示している。また、任意のビュー生成にも拡張可能であり、より広範なアプリケーションを可能にする。我々は、MV-Adapterがマルチビュー画像生成の新しい品質基準を設定し、その効率性、適応性、汎用性により新たな可能性を切り開くことを実証する。

1 Introduction

多視点画像生成は、2D/3Dコンテンツ制作、ロボット知覚、シミュレーションなどの分野で重要な応用がある基本的なタスクである。テキストから画像への (T2I) 拡散モデルの登場 (Ramesh et al., 2022; Nichol et al., 2022; Saharia et al., 2022; Ramesh et al., 2021; Balaji et al., 2022; Podell et al., 2024; Mokady et al., 2023)により、高品質な単一視点画像の生成において大きな進展があった。これらのモデルを多視点生成に拡張することは、テキスト、画像、3Dデータを一貫したフレームワークに統合する可能性を秘めている。

多視点画像生成に関する最近の試み (Shi et al., 2023b; Tang et al., 2023; 2024; Huang et al., 2024; Gao et al., 2024; Liu et al., 2023a; Long et al., 2024; Li et al., 2024; Kant et al., 2024; Zheng & Vedaldi, 2024; Wang & Shi, 2023) では、大規模な3Dデータセット (Deitke et al., 2023; Yu et al., 2023) でT2Iモデルを微調整し、異なる視点の関連ピクセルに注意を適用することで画像間の3D一貫性をモデル化することを提案している。しかし、これは大規模なベースT2Iモデルと高解像度画像を扱う場合、計算上の課題がある。なぜなら、トレーニング中に少なくとも $n$ 視点の画像を同時に処理する必要があるからである。既存の先進的な手法 (Li et al., 2023a; 2024) でも512の解像度に苦戦しており、これは現代のT2Iモデルが達成できる1024以上にはほど遠い。さらに、高品質な3Dトレーニングデータの不足は、モデル全体の微調整を行う際の最適化の困難さを悪化させ、生成される多視点画像の品質の低下をもたらす。これらの制限は主に、ベースモデルへの侵襲的な変更と完全な調整に起因している。

これらの課題に対処するため、我々は多視点画像生成のための初のアダプターベースのソリューションを提案する。アダプターメカニズムは、この文脈において以下の理由から重要な役割を果たす：第一に、アダプターは訓練が容易である。少数のパラメータの更新のみを必要とし、訓練プロセスをより高速かつメモリ効率的にする。この特性は、最先端のT2Iモデルが規模を拡大し、完全な微調整が不可能になるにつれて、ますます重要になっている。第二に、アダプターは事前訓練されたモデルに埋め込まれた事前知識の保持に役立つ。アダプターは、より少ない訓練可能なパラメータを通じて最適化空間を制約することで過学習のリスクを軽減し、モデルが学習した事前知識を保持しながら多視点生成に適応することを可能にする。第三に、アダプターは適応性と使いやすさを提供する。これらはプラグアンドプレイモジュールであり、微調整されたバージョン(Ruiz et al., 2023)やLoRA(Hu et al., 2021)を含む、ベースモデルの異なるバリアントに適用できる。

多視点生成タスクにおけるアダプターの重要性に基づき、ベースT2Iモデルの元のネットワーク構造と特徴空間を保持する原則に従って、我々はMV-Adapterを提案する。これは、様々な条件下で多視点生成のためにT2Iモデルとその派生モデルを強化する汎用的なプラグアンドプレイアダプターである。これを達成するために、我々は革新的な特徴を持つ効果的なアダプターフレームワークを設計する。既存の手法(Shi et al., 2023b; a)のように、多視点または参照特徴を含めるためにベースモデルの自己注意層を変更し、学習済みの事前知識を乱し、モデル全体の微調整を必要とするのではなく、我々は自己注意層を複製して新しい多視点注意層と画像交差注意層を作成し、出力投影を0に初期化する。さらに、並列組織構造を通じて注意層の有効性を高め、新しい層が事前訓練された自己注意層の強力な事前知識を完全に継承することを保証し、幾何学的知識の効率的な学習を可能にする。加えて、我々は統一された条件埋め込みとエンコーダーを導入し、カメラパラメータと幾何学的情報を空間マップ表現にシームレスに統合し、モデルの汎用性と適用性を向上させる。

我々のアダプターデザインを活用することで、Stable Diffusion XL (SDXL)において768解像度での多視点生成を成功裏に達成した(Podell et al., 2024)。図1に示すように、我々の訓練されたMV-Adapterは適応性と汎用性の両方を実証している。これは、カスタマイズされた、あるいは制御可能な多視点生成のためのベースモデルの派生モデル(Ruiz et al., 2023; Hu et al., 2021; Zhang et al., 2023; Mou et al., 2024)にシームレスに適用され、同時にカメラおよび幾何学的ガイダンスをサポートし、3D生成やテクスチャ生成のアプリケーションに利益をもたらす。さらに、MV-Adapterは任意の視点生成に拡張可能であり、より広範なアプリケーションを可能にする。

要約すると、本稿の貢献は以下の通りである： (1) 効率性を向上させ、より高性能を実現するためのより大規模なベースモデルと連携可能な、初のアダプターベースのアプローチを提案する。 (2) 3D幾何学的知識を効率的にモデル化し、3D生成やテクスチャ生成などの多様なアプリケーションをサポートする革新的なアダプターフレームワークを導入する。 (3) 我々のMV-Adapterは任意の視点からの画像生成に拡張可能であり、より広範なダウンストリームタスクを促進する。 (4) MV-Adapterは、物理的または時間的知識など、新しいタイプの知識のモデル化に関する洞察を提供する分離学習のフレームワークを提供する。

2 Related Work

テキストから画像への拡散モデル。テキストから画像への生成（T2I）(Ramesh et al., 2022; Nichol et al., 2022; Saharia et al., 2022; Ramesh et al., 2021; Balaji et al., 2022; Podell et al., 2024; Mokady et al., 2023)は、特に拡散モデルの進歩により顕著な進展を遂げた(Ho et al., 2020; Song et al., 2020; Dhariwal & Nichol, 2021; Ho & Salimans, 2022)。ガイド付き拡散(Dhariwal & Nichol, 2021)と分類器フリーガイダンス(Ho & Salimans, 2022)は、テキスト条件付けと生成の忠実度を向上させた。 DALL-E2(Ramesh et al., 2022)は、CLIP(Radford et al., 2021)を活用してテキストと画像のアラインメントを改善している。 Latent Diffusion Model(Rombach et al., 2022)、別名Stable Diffusionは、オートエンコーダの潜在空間で拡散を行うことで効率性を高めている。 Stable Diffusion XL(Podell et al., 2024)は、2段階のカスケード拡散モデルであり、高周波詳細の生成と画質を大幅に改善した。

T2Iモデルの派生と拡張。事前学習済みT2Iを用いた創作を促進するため、効率性向上のためのモデル蒸留(Meng et al., 2023; Song et al., 2023; Luo et al., 2023; Lin et al., 2024)や制御可能な生成(Cao et al., 2024)に焦点を当てた様々な派生モデルや拡張が開発されている。これらの派生には、パーソナライゼーション(Ruiz et al., 2023; Gal et al., 2022; Hu et al., 2021; Shi et al., 2024; Wang et al., 2024a; Ma et al., 2024; Song et al., 2024; Kumari et al., 2023; Ye et al., 2023)や空間制御(Mou et al., 2024; Zhang et al., 2023)が含まれる。通常、これらはアダプターや微調整手法を用いて、事前学習済みモデルの元の特徴空間を保持しつつ機能を拡張している。我々の研究は非侵襲的原則に従い、これらの派生や拡張との互換性を確保し、より広範な応用を可能にしている。

T2Iモデルによるマルチビュー生成。マルチビュー生成手法(Shi et al., 2023b; Tang et al., 2023; 2024; Huang et al., 2024; Gao et al., 2024; Liu et al., 2023a; Long et al., 2024; Li et al., 2024; Kant et al., 2024; Zheng & Vedaldi, 2024; Wang & Shi, 2023; Jeong et al., 2025)は、大規模3Dデータセット(Deitke et al., 2023; Yu et al., 2023)を活用することでT2Iモデルを拡張している。例えば、MVDream(Shi et al., 2023b)はカメラ埋め込みを統合し、自己注意機構を2Dから3Dに拡張してビュー間の接続を実現している。一方、SPAD(Kant et al., 2024)はビュー間注意にエピポーラ制約を適用することで空間的関係のモデリングを強化している。 Era3D(Li et al., 2024)は、ビュー間のエピポーラ線に沿った効率的な行単位の自己注意機構を導入し、高解像度のマルチビュー生成を可能にしている。しかしながら、これらの手法は通常、大規模なパラメータ更新を必要とし、事前学習されたT2Iモデルの特徴空間を変更するため、T2I派生モデルとの互換性が制限される。本稿の研究は、事前学習されたT2Iモデルと調和するマルチビューアダプターを導入することでこの問題に対処し、多様なアプリケーションの可能性を大幅に拡大している。

3 Preliminary

ここでは、マルチビュー拡散モデルの予備知識を紹介する(Shi et al., 2023b; Kant et al., 2024; Li et al., 2024)。これは、テキスト画像生成（T2I）モデル内でマルチビューの一貫性をモデル化する一般的な戦略を理解するのに役立つものである。

マルチビュー拡散モデル。マルチビュー拡散モデルは、マルチビュー注意機構を導入することでT2Iを強化し、異なる視点間で一貫性のある画像の生成を可能にする。いくつかの研究(Shi et al., 2023b; Wang & Shi, 2023)では、T2Iの自己注意をマルチビュー画像全体のすべてのピクセルを含むように拡張している。注意ブロックの入力を $\bm{f}^{in}$ とすると、密なマルチビュー自己注意は $\bm{f}^{in}$ を視点自体から $n$ 視点からの連結された特徴列に拡張する。このアプローチはグローバルな依存関係を捉えるが、すべての視点のすべてのピクセルを処理するため、計算コストが高い。計算コストを軽減するために、エピポーラ注意(Kant et al., 2024; Huang et al., 2024)は視点間の幾何学的関係を活用する。具体的には、SPAD(Kant et al., 2024)のような手法は、 $\bm{f}^{in}$ を視点自体とそのエピポーラ線に沿ったパッチに制限することで自己注意を拡張している。

さらに、仰角 $0^{\circ}$ で正投影ビューを生成する場合、エピポーラ線は画像の行に沿って整列する。この特性を利用して、行単位の自己注意(Li et al., 2024)がT2Iモデルの元の自己注意層の後に導入される。このプロセスは以下のように定義される：

\bm{f}^{self}=\text{SelfAttn}(\bm{f}^{in})+\bm{f}^{in};\ \bm{f}^{mv}=\text{% MultiViewAttn}(\bm{f}^{self})+\bm{f}^{self}

(1)

ここで、MultiViewAttnは異なるビューの同じ行に対して注意を実行し、計算オーバーヘッドを削減しつつ効果的にマルチビューの一貫性を強制する。

4 Method

MV-Adapterは、特定のチューニングなしでT2Iの派生モデルに転移可能なマルチビュープライアを学習するプラグアンドプレイ型アダプタであり、様々な条件下でマルチビュー一貫性のある画像を生成することを可能にする。図2に示すように、推論時には、条件ガイダーと分離された注意層を含む我々のMV-Adapterを、パーソナライズされたまたは蒸留されたT2Iに挿入してマルチビュージェネレータを構成することができる。

詳細には、図3に示すように、4.1節の条件ガイダーはカメラまたはジオメトリ情報をエンコードし、カメラガイド生成とジオメトリガイド生成の両方をサポートする。 4.2節の分離された注意メカニズム内では、追加のマルチビュー注意層がマルチビュー一貫性を学習し、オプションの画像クロス注意層は画像条件付き生成のためのものである。これらの新しい層は、事前学習された空間的自己注意からコピーされ、並列アーキテクチャで構成されている。 4.3節では、MV-Adapterの学習と推論プロセスについて詳述する。

4.1 Condition Guider

我々は、カメラと幾何学的表現の両方をエンコードすることをサポートする汎用的な条件ガイダーを設計し、T2Iモデルが様々なガイダンスの下で多視点生成を実行できるようにした。

カメラ条件付け。カメラポーズに条件付けするために、我々は事前学習されたT2Iモデルの潜在表現と同じ高さと幅を共有し、各空間位置でのレイの原点と方向をエンコードするカメラレイ表現（「レイマップ」）を使用する(Watson et al., 2022; Sajjadi et al., 2022; Gao et al., 2024)。

幾何学的条件付け。幾何学的にガイドされた多視点生成は、テクスチャ生成のようなアプリケーションに役立つ。幾何学的情報に条件付けするために、我々は視点依存ではなく、位置マップと法線マップを含むグローバルな表現を使用する(Li et al., 2023b; Bensadoun et al., 2024)。位置マップの各ピクセルは形状上の点の座標を表し、これは異なる視点間での点の対応を提供する。法線マップは方向情報を提供し、細かい幾何学的詳細を捉え、詳細なテクスチャの生成に役立つ。我々は位置マップと法線マップを連結して、各視点の複合的な幾何学的条件付け入力を形成する。

エンコーダー設計。カメラまたは幾何学的表現をエンコードするために、我々は条件マップ $\bm{c}_{m}$ （ $\bm{c}_{m}\in\mathbb{R}^{n\times 6\times h\times w}$ ）のためのシンプルで軽量な条件ガイダーを設計した。条件ガイダーは一連の畳み込みネットワークで構成され、特徴抽出ブロックとダウンサンプリング層を含み、特徴解像度をU-Netエンコーダーの特徴に適応させる。抽出された多スケール特徴は、その後U-Netの対応するスケールに加算され、モデルが複数のレベルで条件付け情報をシームレスに統合できるようにする。理論的には、我々のエンコーダーへの入力は特定のタイプの条件に限定されず、深度マップやポーズマップなど、より広範な種類のマップにも拡張できる。

4.2 Decoupled Attention

我々は分離型アテンションメカニズムを導入する。ここでは、元の空間的自己アテンション層を保持し、それらを複製して新しいマルチビューアテンション層と画像クロスアテンション層を作成し、画像条件付き生成を可能にする。これら3種類のアテンション層は並列アーキテクチャで構成されており、新しいアテンション層が事前学習された自己アテンション層の強力な事前知識を完全に継承できるようにすることで、幾何学的知識の効率的な学習を可能にしている。

空間的自己アテンションの複製。我々の設計は、ベースとなるT2Iモデルの元のネットワーク構造と特徴空間を保持するという原則に従っている。 MVDream (Shi et al., 2023b)やZero123++ (Shi et al., 2023a)のような既存の手法は、ベースモデルの自己アテンション層を変更してマルチビューや参照特徴を含めているが、これは学習済みの事前知識を乱し、モデル全体の微調整を必要とする。本稿では、空間的自己アテンション層の構造と重みを複製して新しいマルチビューアテンション層と画像クロスアテンション層を作成し、これらの新しいアテンション層の出力投影を0で初期化する。これにより、新しい層が元のモデルを妨げることなく幾何学的知識を学習できるようになり、優れた適応性を確保している。

Parallel attention architecture.

事前学習されたT2Iモデルでは、空間的自己アテンション層とテキストクロスアテンション層が残差接続を通じて直列に接続されている。アテンションブロックの入力特徴を $\bm{f}^{in}$ とすると、このプロセスは以下のように表現できる：

	$\displaystyle\bm{f}^{self}$	$\displaystyle=\text{SelfAttn}(\bm{f}^{in})+\bm{f}^{in};$		(2)
	$\displaystyle\bm{f}^{cross}$	$\displaystyle=\text{CrossAttn}(\bm{f}^{self})+\bm{f}^{self}$		(2)

新しいアテンション層を組み込む単純な方法は、元の層の後にそれらを追加し、直列に接続することである。しかし、この順次配置では、新しい層がゼロから学習する必要があるため、事前学習された自己アテンション層によってモデル化された画像の事前知識を効果的に利用できない可能性がある。新しい層を事前学習された重みで初期化したとしても、これらの直列に構成された層への入力特徴は異なるドメインにあるため、初期化が効果的でない。空間的自己アテンション層の効果的な事前知識を十分に活用するために、我々は図4に示すような並列アーキテクチャを採用する。このプロセスは以下のように定式化できる：

\bm{f}^{self}=\text{SelfAttn}(\bm{f}^{in})+\text{MultiViewAttn}(\bm{f}^{in})+% \text{ImageCrossAttn}(\bm{f}^{in},\bm{f}^{ref})+\bm{f}^{in}

(3)

ここで、 $\bm{f}^{ref}$ は参照画像の特徴を指す。新しい層に供給される特徴 $\bm{f}^{in}$ は自己アテンション層へのものと同じであるため、画像の事前知識を転移するために事前学習された層で効果的に初期化できる。我々は、新しい層の出力投影層を0で初期化し、初期出力が元の特徴空間を乱さないようにしている。この構造的選択により、モデルは確立された事前知識に基づいて構築でき、マルチビューの一貫性と画像条件付き生成の効率的な学習を促進しつつ、ベースT2Iの元の空間を保持することができる。

マルチビューアテンションの詳細。我々は、異なるアプリケーションの特定のニーズを満たすために、マルチビューアテンションに対して異なる戦略を設計している。 3Dオブジェクト生成では、モデルが仰角 $0^{\circ}$ でマルチビュー画像を生成できるようにし、行単位の自己アテンション(Li et al., 2024)を採用している。 3Dテクスチャ生成では、視点カバレッジの要件を考慮し、仰角 $0^{\circ}$ で均等に配置された4つのビューに加えて、上下からの2つのビューを追加している。そして、行単位と列単位の両方の自己アテンションを実行し、すべてのビュー間で効率的な情報交換を可能にしている。任意のビュー生成では、マルチビューアテンション層で完全な自己アテンション(Shi et al., 2023b)を採用している。

画像クロスアテンションの詳細。参照画像 $\bm{c}_{i}$ に条件付けを行い、実現するために、我々はT2Iモデルの元の特徴空間を変更することなく画像から詳細な情報を取り込む新しい方法を提案する。我々は、事前学習され凍結されたT2I U-Netを画像エンコーダーとして使用する。クリアな参照画像をこの凍結されたU-Netに通し、タイムステップ $t=0$ を設定し、その後、空間的自己アテンション層からマルチスケール特徴を抽出する。これらの細かい特徴には被写体に関する詳細な情報が含まれており、分離型画像クロスアテンション層を通じてデノイジングU-Netに注入される。このようにして、我々は事前学習されたモデルによって学習された豊かな表現を活用し、生成されるコンテンツの精密な制御を可能にしている。

4.3 Training and Inference

訓練中、我々は事前学習されたT2Iモデルの重みを固定したまま、MV-Adapterのみを最適化する。我々は、参照画像、テキスト、および $n$ ビューのペアを含むデータセットでMV-Adapterを訓練し、T2Iモデルと同じ訓練目的を使用する：

\mathcal{L}=\mathbb{E}_{\mathcal{E}(\bm{x}_{0}^{1:n}),\bm{\epsilon}\sim% \mathcal{N}(\bm{0},\bm{I}),\bm{c}_{t},\bm{c}_{i},\bm{c}_{m},t}[\lVert\bm{% \epsilon}-\epsilon_{\theta}(\bm{z}_{t}^{1:n},\bm{c}_{t},\bm{c}_{i},\bm{c}_{m},% t)\rVert_{2}^{2}]

(4)

ここで、 $\bm{c}_{t}$ 、 $\bm{c}_{i}$ 、および $\bm{c}_{m}$ はそれぞれテキスト、参照画像、および条件付けマップ（すなわち、カメラまたは幾何学的条件）を表す。我々は、推論時にクラシファイアフリーガイダンスを可能にするため、参照画像の特徴をランダムにゼロにして画像条件をドロップする。先行研究(Blattmann et al., 2023; Hoogeboom et al., 2023)と同様に、我々はT2Iから高次元のデータを捉えるマルチビュー拡散モデルに移行するにつれて、ノイズスケジュールを高ノイズレベルに向けてシフトする。我々は対数信号対雑音比を $\log(n)$ だけシフトする。ここで、 $n$ は生成されるビューの数である。

5 Experiments

我々はStable Diffusion V2.1 (SD2.1)およびStable Diffusion XL (SDXL)にMV-Adapterを実装し、Objaverseデータセット(Deitke et al., 2023)のサブセットを用いて、SD2.1用に $512\times 512$ アダプターを、SDXL用に $768\times 768$ アダプターを訓練した。詳細な設定は付録に記載されている。

5.1 Camera-Guided Multi-view Generation

表1: カメラガイド付きテキストからマルチビュー生成の定量的比較。

Method	FID $\downarrow$	IS $\uparrow$	CLIP Score $\uparrow$
MVDream	32.15	14.38	31.76
SPAD	48.79	12.04	30.87
Ours (SD2.1)	31.24	15.01	32.04
Ours (SDXL)	29.71	16.38	33.17

表2: カメラガイド付き画像からマルチビュー生成の定量的比較。

Method	PSNR $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$
ImageDream	19.280	0.8472	0.1218
Zero123++	20.312	0.8417	0.1205
CRM	20.185	0.8325	0.1247
SV3D	20.042	0.8267	0.1396
Ouroboros3D	20.810	0.8535	0.1193
Era3D	20.890	0.8601	0.1199
Ours (SD2.1)	20.867	0.8695	0.1147
Ours (SDXL)	22.131	0.8816	0.1002

Evaluation on community models and extensions.

我々は、代表的なT2Iモデルと拡張機能を用いてMV-Adapterを評価した。これには、パーソナライズドモデル(Ruiz et al., 2023; Hu et al., 2021)、効率的な蒸留モデル(Luo et al., 2023; Lin et al., 2024)、ControlNet(Zhang et al., 2023)などのプラグインが含まれる。図5に6つの定性的結果を示す。さらなる結果は付録に記載されている。

Comparison with baselines.

テキストからマルチビュー生成については、我々のMV-AdapterをMVDream(Shi et al., 2023b)およびSPAD(Kant et al., 2024)と、Objaverseデータセットからの1,000のプロンプトを用いて比較した。結果は図6および表2に示されている。画像からマルチビュー生成については、ImageDream(Wang & Shi, 2023)、Zero123++(Shi et al., 2023a)、CRM(Wang et al., 2024b)、SV3D(Voleti et al., 2024)、Ouroboros3D(Wen et al., 2024)、およびEra3D(Li et al., 2024)とGoogle Scanned Objects (GSO)データセット(Downs et al., 2022)を用いて比較を行った。結果は図7および表2に示されている。実験結果は、T2Iモデルの元の特徴空間を保持することで、我々のMV-Adapterがより高い視覚的忠実性と条件との一貫性を達成していることを示している。

5.2 Geometry-Guided Multi-view Generation

表3: 3Dテクスチャ生成の定量的比較。FIDとKID（

\times 10^{-4}

）はマルチビューレンダリングで評価。我々のモデルは最高のテクスチャ品質と高速な推論を実現している。

Method	FID $\downarrow$	KID $\downarrow$	Time $\downarrow$
TEXTure	56.44	61.16	90s
Text2Tex	58.43	60.81	421s
Paint3D	44.38	47.06	60s
SyncMVD	36.13	42.28	50s
FlashTex	50.48	56.36	186s
Ours (SD2.1 - Text)	38.19	42.83	18s
Ours (SD2.1 - Image)	33.93	38.73	19s
Ours (SDXL - Text)	32.75	35.18	32s
Ours (SDXL - Image)	27.28	29.47	33s

表4: 完全チューニング手法との訓練コストの比較（バッチサイズを1に設定）。

Method	Trainable params $\downarrow$	Memory usage $\downarrow$	Training speed $\uparrow$
Era3D (SD2.1)	993M	36G	2.2iter/s
Ours (SD2.1)	127M	17G	3.1iter/s
Era3D (SDXL)	3.1B	$>$ 80G	-
Ours (SDXL)	490M	60G	1.05iter/s

表5: アテンション構造に関する定量的アブレーション研究。

Method	PSNR $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$
Serial (SDXL)	20.687	0.8681	0.1149
Parallel (SDXL)	22.131	0.8816	0.1002

Evaluation on community models and extensions.

我々は、T2I派生モデルを用いてジオメトリ誘導型モデルを評価した。図8の結果は、MV-Adapterが異なるベースモデルとシームレスに統合できる適応性を示している。

Comparison with baselines.

我々は、テキストおよび画像条件付きのマルチビューベースのテクスチャ生成手法（セクション5.4参照）を、TEXTure (Richardson et al., 2023)、Text2Tex (Chen et al., 2023)、Paint3D (Zeng et al., 2024)、SyncMVD (Liu et al., 2023b)、FlashTex (Deng et al., 2024)を含む4つの最先端手法と比較した。我々の画像からテクスチャへのモデルでは、ControlNet (Zhang et al., 2023)を使用して、テキストと深度マップを条件とする参照画像を生成した。図10と表5に示すように、これらの投影・インペイント方式や同期マルチビューテクスチャリング手法と比較して、我々のアプローチは幾何学的関連性をモデル化するための追加モジュールを微調整し、ベースT2Iモデルの生成能力を保持することで、マルチビュー一貫性と高品質なテクスチャを生成している。さらに、単一のRTX 4090 GPUでのテストにより、我々の手法が他の手法よりも高速な生成速度を達成することが明らかになった。

5.3 Ablation Study

我々は、MV-Adapterの効率性と適応性、およびアダプターネットワークの詳細な設計を評価するためにアブレーション実験を行った。

Efficiency.

我々のアダプター設計の学習効率を評価するために、Era3D (Li et al., 2024)との比較を行った。Era3Dは我々のようにアダプターのみを微調整するのではなく、完全な学習を必要とする。表5に示すように、SDXL (Podell et al., 2024)を使用する場合、我々のMV-Adapterは学習コストを大幅に削減し、より大きなバックボーンに基づく高解像度のマルチビュー生成を容易にする。

Adaptability.

我々は、T2I派生モデルとの互換性に関して、MV-AdapterとMVDream (Shi et al., 2023b)という完全学習されたテキストからマルチビュー生成手法とを比較した。 MVDreamはT2Iモデル全体を微調整するため、他のT2Iモデルと容易に置き換えることができない。そのため、我々の実験ではLoRA (Hu et al., 2021)を統合した。図9に示すように、MVDreamはテキストとスタイルに合致する画像の生成に苦戦しているのに対し、我々のMV-Adapterは高品質な結果を生成しており、その優れた適応性を示している。

並列アテンション構造我々が提案する並列アテンション構造の有効性を評価するために、画像からマルチビュー生成の設定でアブレーション実験を行った。直列または並列構造を使用した定量的および定性的結果を表5と図11に示す。結果は、事前学習された画像事前分布を活用できない直列設定が、アーティファクトや画像入力と一致しない詳細を生成する傾向があることを示している。対照的に、我々の並列設定は、参照画像と高度に一致する高品質な結果を生成する。

5.4 Applications

表6: 3D再構成に関する定量的比較。

Method	Chamfer Distance $\downarrow$	Volume IoU $\uparrow$
Era3D	0.0329	0.5118
Ours (SD2.1)	0.0317	0.5173
Ours (SDXL)	0.0206	0.5682

3D generation.

我々は3D生成を実現するために既存のパイプライン(Li et al., 2024)に従っている。 MV-Adapterを使用してテキストまたは画像条件から多視点画像を生成した後、StableNormal (Ye et al., 2024)を使用して対応する法線マップを生成する。多視点画像と法線マップは、その後NeuS (Wang et al., 2021)に入力され、3Dメッシュを再構成する。我々は、我々の手法と類似したパイプラインを持つEra3D (Li et al., 2024)との3D再構成の比較を行った。表6の結果は、我々のSD2.1ベースのMV-AdapterがEra3Dと同等であることを示しているが、我々のSDXLベースのモデルは著しく高い性能を示している。これらの発見は、MV-Adapterのスケーラビリティと最先端のT2Iモデルの強みを活用する能力を強調しており、3D生成に利点をもたらしている。さらなる結果は付録に記載されている。

テクスチャ生成。我々は、生成された多視点画像をUVテクスチャマップにマッピングするために、逆投影と入射角に基づく重み付けブレンディング技術(Bensadoun et al., 2024)を使用する。カバレッジを向上させるために視点分布を最適化しているにもかかわらず、オクルージョンや極端な角度のために一部の領域がカバーされない場合がある。この問題に対処するために、我々は視点カバレッジ分析を行ってカバーされていない領域を特定し、それらの視点から現在の3Dテクスチャの画像をレンダリングし、効率的なインペインティングモデル(Suvorov et al., 2022)を使用して精緻化する。より多くの視覚的結果を付録に示す。

任意視点生成。テキストまたは初期画像から始めて、我々はまず物体を広くカバーする8つのアンカービューを生成する。新しい目標視点に対しては、空間的な方向に基づいて視点をクラスタリングし、目標視点の生成を導くために $4$ 個の最も近いアンカービューを選択する。我々はこれら4つの入力ビューを1つの画像に連結し、事前学習されたT2I U-Netに入力して特徴を抽出する。実装の詳細と視覚的結果は、付録および補足資料に記載されている。

6 Conclusion

本稿では、多視点画像生成のための初のアダプターベースのソリューションであるMV-Adapterを提示する。この汎用的かつプラグアンドプレイ可能なアダプターは、テキストから画像への拡散モデルとその派生モデルを、品質を損なうことなく、また元の特徴空間を変更することなく強化する。我々は、複製された自己注意層と並列注意アーキテクチャを含む革新的なアダプターフレームワークを導入し、アダプターが3D幾何学的知識を効率的にモデル化できるようにした。さらに、カメラパラメータと幾何学的情報を空間マップ表現に統合する統一条件エンコーダーを導入し、3Dオブジェクト生成とテクスチャ生成におけるモデルの汎用性と適用性を向上させた。広範な評価により、異なるモデルと条件下でのMV-Adapterの効率性、適応性、汎用性が強調されている。総じて、MV-Adapterは多視点画像生成のための効率的かつ柔軟なソリューションを提供し、事前学習されたT2Iモデルの能力を大幅に拡張し、幅広いアプリケーションに対して興味深い可能性を提示している。

References

Balaji et al. (2022) Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, et al. ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers. arXiv preprint arXiv:2211.01324, 2022.
Bensadoun et al. (2024) Raphael Bensadoun, Yanir Kleiman, Idan Azuri, Omri Harosh, Andrea Vedaldi, Natalia Neverova, and Oran Gafni. Meta 3d texturegen: Fast and consistent texture generation for 3d objects. arXiv preprint arXiv:2407.02430, 2024.
Blattmann et al. (2023) Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023.
Cao et al. (2024) Pu Cao, Feng Zhou, Qing Song, and Lu Yang. Controllable generation with text-to-image diffusion models: A survey. arXiv preprint arXiv:2403.04279, 2024.
Chen et al. (2023) Dave Zhenyu Chen, Yawar Siddiqui, Hsin-Ying Lee, Sergey Tulyakov, and Matthias Nießner. Text2tex: Text-driven texture synthesis via diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 18558–18568, 2023.
Deitke et al. (2023) Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, and Ali Farhadi. Objaverse: A universe of annotated 3d objects. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 13142–13153, 2023.
Deng et al. (2024) Kangle Deng, Timothy Omernick, Alexander Weiss, Deva Ramanan, Jun-Yan Zhu, Tinghui Zhou, and Maneesh Agrawala. Flashtex: Fast relightable mesh texturing with lightcontrolnet. arXiv preprint arXiv:2402.13251, 2024.
Dhariwal & Nichol (2021) Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021.
Downs et al. (2022) Laura Downs, Anthony Francis, Nate Koenig, Brandon Kinman, Ryan Hickman, Krista Reymann, Thomas B McHugh, and Vincent Vanhoucke. Google scanned objects: A high-quality dataset of 3d scanned household items. In 2022 International Conference on Robotics and Automation (ICRA), pp. 2553–2560. IEEE, 2022.
Gal et al. (2022) Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. arXiv preprint arXiv:2208.01618, 2022.
Gao et al. (2024) Ruiqi Gao, Aleksander Holynski, Philipp Henzler, Arthur Brussee, Ricardo Martin-Brualla, Pratul Srinivasan, Jonathan T Barron, and Ben Poole. Cat3d: Create anything in 3d with multi-view diffusion models. arXiv preprint arXiv:2405.10314, 2024.
Ho & Salimans (2022) Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
Ho et al. (2020) Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
Hoogeboom et al. (2023) Emiel Hoogeboom, Jonathan Heek, and Tim Salimans. simple diffusion: End-to-end diffusion for high resolution images. In International Conference on Machine Learning, pp. 13213–13232. PMLR, 2023.
Hu et al. (2021) Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
Huang et al. (2024) Zehuan Huang, Hao Wen, Junting Dong, Yaohui Wang, Yangguang Li, Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao, Bo Dai, et al. Epidiff: Enhancing multi-view synthesis via localized epipolar-constrained diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9784–9794, 2024.
Jeong et al. (2025) Yoonwoo Jeong, Jinwoo Lee, Chiheon Kim, Minsu Cho, and Doyup Lee. Nvs-adapter: Plug-and-play novel view synthesis from a single image. In European Conference on Computer Vision, pp. 449–466. Springer, 2025.
Kant et al. (2024) Yash Kant, Aliaksandr Siarohin, Ziyi Wu, Michael Vasilkovsky, Guocheng Qian, Jian Ren, Riza Alp Guler, Bernard Ghanem, Sergey Tulyakov, and Igor Gilitschenski. Spad: Spatially aware multi-view diffusers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10026–10038, 2024.
Kumari et al. (2023) Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, and Jun-Yan Zhu. Multi-concept customization of text-to-image diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 1931–1941, 2023.
Labs (2024) Black Forest Labs. Flux. [Online], 2024. https://github.com/black-forest-labs/flux.
Li et al. (2023a) Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, and Sai Bi. Instant3d: Fast text-to-3d with sparse-view generation and large reconstruction model. arXiv preprint arXiv:2311.06214, 2023a.
Li et al. (2024) Peng Li, Yuan Liu, Xiaoxiao Long, Feihu Zhang, Cheng Lin, Mengfei Li, Xingqun Qi, Shanghang Zhang, Wenhan Luo, Ping Tan, et al. Era3d: High-resolution multiview diffusion using efficient row-wise attention. arXiv preprint arXiv:2405.11616, 2024.
Li et al. (2023b) Weiyu Li, Rui Chen, Xuelin Chen, and Ping Tan. Sweetdreamer: Aligning geometric priors in 2d diffusion for consistent text-to-3d. arXiv preprint arXiv:2310.02596, 2023b.
Lin et al. (2024) Shanchuan Lin, Anran Wang, and Xiao Yang. Sdxl-lightning: Progressive adversarial diffusion distillation. arXiv preprint arXiv:2402.13929, 2024.
Liu et al. (2023a) Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, and Wenping Wang. Syncdreamer: Generating multiview-consistent images from a single-view image. arXiv preprint arXiv:2309.03453, 2023a.
Liu et al. (2023b) Yuxin Liu, Minshan Xie, Hanyuan Liu, and Tien-Tsin Wong. Text-guided texturing by synchronized multi-view diffusion. arXiv preprint arXiv:2311.12891, 2023b.
Long et al. (2024) Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, et al. Wonder3d: Single image to 3d using cross-domain diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9970–9980, 2024.
Luo et al. (2023) Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, and Hang Zhao. Latent consistency models: Synthesizing high-resolution images with few-step inference. arXiv preprint arXiv:2310.04378, 2023.
Luo et al. (2024) Tiange Luo, Chris Rockwell, Honglak Lee, and Justin Johnson. Scalable 3d captioning with pretrained models. Advances in Neural Information Processing Systems, 36, 2024.
Ma et al. (2024) Jian Ma, Junhao Liang, Chen Chen, and Haonan Lu. Subject-diffusion: Open domain personalized text-to-image generation without test-time fine-tuning. In ACM SIGGRAPH 2024 Conference Papers, pp. 1–12, 2024.
Meng et al. (2023) Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik Kingma, Stefano Ermon, Jonathan Ho, and Tim Salimans. On distillation of guided diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 14297–14306, 2023.
Mokady et al. (2023) Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-text inversion for editing real images using guided diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 6038–6047, 2023.
Mou et al. (2024) Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, and Ying Shan. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models. Proceedings of the AAAI Conference on Artificial Intelligence, 38(5):4296–4304, Mar. 2024. doi: 10.1609/aaai.v38i5.28226. URL https://ojs.aaai.org/index.php/AAAI/article/view/28226.
Nichol et al. (2022) Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. In International Conference on Machine Learning, ICML 2022, 17-23 July 2022, Baltimore, Maryland, USA, volume 162 of Proceedings of Machine Learning Research, pp. 16784–16804, 2022.
Peebles & Xie (2023) William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4195–4205, 2023.
Podell et al. (2024) Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. SDXL: improving latent diffusion models for high-resolution image synthesis. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024, 2024.
Radford et al. (2021) Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pp. 8748–8763. PMLR, 2021.
Ramesh et al. (2021) Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In International conference on machine learning, pp. 8821–8831. Pmlr, 2021.
Ramesh et al. (2022) Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
Richardson et al. (2023) Elad Richardson, Gal Metzer, Yuval Alaluf, Raja Giryes, and Daniel Cohen-Or. Texture: Text-guided texturing of 3d shapes. In ACM SIGGRAPH 2023 conference proceedings, pp. 1–11, 2023.
Rombach et al. (2022) Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, 2022.
Ronneberger et al. (2015) Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical image computing and computer-assisted intervention–MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18, pp. 234–241. Springer, 2015.
Ruiz et al. (2023) Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22500–22510, 2023.
Saharia et al. (2022) Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022.
Sajjadi et al. (2022) Mehdi SM Sajjadi, Henning Meyer, Etienne Pot, Urs Bergmann, Klaus Greff, Noha Radwan, Suhani Vora, Mario Lučić, Daniel Duckworth, Alexey Dosovitskiy, et al. Scene representation transformer: Geometry-free novel view synthesis through set-latent scene representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 6229–6238, 2022.
Shah et al. (2023) Viraj Shah, Nataniel Ruiz, Forrester Cole, Erika Lu, Svetlana Lazebnik, Yuanzhen Li, and Varun Jampani. Ziplora: Any subject in any style by effectively merging loras. arXiv preprint arXiv:2311.13600, 2023.
Shi et al. (2024) Jing Shi, Wei Xiong, Zhe Lin, and Hyun Joon Jung. Instantbooth: Personalized text-to-image generation without test-time finetuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 8543–8552, 2024.
Shi et al. (2023a) Ruoxi Shi, Hansheng Chen, Zhuoyang Zhang, Minghua Liu, Chao Xu, Xinyue Wei, Linghao Chen, Chong Zeng, and Hao Su. Zero123++: a single image to consistent multi-view diffusion base model. arXiv preprint arXiv:2310.15110, 2023a.
Shi et al. (2023b) Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, and Xiao Yang. Mvdream: Multi-view diffusion for 3d generation. arXiv preprint arXiv:2308.16512, 2023b.
Shi et al. (2023c) Yukai Shi, Jianan Wang, He Cao, Boshi Tang, Xianbiao Qi, Tianyu Yang, Yukun Huang, Shilong Liu, Lei Zhang, and Heung-Yeung Shum. Toss: High-quality text-guided novel view synthesis from a single image. arXiv preprint arXiv:2310.10644, 2023c.
Song et al. (2020) Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.
Song et al. (2024) Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, and Xiao Yang. Moma: Multimodal llm adapter for fast personalized image generation. arXiv preprint arXiv:2404.05674, 2024.
Song et al. (2023) Yang Song, Prafulla Dhariwal, Mark Chen, and Ilya Sutskever. Consistency models. arXiv preprint arXiv:2303.01469, 2023.
Suvorov et al. (2022) Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pp. 2149–2159, 2022.
Tang et al. (2023) Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, and Yasutaka Furukawa. Mvdiffusion: Enabling holistic multi-view image generation with correspondence-aware diffusion. arXiv, 2023.
Tang et al. (2024) Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, and Rakesh Ranjan. Mvdiffusion++: A dense high-resolution multi-view diffusion model for single or sparse-view 3d object reconstruction. arXiv preprint arXiv:2402.12712, 2024.
Team (2024) Kolors Team. Kolors: Effective training of diffusion model for photorealistic text-to-image synthesis. arXiv preprint, 2024.
Voleti et al. (2024) Vikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, and Varun Jampani. Sv3d: Novel multi-view synthesis and 3d generation from a single image using latent video diffusion. arXiv preprint arXiv:2403.12008, 2024.
Wang et al. (2024a) Haofan Wang, Qixun Wang, Xu Bai, Zekui Qin, and Anthony Chen. Instantstyle: Free lunch towards style-preserving in text-to-image generation. arXiv preprint arXiv:2404.02733, 2024a.
Wang & Shi (2023) Peng Wang and Yichun Shi. Imagedream: Image-prompt multi-view diffusion for 3d generation. arXiv preprint arXiv:2312.02201, 2023.
Wang et al. (2021) Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, and Wenping Wang. Neus: Learning neural implicit surfaces by volume rendering for multi-view reconstruction. arXiv preprint arXiv:2106.10689, 2021.
Wang et al. (2024b) Zhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, and Jun Zhu. Crm: Single image to 3d textured mesh with convolutional reconstruction model. arXiv preprint arXiv:2403.05034, 2024b.
Watson et al. (2022) Daniel Watson, William Chan, Ricardo Martin-Brualla, Jonathan Ho, Andrea Tagliasacchi, and Mohammad Norouzi. Novel view synthesis with diffusion models. arXiv preprint arXiv:2210.04628, 2022.
Wen et al. (2024) Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, and Lu Sheng. Ouroboros3d: Image-to-3d generation via 3d-aware recursive diffusion. arXiv preprint arXiv:2406.03184, 2024.
Yang et al. (2024) Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, et al. Cogvideox: Text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:2408.06072, 2024.
Ye et al. (2024) Chongjie Ye, Lingteng Qiu, Xiaodong Gu, Qi Zuo, Yushuang Wu, Zilong Dong, Liefeng Bo, Yuliang Xiu, and Xiaoguang Han. Stablenormal: Reducing diffusion variance for stable and sharp normal. ACM Transactions on Graphics (TOG), 2024.
Ye et al. (2023) Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.
Yu et al. (2023) Xianggang Yu, Mutian Xu, Yidan Zhang, Haolin Liu, Chongjie Ye, Yushuang Wu, Zizheng Yan, Chenming Zhu, Zhangyang Xiong, Tianyou Liang, et al. Mvimgnet: A large-scale dataset of multi-view images. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 9150–9161, 2023.
Zeng et al. (2024) Xianfang Zeng, Xin Chen, Zhongqi Qi, Wen Liu, Zibo Zhao, Zhibin Wang, Bin Fu, Yong Liu, and Gang Yu. Paint3d: Paint anything 3d with lighting-less texture diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 4252–4262, 2024.
Zhang et al. (2023) Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3836–3847, 2023.
Zheng & Vedaldi (2024) Chuanxia Zheng and Andrea Vedaldi. Free3d: Consistent novel view synthesis without 3d representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9720–9731, 2024.
Zheng et al. (2024) Zangwei Zheng, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, and Yang You. Open-sora: Democratizing efficient video production for all, March 2024. URL https://github.com/hpcaitech/Open-Sora.

Appendix A Appendix

A.1 Background

Stable Diffusion (SD) and Stable Diffusion XL (SDXL).

我々は、Stable Diffusion (Rombach et al., 2022) および Stable Diffusion XL (Podell et al., 2024) を基本的なT2Iモデルとして採用している。これらは評価のための多くの強力な派生モデルを持つ、十分に発展したコミュニティを有しているためである。 SDおよびSDXLは、事前学習された自己符号化器 $\mathcal{E}(\cdot)$ および $\mathcal{D}(\cdot)$ の潜在空間内で拡散プロセスを実行する。学習時には、符号化された画像 $z_{0}=\mathcal{E}(x_{0})$ がステップ $t$ において前方拡散によって $z_{t}$ に摂動される。ノイズ除去ネットワーク $\epsilon_{\theta}$ は、MSE損失によって促進されながら、追加されたノイズを予測することでこのプロセスを逆転させることを学習する：

\mathcal{L}=\mathbb{E}_{\mathcal{E}(\bm{x}_{0}),\bm{\epsilon}\sim\mathcal{N}(% \bm{0},\bm{I}),\bm{c},t}[\lVert\bm{\epsilon}-\epsilon_{\theta}(\bm{z}_{t},\bm{% c},t)\rVert_{2}^{2}]

(5)

ここで、 $\bm{c}$ は条件付けテキストを表す。 SDでは、 $\epsilon_{\theta}$ はダウンサンプル/アップサンプルブロックのペアと中間ブロックで構成されるUNet (Ronneberger et al., 2015) として実装されている。各ブロックには、空間的自己注意層と交差注意層のペアが含まれており、残差構造を用いて直列に接続されている。 SDXLは、高解像度画像合成のためにSDの3倍大きなUNetバックボーンを活用し、視覚的忠実度を向上させるための精製デノイザーを導入している。

A.2 Implementation Details

Dataset.

我々はMV-Adapterを、Objaverseデータセット(Deitke et al., 2023)からフィルタリングされた高品質なサブセットで訓練した。このサブセットは約70,000サンプルで構成され、キャプションはCap3D(Luo et al., 2024)から得たものである。効率的なマルチビュー自己注意メカニズムに対応するため、我々はサンプルごとに $n=6$ ビューを生成するようモデルを訓練するために直交投影ビューをレンダリングした。カメラガイド付き生成では、3Dモデルのビューを仰角 $0^{\circ}$ 、方位角 $\{0^{\circ},45^{\circ},90^{\circ},180^{\circ},270^{\circ},315^{\circ}\}$ でレンダリングした。この分布はEra3D(Li et al., 2024)で使用された設定と一致しており、3D生成タスクに類似の画像から3Dへのパイプラインを適用することを容易にしている。ジオメトリガイド付き生成では、仰角 $0^{\circ}$ 、方位角 $\{0^{\circ},90^{\circ},180^{\circ},270^{\circ}\}$ の4つのビューを含め、さらに上面と下面からの2つの追加ビューを加えた。目標ビューに加えて、訓練中に参照画像として機能させるため、モデルの正面範囲内でランダムな5つのビューをレンダリングした。

Training.

我々は訓練のベースモデルとしてStable Diffusion(Rombach et al., 2022)の2つのバージョンを使用した。具体的には、Stable Diffusion 2.1 (SD2.1)をベースとした512解像度モデルと、Stable Diffusion XL (SDXL)をベースとした768解像度モデルを訓練した。訓練中、テキスト条件を0.1の確率で、画像条件を0.1の確率で、そしてテキストと画像の両方の条件を同時に0.1の確率でランダムにドロップした。先行研究(Hoogeboom et al., 2023; Blattmann et al., 2023)に従い、ノイズスケジュールをより高いノイズレベルにシフトさせるため、対数信号対雑音比(SNR)を $\log(n)$ だけ調整した。ここで $n=6$ は生成されるビューの数である。具体的な訓練設定として、学習率 $5\times 10^{-5}$ を使用し、8台のNVIDIA A100 GPUで10エポックにわたってMV-Adapterを訓練した。

Inference.

我々の実験設定では、DDPMサンプラー(Ho et al., 2020)を分類器フリーガイダンス(Ho & Salimans, 2022)と共に使用してマルチビュー画像を生成し、推論ステップ数を $50$ に設定した。テキストのみに条件付けられた生成（すなわち、画像条件の重み $\lambda_{i}$ を $0$ に設定）の場合、ガイダンススケールを7.0に設定した。画像条件付き生成の場合、画像条件 $\alpha$ とテキスト条件 $\beta$ のガイダンススケールを3.0に設定した。 TOSS(Shi et al., 2023c)に従い、計算は以下のように表現できる：

$\displaystyle\hat{\epsilon}_{\theta}(\bm{z}_{t}^{1:n},\bm{c}_{t},\bm{c}_{i},% \bm{c}_{m},t)$	$\displaystyle=\epsilon_{\theta}(\bm{z}_{t}^{1:n},\emptyset,\emptyset,\bm{c}_{m% },t)$
	$\displaystyle+\alpha\left[\epsilon_{\theta}(\bm{z}_{t}^{1:n},\emptyset,\bm{c}_% {i},\bm{c}_{m},t)-\epsilon_{\theta}(\bm{z}_{t}^{1:n},\emptyset,\emptyset,\bm{c% }_{m},t)\right]$
	$\displaystyle+\beta\left[\epsilon_{\theta}(\bm{z}_{t}^{1:n},\bm{c}_{t},\bm{c}_% {i},\bm{c}_{m},t)-\epsilon_{\theta}(\bm{z}_{t}^{1:n},\emptyset,\bm{c}_{i},\bm{% c}_{m},t)\right]$	(6)

ここで $\bm{c}_{t}$ 、 $\bm{c}_{i}$ 、 $\bm{c}_{m}$ はそれぞれテキスト、参照画像、条件付けマップ（すなわち、カメラまたはジオメトリ条件）を表す。訓練プロセス中に $\bm{c}_{m}$ をドロップしなかったため、これに対しては分類器フリーガイダンス法を使用しない。

Comparison with baselines.

我々は、テキストからマルチビュー生成、画像からマルチビュー生成、テクスチャ生成の3つの設定でベースライン手法との包括的な比較を行った。これらの実験では、Stable Diffusion 2.1 (SD2.1)(Rombach et al., 2022)とStable Diffusion XL (SDXL)(Podell et al., 2024)をベースとしたMV-Adapterの両バージョンを評価し、効率的な訓練とスケーラビリティによってMV-Adapterがもたらす性能向上を実証した。

テキストからマルチビュー生成については、MVDream(Shi et al., 2023b)とSPAD(Kant et al., 2024)をベースライン手法として選択した。 MVDreamはT2Iモデルの元の自己注意メカニズムをマルチビュードメインに拡張している。 SPADはマルチビュー注意メカニズムにエピポーラ制約を導入している。我々はObjaverseデータセット(Deitke et al., 2023)から選択した1,000のプロンプトでテストを行った。生成された画像の品質とテキストプロンプトとの整合性を評価するため、生成されたすべてのビューに対してFréchet Inception Distance (FID)、Inception Score (IS)、CLIP Scoreを計算した。

画像からマルチビュー生成については、我々の手法をImageDream(Wang & Shi, 2023)、Zero123++(Shi et al., 2023a)、CRM(Wang et al., 2024b)、SV3D(Voleti et al., 2024)、Ouroboros3D(Wen et al., 2024)、Era3D(Li et al., 2024)と比較した。 ImageDream、Zero123++、CRM、Era3Dは一般的に、T2Iモデルの元のネットワークアーキテクチャを修正してマルチビュー生成に拡張するカテゴリーに分類される。 SV3DとOuroboros3Dはテキストから動画(T2V)モデルを微調整してマルチビュー生成を実現している。我々はGoogle Scanned Objects (GSO)データセット(Downs et al., 2022)から複数のオブジェクトカテゴリーをカバーする100のアセットをテストセットとして選択した。各アセットについて、正面向きのビューから入力画像をレンダリングし、入力ビューは方位角 $-45^{\circ}$ から $45^{\circ}$ の間、仰角 $-10^{\circ}$ から $30^{\circ}$ の間でランダムに分布させた。生成されたマルチビュー画像を評価するため、生成された画像と真値との間のPeak Signal-to-Noise Ratio (PSNR)、Structural Similarity Index Measure (SSIM)、Learned Perceptual Image Patch Similarity (LPIPS)を計算し、出力の一貫性と品質の両方を評価した。

3Dテクスチャ生成については、我々のテキストベースおよび画像ベースのモデルを、TEXTure(Richardson et al., 2023)、Text2Tex(Chen et al., 2023)、Paint3D(Zeng et al., 2024)などのプロジェクト＆ペイント手法、同期マルチビューテクスチャリング手法SyncMVD(Liu et al., 2023b)、最適化ベースの手法FlashTex(Deng et al., 2024)と比較した。テスト用に、Objaverse(Deitke et al., 2023)データセットからキャプション付きの200モデルをランダムに選択した。生成された3Dテクスチャから複数のビューをレンダリングし、生成されたテクスチャの品質を評価するためにそれらのFIDとKernel Inception Distance (KID)を計算した。さらに、各手法の推論効率を評価するためにテクスチャ生成時間を記録した。

表7: 評価のためのコミュニティモデルと拡張機能。

Category	Model Name	Domain	Model Type
Personalized T2I	Dreamshaper¹¹1https://civitai.com/models/112902?modelVersionId=126688	General	T2I Base Model
	RealVisXL²²2https://civitai.com/models/139562?modelVersionId=789646	Realistic	T2I Base Model
	Animagine-xl³³3https://huggingface.co/cagliostrolab/animagine-xl-3.1	2D Cartoon	T2I Base Model
	3D Render Style XL⁴⁴4https://huggingface.co/goofyai/3d_render_style_xl	3D Cartoon	LoRA
	Pokemon Trainer Sprite PixelArt⁵⁵5https://civitai.com/models/159333/pokemon-trainer-sprite-pixelart?modelVersionId=443092	Pixel Art	LoRA
	Chalk Sketch SDXL⁶⁶6https://huggingface.co/JerryOrbachJr/Chalk-Sketch-SDXL	Chalk Sketch	LoRA
	Chinese Ink LoRA⁷⁷7https://huggingface.co/ming-yang/sdxl_chinese_ink_lora	Color Ink	LoRA
	Zen Ink Wash Sumi-e⁸⁸8https://civitai.com/models/647926/zen-ink-wash-sumi-e-sdxl-pony-flux?modelVersionId=724876	Wash Ink	LoRA
	Watercolor Style SDXL⁹⁹9https://civitai.com/models/484723/watercolor-style-sdxl	Watercolor	LoRA
	Papercut SDXL¹⁰¹⁰10https://huggingface.co/TheLastBen/Papercut_SDXL	Papercut	LoRA
	Furry Enhancer¹¹¹¹11https://civitai.com/models/310964/furry-enhancer?modelVersionId=558568	Enhancer	LoRA
	White Pitbull Dog SDXL¹²¹²12https://civitai.com/models/700883/white-pitbull-dog-sdxl?modelVersionId=787948	Concept	LoRA
	Spider spirit fourth sister¹³¹³13https://civitai.com/models/689010/pony-black-myth-wukong-spider-spirit-fourth-sister?modelVersionId=771146	Concept	LoRA
Distilled T2I	SDXL-Lightning¹⁴¹⁴14https://huggingface.co/ByteDance/SDXL-Lightning	Few Step	T2I Base Model
Distilled T2I	LCM-SDXL¹⁵¹⁵15https://huggingface.co/latent-consistency/lcm-sdxl	Few Step	T2I Base Model
Extension	ControlNet Openpose¹⁶¹⁶16https://huggingface.co/xinsir/controlnet-openpose-sdxl-1.0	Spatial Control	Plugin
	ControlNet Scribble¹⁷¹⁷17https://huggingface.co/xinsir/controlnet-scribble-sdxl-1.0	Spatial Control	Plugin
	ControlNet Tile¹⁸¹⁸18https://huggingface.co/xinsir/controlnet-tile-sdxl-1.0	Image Deblur	Plugin
	T2I-Adapter Sketch¹⁹¹⁹19https://huggingface.co/TencentARC/t2i-adapter-sketch-sdxl-1.0	Spatial Control	Plugin
	IP-Adapter²⁰²⁰20https://huggingface.co/h94/IP-Adapter	Image Prompt	Plugin

Community models and extensions for evaluation.

包括的なベンチマークを確保するため、我々はコミュニティから代表的なT2I派生モデルと拡張機能の多様なセットを評価用に選択した。表7に示すように、これらのモデルには、アニメ、様式化された絵画、リアルな写真画像などの様々な領域を網羅するパーソナライズされたモデル、効率的な蒸留モデル、制御可能な生成のためのプラグインが含まれる。これらは、ポートレート、動物、風景など、幅広い主題をカバーしている。この選択により、我々のアプローチを異なるスタイルとコンテンツにわたって徹底的に評価することが可能となり、MV-Adapterが様々なT2I派生物や拡張機能と連携する際の適応性と汎用性を実証している。

A.3 Additional Discussions

A.3.1 MV-Adapter vs. Multi-view LoRA

LoRA（Low-Rank Adaptation）(Hu et al., 2021)は、プラグアンドプレイ方式のマルチビュー生成を実現する代替アプローチを提供する。具体的には、カメラ表現を注入するための条件エンコーダーを使用し、元の自己注意機構を拡張して複数のビューのすべてのピクセルにわたって動作するようにする。訓練中に、我々はネットワークに訓練可能なLoRA層を導入し、これらの層がマルチビューの一貫性を学習したり、オプションでリファレンスビューに基づいて画像を生成したりすることを可能にする。このアプローチでは、空間的な自己注意機構が空間的な画像知識を捉え、マルチビューの一貫性を確保し、生成された画像をリファレンスビューと整合させることを同時に行う必要がある。

しかし、マルチビューLoRAアプローチには注目すべき制限がある。それが導入する「増分的な変更」は、パーソナライズされたT2Iモデルやロラなどのテキスト画像生成派生モデルによって誘導される変更と直交しておらず、分離されていない。具体的には、マルチビューLoRAによって微調整された層とパーソナライズされたLoRAによって調整された層がしばしば重複する。両方によって学習された各重み行列は、その列によって定義される線形変換を表すため、追加される列が互いに直交している場合にのみ、マージがこれらの列で利用可能な情報を保持することは直感的である(Shah et al., 2023)。明らかに、マルチビューLoRAとパーソナライズされたモデルは直交していないため、しばしば両方の学習された知識を保持することが困難になる。これにより、マルチビューの一貫性またはコンセプト（スタイルや被写体のアイデンティティなど）の忠実性のいずれかが損なわれるトレードオフが生じる可能性がある。

対照的に、我々が提案する分離された注意機構は、元の空間的自己注意層を微調整する必要なく、異なる注意層がそれぞれのタスクに特化することを促進する。この設計では、我々が訓練する層は元のT2Iモデルの層と重複しないため、元の特徴空間をより良く保持し、他のモデルとの互換性を向上させる。

我々はこれらのアプローチをテストするために一連の実験を行った。異なるモジュールを対象とする2つのバージョンのマルチビューLoRAを訓練した：（1）注意層にのみLoRA層を挿入する、（2）畳み込み層、ダウンサンプリング層、アップサンプリング層などを含む複数の層にLoRA層を挿入する。両方の設定において、LoRAのランクを64、アルファを32に設定した。図12と図13に示すように、マルチビューLoRAアプローチは、ベースモデルが変更されていない場合にはマルチビューの一貫した画像を生成できるが、異なるベースモデルに切り替えたり、新しいLoRAを統合したりする際には、しばしばマルチビューの一貫性を維持するのに苦労する。対照的に、図14に示すように、分離された注意機構を備えた我々のMV-Adapterは、パーソナライズされたモデルと共に使用した場合でも、一貫したマルチビュー生成を維持する。

LoRA機構と比較して、我々の分離された注意ベースのアプローチは、T2Iモデルをマルチビュー生成に拡張するためのより堅牢で適応性の高いアプローチであることが証明され、様々な事前訓練されたモデルとのより大きな柔軟性と互換性を提供する。

A.3.2 Image Restoration Capabilities

MV-Adapterの訓練中、我々は画像からのマルチビュー生成の堅牢性を高めるために、訓練データペアのリファレンス画像の解像度を確率的に圧縮した。我々は、この方法で訓練されたモデルが、図15に示すように、入力が低解像度であっても高解像度で詳細なマルチビュー画像を生成できることを観察した。このような訓練戦略を通じて、MV-Adapterは固有の画像復元能力を持ち、生成プロセス中に入力画像を自動的に強化および改善する。

A.3.3 Applicability of MV-Adapter

3Dオブジェクト生成と3Dテクスチャマッピングにおける実証された応用を超えて、MV-Adapterの強力な適応性と多様性は、画像作成とパーソナライゼーションにおいて幅広い潜在的用途を開く。例えば、クリエイターは、特定のアイデンティティやアーティスティックスタイルにカスタマイズされたパーソナライズされたT2Iモデルと、MV-Adapterを統合して、独自のコンセプトの一貫した視点を捉えるマルチビュー画像を生成できる。さらに、MV-Adapterは、被写体の顔を異なる角度で一貫して描画するマルチビューポートレート生成や、多様な視点にわたってアーティスティックな一貫性を維持するスタイライズされたマルチビューイラストレーションなどのタスクを容易にすることができる。

A.3.4 Extending MV-Adapter for Arbitrary View Synthesis

本文では、マルチビュー生成を実現するための並列注意層と統一された条件エンコーダーからなる新しいアダプターアーキテクチャを紹介した。我々は、3Dオブジェクト生成と3Dテクスチャマッピングという2つの特定のアプリケーションに合わせて調整された効率的な行方向および列方向の注意機構を実装し、それに応じて6つのビューを生成した。しかし、我々のアダプターフレームワークはこれらの構成に限定されず、任意のビュー合成を実行するように拡張できる。この能力を探るために、我々は対応するアプローチを設計し、実験を行い、任意の視点を扱うMV-Adapterの新バージョンを訓練した。

CAT3D (Gao et al., 2024)に従い、我々は複数回のマルチビュー生成を実行し、毎回生成されるビューの数を $n=8$ に設定した。テキストまたは初期の単一画像を入力として開始し、まずオブジェクトを広くカバーする8つのアンカービューを生成する。実際には、これらのアンカービューは仰角 $0^{\circ}$ および $30^{\circ}$ に位置し、方位角は円周上に均等に分布している（例えば、 $45^{\circ}$ ごと）。新しいターゲットビューを生成するために、我々は視点をその空間的方向に基づいてクラスタリングし、 $8$ のクラスターにグループ化する。そして、各ターゲットビューの生成を導くための条件として、既に生成されたアンカービューから $4$ 個の最も近い既知のビューを選択する。

実装の観点から、我々のMV-Adapterの全体的なフレームワークは変更されていない。任意のビュー合成に対応するために、その入力と特定の注意コンポーネントを調整した。まず、入力画像の数を $1$ または $4$ に設定した。 4つの入力ビューを使用する場合、それらを長い画像に連結し、事前訓練されたT2I U-Netに入力して特徴を抽出する。この単純かつ効果的な方法により、これらのビューを表現するための追加のカメラ埋め込みを必要とせずに、4つのビューからの画像が事前訓練されたU-Net内で相互作用することができる。第二に、我々はマルチビュー注意コンポーネントで完全な自己注意を利用し、注意の範囲を拡大してより柔軟な分布のターゲットビューの生成を可能にした。

任意の視点を生成できるMV-Adapterを訓練するために、我々は $40$ の異なるビューからデータをレンダリングした。仰角は $-10^{\circ},0^{\circ},10^{\circ},20^{\circ},30^{\circ}$ で、各仰角層で方位角は360度周りに均等に分布している。我々はモデルを16エポック訓練した。最初の8エポックでは、1つの条件ビューと8つのターゲットアンカービューを使用する設定でモデルを訓練した。続く8エポックでは、1つの条件プラス8つのターゲットビューと4つの条件プラス8つのターゲットビューを等しく混合して訓練した。

図16に示すように、可視化結果は、MV-Adapterが特定のアプリケーション用に設計された6つのビューを超えて、一貫性のある高品質なマルチビュー画像を生成できることを示している。この拡張は、我々のアダプターフレームワークのスケーラビリティと実用性をさらに検証し、多様なアプリケーションにおける任意のビュー合成の可能性を示している。より多くの結果は補足資料で見ることができる。

A.5 More Comparison Results

A.5.1 Image-to-Multi-view Generation

画像からの多視点生成に関する我々の定量的結果をより深く分析するため、我々はMV-Adapter（SD2.1 (Rombach et al., 2022)に基づく）とベースライン手法 (Wang & Shi, 2023; Shi et al., 2023a; Wang et al., 2024b; Voleti et al., 2024; Wen et al., 2024; Li et al., 2024)を比較するユーザー調査を実施した。この調査は、多視点の一貫性と画像品質の両方に関する選好を評価することを目的とした。我々は、おもちゃの車、薬瓶、文房具、人形、彫刻など、多様なカテゴリーをカバーする30のサンプルを選択した。合計50名の参加者が、異なる手法の出力間で選好を提供するために募集された。

参加者には、MV-Adapterとベースライン手法によって生成された多視点画像のペアが提示された。各ペアについて、多視点の一貫性と画像品質の観点から、どちらを好むかを選択するよう求められた。ユーザー調査の結果は図18にまとめられている。結果は、多視点の一貫性に関して、MV-AdapterがEra3Dと同等の性能を示し、選好率はそれぞれ25.07%と22.33%であることを示している。しかし、画像品質に関しては、MV-Adapterが顕著な優位性を示し、ベースライン手法と比較して36.80%とより高い選好率を得た。この改善された画像品質は、MV-Adapterが完全な微調整なしに基礎となるT2Iモデルの強みを活用する能力に起因しており、元の特徴空間を保持し、ベースモデルの高品質な事前知識の恩恵を受けていることによるものである。

A.6 More Visual Results

図 19 および図 20では、ControlNet (Zhang et al., 2023) や IP-Adapter (Ye et al., 2023) などのコミュニティモデルや拡張機能を用いた、カメラガイド付きテキストからマルチビュー生成に関するMV-Adapterのさらなる視覚的結果を示している。図 21 では、カメラガイド付き画像からマルチビュー生成に関するさらなる視覚的結果を示している。図 22 では、テキストから3D生成に関するさらなる視覚的結果を示している。図 23 では、画像から3D生成に関するさらなる視覚的結果を示している。図 24 では、ジオメトリガイド付きテキストからテクスチャ生成に関するさらなる視覚的結果を示している。図 25 では、ジオメトリガイド付き画像からテクスチャ生成に関するさらなる視覚的結果を示している。なお、視覚的結果において生成された画像の背景は除去されていることに留意されたい。

MV-Adapter: Multi-view Consistent Image Generation Made Easy

Abstract

1 Introduction

2 Related Work

3 Preliminary

4 Method

4.1 Condition Guider

4.2 Decoupled Attention

Parallel attention architecture.

4.3 Training and Inference

5 Experiments

5.1 Camera-Guided Multi-view Generation

Evaluation on community models and extensions.

Comparison with baselines.

5.2 Geometry-Guided Multi-view Generation

Evaluation on community models and extensions.

Comparison with baselines.

5.3 Ablation Study

Efficiency.

Adaptability.

5.4 Applications

3D generation.

6 Conclusion

References

Appendix A Appendix

A.1 Background

Stable Diffusion (SD) and Stable Diffusion XL (SDXL).

A.2 Implementation Details

Dataset.

Training.

Inference.

Comparison with baselines.

Community models and extensions for evaluation.

A.3 Additional Discussions

A.3.1 MV-Adapter vs. Multi-view LoRA

A.3.2 Image Restoration Capabilities

A.3.3 Applicability of MV-Adapter

A.3.4 Extending MV-Adapter for Arbitrary View Synthesis

A.4 Limitations and Future Works

Limitation: Dependency on image backbone.

Future works: 3D scene generation, dynamic multi-view video generation, inspiration for modeling new knowledge.

A.5 More Comparison Results

A.5.1 Image-to-Multi-view Generation

A.6 More Visual Results