TEXGen: a Generative Diffusion Model for Mesh Textures
Abstract.
高品質なテクスチャマップは3Dアセットの現実的なレンダリングに不可欠であるが、特に大規模データセットにおいて、テクスチャ空間で直接学習することを探求した研究は少ない。本稿では、3Dテクスチャのテスト時最適化に事前学習された2D拡散モデルに依存する従来のアプローチから離れ、UV テクスチャ空間自体での学習という根本的な問題に焦点を当てる。我々は初めて、高解像度のテクスチャマップを順伝播的に直接生成できる大規模な拡散モデルを訓練した。 高解像度UV空間での効率的な学習を促進するために、我々はUVマップ上の畳み込みと点群上の注意層を交互に配置するスケーラブルなネットワークアーキテクチャを提案する。このアーキテクチャ設計を活用し、我々はテキストプロンプトと単一視点画像によって誘導されるUVテクスチャマップを生成できる7億パラメータの拡散モデルを訓練した。一度訓練されると、我々のモデルは自然に、テキストガイドによるテクスチャインペインティング、疎な視点からのテクスチャ補完、テキスト駆動のテクスチャ合成など、様々な拡張アプリケーションをサポートする。プロジェクトページはhttps://cvmi-lab.github.io/TEXGen/にある。
1. Introduction
3Dメッシュのテクスチャ合成は、コンピュータグラフィックスとビジョンにおける基本的な問題であり、バーチャルリアリティ、ゲームデザイン、アニメーションなど、多くの応用がある。しかしながら、最先端の学習ベースの手法(Yu et al., 2023a; Oechsle et al., 2019; Siddiqui et al., 2022; Cheng et al., 2023)は、スケーラビリティとデータの制限により、特定のカテゴリーのテクスチャ生成に限定されている。 最近、テスト時最適化ベースの手法が登場し、事前学習された2D拡散モデルを利用して、スコア蒸留サンプリング(Poole et al., 2022; Yu et al., 2023b; Lin et al., 2023; Wang et al., 2023b)を通じて画像事前分布を生成したり、擬似マルチビューを合成したりしている(Richardson et al., 2023; Zeng, 2023; Chen et al., 2023b)。 これらの手法は幅広い物体のテクスチャを生成できるが、 物体ごとの時間のかかる最適化とパラメータ調整、2D事前分布の限界への影響、テクスチャ生成における3D一貫性の欠如など、いくつかの欠点がある。
近年、自然言語処理(Achiam et al., 2023; Touvron et al., 2023)、画像・動画生成(Betker et al., 2023; Saharia et al., 2022; Blattmann et al., 2023)、3D創作(Hong et al., 2023; Li et al., 2023; Xu et al., 2023; Wang et al., 2023c; Zou et al., 2023; Tochilkin et al., 2024)など、様々な分野で大規模モデルの開発が急増している。これらのモデルは高品質な結果を生成し、顕著な汎化能力を示している。その成功は主に二つの要因に起因する:(1)モデルサイズとデータ量の増加に伴い性能が向上するスケーラブルで効果的なネットワークアーキテクチャ、(2)汎化を促進する大規模データセット。本稿では、モデルサイズとデータをスケールアップすることで、汎用性が高く高品質なメッシュテクスチャリングのための大規模生成モデルを構築する可能性を探究する。
我々はメッシュテクスチャリングのための大規模生成モデルTEXGenを紹介する。我々のモデルは生成のためにUVテクスチャマップを表現として使用する。これはスケーラブルであり、高解像度の詳細を保持するためである。さらに重要なことに、レンダリング損失(Hong et al., 2023; Li et al., 2023)のみに依存せず、正解のテクスチャマップから直接教師あり学習を可能にし、拡散ベースの訓練と互換性を持たせ、全体的な生成品質を向上させる。Point-UV-Diffusion(Yu et al., 2023a)やPaint3D(Zeng, 2023)などの先行研究では、メッシュテクスチャの分布を学習するために拡散モデルを活用しようと試みた。しかし、これらのアプローチはいずれも一般的な物体データセット(Deitke et al., 2023)に対してエンドツーエンドの訓練やフィードフォワード推論を達成できず、誤差の蓄積やスケーラビリティの問題を引き起こした。
メッシュ表面上で効果的な特徴相互作用を行うために、我々は2D UV空間での畳み込み演算と、それに続く3D空間でのスパース畳み込みと注意層を組み込んだ、スケーラブルな2D-3Dハイブリッドネットワークアーキテクチャを提案する。この単純かつ効果的なアーキテクチャは、いくつかの重要な利点を提供する:(1) UV空間で畳み込み演算を適用することで、ネットワークは局所的かつ高解像度の詳細を効果的に学習する;(2) さらに計算を3D空間に昇華させることで、ネットワークはUVパラメータ化プロセスによって分断されたグローバルな3D依存関係と近傍関係を学習し、グローバルな3D一貫性を確保する。 このハイブリッド設計により、密なボクセル(Chen et al., 2018)やポイント特徴(Yu et al., 2023a; Nichol et al., 2022)の代わりに3D空間でスパースな特徴を使用することができ、3D連続性を維持しながら管理可能な計算を実現し、アーキテクチャをスケーラブルにする。複数のブロックを積み重ねることで、我々は単一視点画像とテキストプロンプトに導かれて高解像度テクスチャ(例:1024テクスチャマップ)を直接フィードフォワード方式で合成できる大規模なテクスチャ拡散モデルを訓練する。さらに、我々の事前訓練モデルは、テキストガイドによるテクスチャ合成、インペインティング、スパース視点からのテクスチャ補完など、様々なアプリケーションを可能にする。
要約すると、我々の貢献は以下の通りである:
-
•
我々は、効果的な特徴学習のためのハイブリッド2D-3Dデノイジングブロックを構築し、高解像度UVテクスチャマップの学習のために設計された新規ネットワークアーキテクチャを導入する。
-
•
このアーキテクチャに基づき、我々は高解像度テクスチャマップ生成のための大規模拡散モデルを訓練した。我々の知る限り、本稿は追加のステージやテスト時の最適化を必要とせず、エンドツーエンドでテクスチャマップを生成できる最初の研究である。
-
•
我々の手法は最先端の結果を達成し、テキストガイドによるテクスチャ合成、インペインティング、スパース視点からのテクスチャ補完など、様々なトレーニングフリーのアプリケーションをサポートする基盤モデルとして機能する。
2. Related Work
Texture generation via 2D diffusion models.
3Dメッシュにテクスチャを付与する一般的な方法は、事前学習された2D拡散モデルを用いたテスト時最適化である。スコア蒸留サンプリングに基づく手法(Poole et al., 2022; Metzer et al., 2023; Chen et al., 2023a; Lin et al., 2023; Wang et al., 2023b; Yu et al., 2023b; Yeh et al., 2024)などは、2D拡散事前分布を蒸留することで3D形状上にテクスチャを合成する。しかし、これらのアプローチには、計算コストが高いことや、ヤヌス問題や不自然な色などの固有のアーティファクトが生じるという重大な欠点がある。別のアプローチ(Richardson et al., 2023; Chen et al., 2023b; Cao et al., 2023; Wu et al., 2024; Gao et al., 2024; Liu et al., 2023; Zhang et al., 2024; Ceylan et al., 2024)は、ジオメトリ条件付き画像生成とインペインティングを活用して、テクスチャを段階的に生成する。例えば、TEXTure(Richardson et al., 2023)は、1つの視点から部分的なテクスチャマップを生成し、その後インペインティングを使用して他の視点を補完する。しかし、この方法は視点間のグローバルな情報の欠如により、一貫性の問題に直面する。Text2Tex(Chen et al., 2023b)は、手動介入を避けるために最適化された視点選択の自動戦略を導入している。一方、TexFusion(Cao et al., 2023)は、拡散ノイズ除去ステップ中に複数の視点からの外観を集約することを提案し、より一貫性のある統一されたテクスチャマップを生成する。これらの進歩にもかかわらず、これらの手法は主に2D拡散モデルに依存しているため3D認識が欠如しており、しばしばインスタンスごとに時間のかかる最適化を必要とする。
Texture generative models.
メッシュのテクスチャリングのために、3Dデータから生成モデルを訓練する様々な学習ベースのアプローチが開発されてきた(Chang et al., 2015)。初期の手法(Oechsle et al., 2019)は、3D表面上の各点に色を割り当てる暗黙的テクスチャフィールドを導入した。しかし、これらの手法は暗黙的フィールドの連続的な性質により、高周波の詳細を再現することに苦心することが多い。Texturify(Siddiqui et al., 2022)とMesh2Tex(Bokhovkin et al., 2023)は、メッシュ構造に適した畳み込み演算を設計し、表面上で直接学習を促進している。これらはStyleGANアーキテクチャ(Karras et al., 2019)を使用して各メッシュ面のテクスチャを予測し、訓練にはGAN(Goodfellow et al., 2020)に依存している。これらの進歩にもかかわらず、これらの手法はGAN訓練の不安定性によるモード崩壊の影響を受けやすい。TUVF(Cheng et al., 2023)やPoint-UV Diffusion(Yu et al., 2023a)などのより最近のアプローチは、3D形状に対して直接UVマップを生成することを試みており、前述の課題のいくつかに対処している。しかし、これらの手法は一般的にカテゴリ固有のオブジェクトに限定され、一般化されたオブジェクトには苦戦する。Paint3Dは、より大規模なデータセットでテクスチャマップのための拡散モデルを微調整することで、一般化されたオブジェクトを扱う能力を示した(Deitke et al., 2023)。それにもかかわらず、初期テクスチャを生成するためにはテスト時の最適化が依然として必要であり、訓練された拡散モデルは光の効果を除去し、穴を埋めることしかできない。この2段階のパイプラインは累積的な品質の損失につながり、最終出力において詳細が劣化することが多い。
Feed-forward methods for 3D generation.
近年、大規模データセットを用いてフィードフォワード3D生成モデルを訓練する方向へのコミュニティの顕著な転換が見られる。これらのモデルは、最小限の入力条件を受け入れ、3D表現を直接出力するように設計されており、インスタンスごとの最適化の必要性を排除している(Poole et al., 2022; Wang et al., 2023a; Metzer et al., 2023; Chen et al., 2023a; Lin et al., 2023; Wang et al., 2023b; Yu et al., 2023b)。特に、Large Reconstruction Model (LRM)とその変種(Hong et al., 2023; Li et al., 2023; Xu et al., 2024; Zou et al., 2023; Tochilkin et al., 2024)は、単一または疎な視点からの入力から3D形状を推論するためにトランスフォーマーベースのアーキテクチャを採用しており、フィードフォワード3D再構成の品質と効率性に大きな改善を示している。しかしながら、これらの手法は、特に入力ビューで見えない領域において、しばしば過度に平滑化された外観をもたらし、設計上、多様な結果を生成する能力に欠けている。さらに、3D形状が与えられた場合のテクスチャ生成にこれらのモデルを適応させることは大きな課題となっている。なぜなら、これらは通常、表面上で直接ではなく、粗い粒度の3D空間内で特徴の相互作用を管理するからである。
3. Overview
3Dメッシュ が与えられた場合、我々の目的は、図 3 (a)に示すように、画像やテキストプロンプトなどのユーザー定義の条件に基づいて、3D表面の高品質なテクスチャを生成できる生成モデルを開発することである。モデリングは以下の主要なステップから構成される:
(i) データ表現。 我々は、メッシュテクスチャの表現としてUVテクスチャマップを使用する。これはコンパクトで拡散学習に適している。セクション 4.1でその特性について議論し、セクション 4.2で新しいネットワークアーキテクチャを開発する動機となる。
(ii) モデル構築と学習。 我々は、テクスチャマップの独特な特性を効果的に扱う新しいハイブリッド2D-3Dネットワーク構造を開発する(セクション 4.2)。次に、単一視点画像とテキスト記述に基づいて、与えられたメッシュに対して高解像度のテクスチャマップを生成する拡散モデル(Ho et al., 2020)を訓練する(セクション 4.3)。
(iii) 推論。 訓練が完了すると、我々のモデルはノイズ画像から開始し、それを反復的にデノイズして高解像度のテクスチャマップを生成できる。さらに、我々のモデルは、テキストガイドによるテクスチャ合成、テクスチャインペインティング、疎な視点からのテクスチャ補完など、様々な訓練不要の拡張をサポートする(セクション 4.4)。
4. Method
4.1. Representation for Texture Synthesis
表面は本質的に、3次元空間に埋め込まれた2次元信号として捉えることができる。したがって、メッシュ構造を処理するためのグラフィックスにおける従来の手法はUVマッピングであり、これは3D構造を2次元の簡潔な表現に平坦化する(図 2参照)。この変換により、テクスチャなどの3D属性を2D平面上で再編成し表現することが可能となる。2D UV空間は個々のアイランド内の近傍依存性を効果的に捉え、そのグリッド構造によりテクスチャ生成の計算効率を向上させる(Yu et al., 2023a)。さらに、テクスチャマップの明示的な性質により直接的な監視が容易となり、拡散モデルとの統合に適している。
上記の利点により、我々は3Dメッシュのテクスチャリングのための表現として2D UVテクスチャマップを採用することを動機付けられた。しかしながら、その長所にもかかわらず、このアプローチはUVマッピングに固有の断片化により、異なるアイランド間のグローバルレベルの3D一貫性を不可避的に失う。図 2に示されているように、アイランドとは3D表面上では連続しているが、UVマップ上では離れた位置にある。逆に、とはUVマップ上では隣接しているが、表面上では物理的な接続を共有していない。この断片化は、従来の画像ベースのモデルにおいて不正確な特徴抽出につながる可能性がある。この問題に対処するため、我々は2D UV空間の強み—高解像度で詳細な特徴学習を可能にする—と、グローバルな一貫性と連続性を維持するための3D点の組み込みを融合した新しいモデルを提案する。これらのコンポーネントは表現を交互に織り交ぜて洗練し、高解像度の2Dテクスチャマップを生成するための効果的な学習を促進する。詳細についてはセクション 4.2で述べる。
4.2. Model Construction
2Dテクスチャ表現を活用することで、特定の条件(ポーズ付き単一画像やテキストプロンプトなど)に基づいて高品質な2Dテクスチャマップを生成する反復的なノイズ除去を行う拡散モデルを訓練することができる。 我々のモデルの核心は、2D空間と3D空間の両方で特徴を学習するハイブリッド2D-3Dネットワークである(図 3参照)。 無条件生成とは異なり、本稿では条件付き生成、特にテキストと視覚的入力に基づく条件付けを重視している。テキストプロンプトは、ユーザーが生成されるコンテンツに望む属性を指定するための直感的なインターフェースを提供し、モデルをより利用しやすく、ユーザーの意図に応答しやすくする。一方、画像による条件付けは、テキストだけでは見落とされがちなピクセルレベルの詳細を捉えることで、生成プロセスをより正確に制御し、拡散モデルにより強力な指針を提供する。さらに、豊かなテクスチャを持つ単一の画像は、拡散プロセスにおいて貴重な事前情報として機能し、より効果的な学習を促進する。テキストのみから画像を生成することはテキストから画像へのモデルを用いて可能であるため(Rombach et al., 2022; Zhang et al., 2023)、我々は訓練時にテキストと画像の両方を条件として選択する。推論時には、モデルは柔軟性を保ち、ユーザーが利用可能な画像データの有無に応じて、画像データを含めるか省略するかを選択できる(セクション 4.4参照)。
Network
図 3に示すように、我々の訓練パイプラインは拡散ベースのアプローチを採用している。各ノイズ除去ステップにおいて、我々のネットワークは複数の入力を処理する:ノイズが加えられたテクスチャマップ、位置マップ、マスクマップ、単一画像、テキストプロンプト、およびタイムステップを用いて、からノイズを除去するプロセスを導く。 画像のネットワークへの統合は、2つの異なる方法で行われる:(1) 画像ピクセルの投影:画像ピクセルを表面に投影して部分的なテクスチャマップを導出し、これを追加の入力として使用する。(2) グローバル埋め込みの抽出:CLIPの画像エンコーダー(Radford et al., 2021)とテキストエンコーダーを使用して、それぞれグローバルな画像埋め込みとテキスト埋め込みを抽出する。学習可能なタイムステップ埋め込みは、の異なる値に対応する。これらの埋め込みは個別のMLPを通して処理され、その後結合されてグローバル条件埋め込みを形成する。この埋め込みは、(Peebles and Xie, 2023)と同様に、条件特有の情報を組み込むためにネットワーク内の特徴を変調する。 ネットワークは速度(Salimans and Ho, 2022)を予測し、これはノイズの予測またはの予測に等価的に変換できる。 (Ho et al., 2020)で説明されているノイズ除去ネットワークと同様に、我々のアーキテクチャはUNetフレームワーク(Ronneberger et al., 2015)に基づいている。しかし、我々は各段階にハイブリッド2D-3Dブロックを組み込むことで、独自に強化している。この適応により、我々のネットワークはテクスチャマップの特異な特性を巧みに管理できるようになる。
Hybrid 2D-3D block
我々の設計の鍵は、2Dテクスチャマップ生成のための効率的な特徴学習を促進するハイブリッド2D-3Dブロックである。図 3 (b)に示すように、我々のハイブリッドブロックはUVヘッドと複数の3Dポイントクラウドブロックで構成されている。入力UV特徴はまず2D畳み込みブロック(図 3 (c)参照)を通して処理され、UV空間での局所的特徴を抽出する。2D畳み込みは、3D畳み込みやポイントクラウドKNN検索による近傍の確立と重み付けと比較して計算効率が高く、より高解像度にスケーラブルである。さらに、アイランド内では、2D畳み込みにより、隣接する特徴の集約が体積的な近傍ではなく表面の近傍に基づいて行われることが保証され、測地距離がより大きくなる可能性がある。 したがって、このステップは高解像度情報の保持を効率的に確保する。
UV空間のアイランド間に3D接続を確立するために、我々はラスタライゼーションを用いて出力UV特徴 を3D空間に再マッピングし、これらのUV特徴を3Dポイントクラウド特徴に再編成する。3D空間での主な目的は、高解像度の詳細特徴を抽出するのではなく、3Dの近傍関係とグローバルな構造特徴を獲得して3D一貫性を向上させることである。したがって、我々は比較的疎な特徴を採用し、スケーラビリティを確保するための効率的なモジュールを設計している。簡単な図解を図 4に示す。主要なコンポーネントは以下の通りである:
-
•
シリアライズドアテンション。 入力の密なポイント特徴に対して、我々はグリッドプーリング(Wu et al., 2022)を採用してポイント数を疎にし、を得る。プールされた特徴はトークンとして扱われ、学習のためにポイントアテンション層で処理される。効率を高めるために、我々はシリアライズドアテンション(Wu et al., 2023)を利用し、これは効率的なパッチベースのアテンションを促進する。具体的には、ポイント特徴は、z順曲線(Morton, 1966)やヒルベルト曲線(Hilbert and Hilbert, 1935)などの空間充填曲線によって定義される滅菌コードに基づいて異なるグループに分割される。
-
•
位置エンコーディング。 位置エンコーディングは、3D位置情報を我々のモデルに組み込む上で重要な役割を果たす。ポイント座標を位置エンコーディングの手がかりとして使用する従来の方法(Lai et al., 2022; Yang et al., 2023)は、この目的のために畳み込み層を利用する条件付き位置エンコーディング(Chu et al., 2021; Wang, 2023; Wu et al., 2023)と比較して効果が低い(Wu et al., 2023)。当初、我々はxCPE(Wu et al., 2023)を実装し、これはアテンション層の直前に疎な畳み込み層を統合する。しかし、このアプローチはトランスフォーマーの次元が増加するにつれて(つまり、)非効率的で時間がかかることが判明した。これらの非効率性に対処するために、我々は修正されたアプローチを開発し、sCPEと呼んでいる。これは、疎な畳み込みを実行する前に線形層を使用して入力のチャンネル次元を削減する。その後、別の線形層を使用してチャンネル次元を元のサイズに拡張し、スキップ接続の特徴次元に一致させる。
-
•
条件変調。 我々の2Dブロックと3Dブロックの両方で、グローバル条件埋め込みを使用して中間特徴を変調し、条件付き情報の注入を可能にする。具体的には、DiT(Peebles and Xie, 2023)にインスパイアされ、MLPを使用して条件埋め込みから変調ベクトルとを学習する。これらのベクトルは、中間特徴をそのチャンネル次元にわたってスケーリングおよびシフトするために使用され、として定式化される。さらに、スキップ接続からの特徴との融合前に出力特徴をスケーリングするためのゲート付きスケールも学習し、として表現される。
学習された疎なポイント特徴は、グリッド分割に基づいて密な座標に散布され、となる。スキップ接続されたUV特徴との融合前に、我々は条件埋め込みからゲート付きスケールも学習し、ポイント特徴をスケーリングする。最終的な融合特徴は以下のように与えられる:
4.3. Diffusion Learning
実際のテクスチャマップ が与えられた場合、我々はランダムにタイムステップ () をサンプリングし、以下の方法でテクスチャマップにノイズを追加する:
(1) |
ここで、 および は特定のノイズスケジューラに従うハイパーパラメータである。具体的には、Stable Diffusion (Rombach et al., 2022) のノイズスケジューラを使用し、ゼロ終端SNR (Lin et al., 2024) を採用して元のノイズスケジューラをスケーリングし、 が のときに成り立つようにする。これにより、初期開始点における学習と推論のギャップを解消するのに役立つ。学習中、我々はテキスト埋め込みと画像埋め込みを確率 でランダムにドロップアウトし、推論時にクラシファイアフリーガイダンス (Ho and Salimans, 2022) を利用できるようにする。 ネットワーク出力 に対して、我々はv-prediction (Salimans and Ho, 2022; Lin et al., 2024) を使用して拡散損失を計算する。すなわち、
(2) | ||||
ここで、 はソフトミンSNR重み (Crowson et al., 2024) である。
特筆すべきは、我々がv-prediction出力から予測サンプル を取得し、マルチビューレンダリングにLPIPS (Zhang et al., 2018) 損失を適用して追加の監督を行うことである:
(3) |
ここで、 は予測されたテクスチャマップ を使用してランダムな視点からレンダリングされた画像であり、 は対応する正解画像である。我々の最終的な損失は以下の通りである:
(4) |
ここで、我々は および と設定する。
4.4. Texture Generation
学習後、我々のノイズ除去ネットワークは3Dメッシュの高品質なテクスチャマップを生成する準備が整う(図 1および図 5参照)。まず、UV空間で純粋なガウシアンノイズテクスチャマップを初期化する。次に、条件情報(例:単一視点画像、テキストプロンプト)を用いて、反復的にノイズを除去し、最終的なテクスチャマップを生成する。推論を加速するため、我々はDDIM (Song et al., 2020) サンプリングを30ステップで使用する。興味深いことに、我々のモデルは単一視点画像とテキストプロンプトによって誘導されて学習されたにもかかわらず、テスト時には他のシナリオやアプリケーションに一般化できる。
Text to texture generation.
テキストプロンプトのみが提供される場合、我々は任意にメッシュの視点を選択し、深度マップをレンダリングし、その後ControlNet (Zhang et al., 2023) を使用して対応する単一視点画像を生成できる。これは、画像はテキストから容易に得られるのに対し、テキスト条件付きモデルは画像が提供する制御機能を欠いているため、テキスト条件付きモデルではなく画像条件付きモデルを学習する動機でもある。
Texture inpainting.
学習中、単一視点画像のピクセル情報はUV空間に投影され、部分的な初期テクスチャマップが生成される。我々のネットワークは、見えない部分を補完するように学習される。我々は、この能力によりモデルがテスト時にテクスチャインペインティングモデルとして機能することを発見した。具体的には、ユーザーが提供する部分的なテクスチャマップとマスクをとして(つまり、単一視点からの投影ステップをスキップして)取り、それらをネットワークに入力してインペインティングを行うことができる。テスト時に必要な画像埋め込みについては、我々の学習には画像埋め込みをランダムにドロップすることが含まれていたため、モデルがこの状況に対して頑健であることから、ゼロ埋め込みに設定する。
Texture completion from sparse views.
ユーザーが2つの画像など、疎な視点の画像を数枚提供する場合、我々は生成のために追加情報を効果的に利用できる。投影ステップ中に各画像を単純に投影して融合し、画像埋め込み抽出のために1つの画像をランダムに選択する。我々のモデルは、遮蔽された部分のテクスチャを補完し、テクスチャマップ全体を復元できる。
5. Experiments
我々は、80万以上の3Dメッシュを含むObjaverse (Deitke et al., 2023) を生データソースとして使用した。このデータセットを処理およびクリーニングした後、合計120,400のデータペアを抽出した。そのうち120,000ペアを訓練用に指定し、残りの400ペアを評価用に設定した。詳細なデータ処理方法および我々のモデルの実装詳細は付録に記載している。
5.1. Main Results and Comparisons
我々は、単一視点画像とテキストプロンプトに基づいてテクスチャ付き3Dメッシュを生成する主要な結果を図 1に示す。特に、鳥の例を考えると、羽毛のテクスチャの詳細さは、モデルが非常に細かいテクスチャを生成する能力を示している。図 5では、いくつかの例の条件と多視点結果を個別に表示している。我々の結果は、モデルが豊かな局所的詳細を持つ高品質なテクスチャを生成し、条件情報を保持し、グローバルな一貫性を達成できることを示している。本稿では、我々の手法を他の汎用テクスチャ生成手法と比較する。比較対象には、TEXTure (Richardson et al., 2023)、Text2Tex (Chen et al., 2023b)、Paint3D (Zeng, 2023)が含まれる。
Qualitative comparisons.
我々は、TEXTureとText2Texとの定性的分析を行った。これらの手法はどちらも、事前学習された2Dのテキストから画像への拡散モデルを使用して、テスト時に3Dメッシュにテクスチャを最適化する。彼らのアプローチは、現在の視点の幾何学と一致する深度条件付き拡散モデルで画像を生成し、それをメッシュに投影する。直接見えない領域については、視点を反復的に調整し、インペインティングモデルを使用してテクスチャを完成させる。このサイクルを繰り返して完全なテクスチャマップを生成する。公平な比較のため、彼らの初期画像を我々の手法で使用したのと同じ単一視点画像に置き換えた。図 6に示すように、TEXTureとText2Texはいくつかの課題に直面している。最初の例では、条件画像に豊かなテクスチャパターンが含まれているにもかかわらず、両手法は過度に滑らかなテクスチャを生成している。2番目と3番目の例では、より多くの詳細が示されているものの、様々なアーティファクトがその品質を低下させている。さらに、ガイド画像の情報をうまく保持していない。4番目の例では、ヤヌス問題に直面しており、カエルの前面と背面の両方に目や口などの不適切な特徴が現れている。対照的に、我々の手法は豊かな詳細を持つテクスチャを成功裏に生成し、グローバルな一貫性を維持し、ヤヌス問題を回避している。
次に、我々の手法をPaint3Dと比較する。Paint3Dは2段階のアプローチを使用する。第1段階では、TEXTureやText2Texと同様に、Paint3Dは反復的なインペインティングによってテクスチャマップを生成する。さらに、非現実的な照明の問題に対処し、第1段階で塗られなかった領域を埋めるために、リファインメントモデルを訓練する。しかし、このモデルは単独でテクスチャ生成に使用することはできず、リファインメント段階後にテクスチャの詳細が不可避的に失われることが観察される。図 6の結果は、Paint3Dが過度に滑らかな結果を生成し、依然としてヤヌス問題を示していることを示している。
Quantitative comparisons.
我々は400のテストオブジェクトで定量的比較を行う。(Siddiqui et al., 2022; Yu et al., 2023a)に従い、テクスチャ付きメッシュから画像をレンダリングし、真の画像とのFIDとKIDを計算する。表 1に示すように、我々の手法は他の手法を大幅に上回っている。さらに、単一のA100 GPUでモデルの実行時間速度をテストしたところ、我々の手法は他の手法よりも顕著に高速で、テスト時の最適化を必要とせずに10秒未満で評価を完了する。
我々の手法が他の手法と根本的に異なるのは、フィードフォワードモデルであるという点である。結果として、モデル圧縮や一貫性蒸留のような拡散加速手法などの技術を使用して、我々のモデルをさらに高速化することができる。これは今後の課題として残しておく。
5.2. Applications
ファインチューニングを行わずとも、我々のモデルは様々な応用のための強力な基盤となる。まず、Depth-ControlNet (Zhang et al., 2023) と統合することで、テキストプロンプトのみを条件としてメッシュテクスチャを生成する我々のモデルの能力を示す。図 7に示すように、生成されたオブジェクトを用いてシーンを構成し、我々の結果を展示する。シーンは生き生きとしており、シーンテクスチャリング応用における我々のモデルの可能性を強調している。各オブジェクトは、個別のテキストプロンプトを用いて制御することができる。
我々はまた、テキスト条件付き結果を2つの方法で評価する。まず、テキストの整合性とテクスチャの品質に焦点を当てたユーザー調査を実施した。参加者は各ラウンドで、テキストの説明との一致度とテクスチャの品質に基づいて、4つのテクスチャ結果の中から最良のものを選択するよう求められた。合計423の回答が収集され、最終分析は表2に示されており、どのアルゴリズムが最も好まれる結果を生成したかを示している。さらに、我々はマルチモーダル大規模言語モデル(MLLM)スコア (Huang et al., 2023b) を客観的な指標として採用している。これは、入力テキストプロンプトと生成されたテクスチャの整合性を、特に実世界のシナリオに近い複雑な条件下で堅牢に測定するものである。表2に示すように、人間の選好とMLLMスコアの両方が、我々の手法が他の手法を上回ることを証明している。
Methods | Paint3D | TEXTure | Text2Tex | Ours |
---|---|---|---|---|
Preference(%)() | 16.5 | 7.1 | 7.1 | 69.3 |
MLLM Score() | 64.8 | 69.8 | 64.8 | 74.2 |
5.3. Model Analysis
Hybrid blocks.
我々は、ブロックのハイブリッド設計についてアブレーションを行った。効率性の理由から、この実験では我々のデータセットの家カテゴリーからオブジェクトを選択して訓練とテストを行った。訓練には10,000モデル、テストには100モデルを使用した。モデルAを作成するために、モデルサイズを半分に削減し、ハイブリッドブロックを使用した。モデルAと同じパラメータ数を維持しながら、ポイントブロックを削除し、追加のUVブロックに置き換えてモデルBを作成した。同様に、UVブロックを削除し、追加のポイントブロックに置き換えてモデルCを作成し、モデルAと同じパラメータ数を維持した。我々は16台のA100 GPUを使用し、バッチサイズ64で85,000イテレーション訓練を行った。図10に示すように、モデルAと比較して、モデルBは黄色のズームイン領域の屋根の白いパッチや緑のボックス内の壁のシーム・アーティファクトなど、一貫性のないスタイルのテクスチャを生成している。モデルCは比較的一貫したテクスチャを生成するが、赤いズームイン領域のテクスチャは高周波の詳細が欠けており、ぼやけて見える。我々は3つのモデルについてFIDとKIDもテストした。表3に示すように、モデルAが最も良い性能を示し、我々のハイブリッドブロック設計の有効性を確認した。
Classifier-free guidance.
我々のモデルの主要な利点は、回帰損失の代わりに拡散ベースの訓練を使用していることである。これにより、推論時に分類器フリーガイダンス(Ho and Salimans, 2022)を実装することが可能となり、テクスチャ合成の品質向上に不可欠である。我々は、ガイダンスの重みのスケールが結果に大きく影響することを発見した。画像拡散モデルは通常、生成品質と条件整合性のバランスを取るためにのガイダンス重みを使用するが、我々の実験ではのガイダンス重みが我々のモデルに最適なバランスを提供することを示した。表4に示すように、我々はガイダンス重みを変化させ、FIDとKIDの観点からその性能を評価した。
Models/Metrics | FID() | KID() |
---|---|---|
Hybrid block (A) | 69.74 | 17.89 |
w/o point block (B) | 72.58 | 25.52 |
w/o UV block (C) | 94.22 | 159.94 |
Metrics/ | 1 | 1.5 | 2 | 3 | 4 | 5 | 7.5 |
---|---|---|---|---|---|---|---|
FID() | 35.01 | 34.73 | 34.53 | 35.19 | 35.69 | 36.69 | 39.58 |
KID() | 15.06 | 13.00 | 11.94 | 11.71 | 13.03 | 14.53 | 24.45 |
6. Conclusion
本稿において、我々は一般的な3Dオブジェクト用の高解像度テクスチャを生成するために設計された大規模生成拡散モデルであるTEXGenを提示した。 TEXGenは、テスト時の最適化を必要とする事前学習済み2D拡散モデルに依存する従来の手法から脱却している。代わりに、我々のモデルは、局所的な詳細の忠実性とグローバルな3D認識の相互作用の両方を巧みに管理する新規のハイブリッド2D-3Dブロックを活用し、詳細で一貫性のあるテクスチャを効率的に合成する。フィードフォワード方式で高解像度テクスチャマップを生成する能力を持つTEXGenは、テキストガイドによるテクスチャインペインティング、疎視点テクスチャ補完、テキストからテクスチャへの合成など、さまざまなゼロショットアプリケーションをサポートしている。一般的なオブジェクトのテクスチャを生成できる初のフィードフォワードモデルとして、TEXGenはこの分野に新たな基準を設定している。我々の貢献が、テクスチャ生成およびそれ以外の分野における更なる研究と進歩を触発し、促進することを期待している。
Acknowledgements.
本研究は、香港研究助成局の早期キャリア計画(助成番号27209621)、一般研究基金計画(助成番号17202422)、テーマ別研究(助成番号T45-701/22-R)、およびRGCマッチングファンド計画(RMGS)によって支援されている。記述された研究の一部は、香港ジョッキークラブ慈善信託基金によって資金提供されたソフトマテリアルのためのロボティクスJC STEMラボで実施されている。References
- (1)
- Achiam et al. (2023) Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023).
- Anthropic (2024) Anthropic. 2024. Claude 3.5 Sonnet. https://www.anthropic.com/news/claude-3-5-sonnet Accessed: 2024-08-20.
- Betker et al. (2023) James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, Long Ouyang, Juntang Zhuang, Joyce Lee, Yufei Guo, et al. 2023. Improving image generation with better captions. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf 2, 3 (2023), 8.
- Blattmann et al. (2023) Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, and Robin Rombach. 2023. Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets. CoRR abs/2311.15127 (2023).
- Bokhovkin et al. (2023) Alexey Bokhovkin, Shubham Tulsiani, and Angela Dai. 2023. Mesh2tex: Generating mesh textures from image queries. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 8918–8928.
- Cao et al. (2023) Tianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, and Kangxue Yin. 2023. TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models. In ICCV. IEEE, 4146–4158.
- Ceylan et al. (2024) Duygu Ceylan, Valentin Deschaintre, Thibault Groueix, Rosalie Martin, Chun-Hao Huang, Romain Rouffet, Vladimir Kim, and Gaëtan Lassagne. 2024. MatAtlas: Text-driven Consistent Geometry Texturing and Material Assignment. arXiv preprint arXiv:2404.02899 (2024).
- Chang et al. (2015) Angel X Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, et al. 2015. Shapenet: An information-rich 3d model repository. arXiv preprint arXiv:1512.03012 (2015).
- Chen et al. (2023b) Dave Zhenyu Chen, Yawar Siddiqui, Hsin-Ying Lee, Sergey Tulyakov, and Matthias Nießner. 2023b. Text2Tex: Text-driven Texture Synthesis via Diffusion Models. In ICCV. IEEE, 18512–18522.
- Chen et al. (2018) Kevin Chen, Christopher B. Choy, Manolis Savva, Angel X. Chang, Thomas A. Funkhouser, and Silvio Savarese. 2018. Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings. In ACCV (3) (Lecture Notes in Computer Science, Vol. 11363). Springer, 100–116.
- Chen et al. (2023a) Rui Chen, Yongwei Chen, Ningxin Jiao, and Kui Jia. 2023a. Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation. In ICCV. IEEE, 22189–22199.
- Cheng et al. (2023) An-Chieh Cheng, Xueting Li, Sifei Liu, and Xiaolong Wang. 2023. TUVF: Learning Generalizable Texture UV Radiance Fields. CoRR abs/2305.03040 (2023).
- Chu et al. (2021) Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, and Chunhua Shen. 2021. Conditional positional encodings for vision transformers. arXiv preprint arXiv:2102.10882 (2021).
- Crowson et al. (2024) Katherine Crowson, Stefan Andreas Baumann, Alex Birch, Tanishq Mathew Abraham, Daniel Z Kaplan, and Enrico Shippole. 2024. Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers. arXiv preprint arXiv:2401.11605 (2024).
- Deitke et al. (2023) Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, and Ali Farhadi. 2023. Objaverse: A Universe of Annotated 3D Objects. In CVPR. IEEE, 13142–13153.
- Gao et al. (2024) Chenjian Gao, Boyan Jiang, Xinghui Li, Yingpeng Zhang, and Qian Yu. 2024. GenesisTex: Adapting Image Denoising Diffusion to Texture Space. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 4620–4629.
- Goodfellow et al. (2020) Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2020. Generative adversarial networks. Commun. ACM 63, 11 (2020), 139–144.
- Hilbert and Hilbert (1935) David Hilbert and David Hilbert. 1935. Neubegründung der mathematik. erste mitteilung. Springer.
- Ho et al. (2020) Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. Advances in neural information processing systems 33 (2020), 6840–6851.
- Ho and Salimans (2022) Jonathan Ho and Tim Salimans. 2022. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022).
- Hong et al. (2023) Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, and Hao Tan. 2023. Lrm: Large reconstruction model for single image to 3d. arXiv preprint arXiv:2311.04400 (2023).
- Huang et al. (2023a) Kaiyi Huang, Chengqi Duan, Kaiyue Sun, Enze Xie, Zhenguo Li, and Xihui Liu. 2023a. T2I-CompBench: A Comprehensive Benchmark for Text-to-Image Models. https://github.com/Karine-Huang/T2I-CompBench GitHub repository.
- Huang et al. (2023b) Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, and Xihui Liu. 2023b. T2i-compbench: A comprehensive benchmark for open-world compositional text-to-image generation. Advances in Neural Information Processing Systems 36 (2023), 78723–78747.
- Karras et al. (2019) Tero Karras, Samuli Laine, and Timo Aila. 2019. A Style-Based Generator Architecture for Generative Adversarial Networks. In CVPR. Computer Vision Foundation / IEEE, 4401–4410.
- Lai et al. (2022) Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, and Jiaya Jia. 2022. Stratified transformer for 3d point cloud segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 8500–8509.
- Li et al. (2023) Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, and Sai Bi. 2023. Instant3d: Fast text-to-3d with sparse-view generation and large reconstruction model. arXiv preprint arXiv:2311.06214 (2023).
- Lin et al. (2023) Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, and Tsung-Yi Lin. 2023. Magic3d: High-resolution text-to-3d content creation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 300–309.
- Lin et al. (2024) Shanchuan Lin, Bingchen Liu, Jiashi Li, and Xiao Yang. 2024. Common diffusion noise schedules and sample steps are flawed. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 5404–5411.
- Liu et al. (2023) Yuxin Liu, Minshan Xie, Hanyuan Liu, and Tien-Tsin Wong. 2023. Text-guided texturing by synchronized multi-view diffusion. arXiv preprint arXiv:2311.12891 (2023).
- Metzer et al. (2023) Gal Metzer, Elad Richardson, Or Patashnik, Raja Giryes, and Daniel Cohen-Or. 2023. Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures. In CVPR. IEEE, 12663–12673.
- Morton (1966) Guy M Morton. 1966. A computer oriented geodetic data base and a new technique in file sequencing. (1966).
- Nichol et al. (2022) Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin, and Mark Chen. 2022. Point-e: A system for generating 3d point clouds from complex prompts. arXiv preprint arXiv:2212.08751 (2022).
- Oechsle et al. (2019) Michael Oechsle, Lars Mescheder, Michael Niemeyer, Thilo Strauss, and Andreas Geiger. 2019. Texture fields: Learning texture representations in function space. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 4531–4540.
- Peebles and Xie (2023) William Peebles and Saining Xie. 2023. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 4195–4205.
- Poole et al. (2022) Ben Poole, Ajay Jain, Jonathan T Barron, and Ben Mildenhall. 2022. Dreamfusion: Text-to-3d using 2d diffusion. arXiv preprint arXiv:2209.14988 (2022).
- Radford et al. (2021) Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In International conference on machine learning. PMLR, 8748–8763.
- Richardson et al. (2023) Elad Richardson, Gal Metzer, Yuval Alaluf, Raja Giryes, and Daniel Cohen-Or. 2023. Texture: Text-guided texturing of 3d shapes. In ACM SIGGRAPH 2023 Conference Proceedings. 1–11.
- Rombach et al. (2022) Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 10684–10695.
- Ronneberger et al. (2015) Olaf Ronneberger, Philipp Fischer, and Thomas Brox. 2015. U-net: Convolutional networks for biomedical image segmentation. In Medical image computing and computer-assisted intervention–MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18. Springer, 234–241.
- Saharia et al. (2022) Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. 2022. Photorealistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems 35 (2022), 36479–36494.
- Salimans and Ho (2022) Tim Salimans and Jonathan Ho. 2022. Progressive distillation for fast sampling of diffusion models. arXiv preprint arXiv:2202.00512 (2022).
- Siddiqui et al. (2022) Yawar Siddiqui, Justus Thies, Fangchang Ma, Qi Shan, Matthias Nießner, and Angela Dai. 2022. Texturify: Generating Textures on 3D Shape Surfaces. arXiv preprint arXiv:2204.02411 (2022).
- Song et al. (2020) Jiaming Song, Chenlin Meng, and Stefano Ermon. 2020. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502 (2020).
- Team et al. (2023) Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. 2023. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805 (2023).
- Tochilkin et al. (2024) Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, and Yan-Pei Cao. 2024. Triposr: Fast 3d object reconstruction from a single image. arXiv preprint arXiv:2403.02151 (2024).
- Touvron et al. (2023) Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. 2023. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288 (2023).
- Wang et al. (2023a) Haochen Wang, Xiaodan Du, Jiahao Li, Raymond A. Yeh, and Greg Shakhnarovich. 2023a. Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation. In CVPR. IEEE, 12619–12629.
- Wang et al. (2023c) Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, and Kai Zhang. 2023c. Pf-lrm: Pose-free large reconstruction model for joint pose and shape prediction. arXiv preprint arXiv:2311.12024 (2023).
- Wang (2023) Peng-Shuai Wang. 2023. Octformer: Octree-based transformers for 3d point clouds. ACM Transactions on Graphics (TOG) 42, 4 (2023), 1–11.
- Wang et al. (2023b) Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, and Jun Zhu. 2023b. ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation. arXiv preprint arXiv:2305.16213 (2023).
- Wu et al. (2024) Jinbo Wu, Xing Liu, Chenming Wu, Xiaobo Gao, Jialun Liu, Xinqi Liu, Chen Zhao, Haocheng Feng, Errui Ding, and Jingdong Wang. 2024. TexRO: Generating Delicate Textures of 3D Models by Recursive Optimization. arXiv preprint arXiv:2403.15009 (2024).
- Wu et al. (2023) Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, and Hengshuang Zhao. 2023. Point transformer v3: Simpler, faster, stronger. arXiv preprint arXiv:2312.10035 (2023).
- Wu et al. (2022) Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, and Hengshuang Zhao. 2022. Point transformer v2: Grouped vector attention and partition-based pooling. Advances in Neural Information Processing Systems 35 (2022), 33330–33342.
- Xu et al. (2024) Yinghao Xu, Zifan Shi, Wang Yifan, Hansheng Chen, Ceyuan Yang, Sida Peng, Yujun Shen, and Gordon Wetzstein. 2024. GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation. CoRR abs/2403.14621 (2024).
- Xu et al. (2023) Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, et al. 2023. Dmv3d: Denoising multi-view diffusion using 3d large reconstruction model. arXiv preprint arXiv:2311.09217 (2023).
- Yang et al. (2023) Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, and Baining Guo. 2023. Swin3d: A pretrained transformer backbone for 3d indoor scene understanding. arXiv preprint arXiv:2304.06906 (2023).
- Yeh et al. (2024) Yu-Ying Yeh, Jia-Bin Huang, Changil Kim, Lei Xiao, Thu Nguyen-Phuoc, Numair Khan, Cheng Zhang, Manmohan Chandraker, Carl S Marshall, Zhao Dong, et al. 2024. Texturedreamer: Image-guided texture synthesis through geometry-aware diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 4304–4314.
- Young (2018) Jonathan Young. 2018. xatlas. https://github.com/jpcy/xatlas.
- Yu et al. (2023a) Xin Yu, Peng Dai, Wenbo Li, Lan Ma, Zhengzhe Liu, and Xiaojuan Qi. 2023a. Texture Generation on 3D Meshes with Point-UV Diffusion. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 4206–4216.
- Yu et al. (2023b) Xin Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Song-Hai Zhang, and Xiaojuan Qi. 2023b. Text-to-3d with classifier score distillation. arXiv preprint arXiv:2310.19415 (2023).
- Zeng (2023) Xianfang Zeng. 2023. Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models. arXiv preprint arXiv:2312.13913 (2023).
- Zhang et al. (2023) Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. 2023. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 3836–3847.
- Zhang et al. (2018) Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. 2018. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition. 586–595.
- Zhang et al. (2024) Shangzhan Zhang, Sida Peng, Tao Xu, Yuanbo Yang, Tianrun Chen, Nan Xue, Yujun Shen, Hujun Bao, Ruizhen Hu, and Xiaowei Zhou. 2024. MaPa: Text-driven Photorealistic Material Painting for 3D Shapes. In ACM SIGGRAPH 2024 Conference Papers. 1–12.
- Zou et al. (2023) Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Yan-Pei Cao, and Song-Hai Zhang. 2023. Triplane meets gaussian splatting: Fast and generalizable single-view 3d reconstruction with transformers. arXiv preprint arXiv:2312.09147 (2023).
Appendix A Appendix
A.1. Implementation Details
我々は、80万以上の3Dメッシュを含むObjaverse (Deitke et al., 2023) を生データソースとして使用している。しかし、これらのメッシュのテクスチャ構造は均一ではなく、処理とフィルタリングが必要である。例えば、一部のメッシュは複数のテクスチャ画像を持つパーツに分割されているが、他のメッシュはテクスチャ画像なしのベースカラー情報のみを持っている。データのクリーニングと再編成のため、まずテクスチャ品質の低いメッシュを除外した。残りのメッシュについては、xAtlas (Young, 2018) を使用してUVを再展開し、単一のUVアトラスで表現されるようにした。その後、元のメッシュファイルから拡散色を新しくパラメータ化されたメッシュにベイクした。 さらに、Gemini (Team et al., 2023) を使用して、レンダリングされた画像に基づいて各メッシュのキャプションを取得した。最終的に、120,400個のメッシュとそれに対応するテクスチャ画像を処理・取得し、120,000個を訓練用、400個を評価用に使用した。 我々のネットワーク構築には5つのステージを使用している(つまり、4つのダウンサンプリングと4つのアップサンプリングステージ)。効率性のため、最初のステージではUVブロックのみを使用している。2番目のステージでは、ハイブリッドブロックを使用するが、ポイントアテンションをスパース畳み込みに置き換えている。残りの3つのステージでは、我々が設計したハイブリッドブロックを使用し、アテンション層はそれぞれ2、4、6層を持つ。各ステージのチャンネル数は、それぞれ32、256、1024、1024、2048である。2番目のステージのスパース畳み込みブロックと最後の3つのステージのアテンションブロックでは、0.02と0.05のグリッドサイズを使用している。最後の3つのステージでは、シリアル化されたポイントパッチサイズを256、512、1024に設定している。 我々のモデルは、AdamWオプティマイザーを使用して訓練し、、重み減衰は0.05である。訓練プロセスは32台のA100 GPUで行われ、総バッチサイズは64で、400,000イテレーションにわたる。学習率を2e-4からゼロに減少させるためにコサインスケジューラーを使用している。コードはhttps://github.com/CVMI-Lab/TEXGenで入手可能である。
A.2. More Qualitative Results
まず、補足資料として提出した動画ファイルにおいて、我々はメッシュレンダリングの動画を提供し、我々のモデルの結果を示している。さらに、我々の手法はヤヌス問題を回避する能力を示し、実際のスキャンモデルにも適用可能である。テクスチャ生成におけるヤヌス問題とは、3Dアセット、特に人間の顔の両側に目や鼻などの特徴が意図せず重複して現れることを指す。この問題は通常、3D認識が不足している手法で発生し、しばしば事前学習された画像生成モデルに依存して異なる視点のテクスチャを独立して生成する場合に起こる。我々のモデルは3Dデータで学習され、完全なUVマップを順方向に直接生成するため、図 11に示すように、この問題を効果的に防いでいる。実際のスキャンモデルは、滑らかでない表面や断片的で不規則なUVマップのため、しばしば独特の課題を提示する。これらの複雑さにもかかわらず、我々の手法は実際のスキャンモデルを扱う上で堅牢性を示し、図 12に示すように、元のオブジェクトの詳細と真正性を維持する高品質なテクスチャマップを効果的に生成することができる。
A.3. Limitations and Discussions
現在、我々のモデルの学習中に使用される条件画像はポーズ整列および形状整列されており、任意の画像を使用してテクスチャを「転送」したいユーザーのニーズを満たさない可能性がある。しかし、我々は、ピクセル投影に依存するのではなく、クロスアテンションのようなメカニズムを通じて密な画像情報を組み込むことで、我々のネットワークアーキテクチャがそのようなシナリオを潜在的に処理できると考えている。主な課題は、この目的に適したデータセットを構築することである。 将来の研究として、我々はモデルを拡張して物理ベースレンダリング(PBR)マテリアルマップを生成することを計画している。これは、PBRマップを生成するようにモデルを学習させるために必要なデータを収集し処理することで達成できる。