JaLMS
最新の AI 研究を日本語で解読

IDArb: Intrinsic Decomposition for arbitrary number of input views and illuminations

Zhibing Li1  Tong Wu1†  Jing Tan1  Mengchen Zhang2,3  Jiaqi Wang3  Dahua Lin1,3†
1 The Chinese University of Hong Kong  2 Zhejiang University  3 Shanghai AI Laboratory
            https://lizb6626.github.io/IDArb/
Abstract

画像から幾何学的および材質情報を捉えることは、コンピュータビジョンとグラフィックスにおける基本的な課題であり続けている。従来の最適化ベースの手法では、密な多視点入力から幾何学、材質特性、環境照明を再構築するのに数時間の計算時間を要することが多く、照明と材質の間に内在する曖昧さにも苦心している。一方、学習ベースのアプローチは既存の3Dオブジェクトデータセットから豊富な材質の事前知識を活用するが、多視点の一貫性を維持することに課題がある。 本稿では、IDArbを紹介する。これは、様々な照明条件下で任意の数の画像に対して本質的分解を行うように設計された拡散ベースのモデルである。我々の手法は、表面法線と材質特性の正確かつ多視点で一貫した推定を実現する。これは、新規の視点間・ドメイン間アテンションモジュールと、照明を増強した視点適応型訓練戦略によって可能となる。さらに、我々はARB-Objaverseを導入する。これは、大規模な多視点本質的データと多様な照明条件下でのレンダリングを提供する新しいデータセットであり、堅牢な訓練をサポートする。 広範な実験により、IDArbが定性的にも定量的にも最先端の手法を上回ることが実証される。さらに、我々のアプローチは、単一画像の再照明、フォトメトリックステレオ、3D再構成など、幅広い下流タスクを容易にし、リアルな3Dコンテンツ作成における広範な応用可能性を示している。

1 Introduction

我々が物体から知覚する色は、入射光、物質の特性、およびそれらの物体の表面形状の間の複雑な相互作用の結果である。撮影された画像からこれらの本質的な特性を復元することは、コンピュータビジョンにおける基本的な課題であり、リライティング (Wimbauer et al., 2022) や写実的な3Dコンテンツ生成 (Zhang et al., 2024; Siddiqui et al., 2024) など、様々な下流アプリケーションを可能にする。この分解プロセスは、一般に逆レンダリングと呼ばれ、本質的に曖昧で厳しく制約が不足しており、特に1つまたは限られた数の観測視点しか利用できない場合に顕著である。例えば、黒いピクセルは黒い基本色を示している可能性もあれば、入射光が不足している結果である可能性もある。

Refer to caption
図1: IDArb は、制約のない照明条件下で任意の数の視点に対する本質的分解に取り組む。 我々のアプローチは、(a) 学習ベースの手法と比較して多視点の一貫性を達成し、(b) 最適化ベースの手法と比較して、学習された事前知識を通じて本質的な構成要素を照明効果からより良く分離する。本稿の手法は、画像のリライティングや材質編集、フォトメトリックステレオ、3D再構成など、幅広いアプリケーションを強化することができる。

既存の逆レンダリング研究は、大きく2つのアプローチに分類できる:最適化ベースの手法と学習ベースの手法である。前者のカテゴリー(例えばNeRFactor (Zhang et al., 2021b)、NVDiffRecMC (Hasselgren et al., 2022)、TensoIR (Jin et al., 2023))は通常、入力として数百枚のマルチビュー画像を必要とし、各ケースの本質的な特性を独立して最適化することに焦点を当てている。このアプローチには時間のかかる反復最適化が含まれ、しばしば数時間を要する。さらに、材料分布に関する強力な事前知識を組み込まず、照明とテクスチャの間の本質的な曖昧さに対処しないため、これらの最適化ベースの手法は往々にして準最適な解に収束する。これは、図1(b)に示すように、照明効果を本質的な構成要素に埋め込むなど、非現実的な分解につながる可能性がある。 これらの制限に対処するため、学習ベースの手法は大規模な訓練データセットから有用な事前知識を抽出し、フィードフォワード方式で高速な推論を行うことを目指している。これらのアプローチの多くは単一画像の分解に焦点を当てているが、図1(a)に示すように、複数のビューに適用した場合、一貫性のない本質的な特性を生成する傾向がある。さらに、単一画像モデルは複数のビューからの補完的な情報を活用することが難しく、材料の曖昧さを解決することが困難であり、より複雑なケースではより正確でない結果をもたらす。

これらの課題を緩和するために、我々はIDArbを提案する。これは、制約のない様々な照明条件下で撮影された任意の数の画像を入力とし、アルベド、法線、金属性、粗さを含む対応する内在的要素を予測できるモデルである。本稿の主要な貢献は以下の3点である。 第一に、我々はWonder3D (Long et al., 2023) からクロスビュー・クロスコンポーネント注意モジュールを採用し、異なる視点と内在的要素間で情報を融合する。このモジュールは、マルチビューの対応関係と内在的要素の結合分布の全体的な理解を促進し、視点間の一貫性を可能にし、分解の不確実性を低減する。 固定数の入力ビューで訓練されているにもかかわらず、我々のモデルはカメラポーズを必要とせずに任意の数の入力画像を分解する柔軟性を示す。 第二に、複雑な照明条件下でのパフォーマンスを向上させるために、我々はObjaverse (Deitke et al., 2022) に基づいてカスタムデータセット、すなわちARB-Objaverseを作成した。これには、効果的な訓練のために様々な照明シナリオを持つ570万のマルチビューRGB画像と内在的要素が含まれている。 最後に、我々は、様々な照明条件下で堅牢なパフォーマンスを達成し、マルチビューの手がかりと一般的な物体の材質の事前知識の両方を活用するために、新規で効果的な照明拡張および視点適応型訓練戦略を考案した。これにより、マルチビューおよび単一ビューの逆レンダリングの性能向上を図る。

我々は、合成データと実データの両方で我々のモデルを広範に評価した。我々のアプローチは、既存の学習ベースの手法 (Kocsis et al., 2024; Zeng et al., 2024; Chen et al., 2024) を質的にも量的にも大幅に上回り、内在的分解において最先端の結果を達成している。 我々のモデルは、材質編集、再照明、および写真測量ステレオを含む一連のダウンストリームタスクに実用的な利点を提供し、また照明効果を内在的外観からより良く分離することで最適化ベースの手法を改善するための強力な事前知識としても機能する。 我々は、IDArbが逆レンダリングにおける異なる入力レジーム間の統一的なソリューションを提供し、物理的世界を理解しモデル化する我々の能力を向上させると信じている。

2 Related Work

2.1 Optimization-based inverse rendering

最適化ベースの逆レンダリング手法は、多視点画像から形状、材質、および照明を同時に再構成することを目的としている。 ボリューメトリック表現手法(Boss et al., 2021a; Kuang et al., 2022; Boss et al., 2021b; Zhang et al., 2021b)は、NeRF (Mildenhall et al., 2020)を拡張して本質的な外観と照明条件をモデル化し、ボリュームレンダリング技術を用いて画像をレンダリングする。 サーフェスベースの表現手法(Zhang et al., 2021a; 2022a; 2022b; Sun et al., 2023)は、符号付き距離関数(SDFs)(Wang et al., 2021)や微分可能なメッシュ(Munkberg et al., 2022; Hasselgren et al., 2022)として表面を抽出し、双方向反射分布関数(BRDF)(Nicodemus, 1965)などの明示的な材質モデルを適用し、物理ベースの手順を通じて画像をレンダリングする。 最近の研究では、この課題に対して3Dガウス表現Kerbl et al. (2023); Gao et al. (2023)を探求しており、各ガウス点に本質的な属性を割り当てている。

既存の手法はグローバルイルミネーションを効果的にシミュレートするが、多くの場合、密な多視点入力を必要とし、特に複雑なシーンに対しては計算コストが高くなる可能性がある。さらに、照明と材質の間に本質的な曖昧さが存在し、これが最適でない解につながる可能性がある。例えば、照明が誤ってテクスチャに焼き付けられるなどの問題が生じる。 対照的に、我々の提案手法は、フィードフォワード方式で逆レンダリングを行う効率的な解決策を提供する。大規模な多視点・多照明データセットから学習された優れた事前知識を活用することで、曖昧さの問題を大幅に軽減することができる。

2.2 Learning-based inverse rendering

深層ニューラルネットワークの進歩により、学習ベースのアプローチ(Barron & Malik, 2020; Li et al., 2019; Zhu et al., 2022; Bi et al., 2020; Careaga & Aksoy, 2023; Shi et al., 2016)は内在的分解において印象的な性能を示している。 これらは通常、単一の画像を入力として受け取り、入力ビューからアルベド、鏡面反射、表面法線などの内在的特性を分解する。 初期の学習ベースの手法(Li et al., 2018; Wu et al., 2021; Wimbauer et al., 2022; Sang & Chandraker, 2020; Boss et al., 2020; Yi et al., 2023)は内在的分解を決定論的問題として扱い、しばしば曖昧なピクセルにおいて過度に平滑化された詳細をもたらす。 最近の研究(Kocsis et al., 2024; Chen et al., 2024; Zeng et al., 2024)は拡散(Ho et al., 2020)を用いた確率分布モデリングを採用し、生成的定式化を通じて高周波数の詳細を持つ正確な内在的成分を推定している。 Zeng et al. (2024)は、複数のデータソースで拡散パイプラインを訓練することにより、RGB\rightarrowX(内在的特性の推定)とX\rightarrowRGB(現実的な画像の生成)の両方に対処する統一された拡散フレームワークを提示している。

これらの学習ベースのアプローチは通常、単一ビュー設定で逆レンダリングを扱うため、マルチビューデータに適用すると一貫性のない結果をもたらす。我々の研究は、フィードフォワード拡散パイプラインを拡張し、これまであまり探求されていなかったマルチビュー逆レンダリングの課題に取り組み、様々な入力タイプに対する統一的なソリューションを提供し、下流のアプリケーションに有用な内在的事前知識を提供する。

2.3 Diffusion models for other modalities

Denoising Diffusion Probabilistic Models (DDPMs) およびその変種(Ho et al., 2020; Rombach et al., 2021; Zhang et al., 2023)は、テキストから画像生成の分野で大きな注目を集めており、様々な応用において有望な結果を生み出している。 研究者らは、拡散モデルを法線(Fu et al., 2024)、深度(Ke et al., 2024)、新規視点画像(Liu et al., 2023; 2024b; Kong et al., 2024)といった異なる出力モダリティに適応させることも探求してきた。 複数のモダリティを同時に生成するために、 Wonder3D (Long et al., 2023)は、多視点法線マップと対応するカラー画像を生成する拡散モデルに追加のクロスドメイン注意モジュールを導入している。 我々は、この概念を本質的分解に拡張し、本質的成分を3つの三つ組に分割し、それらの結合分布をモデル化する。 豊富な構造的、意味的、および材料に関する知識を捕捉した事前学習済み拡散モデルを活用することで、データの制限を克服し、モデルが合成データで訓練されている場合でも、実世界のシナリオへの一般化を確保することができる。

3 Method

IDArbは、任意の数の入力ビューと様々な照明条件を扱うことができる、内因性分解のための拡散ベースモデルである。我々はまず、3.1節で問題設定の概要を説明する。次に、3.2節で、このタスクに特化した独自のデータセットの構築について説明する。最後に、3.3節でモデルアーキテクチャとトレーニング戦略について議論する。IDArbの概要は図2に示されている。

Refer to caption
図2: 上: IDArbの概要。下: UNet内の注意ブロックの図解。 我々のトレーニングバッチは、N𝑁Nitalic_N個の入力画像で構成され、Nvsubscript𝑁𝑣N_{v}italic_N start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT個の視点とNisubscript𝑁𝑖N_{i}italic_N start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT個の照明からサンプリングされる。各画像の潜在ベクトルは、ノイズ除去のためにガウシアンノイズと連結される。内因性成分は3つの三つ組(D𝐷Ditalic_D=3)に分割される:アルベド、法線、金属性&粗さ。特定のテキストプロンプトを使用して、モデルを異なる内因性成分に導く。UNet内の注意ブロックでは、成分間および視点間の注意モジュールを導入し、成分と視点間で注意が適用され、グローバルな情報交換を促進する。

3.1 Problem Statement

我々は内因性分解を条件付き生成問題として定式化する:

𝐗1:Np(𝐗1:N|𝐈1:N).similar-tosubscript𝐗:1𝑁𝑝conditionalsubscript𝐗:1𝑁subscript𝐈:1𝑁\mathbf{X}_{1:N}\sim p(\mathbf{X}_{1:N}|\mathbf{I}_{1:N}).bold_X start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPT ∼ italic_p ( bold_X start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPT | bold_I start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPT ) . (1)

ここで、N𝑁N\in\mathbb{N}italic_N ∈ blackboard_Nは入力ビューの数を表し、𝐈1:Nsubscript𝐈:1𝑁\mathbf{I}_{1:N}bold_I start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPTは入力RGB画像を表し、 𝐗1:Nsubscript𝐗:1𝑁\mathbf{X}_{1:N}bold_X start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPTは各ビューの内因性成分を表す。 我々は𝐗𝐗\mathbf{X}bold_Xを簡略化されたDisney BRDFパラメータ化(Burley & Studios, 2012; Karis & Games, 2013)を用いてモデル化する。これにはアルベド𝐀H×W×3𝐀superscript𝐻𝑊3\mathbf{A}\in\mathbb{R}^{H\times W\times 3}bold_A ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPT、粗さ𝐑H×W×1𝐑superscript𝐻𝑊1\mathbf{R}\in\mathbb{R}^{H\times W\times 1}bold_R ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 1 end_POSTSUPERSCRIPT、金属性𝐌H×W×1𝐌superscript𝐻𝑊1\mathbf{M}\in\mathbb{R}^{H\times W\times 1}bold_M ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 1 end_POSTSUPERSCRIPT、表面法線𝐍H×W×3𝐍superscript𝐻𝑊3\mathbf{N}\in\mathbb{R}^{H\times W\times 3}bold_N ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPTが含まれる。 入力画像の数N𝑁Nitalic_Nは1から多数まで任意の値をとることができ、入力画像はトレーニングと推論の両方で任意の制約のない照明下でレンダリングされる。

3.2 Arb-Objaverse Dataset

Refer to caption
図3: Arb-Objaverseデータセットの概要。 我々のカスタムデータセットは、様々な照明条件下でレンダリングされた多様なオブジェクトとその固有成分を特徴としている。

実世界の環境で固有分解の正解データを取得することは、時間がかかり技術的に困難である。この問題を克服するため、我々は訓練に合成データを利用する。理想的には、適切なデータセットは大規模で多様なオブジェクトを複数の照明条件下でレンダリングしたものを特徴とすべきである。しかし、既存のデータセットには顕著な制限がある。例えば、G-Objaverse (Qiu et al., 2024) は単一の低コントラストの照明設定を採用しており、一方でABO (Collins et al., 2022) は家庭用品に限定されており、オブジェクトの多様性が不足している。

これらの欠点に対処するため、我々はArb-Objaverseというカスタムデータセットを開発した。Objaverse Deitke et al. (2022) から68,000の3Dモデルを選択し、低品質およびテクスチャのないケースを除外した。各オブジェクトに対して、BlenderのCyclesレンダリングエンジンを使用して12のビューをレンダリングした111https://www.blender.org/。各視点について、異なる照明条件下で7つの画像をレンダリングした。6つの画像は、Poly Haven222https://polyhaven.com/からランダムにサンプリングされた高ダイナミックレンジ(HDR)環境マップによって照明されている。Poly Havenは718の多様な環境マップのコレクションを提供している。最後の画像は、周囲のシェル上にランダムに配置された2つの点光源によって照明されている。我々のArb-Objaverseデータセットは、最終的に570万のレンダリングされたRGB画像とそれらの固有成分を含んでいる。訓練のために、我々はさらにこのデータセットをG-ObjaverseとABOと組み合わせて変動性を高めた。図3はこれらのデータセットの可視化と比較を提供している。

3.3 Architecture and Training

単一視点から多視点画像まで任意の数の視点が与えられた場合、IDArbは制約のない照明条件下で多視点間で一貫した固有画像を生成するために、テキストガイド付き拡散モデルを使用する。 我々は、RGBドメインからの堅牢な事前知識を活用するために、事前学習済みのStable Diffusion (SD) (Rombach et al., 2021)モデルを基盤としている。3チャンネルのRGB画像とは異なり、固有成分はより高いチャンネル次元を持ち、元のSDモデルで直接処理することはできない。 新しい固有モダリティに対して元のSDのVAEを再利用するために、我々は固有成分𝐗𝐗\mathbf{X}bold_Xを3つの三つ組に分割する:アルベド𝐀𝐀\mathbf{A}bold_A、法線𝐍𝐍\mathbf{N}bold_N、そして𝐁=[𝐌,𝐑,𝟎]𝐁𝐌𝐑0\mathbf{B}=[\mathbf{M},\mathbf{R},\mathbf{0}]bold_B = [ bold_M , bold_R , bold_0 ]である。ここで、𝐌𝐌\mathbf{M}bold_Mは金属性、𝐑𝐑\mathbf{R}bold_Rは粗さ、𝟎0\mathbf{0}bold_0は未使用である。 各三つ組の潜在表現は、ノイズ除去のためにガウスノイズとチャンネル方向に連結される。各三つ組に対して、'albedo'、'normal'、'metallic&roughness'といった特定のテキストプロンプトが、ノイズ除去の対象を示すために考案されている。

視点間・成分間アテンション。 実世界のシナリオでは、ユーザーが物体の複数の画像を撮影する可能性があるため、モデルが任意の数の入力視点を処理し、すべての視点で一貫した結果を保証することが不可欠である。また、3D再構成のためにこれらの一貫した分解結果をマテリアルガイダンスとして持つことも重要である。これに対処するために、我々はUNetの元のアテンションブロック内に視点間アテンションモジュールを提案する。図2に示すように、各視点からの入力特徴を連結し、視点間でアテンション操作を実行できるようにする。これにより、モデルは多視点情報を活用して曖昧さを減少させ、異なる視点間での一貫性を強制することができる。

反射色は、入射光、材料特性、表面形状の相互作用の結果である。例えば、暗い色の凸形状は、暗いアルベドの可能性を高める。これらの関係をより良く捉えるために、我々は固有成分を個別に予測するのではなく、それらの結合分布をモデル化することを提案する。 Wonder3D (Long et al., 2023)とGeoWizard (Fu et al., 2024)にインスパイアされ、我々は通常の自己アテンションモジュールを再利用して、異なる固有成分間のグローバルな相互作用を融合する成分間アテンションを採用する。 セクション4.3で示すように、成分間で情報を交換することで、特に粗さと金属性について分解の不確実性を効果的に減少させる。

照明拡張および視点適応学習。 制御されていない環境で撮影された多視点画像は、しばしば様々な照明条件を経験するため、アルゴリズムがこのような差異を効果的に処理することが不可欠である。これに対処するために、我々は照明に対してロバストなデータ拡張戦略を提案する。ここでは、学習中に様々な照明条件から多視点画像がサンプリングされる。これらの条件には、均一な環境光、HDR環境マップ、点光源など、幅広いセットアップが含まれる。 各学習ステップで、データセット内の各インスタンスに対してNvsubscript𝑁𝑣N_{v}italic_N start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT視点とNisubscript𝑁𝑖N_{i}italic_N start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの照明変動が与えられた場合、我々はランダムにN𝑁Nitalic_N画像を入力としてサンプリングする。これにより、同一視点-異照明、異視点-同照明、異視点-異照明などの複雑な入力シナリオをシミュレートし、学習データの多様性を向上させることができる。 結果として、我々のモデルは手動で作成されたモジュールを必要とせずに異なる照明条件を区別することを学習し、多光源キャプチャからの測光手がかりを効果的に活用して、ロバストな固有分解を達成する。また、推論時に未見の照明条件を処理する優れた汎化能力も示す。

しかし、固定されたN𝑁Nitalic_N入力画像での学習は、1つの視点のみが与えられた場合のパフォーマンスの低下につながる(セクション4.3で示す通り)。我々は、これは多視点学習がモデルに固有情報を推論するために視点間の情報により注目するよう導くのに対し、単一画像分解は一般的な物体材料の事前知識の学習を必要とするためではないかと推測する。これを克服するために、我々は多入力設定と単一画像設定を切り替える視点適応学習戦略を導入する。このアプローチを取り入れることで、我々のモデルは任意の数の入力視点に対してロバストな汎化能力を獲得する。

ノイズスケジューラ。 元のSDモデルは、高周波の詳細の生成を優先し、低周波の構造にはより少ないステップを割り当てるスケーリングされた線形ノイズスケジューラを使用する。しかし、このアプローチは固有分解タスクにおけるモデルのパフォーマンスを制限する。なぜなら、固有成分の構造、特に金属性𝐌𝐌\mathbf{M}bold_Mと粗さ𝐑𝐑\mathbf{R}bold_Rは、入力RGB画像とは大きく異なるためである。Shi et al. (2023)にインスパイアされ、我々はノイズスケジューラをより高いノイズレベルにシフトする。セクション4.3で示すように、高ノイズステップの数を増やすことで、金属性と粗さ成分の予測が大幅に改善される。

4 Experiments

4.1 Experimental setup

実装の詳細。 我々は、ゼロ終端SNRスケジュールを用いて、事前学習済みStable DiffusionからUNetをファインチューニングする(Lin et al., 2024)。学習目的にはv-predictionを使用し、学習率1×1041superscript1041\times 10^{-4}1 × 10 start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPTのAdamWオプティマイザを利用する。モデルは256×256256256256\times 256256 × 256解像度にダウンサンプリングされた画像で80,0008000080,00080 , 000ステップにわたって学習される。学習中、入力画像数N𝑁Nitalic_Nはオブジェクトごとにランダムに3または1に設定される。学習プロセス全体は、16台のNvidia Tesla A100 GPUクラスターで約4日間を要する。

ベースライン。 本稿の手法を、最近の拡散ベースのアプローチである2つの手法と比較する:IID (Kocsis et al., 2024)とRGB\leftrightarrowX (Zeng et al., 2024)である。RGB\leftrightarrowXはまだ公開されていないため、我々はこれを再実装し、我々の学習データセットで学習を行った。 さらに、アルベド比較のためにIntrinsicAnything (Chen et al., 2024)を、法線比較のためにGeoWizard (Fu et al., 2024)を含める。 我々のモデルを2つの設定で評価する:(1)単一視点設定、ここでは各入力画像が独立して処理される、(2)多視点設定、ここでは各オブジェクトの複数の視点から内在的成分が共同で推定される。

評価指標。 アルベドの評価には、ピーク信号対雑音比(PSNR)と構造的類似性指標(SSIM)(Wang et al., 2004)を使用する。アルベドはスケール因子に関して定義されるため、予測されたアルベドをA=argminαAαA^2A^superscript𝐴subscriptargmin𝛼superscriptnorm𝐴𝛼^𝐴2^𝐴A^{\prime}=\text{argmin}_{\alpha}||A-\alpha\hat{A}||^{2}\hat{A}italic_A start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = argmin start_POSTSUBSCRIPT italic_α end_POSTSUBSCRIPT | | italic_A - italic_α over^ start_ARG italic_A end_ARG | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT over^ start_ARG italic_A end_ARGとしてリスケーリングすることでスケール不変のPSN指標を適用する。表面法線に関しては、コサイン類似度を測定する。金属性と粗さの成分の評価には平均二乗誤差(MSE)を使用する。

評価データセット。 我々のモデルの有効性と汎化能力を、合成データと実世界のデータセットの両方で評価する。合成データについては、Arb-ObjaverseとG-Objaverseから441個のオブジェクトをサンプリングし、各オブジェクトについて4つの視点を選択する。実世界のデータについては、Pixabay333https://pixabay.com/から画像セットを収集する。すべての評価は512×512512512512\times 512512 × 512の解像度で実施される。

4.2 Experimental results

合成データに関する結果。 我々は表1に定量的結果を示す。我々の手法は全ての指標において一貫して最高の精度を達成している。 図4は、単一視点設定における我々の手法とベースライン手法との視覚的比較を示している。

アルベド推定(図4(a))において、我々の手法は効果的にハイライトと影を除去しているが、IIDとRGB\leftrightarrowXはアルベドに照明効果を残す傾向があり、IntrinsicAnythingは金属表面に対して非現実的な結果を生成する。 法線推定(図4(b))では、我々の手法は鋭く正確な形状を提供するが、RGB\leftrightarrowXは物体のテクスチャの干渉を受け、GeoWizardは多数のサンプルを評価してその平均を取るため、詳細がぼやけている。金属性と粗さの推定(図4(c)および図4(d))では、我々の手法はより妥当な結果を提供し、テクスチャパターンと照明からの干渉を排除している。 さらに、マルチビュー入力を組み込むことで、金属性と粗さの予測が大幅に向上することを観察した。これは、材料の曖昧さを解決するための追加情報を提供するためである。

Refer to caption
(a) アルベド推定。 我々の手法は効果的にハイライトと影を除去している。
Refer to caption
(b) 法線推定。 我々の手法は平坦な表面を正しく予測しながら、形状の幾何学的特徴を提供している。
Refer to caption
(c) 金属性推定。 我々の手法は、テクスチャパターンと照明からの干渉のない妥当な結果を提供し、IIDとRGB\leftrightarrowXを上回っている。
Refer to caption
(d) 粗さ推定。 我々の手法は、テクスチャパターンと照明からの干渉のない妥当な結果を提供し、IIDとRGB\leftrightarrowXを上回っている。
図4: 合成データにおける定性的比較。 IDArbは他のすべての手法と比較して、優れた内在的推定を示している。
表1: IDArbとベースラインの定量的評価。 IDArbは、アルベド、法線、金属性、粗さのすべての指標において一貫して最良の結果を達成している。
Albedo Normal Metallic Roughness
SSIM\uparrow PSNR\uparrow Cosine Similarity \uparrow MSE \downarrow MSE \downarrow
IID 0.901 27.35 - 0.192 0.131
RGB\leftrightarrowX 0.902 28.09 0.834 0.162 0.347
IntrinsicAnything 0.901 28.17 - - -
GeoWizard - - 0.871 - -
Ours(single) 0.935 32.79 0.928 0.037 0.058
Ours(multi) 0.937 33.62 0.941 0.016 0.033

実世界データに関する結果。 我々は図5に実世界データに関する定性的結果を示し、アルベド推定について我々の手法をIntrinsicAnythingと比較する。IntrinsicAnythingは金属物体に対して過度に暗いアルベドを予測し、ぼやけた詳細(3行目のおもちゃの口など)を生成し、忠実性の損失につながっている。対照的に、我々のモデルは詳細を保持した正確で説得力のある分解を生成している。合成データで訓練されているにもかかわらず、IDArbは実世界の画像にうまく一般化している。追加の結果は付録Dに示されている。

Refer to caption
図5: 実世界データにおける定性的比較。 IDArbは実データにうまく一般化し、正確で説得力のある分解と高周波の詳細を示している。

4.3 Analysis and Ablative Study

コンポーネント間アテンションの削減実験。 コンポーネント間アテンションの効果を評価するため、我々はコンポーネント間アテンション機構を除いたモデルも訓練し、比較を行った。 図6(a)に示すように、異なる固有コンポーネント間で情報を交換することは、特に不確実性が高い金属性と粗さにおいて、材質の曖昧さを軽減するのに役立つ。

Refer to caption
(a)
Refer to caption
(b)
図6: 削減実験(a) コンポーネント間アテンション(b) 訓練戦略。
Refer to caption
図7: 視点数と照明条件の影響。 視点数と照明条件を増やすことで、一般的に分解性能が向上することが分かった。
表2: NeRFactorにおける光度ステレオの定量的結果。 2、4、8枚のOLAT画像を用いて性能を評価し、比較したすべての手法の中で最高の性能を達成した。
# OLAT Images 2 4 8
Methods Albedo\uparrow Normal\uparrow Albedo\uparrow Normal\uparrow Albedo\uparrow Normal\uparrow
IID 22.23 - 22.40 - 22.86 -
RGB \leftrightarrowX 21.29 0.71 22.08 0.77 23.29 0.81
SDM-UniPS 22.95 0.74 23.20 0.76 23.37 0.81
Ours 23.50 0.83 23.64 0.84 25.15 0.85

訓練戦略の削減実験。6(b)は、マルチビューと単一ビューを交互に訓練する戦略とノイズスケジューラに関する削減実験を示している。マルチビュー入力のみで訓練すると、単一画像入力の性能が低下する。これは、3.3節で議論したように、これら2つの設定がモデルの異なる能力を強調するためである。さらに、ノイズスケジューラを高ノイズレベルにシフトすることで、モデルが固有ドメインにより適応しやすくなる。

視点と照明効果の分析。 我々は、カスタムデータセットにおける視点数と照明条件の影響を分析した。1、2、4、8、12の視点数と1、2、3の照明条件でモデルを評価した。図7に示すように、視点数や照明を増やすことで、一般的に予測精度が向上する。金属性と粗さの予測においては、マルチライトキャプチャが特に効果的であり、これらのコンポーネントを照明効果から分離するのに役立つ。経験的に、8視点以上では視点を追加することによる性能向上は減少する。詳細は付録Bに記載されている。

その他の結果。 追加のマルチビュー入力結果は付録Eと補足動画に記載されている。より多くの実世界データの結果については、付録Dを参照されたい。

4.4 Applications

IDArbは、様々な下流アプリケーションに対して価値ある本質的な事前情報を提供する。ここでは、単一画像の再照明と材質編集、および写真測量の問題に対するモデルの能力を実証する。さらに、我々の生成した本質的分解が最適化ベースの逆レンダリングの結果を向上させることを示す。

単一画像の再照明と材質編集。 高品質な本質的成分が得られると、我々の手法は撮影された画像を新しい照明条件下で再照明することを可能にする。さらに、元のシーンの照明を最適化し、材質編集を行うことができる。具体的には、環境照明をキューブマップとして表現し、NVDiffRec (Munkberg et al., 2022) の微分可能な分割和近似を採用してそのパラメータを最適化する。図 8 に我々の再照明と材質編集の結果を示す。

Refer to caption
図8: 再照明と材質編集の結果。 自然環境での撮影 (a) から、我々のモデルは新しい照明条件下での再照明 (b) と材質特性の修正 (c) を可能にする。
Refer to caption
図9: 最適化ベースの逆レンダリング結果。 我々の手法はNVDiffecMCがより妥当な材質結果を生成するよう導く。
表3: 最適化ベースの逆レンダリングにおけるIDArb疑似ラベルのアブレーション NeRFactorおよびSynthetic4Relightデータセットにおいて。
Nerfactor Synthetic4Relight
Albedo (raw) Albedo (scaled) Relighting Albedo (raw) Albedo (scaled) Relighting Roughness
NVDiffRecMC 17.89 25.88 22.65 17.03 29.64 24.05 0.046
NVDiffRecMC w/ Ours 20.90 26.61 27.20 26.42 30.73 31.01 0.014

写真測量。 写真測量は、固定カメラで様々な照明条件下で撮影された画像から表面法線とアルベドを推定することを目的とする、コンピュータビジョンにおける長年の課題である。我々は、各画像が周囲照明なしで単一の点光源によって照明される厳しいOne-Light-At-Time (OLAT) 条件下で我々の手法を評価する。これは硬い投影影を引き起こす。 我々は比較のために、この課題のために特別に設計され訓練されたSDM-UniPS (Ikehata, 2023) も含める。 実験は実世界のOpenIlluminationデータセット (Liu et al., 2024a) と合成NeRFactorデータセット (Zhang et al., 2021b) で行う。NeRFactorにおける定量的結果を表 2 にまとめ、定性的結果を付録 C に示す。 我々のモデルはこの設定で明示的に訓練されていないにもかかわらず、特に入力画像の数が限られている場合に、合理的な推定を提供する。

最適化ベースの逆レンダリング。 我々の手法は、最適化ベースの逆レンダリング技術を向上させるための事前情報として使用できる。具体的には、各訓練画像をそれぞれの本質的成分に分解し、これらの成分を疑似材質ラベルとして扱う。我々は実験のコードベースとしてNVDiffRecMC (Hasselgren et al., 2022) を採用する。これは我々の手法と同じPBR材質モデルを使用しているためである。各反復において、NVDiffRecMCによって予測された本質的成分と我々の手法によって予測されたものとの間に追加のL2正則化項を導入し、物理的妥当性を確保する。 表 3 にこれらのデータセットにおける材質推定と再照明の結果を示す。 図 9 に示すように、我々の手法はNVDiffRecMCから再構成されたアルベドにおける色シフトの問題を大幅に軽減し、再照明タスクにおいて改善された結果をもたらす。

5 Conclusion

本稿では、フィードフォワード拡散パイプラインを通じて固有分解を解決するIDArbを提示する。 我々の手法は、未知かつ変化する照明下で撮影された任意の画像を処理し、アルベド、法線、金属性、粗さを含む一貫した固有成分を推定することができる。 クロスコンポーネント注意モジュールと照明拡張訓練は、我々のモデルの曖昧さを低減する能力をさらに向上させ、複雑で高コントラストの照明条件下でより堅牢な逆レンダリングを促進する。

限界と考察。 我々の手法は実世界のデータに対して強力な汎化能力を示すが、腐食レベルによって空間的に金属性と粗さが変化する腐食した青銅像のような複雑な物体の材質マップを正確に予測することには課題がある。ほとんどの合成データがグローバルな金属性と粗さの値を使用しているため、我々の手法は複雑な実世界の物体に対する推定を過度に単純化する可能性がある。将来の研究の方向性として、教師なし技術を通じて実データを組み込むことが考えられる。 さらに、クロスビュー注意の現在の実装では、すべての入力ビューを連結するため、複雑さがO(N2)𝑂superscript𝑁2O(N^{2})italic_O ( italic_N start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT )となり、高解像度の密な入力ビューを扱うことが困難になる。今後の調査では、 より効率的なクロスビュー注意メカニズムを探求することができるだろう。

References

  • Barron & Malik (2020) Jonathan T. Barron and Jitendra Malik. Shape, illumination, and reflectance from shading, 2020. URL https://arxiv.org/abs/2010.03592.
  • Barron et al. (2022) Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, and Peter Hedman. Mip-nerf 360: Unbounded anti-aliased neural radiance fields. CVPR, 2022.
  • Bi et al. (2020) Sai Bi, Zexiang Xu, Kalyan Sunkavalli, David Kriegman, and Ravi Ramamoorthi. Deep 3d capture: Geometry and reflectance from sparse multi-view images, 2020. URL https://arxiv.org/abs/2003.12642.
  • Boss et al. (2020) Mark Boss, Varun Jampani, Kihwan Kim, Hendrik P.A. Lensch, and Jan Kautz. Two-shot spatially-varying brdf and shape estimation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
  • Boss et al. (2021a) Mark Boss, Raphael Braun, Varun Jampani, Jonathan T. Barron, Ce Liu, and Hendrik P. A. Lensch. Nerd: Neural reflectance decomposition from image collections. In ICCV, pp.  12664–12674. IEEE, 2021a.
  • Boss et al. (2021b) Mark Boss, Varun Jampani, Raphael Braun, Ce Liu, Jonathan T. Barron, and Hendrik P. A. Lensch. Neural-pil: Neural pre-integrated lighting for reflectance decomposition. In NeurIPS, pp.  10691–10704, 2021b.
  • Burley & Studios (2012) Brent Burley and Walt Disney Animation Studios. Physically-based shading at disney. In Acm Siggraph, volume 2012, pp.  1–7. vol. 2012, 2012.
  • Careaga & Aksoy (2023) Chris Careaga and Yağız Aksoy. Intrinsic image decomposition via ordinal shading. ACM Transactions on Graphics, 43(1):1–24, November 2023. ISSN 1557-7368. doi: 10.1145/3630750. URL http://dx.doi.org/10.1145/3630750.
  • Chen et al. (2024) Xi Chen, Sida Peng, Dongchen Yang, Yuan Liu, Bowen Pan, Chengfei Lv, and Xiaowei Zhou. Intrinsicanything: Learning diffusion priors for inverse rendering under unknown illumination, 2024. URL https://arxiv.org/abs/2404.11593.
  • Collins et al. (2022) Jasmine Collins, Shubham Goel, Kenan Deng, Achleshwar Luthra, Leon Xu, Erhan Gundogdu, Xi Zhang, Tomas F Yago Vicente, Thomas Dideriksen, Himanshu Arora, Matthieu Guillaumin, and Jitendra Malik. Abo: Dataset and benchmarks for real-world 3d object understanding. CVPR, 2022.
  • Deitke et al. (2022) Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, and Ali Farhadi. Objaverse: A universe of annotated 3d objects, 2022. URL https://arxiv.org/abs/2212.08051.
  • Fu et al. (2024) Xiao Fu, Wei Yin, Mu Hu, Kaixuan Wang, Yuexin Ma, Ping Tan, Shaojie Shen, Dahua Lin, and Xiaoxiao Long. Geowizard: Unleashing the diffusion priors for 3d geometry estimation from a single image. In ECCV, 2024.
  • Gao et al. (2023) Jian Gao, Chun Gu, Youtian Lin, Hao Zhu, Xun Cao, Li Zhang, and Yao Yao. Relightable 3d gaussian: Real-time point cloud relighting with brdf decomposition and ray tracing. arXiv:2311.16043, 2023.
  • Grosse et al. (2009) Roger Grosse, Micah K Johnson, Edward H Adelson, and William T Freeman. Ground truth dataset and baseline evaluations for intrinsic image algorithms. In 2009 IEEE 12th International Conference on Computer Vision, pp.  2335–2342. IEEE, 2009.
  • Hasselgren et al. (2022) Jon Hasselgren, Nikolai Hofmann, and Jacob Munkberg. Shape, Light, and Material Decomposition from Images using Monte Carlo Rendering and Denoising. arXiv:2206.03380, 2022.
  • Ho et al. (2020) Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
  • Ikehata (2023) Satoshi Ikehata. Scalable, detailed and mask-free universal photometric stereo. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
  • Jin et al. (2023) Haian Jin, Isabella Liu, Peijia Xu, Xiaoshuai Zhang, Songfang Han, Sai Bi, Xiaowei Zhou, Zexiang Xu, and Hao Su. Tensoir: Tensorial inverse rendering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
  • Kajiya (1986) James T Kajiya. The rendering equation. In Proceedings of the 13th annual conference on Computer graphics and interactive techniques, pp.  143–150, 1986.
  • Karis & Games (2013) Brian Karis and Epic Games. Real shading in unreal engine 4. Proc. Physically Based Shading Theory Practice, 4(3):1, 2013.
  • Ke et al. (2024) Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, and Konrad Schindler. Repurposing diffusion-based image generators for monocular depth estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024.
  • Kerbl et al. (2023) Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, and George Drettakis. 3d gaussian splatting for real-time radiance field rendering, 2023. URL https://arxiv.org/abs/2308.04079.
  • Kocsis et al. (2024) Peter Kocsis, Vincent Sitzmann, and Matthias Nießner. Intrinsic image diffusion for indoor single-view material estimation, 2024. URL https://arxiv.org/abs/2312.12274.
  • Kong et al. (2024) Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, and Andrew J Davison. Eschernet: A generative model for scalable view synthesis. arXiv preprint arXiv:2402.03908, 2024.
  • Kuang et al. (2022) Zhengfei Kuang, Kyle Olszewski, Menglei Chai, Zeng Huang, Panos Achlioptas, and Sergey Tulyakov. Neroic: neural rendering of objects from online image collections. ACM Trans. Graph., 41(4):56:1–56:12, 2022.
  • Kuang et al. (2023) Zhengfei Kuang, Yunzhi Zhang, Hong-Xing Yu, Samir Agarwala, Elliott Wu, Jiajun Wu, et al. Stanford-orb: a real-world 3d object inverse rendering benchmark. 2023.
  • Li et al. (2018) Zhengqin Li, Zexiang Xu, Ravi Ramamoorthi, Kalyan Sunkavalli, and Manmohan Chandraker. Learning to reconstruct shape and spatially-varying reflectance from a single image. In SIGGRAPH Asia 2018 Technical Papers, pp.  269. ACM, 2018.
  • Li et al. (2019) Zhengqin Li, Mohammad Shafiei, Ravi Ramamoorthi, Kalyan Sunkavalli, and Manmohan Chandraker. Inverse rendering for complex indoor scenes: Shape, spatially-varying lighting and svbrdf from a single image, 2019. URL https://arxiv.org/abs/1905.02722.
  • Lin et al. (2024) Shanchuan Lin, Bingchen Liu, Jiashi Li, and Xiao Yang. Common diffusion noise schedules and sample steps are flawed, 2024. URL https://arxiv.org/abs/2305.08891.
  • Liu et al. (2024a) Isabella Liu, Linghao Chen, Ziyang Fu, Liwen Wu, Haian Jin, Zhong Li, Chin Ming Ryan Wong, Yi Xu, Ravi Ramamoorthi, Zexiang Xu, and Hao Su. Openillumination: A multi-illumination dataset for inverse rendering evaluation on real objects, 2024a.
  • Liu et al. (2023) Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, and Carl Vondrick. Zero-1-to-3: Zero-shot one image to 3d object, 2023.
  • Liu et al. (2024b) Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, and Wenping Wang. Syncdreamer: Generating multiview-consistent images from a single-view image, 2024b. URL https://arxiv.org/abs/2309.03453.
  • Long et al. (2023) Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, et al. Wonder3d: Single image to 3d using cross-domain diffusion. arXiv preprint arXiv:2310.15008, 2023.
  • Mildenhall et al. (2020) Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020.
  • Munkberg et al. (2022) Jacob Munkberg, Jon Hasselgren, Tianchang Shen, Jun Gao, Wenzheng Chen, Alex Evans, Thomas Müller, and Sanja Fidler. Extracting Triangular 3D Models, Materials, and Lighting From Images. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.  8280–8290, June 2022.
  • Nicodemus (1965) Fred E Nicodemus. Directional reflectance and emissivity of an opaque surface. Applied optics, 4(7):767–775, 1965.
  • Qiu et al. (2024) Lingteng Qiu, Guanying Chen, Xiaodong Gu, Qi Zuo, Mutian Xu, Yushuang Wu, Weihao Yuan, Zilong Dong, Liefeng Bo, and Xiaoguang Han. Richdreamer: A generalizable normal-depth diffusion model for detail richness in text-to-3d. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.  9914–9925, 2024.
  • Rombach et al. (2021) Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models, 2021.
  • Sang & Chandraker (2020) Shen Sang and M. Chandraker. Single-shot neural relighting and svbrdf estimation. In ECCV, 2020.
  • Shi et al. (2016) Jian Shi, Yue Dong, Hao Su, and Stella X. Yu. Learning non-lambertian object intrinsics across shapenet categories, 2016. URL https://arxiv.org/abs/1612.08510.
  • Shi et al. (2023) Ruoxi Shi, Hansheng Chen, Zhuoyang Zhang, Minghua Liu, Chao Xu, Xinyue Wei, Linghao Chen, Chong Zeng, and Hao Su. Zero123++: a single image to consistent multi-view diffusion base model, 2023.
  • Siddiqui et al. (2024) Yawar Siddiqui, Tom Monnier, Filippos Kokkinos, Mahendra Kariya, Yanir Kleiman, Emilien Garreau, Oran Gafni, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, and David Novotny. Meta 3d assetgen: Text-to-mesh generation with high-quality geometry, texture, and pbr materials. arXiv, 2024.
  • Sun et al. (2023) Cheng Sun, Guangyan Cai, Zhengqin Li, Kai Yan, Cheng Zhang, Carl S. Marshall, Jia-Bin Huang, Shuang Zhao, and Zhao Dong. Neural-pbir reconstruction of shape, material, and illumination. In ICCV, pp.  18000–18010. IEEE, 2023.
  • Wang et al. (2021) Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, and Wenping Wang. Neus: Learning neural implicit surfaces by volume rendering for multi-view reconstruction. arXiv preprint arXiv:2106.10689, 2021.
  • Wang et al. (2004) Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4):600–612, 2004.
  • Wimbauer et al. (2022) Felix Wimbauer, Shangzhe Wu, and Christian Rupprecht. De-rendering 3d objects in the wild, 2022. URL https://arxiv.org/abs/2201.02279.
  • Wu et al. (2021) Shangzhe Wu, Ameesh Makadia, Jiajun Wu, Noah Snavely, Richard Tucker, and Angjoo Kanazawa. De-rendering the world’s revolutionary artefacts, 2021. URL https://arxiv.org/abs/2104.03954.
  • Ye et al. (2024) Chongjie Ye, Lingteng Qiu, Xiaodong Gu, Qi Zuo, Yushuang Wu, Zilong Dong, Liefeng Bo, Yuliang Xiu, and Xiaoguang Han. Stablenormal: Reducing diffusion variance for stable and sharp normal. ACM Transactions on Graphics (TOG), 2024.
  • Ye et al. (2023) Weicai Ye, Shuo Chen, Chong Bao, Hujun Bao, Marc Pollefeys, Zhaopeng Cui, and Guofeng Zhang. IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023.
  • Yi et al. (2023) Renjiao Yi, Chenyang Zhu, and Kai Xu. Weakly-supervised single-view image relighting, 2023. URL https://arxiv.org/abs/2303.13852.
  • Zeng et al. (2024) Zheng Zeng, Valentin Deschaintre, Iliyan Georgiev, Yannick Hold-Geoffroy, Yiwei Hu, Fujun Luan, Ling-Qi Yan, and Miloš Hašan. RGB \leftrightarrow X: Image decomposition and synthesis using material-and lighting-aware diffusion models. arXiv preprint arXiv:2405.00666, 2024.
  • Zhang et al. (2021a) Kai Zhang, Fujun Luan, Qianqian Wang, Kavita Bala, and Noah Snavely. Physg: Inverse rendering with spherical gaussians for physics-based material editing and relighting. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.  5453–5462, 2021a.
  • Zhang et al. (2022a) Kai Zhang, Fujun Luan, Zhengqi Li, and Noah Snavely. Iron: Inverse rendering by optimizing neural sdfs and materials from photometric images. In IEEE Conf. Comput. Vis. Pattern Recog., 2022a.
  • Zhang et al. (2024) Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, and Jingyi Yu. Clay: A controllable large-scale generative model for creating high-quality 3d assets, 2024. URL https://arxiv.org/abs/2406.13897.
  • Zhang et al. (2023) Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models, 2023.
  • Zhang et al. (2021b) Xiuming Zhang, Pratul P. Srinivasan, Boyang Deng, Paul Debevec, William T. Freeman, and Jonathan T. Barron. Nerfactor: neural factorization of shape and reflectance under an unknown illumination. ACM Transactions on Graphics, 40(6):1–18, December 2021b. ISSN 1557-7368. doi: 10.1145/3478513.3480496. URL http://dx.doi.org/10.1145/3478513.3480496.
  • Zhang et al. (2022b) Yuanqing Zhang, Jiaming Sun, Xingyi He, Huan Fu, Rongfei Jia, and Xiaowei Zhou. Modeling indirect illumination for inverse rendering. In CVPR, 2022b.
  • Zhu et al. (2022) Rui Zhu, Zhengqin Li, Janarbek Matai, Fatih Porikli, and Manmohan Chandraker. Irisformer: Dense vision transformers for single-image inverse rendering in indoor scenes, 2022. URL https://arxiv.org/abs/2206.08423.

Appendix A Preliminary

A.1 Image Diffusion Model

Denoising Diffusion Probabilistic Models (DDPM) (Ho et al., 2020)では、前方拡散過程が定義され、各タイムステップでサンプルに少量のガウシアンノイズを徐々に導入する。これは q(𝐱t|𝐱t1)=𝒩(𝐱t;1βt𝐱t1,βt𝐈)𝑞conditionalsubscript𝐱𝑡subscript𝐱𝑡1𝒩subscript𝐱𝑡1subscript𝛽𝑡subscript𝐱𝑡1subscript𝛽𝑡𝐈q(\mathbf{x}_{t}|\mathbf{x}_{t-1})=\mathcal{N}(\mathbf{x}_{t};\sqrt{1-\beta_{t% }}\mathbf{x}_{t-1},\beta_{t}\mathbf{I})italic_q ( bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | bold_x start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT ) = caligraphic_N ( bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ; square-root start_ARG 1 - italic_β start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG bold_x start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT , italic_β start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_I )で表される。ここで、t𝑡titalic_tはタイムステップを表し、β𝛽\betaitalic_βは分散スケジューラとして機能する。 ランダムノイズからサンプルを復元するために、DDPMは逆拡散過程を pθ(𝐱t1|𝐱t)=𝒩(𝐱t1;μθ(𝐱,t),Σθ(𝐱t,t))subscript𝑝𝜃conditionalsubscript𝐱𝑡1subscript𝐱𝑡𝒩subscript𝐱𝑡1subscript𝜇𝜃𝐱𝑡subscriptΣ𝜃subscript𝐱𝑡𝑡p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})=\mathcal{N}(\mathbf{x}_{t-1};\mu_{% \theta}(\mathbf{x},t),\Sigma_{\theta}(\mathbf{x}_{t},t))italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_x start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT | bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) = caligraphic_N ( bold_x start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT ; italic_μ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_x , italic_t ) , roman_Σ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) )としてモデル化し、反復的なデノイジングを通じて𝐱0subscript𝐱0\mathbf{x}_{0}bold_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを構築することを学習する。

Stable Diffusion (SD) (Rombach et al., 2021)は、エンコーダ\mathcal{E}caligraphic_Eを用いて入力画像𝐱H×W×3𝐱superscript𝐻𝑊3\mathbf{x}\in\mathbb{R}^{H\times W\times 3}bold_x ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPTを潜在ベクトル𝐳H/8×W/8×4𝐳superscript𝐻8𝑊84\mathbf{z}\in\mathbb{R}^{H/8\times W/8\times 4}bold_z ∈ blackboard_R start_POSTSUPERSCRIPT italic_H / 8 × italic_W / 8 × 4 end_POSTSUPERSCRIPTに圧縮してから、潜在空間で拡散過程を実行する。デノイジング後、潜在表現はデコーダx^=𝒟(𝐳0)^𝑥𝒟subscript𝐳0\hat{x}=\mathcal{D}(\mathbf{z}_{0})over^ start_ARG italic_x end_ARG = caligraphic_D ( bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT )を通じてピクセル空間に戻される。

条件付き生成の場合、Stable Diffusion (SD)の学習目的は以下のように定式化される:

L:=𝔼(𝐱),y,ϵ𝒩(0,1),t[ϵϵθ(𝐳t,t,τθ(y))22],assign𝐿subscript𝔼formulae-sequencesimilar-to𝐱𝑦italic-ϵ𝒩01𝑡delimited-[]subscriptsuperscriptnormitalic-ϵsubscriptitalic-ϵ𝜃subscript𝐳𝑡𝑡subscript𝜏𝜃𝑦22L:=\mathbb{E}_{\mathcal{E}(\mathbf{x}),y,\epsilon\sim\mathcal{N}(0,1),t}[||% \epsilon-\epsilon_{\theta}(\mathbf{z}_{t},t,\tau_{\theta}(y))||^{2}_{2}],italic_L := blackboard_E start_POSTSUBSCRIPT caligraphic_E ( bold_x ) , italic_y , italic_ϵ ∼ caligraphic_N ( 0 , 1 ) , italic_t end_POSTSUBSCRIPT [ | | italic_ϵ - italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , italic_τ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_y ) ) | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ] , (2)

ここで、t𝑡titalic_t{1,,T}1𝑇\{1,...,T\}{ 1 , … , italic_T }から一様にサンプリングされ、τθ(y)subscript𝜏𝜃𝑦\tau_{\theta}(y)italic_τ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_y )は条件y𝑦yitalic_yのエンコーディングを表し、ϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTはUNetとして実装される。

A.2 Intrinsic Components Formation

我々の画像形成は、物理的正確性を確保するために、古典的なレンダリング方程式(Kajiya, 1986)に基づいている。 表面法線𝐧𝐧\mathbf{n}bold_nを持つ点𝐱𝐱\mathbf{x}bold_xにおいて、この点での入射光強度はLi(ωi;x)subscript𝐿𝑖subscript𝜔𝑖𝑥L_{i}(\omega_{i};x)italic_L start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ( italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ; italic_x )と表され、ここでωisubscript𝜔𝑖\omega_{i}italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTは入射光の方向を表す。 双方向反射分布関数(BRDF)(Nicodemus, 1965)fr(ωo,ωi;x)subscript𝑓𝑟subscript𝜔𝑜subscript𝜔𝑖𝑥f_{r}(\omega_{o},\omega_{i};x)italic_f start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT ( italic_ω start_POSTSUBSCRIPT italic_o end_POSTSUBSCRIPT , italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ; italic_x )と表記され、方向ωosubscript𝜔𝑜\omega_{o}italic_ω start_POSTSUBSCRIPT italic_o end_POSTSUBSCRIPTから見たときの材料の反射特性を記述する。観測される光強度Lo(ω0;x)subscript𝐿𝑜subscript𝜔0𝑥L_{o}(\omega_{0};x)italic_L start_POSTSUBSCRIPT italic_o end_POSTSUBSCRIPT ( italic_ω start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ; italic_x )は、半球Ω={ωi:ωin>0}Ωconditional-setsubscript𝜔𝑖subscript𝜔𝑖𝑛0\Omega=\{\omega_{i}:\omega_{i}\cdot n>0\}roman_Ω = { italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT : italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ⋅ italic_n > 0 }上で以下のように計算される:

Lo(ωo;x)=ΩLi(ωi;x)fr(ωo,ωi;x)(ωin)𝑑ωi.subscript𝐿𝑜subscript𝜔𝑜𝑥subscriptΩsubscript𝐿𝑖subscript𝜔𝑖𝑥subscript𝑓𝑟subscript𝜔𝑜subscript𝜔𝑖𝑥subscript𝜔𝑖𝑛differential-dsubscript𝜔𝑖L_{o}(\omega_{o};x)=\int_{\Omega}L_{i}(\omega_{i};x)f_{r}(\omega_{o},\omega_{i% };x)(\omega_{i}\cdot n)d\omega_{i}.italic_L start_POSTSUBSCRIPT italic_o end_POSTSUBSCRIPT ( italic_ω start_POSTSUBSCRIPT italic_o end_POSTSUBSCRIPT ; italic_x ) = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_L start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ( italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ; italic_x ) italic_f start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT ( italic_ω start_POSTSUBSCRIPT italic_o end_POSTSUBSCRIPT , italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ; italic_x ) ( italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ⋅ italic_n ) italic_d italic_ω start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT . (3)

我々のアプローチでは、式3の左辺で観測される色から、照明や視点方向に依存しない物体の表面法線とBRDF材料を復元することを目指している。我々は、BRDFのパラメータ化にDisney Basecolor-Metallicモデル(Burley & Studios, 2012)を採用している。このモデルは以下の成分から構成される:基本色を表すアルベド、拡散反射と鏡面反射の応答を制御する粗さ、そして鏡面反射を支配する金属性である。

具体的には、単一のRGB画像𝐈H×W×3𝐈superscript𝐻𝑊3\mathbf{I}\in\mathbb{R}^{H\times W\times 3}bold_I ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPTが与えられたとき、我々は表面法線𝐍H×W×3𝐍superscript𝐻𝑊3\mathbf{N}\in\mathbb{R}^{H\times W\times 3}bold_N ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPT、アルベド𝐀H×W×3𝐀superscript𝐻𝑊3\mathbf{A}\in\mathbb{R}^{H\times W\times 3}bold_A ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPT、粗さ𝐑H×W×1𝐑superscript𝐻𝑊1\mathbf{R}\in\mathbb{R}^{H\times W\times 1}bold_R ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 1 end_POSTSUPERSCRIPT、および金属性𝐌H×W×1𝐌superscript𝐻𝑊1\mathbf{M}\in\mathbb{R}^{H\times W\times 1}bold_M ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 1 end_POSTSUPERSCRIPTを共同で推定することを目指している。

Appendix B Details about the Effects of viewpoints and lighting

我々は、表4から7に示すように、視点数(# V)と照明条件数(# L)を変化させた場合の数値的性能結果を提示する。

表4: 異なる視点数(# V)と照明数(# L)におけるアルベド性能 \uparrow
# L # V 1 2 4 8 12
1 29.16 28.72 30.12 30.49 30.77
2 29.96 30.26 30.96 31.13 31.26
3 30.25 30.73 31.16 31.33 31.40
表5: 異なる視点数(# V)と照明数(# L)における法線性能 \uparrow
# L # V 1 2 4 8 12
1 0.909 0.910 0.925 0.930 0.932
2 0.922 0.927 0.930 0.933 0.934
3 0.926 0.931 0.931 0.934 0.935
表6: 異なる視点数(# V)と照明数(# L)におけるメタリック性能 \downarrow
# L # V 1 2 4 8 12
1 0.105 0.116 0.068 0.059 0.050
2 0.061 0.068 0.047 0.044 0.042
3 0.061 0.056 0.048 0.045 0.040
表7: 異なる視点数(# V)と照明数(# L)における粗さ性能 \downarrow
# L # V 1 2 4 8 12
1 0.049 0.050 0.024 0.019 0.021
2 0.043 0.026 0.019 0.016 0.015
3 0.031 0.022 0.016 0.014 0.013

Appendix C Additional Results on Photometric Stereo

我々は図10にフォトメトリックステレオの定性的結果を示す。

Refer to caption
図10: フォトメトリックステレオの結果 OpenIlluminationとNeRFactorにおける4つのOLAT画像を使用。

Appendix D Additional Results on Real-world Data

我々は、2つの実世界ベンチマークで我々の手法を評価した:MIT-Intrinsic (Grosse et al., 2009) とStanford-ORB (Kuang et al., 2023)である。MIT-Intrinsicについては、我々のアルベド推定結果をIntrinsicAnything (Chen et al., 2024)と比較した。結果は表8に示されている。Stanford-ORBについては、法線推定、アルベド推定、再レンダリングの結果を示し、我々の手法をStableNormal (Ye et al., 2024)およびIntrinsicNeRF (Ye et al., 2023)と比較した。結果は表9に示されている。再レンダリング評価では、真の環境マップを使用して我々の分解結果をレンダリングし、元の画像と比較した。

表8: MIT-Intrinsicにおける定量的比較。
SSIM\uparrow PSNR\uparrow LPIPS\downarrow
Ours 0.876 27.98 0.117
IntrinsicAnything 0.896 25.66 0.150
表9: Stanford-ORBにおける定量的比較。
Normal Albedo Re-rendering
Cosine Distance\downarrow SSIM\uparrow PSNR\uparrow LPIPS \downarrow PSNR-H\uparrow PSNR-L\uparrow SSIM\uparrow LPIPS \downarrow
Ours(single) 0.041 0.978 41.30 0.039 24.11 31.28 0.969 0.024
Ours(multi) 0.029 0.978 41.46 0.038 24.36 31.43 0.970 0.024
StableNormal 0.038
IntrinsicNeRF 0.981 39.31 0.048

さらに、インターネットから収集した実世界データに対する定性的結果を図11および図12に示す。

Refer to caption
図11: 実世界データに対するさらなる結果。
Refer to caption
図12: 実世界データに対するさらなる結果。再構成画像および再照明画像も提供している。

Appendix E Additional Results on Multi-view Inputs

13にマルチビュー入力に関する追加結果を示す。

Refer to caption
図13: マルチビューデータに関するさらなる結果。
Refer to caption
図14: 極端な照明変化を伴うマルチビュー画像。 NeRDデータセット(Boss et al., 2021a)の各シーンについて、我々は4つのビューを入力している。

Appendix F Failure Cases

いくつかの失敗事例を図15に示す。第一に、我々のモデルは屋外シーンの処理に苦戦している。これは主に物体中心のデータで訓練されているためである。モデルはある程度の汎化能力を示すものの、このようなシナリオではその性能が低下する。第二に、モデルがテキストに直面した場合、分解は正しいテキスト構造を復元できない。最後に、3行目では、モデルが特定のケースで過度に単純化された出力を生成し、電話機の金属的特徴のような微妙な材質の詳細を保持できていない。この問題は、合成訓練データに起因している。合成データには多くの場合、より単純な材質のバリエーションが含まれているため、モデルが細かい材質特性を過度に単純化してしまうのである。

Refer to caption
図15: 失敗事例。

Appendix G generalization to scene-level data

我々のモデルは、このようなデータセットで明示的に訓練されていないにもかかわらず、屋外および屋内シーンにおいて一般化能力を示している。定性的な結果を図16、図17、および図18に示す。

Refer to caption
図16: Mip-NeRF 360 (Barron et al., 2022)における結果(パート1、屋外)。各シーンに対して4つのビューを入力している。
Refer to caption
図17: Mip-NeRF 360 (Barron et al., 2022)における結果(パート2、屋内)。各シーンに対して4つのビューを入力している。
Refer to caption
図18: 屋内および屋外シーンにおける結果。入力画像はインターネットから収集されている。