JaLMS
最新の AI 研究を日本語で解読

TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction
using Diffusion Models

Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer
Machine Learning Group, CITEC, Bielefeld University, Germany
{rvelioglu, pbevandic, rchan, bhammer}@techfak.de
Abstract

本稿では、着衣した個人の単一写真から標準化された衣服画像を生成することに焦点を当てた新しいタスク、Virtual Try-Off (VTOFF)を紹介する。モデルにデジタルで衣服を着せる従来のVirtual Try-On (VTON)とは異なり、VTOFFは正規化された衣服画像の抽出を目指しており、衣服の形状、テクスチャ、複雑なパターンの捕捉に独自の課題がある。この明確に定義された目標により、VTOFFは生成モデルの再構成忠実度を評価する上で特に効果的である。我々は、高い忠実度と詳細の保持を確保するためにSigLIPベースの視覚的条件付けを用いてStable Diffusionを適応させたTryOffDiffモデルを提案する。修正されたVITON-HDデータセットでの実験により、我々のアプローチがポーズ転送とバーチャルトライオンに基づくベースラインメソッドを、より少ない前処理および後処理ステップで上回ることを示す。我々の分析により、従来の画像生成メトリクスでは再構成品質を適切に評価できないことが明らかになり、より正確な評価のためにDISTSに依存することとなった。我々の結果は、VTOFFがeコマースアプリケーションにおける製品画像の向上、生成モデル評価の進歩、そして高忠実度再構成に関する将来の研究への刺激となる可能性を強調している。 デモ、コード、およびモデルは以下で利用可能である:https://rizavelioglu.github.io/tryoffdiff/

1 Introduction

画像ベースのバーチャル試着(VTON)[23]は、特定の衣服を着用した人物の画像を生成することを目的とする重要なコンピュータビジョンタスクである。 通常、2つの入力画像が必要とされる: 1つは標準化された形式(多くの場合、eコマースカタログから)で衣服を示すもの、 もう1つは「着せる」必要のある人物の画像である。 最近の手法では、カタログ画像を 目標とする衣服を着用した別の人物の写真に置き換える 修正された定式化に焦点を当てている。 これにより、モデルが完全な衣服情報にアクセスできないため、 追加の処理の複雑さが生じる[55]

応用の観点から、 VTONはユーザーがより適切な購買決定を行うのに役立つ インタラクティブなショッピング体験を提供する。 研究の側面では、特に人間の姿勢検出や 衣服の形状、パターン、テクスチャ分析に関して 興味深い研究課題を提起する[17]。 最高性能のモデルは通常、特定の物理的に正確な出力を 生成することに焦点を当てた誘導生成モデルである。 多様な出力を生成する一般的な生成タスクとは異なり、 再構成では、人物に対する衣服の正しい外観と 一致する画像を生成することがモデルに要求される。

しかし、VTONの欠点の1つは、明確に定義された目標出力が欠如していることであり、 これはしばしば評価を複雑にするスタイルの変動をもたらす。 生成された画像は、衣服がタックインされていたり、タックアウトされていたり、 フィットが変更されていたりする場合があり、もっともらしいが一貫性のない視覚的変動が導入され、 衣服表現の真の品質を評価することが困難になる[47]。 このため、現在の評価方法は 一般的に生成品質の広範な評価に依存しており[20]、 個々の衣服-人物の真実対の類似性を考慮していない。 一般的な画像品質メトリクスは、背景などの 重要でない領域の差異に対して感度を示すことが多く、 これが性能変動の正確な原因を特定することを複雑にしている[11, 45]

我々は、したがって、Virtual Try-OFF (VTOFF)を導入する。 これは、1および2に示されるように、 着衣した個人の実世界の写真から標準化された製品画像を生成することに焦点を当てた新規タスクである。 VTONと比較して目標が逆転しているにもかかわらず、 両タスクは姿勢分析、幾何学的および外観の変換、 潜在的な遮蔽、そしてテクスチャ、パターン、ロゴなどの 細部の保持といった類似の課題に取り組んでいる。 さらに、背景、照明、カメラ品質が異なる 実世界の写真の取得の多様性は、 ドメイン適応と堅牢な特徴抽出において 独自の課題をもたらす。 それでもなお、この出力側の転換はVTOFFがVTONに対して 重要な利点を提示する:出力側のスタイルの変動性が 低減されることで、再構成品質の評価が簡素化される。

VTOFFの潜在的影響は研究を大きく超えて広がる。 一貫した製品画像に依存する様々なeコマースアプリケーションの 柔軟性を向上させる可能性がある。 例えば、生成された画像は既存の仮想試着ソリューションに シームレスに統合され、 真値を生成されたガーメント画像に置き換えることで、 より複雑な人物間試着を可能にする。 推薦システムやその他の顧客-製品検索システム[14]も 標準化されたガーメント表現へのアクセスから恩恵を受けることができる。 さらに、大規模で高品質なファッションデータセットの作成を 支援し、ファッション指向のAIの開発を加速させる可能性がある。 環境の観点からは、これらのアプリケーションは顧客の購買決定を 支援し、製品の返品とファッション産業の環境フットプリントを 削減するはずである。 最後に、日常の写真から標準化されたガーメント画像を生成することは それ自体が興味深いタスクである。 高価な撮影機材と時間のかかる編集の必要性を減らすことで、 eコマースカタログの維持を簡素化し、 プロ品質の製品写真撮影のためのリソースが不足している 小規模ベンダーに恩恵をもたらす可能性がある。

我々の研究は、eコマース画像の再構築が、既存のVTONモデルに大幅な修正を必要とする困難な課題であることを浮き彫りにしている。 さらに、従来の画像生成メトリクスが再構築の品質を捉えるには不十分であることを示している。 本稿の主な貢献は以下の通りである:

  • 我々はVTOFFを導入する。 これは、衣服を着た個人の実世界の写真から標準化された製品画像を生成するという新しいタスクであり、 有望な実世界のアプリケーションを可能にすると同時に、 重要な新しい研究課題を提起するものである。

  • 我々はTryOffDiffを提案する。 これは、画像特徴をテキストベースの拡散事前分布と整合させることで、 事前学習された拡散モデルをVTOFFに適応させる新しいフレームワークであり、 高い視覚的忠実性と一貫した製品詳細を確保する。

  • VITON-HDデータセットを用いた広範な実験により、 TryOffDiffが高品質で詳細な衣服の製品画像を生成し、 最先端のビュー合成および仮想試着方法を凌駕することを実証する。

Refer to caption
図2: 仮想試着(Virtual Try-On)と仮想脱衣(Virtual Try-Off)の違いの図解。 上:仮想試着モデルの基本的な推論パイプライン。衣服を着た人物の画像を参照として、特定の衣服の画像を入力し、同じ人物が指定された衣服を着用している画像を生成する。下:仮想脱衣のセットアップ。単一の入力参照画像から衣服の正規形を予測することが目的である。

2 Related Work

バーチャルトライオフは、 通常、中立的な姿勢の人物が着用している衣服に似た、 衣服の正規化された画像を再構築することを目指している。 バーチャルトライオンやポーズ転送の手法を これらの標準化された出力を生成するように適応させることも可能であるが、 我々の実験では、そのような適応は性能が劣ることが示されている。 代わりに、我々は条件付き拡散モデルに基づいたソリューションを採用している。 これは、多様な生成タスクにおいて堅牢な性能を示してきたものである。

Image-based Virtual Try-On.

画像ベースの仮想試着の目的は、特定の衣服を対象人物に現実的に描写した合成画像を生成することである。これは、人物のアイデンティティ、ポーズ、体型を保持しつつ、衣服の細部まで捉えることを意味する。CAGANは[23]、cycle-GANアプローチでこのタスクを導入し、一方VITONは[17]、これを2段階の教師あり学習フレームワークとして定式化した:非パラメトリックな幾何変換による衣服の変形[3]、その後の人物への合成である。CP-VTONは[52]、幾何学的マッチャーを用いて学習可能な薄板スプライン(TPS)変換を実装することでこのプロセスを改良し、後にデンスフロー[18]とアピアランスフロー[15]によって衣服の詳細のピクセルレベルの位置合わせを向上させた。変形ベースのアプローチに進展はあったものの、特に複雑な衣服のテクスチャ、しわ、ロゴに関しては依然として限界がある。

これらの欠点に対処するため、最近の研究ではGANベースおよび拡散ベースの手法が採用されている。FW-GANは[12]試着動画を合成し、PASTA-GANは[55]人物間の試着のためにStyleGAN2を修正した。しかし、GANは不安定な学習やモード崩壊などの問題に悩まされており、VTONの研究ではより信頼性の高い拡散モデルが好まれるようになっている。M&M-VTOは[63]、入力人物画像と複数の衣服画像から複数衣服の試着結果を合成できる単一段階の拡散モデルを導入した。IDM-VTONは[8]、衣服画像のセマンティクスをエンコードする2つのモジュールを提案し、クロスアテンションと自己アテンション層を用いて高レベルおよび低レベルの特徴を抽出した。OOTDiffusionは[57]、事前学習された潜在拡散モデルを活用して衣服の特徴を学習し、これらをアウトフィッティング融合を用いてデノイジングUNetに組み込んだ。より軽量なアプローチとして、CatVTONは[9]、重い特徴抽出の必要性を排除し、事前学習された潜在拡散モデルに基づくコンパクトなモデルを提案し、より少ないパラメータで有望な結果を達成した。既存のVTONモデルをVTOFFに修正することは必ずしも簡単ではない。VTONモデルはしばしばテキストプロンプト、キーポイント、セグメンテーションマスクなどの追加入力に依存しており、これらは効果的な適応のために慎重に選択され、手動で調整される必要があるためである。

VTONとVTOFFのタスクは両方とも衣服の操作を含むが、根本的に異なることに注意することが重要である。VTONモデルは衣服の完全な詳細にアクセスできるため、主にアイテムを目標のポーズに合わせて変形することに焦点を当てることができる。対照的に、VTOFFモデルは参照画像からの部分的な衣服情報のみで作業しなければならず、そこでは遮蔽や変形が一般的であり、限られた視覚的手がかりから欠落した詳細を再構築する必要がある。

Image-based View Synthesis & Pose Transfer.

新規視点合成(NVS)は、未見の視点から現実的な画像を生成することを目的としている。 初期の手法では1つのインスタンスに対して数百枚の訓練画像が必要であったが[26, 46, 62, 43, 61]、 最近のアプローチでは疎な視点からの合成が可能になっている[48, 22]。 しかし、NVSだけでは衣服の再構成を完全に解決することはできない。なぜなら、 観察された人物のポーズを変更することができないためである。 関連タスクであるポーズ転送は、物体の変形も可能にする 一種の視点合成と見なすことができる。 これには、潜在的に遮蔽された身体部位を 推論するための追加の能力が必要である。

DiOr [10]は、ポーズ転送のための生成フレームワークを提案した。 これは、同じ入力から異なる 外見を作り出すために、人物に衣服を順次着せていく 再帰的アーキテクチャを使用している。 [36]は、マルチスケールの注意誘導アプローチを 用いたGANベースのポーズ転送モデルを導入し、 既存の手法を大幅に改善し、 VTONアプリケーションの可能性を示した。 DreamPose [24]は、画像と人体ポーズのシーケンスから 試着ビデオを合成するために 事前学習された潜在拡散モデルを使用している。 PoCoLD [19]は、 人物画像合成のために密なポーズマップで 条件付けられた潜在拡散モデルを訓練した。 ViscoNet[7]は、事前学習された潜在拡散モデルに アダプターレイヤーを統合し、 複数の画像条件を組み込むためにControlNetを拡張し、 視覚的入力の制御を強化している。 PCDM [39]は、 ポーズ誘導型人物画像合成のための3段階のパイプラインを提案し、 テクスチャの復元と微細な詳細の一貫性の向上を実現した。

ポーズ転送は、照明、背景、被写体の外見など、 元のシーンの属性を保持することに重点を置いていることに 言及すべきである。 対照的に、バーチャル試着タスクは、 一貫した正面/背面ビュー、均一なサイズ設定、カタログ固有のスタイリングなど、 厳格なeコマースプレゼンテーション基準に準拠すべきである。

Conditional Diffusion Models.

潜在拡散モデル(LDMs)[35]は 近年大きな成功を収め、 クロスアテンション機構の導入を通じて 生成プロセスの制御を可能にした[49]。 この条件付けは、 テキスト[4, 2, 13] や画像[37, 32, 38] など多様な入力モダリティで機能する。 テキストガイド付き画像合成では、 ControlNet[60]やT2I-Adapter[30] のようなモデルが、事前学習済みモデルを より正確な空間制御を提供する追加ブロックで拡張している。 IP-Adapter[58]は テキストと画像特徴のクロスアテンション機構を分離することで この柔軟性をさらに進め、 オプションの構造的条件を伴う画像ガイド付き生成を可能にしている。 Prompt-Free Diffusion[56]は テキストプロンプトを完全に排除し、 参照画像とオプションの構造的入力のみから 画像を生成する。

これらの進歩にもかかわらず、 これらのモデルは衣服の再構成にそのまま適用することはできない: テキストガイド付きアプローチは、 製品属性を指定するために各サンプルに対して 非現実的に詳細なプロンプトを必要とし、 一方で既存の画像ガイド付きモデルは 標準化された製品写真の厳格な要件を 強制するメカニズムを欠いている。

これらの技術は画像操作能力を向上させたが、 標準化されたeコマース製品画像の生成に関連する 特定の課題に対処するには不十分である。 最近、Wangら[53]は VTOFF類似の目的をモデルに組み込んだが、 補助的な損失項としてのみである。 我々の知る限り、 本稿は仮想試着(VTOFF)を独立したタスクとして正式に定義し、 それに特化したアプローチを提案する最初の試みである。

3 Methodology

本節では、バーチャル試着タスクの形式的定義を提供する。我々は 適切な評価設定と 性能指標を提案する。 さらに、画像ベースの条件付けに StableDiffusionとSigLIP特徴量を利用する 我々のTryOffDiffモデルの詳細を提供する。

3.1 Virtual Try-Off

Problem Formulation.

𝐈H×W×3𝐈superscript𝐻𝑊3\mathbf{I}\in\mathbb{R}^{H\times W\times 3}bold_I ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPTを高さH𝐻H\in\mathbb{N}italic_H ∈ blackboard_N、幅W𝑊W\in\mathbb{N}italic_W ∈ blackboard_NのRGB画像とする。仮想試着タスクにおいて、𝐈𝐈\mathbf{I}bold_Iは衣服を着た人物を表示する参照画像を表す。参照画像が与えられた場合、VTOFFは商業カタログの基準に従って衣服を表示する標準化された商品画像𝐆{0,,255}H×W×3𝐆superscript0255𝐻𝑊3\mathbf{G}\in\{0,\ldots,255\}^{H\times W\times 3}bold_G ∈ { 0 , … , 255 } start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPTの生成を目指す。

形式的には、条件付き分布P(G|C)𝑃conditional𝐺𝐶P(G|C)italic_P ( italic_G | italic_C )を学習する生成モデルを訓練することが目標である。ここで、G𝐺Gitalic_GC𝐶Citalic_Cはそれぞれ衣服画像と参照画像(条件として機能する)に対応する変数を表す。モデルがこの目標分布をQ(G|C)𝑄conditional𝐺𝐶Q(G|C)italic_Q ( italic_G | italic_C )で近似すると仮定する。そして、特定の参照画像𝐈𝐈\mathbf{I}bold_Iを条件入力として与えられた場合、サンプル𝐆^Q(G|C=𝐈)similar-to^𝐆𝑄conditional𝐺𝐶𝐈\hat{\mathbf{G}}\sim Q(G|C=\mathbf{I})over^ start_ARG bold_G end_ARG ∼ italic_Q ( italic_G | italic_C = bold_I )が真の衣服画像サンプル𝐆P(G|C=𝐈)similar-to𝐆𝑃conditional𝐺𝐶𝐈\mathbf{G}\sim P(G|C=\mathbf{I})bold_G ∼ italic_P ( italic_G | italic_C = bold_I )にできるだけ近くなることが目的である。

Performance Measures.

VTOFFの性能を効果的に評価するためには、評価指標が再構成品質と知覚品質の両方を捉える必要がある。再構成品質は、モデルの予測𝐆^^𝐆\hat{\mathbf{G}}over^ start_ARG bold_G end_ARGが真の値𝐆𝐆\mathbf{G}bold_Gにどれだけ正確に一致するかを、ピクセルレベルの忠実度に焦点を当てて定量化する。一方、知覚品質は、生成された画像が人間の観察者にとってどれだけ自然で視覚的に魅力的に見えるかを、一般的な視覚基準に沿って評価する。

再構成を推定するために、構造的類似性指標(SSIM)[54]などの完全参照メトリクスを使用することができる。しかし、SSIMもそのマルチスケール(MS-SSIM)および複素ウェーブレット(CW-SSIM)変種も、先行研究[11, 45]で指摘されているように、人間の知覚とうまく一致しない。我々の実験でも同様の挙動が観察され、その結果を 3に示す。

知覚品質は、フレシェ・インセプション距離(FID)[20]カーネル・インセプション距離(KID)[5]などの無参照メトリクスで捉えることができる。これらのメトリクスは通常、生成画像と実際の画像の間の画像特徴表現の分布を比較する。しかし、サンプルサイズと潜在的な外れ値に敏感であるため、単一の画像ペアの比較には適していない。さらに、FIDとKIDはともに古典的なInception[44]モデルの特徴に依存しており、特に拡散モデル[42]のような現代の生成モデルのコンテキストでは、知覚品質の評価において必ずしも人間の判断と一致しない。

Refer to caption
(a) 82.4 / 20.682.4 / 20.682.4\text{ / }20.682.4 / 20.6
Refer to caption
(b) 96.8 / 17.996.8 / 17.996.8\text{ / }17.996.8 / 17.9
Refer to caption
(c) 88.3 / 20.388.3 / 20.388.3\text{ / }20.388.3 / 20.3
Refer to caption
(d) 86.0 / 70.386.0 / 70.386.0\text{ / }70.386.0 / 70.3
Refer to caption
(e) 75.0 / 8.275.0 / 8.275.0\text{ / }8.275.0 / 8.2
Refer to caption
(f) 86.4 / 24.786.4 / 24.786.4\text{ / }24.786.4 / 24.7
図3: VTONとVTOFFに対する性能メトリクス(SSIM↑ / DISTS↓)の適合性/不適合性を示す例。上段では、参照画像を以下と比較している: (a)衣服がマスクアウトされた画像; (b)モデルの色が変更された画像; (c)色調整を適用した後の画像。 下段では、衣服画像を以下と比較している: (d)単純な白画像; (e)わずかに回転させた画像; (f)ランダムにポスタライズされた画像(各色チャンネルのビット数を減らしたもの)。 SSIMスコアはすべての例で一貫して高い値を示しているが、特に失敗例を含めて、DISTSスコアはより人間の判断に沿った変化を正確に反映している。
Refer to caption
図4: TryOffDiffの概要。SigLIP画像エンコーダ[59]が参照画像から特徴を抽出し、それらはその後アダプタモジュールによって処理される。これらの抽出された画像特徴は、クロスアテンション層の元のテキスト特徴を置き換えることで、事前学習されたテキストから画像へのStable Diffusion-v1.4[35]に埋め込まれる。テキスト特徴の代わりに画像特徴を条件とすることで、TryOffDiffはVTOFFタスクを直接ターゲットとする。アダプタ層と拡散モデルを同時に訓練することで、効果的な衣服変換が可能となる。

これらの短所に対処するメトリクスとして、深層画像構造・テクスチャ類似性(DISTS)[11]メトリクスがある。DISTSは構造的情報とテクスチャ情報の両方を捉えることで、画像間の知覚的類似性を測定するように設計されている。DISTSはVGGモデル[40]を活用し、低レベルの特徴を使用して構造的要素を捉え、高レベルの特徴でより細かいテクスチャの詳細に焦点を当てる。最終的なDISTSスコアは、これら2つの要素の重み付け組み合わせによって計算され、重み付けパラメータは人間の評価に基づいて最適化される。その結果、人間の判断により近い知覚的類似性スコアが得られる。これらの理由から、DISTSは我々のVTOFFの主要なメトリクスとなっている。

3.2 TryOffDiff

我々はTryOffDiffモデルをStable Diffusion [35] (v1.4)を基に構築した。 これは元々、CLIP [34]のテキストエンコーダーを使用して テキスト条件付き画像生成のために設計された潜在拡散モデルである。 我々は、直接的な画像誘導型画像生成のためにテキストプロンプトを置き換えた。

Image Conditioning.

画像誘導型生成における中核的な課題は、 視覚的特徴を生成モデルの条件付けメカニズムに 効果的に組み込むことである。 CLIPのViT [34]は、 その汎用的な能力により、 画像特徴抽出の人気の選択肢となっている。 最近、SigLIP [59]は、特により詳細で領域特有の視覚表現を必要とするタスクにおいて 性能を向上させる修正を導入した。 したがって、我々は画像特徴抽出器としてSigLIPモデルを使用し、 その最終層のトークン表現の全シーケンスを保持して 空間情報を保存する。 これは、微細な視覚的詳細の捕捉と 正確な衣服の再構成に不可欠であることが分かった。

入力画像 𝐈𝐈\mathbf{I}bold_I が与えられた場合、 我々の提案するアダプターモジュールは以下のようにこれらの表現を処理する:

𝐂(𝐈)=(LNLinear𝝍SigLIP)(𝐈)n×m𝐂𝐈LNLinear𝝍SigLIP𝐈superscript𝑛𝑚\mathbf{C}(\mathbf{I})=(\mathrm{LN}\circ\mathrm{Linear}\circ\boldsymbol{\psi}% \circ\mathrm{SigLIP})(\mathbf{I})\in\mathbb{R}^{n\times m}bold_C ( bold_I ) = ( roman_LN ∘ roman_Linear ∘ bold_italic_ψ ∘ roman_SigLIP ) ( bold_I ) ∈ blackboard_R start_POSTSUPERSCRIPT italic_n × italic_m end_POSTSUPERSCRIPT (1)

ここで、𝝍𝝍\boldsymbol{\psi}bold_italic_ψ はSigLIP埋め込みを処理する標準的なトランスフォーマーエンコーダー [49] であり、 その後に線形射影層とレイヤー正規化(LN) [1] が続く。参照. 4

適応された画像特徴は、 クロスアテンションを介してStable DiffusionのデノイジングU-Netに統合される。 具体的には、各層のアテンションメカニズムのキー 𝐊𝐊\mathbf{K}bold_K と値 𝐕𝐕\mathbf{V}bold_V は、 画像特徴から線形変換を通じて導出される:

𝐊=𝐂(𝐈)𝐖kn×dk,𝐕=𝐂(𝐈)𝐖Vn×dvformulae-sequence𝐊𝐂𝐈subscript𝐖𝑘superscript𝑛subscript𝑑𝑘𝐕𝐂𝐈subscript𝐖𝑉superscript𝑛subscript𝑑𝑣\mathbf{K}=\mathbf{C}(\mathbf{I})\cdot\mathbf{W}_{k}\in\mathbb{R}^{n\times d_{% k}},\mathbf{V}=\mathbf{C}(\mathbf{I})\cdot\mathbf{W}_{V}\in\mathbb{R}^{n\times d% _{v}}bold_K = bold_C ( bold_I ) ⋅ bold_W start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_n × italic_d start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , bold_V = bold_C ( bold_I ) ⋅ bold_W start_POSTSUBSCRIPT italic_V end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_n × italic_d start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT end_POSTSUPERSCRIPT (2)

ここで、𝐖km×dksubscript𝐖𝑘superscript𝑚subscript𝑑𝑘\mathbf{W}_{k}\in\mathbb{R}^{m\times d_{k}}bold_W start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_m × italic_d start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT end_POSTSUPERSCRIPT および 𝐖vm×dvsubscript𝐖𝑣superscript𝑚subscript𝑑𝑣\mathbf{W}_{v}\in\mathbb{R}^{m\times d_{v}}bold_W start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_m × italic_d start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT end_POSTSUPERSCRIPT である。 この定式化により、クロスアテンションメカニズムは 外部参照画像 𝐈𝐈\mathbf{I}bold_I の特徴に基づいてデノイジングプロセスに条件を付けることができ、 生成される出力の整合性を向上させる。

我々はアダプターモジュールのみを訓練し、 Stable DiffusionモデルのデノイジングU-Netを微調整する一方で、 SigLIP画像エンコーダー、VAEエンコーダー、VAEデコーダーは凍結したままにする。 この訓練戦略により、事前訓練されたコンポーネントの堅牢な画像処理能力を保持しつつ、 生成コンポーネントを衣服再構成の特定の要件に合わせて調整することができる。

4 Experiments

我々は、仮想試着タスクのためのいくつかのベースラインアプローチを確立し、 セクション2で議論した仮想試着とポーズ転送モデルを適応させ、 セクション3で説明した我々の提案するTryOffDiff手法と比較する。 再現性を確保するために、実験のセットアップを詳細に説明する。我々は DISTSを主要な評価指標として使用し、 比較のために他の標準的な生成指標も報告する。 さらに、我々のモデルがさまざまな困難な入力をどのように管理するかを 示すために、広範な定性的結果を提供する。

4.1 Experimental Setup

Refer to caption
(a) 左から右へ:参照画像、ターゲット画像から導出された固定ポーズヒートマップ、初期モデル出力、SAMプロンプト、最終処理出力。
Refer to caption
(b) 左から右へ:マスクされた条件付け画像、マスク画像、ポーズ画像、SAMプロンプト付きの初期モデル出力、最終処理出力。
Refer to caption
(c) 左から右へ:マスクされた衣服画像、モデル画像、マスクされたモデル画像、SAMプロンプト付きの初期モデル出力、最終処理出力。
Refer to caption
(d) 左から右へ:条件付け衣服画像、空白のモデル画像、マスク画像、SAMプロンプト付きの初期モデル出力、最終処理出力。
図5: 既存の最先端手法をVTOFFに適応させる。 (a) GAN-Pose [36]と(b) ViscoNet [7]は、それぞれポーズ転送と視点合成に基づくアプローチである。(c) OOTDiffusion [57]と(d) CatVTON [9]は、最近の仮想試着手法に基づいている。

Dataset.

我々の実験は、公開されているVITON-HD [27]データセットで実施される。このデータセットは、13,6791367913,67913 , 679の高解像度(1024×76810247681024\times 7681024 × 768)画像ペアで構成されており、正面を向いた半身モデルと対応する上半身の衣服が含まれている。VITON-HDデータセットは元々VTON課題のために作成されたが、我々の目的にも適している。なぜなら、必要な(𝐈,𝐆)𝐈𝐆(\mathbf{I},\mathbf{G})( bold_I , bold_G )画像ペアを提供しており、𝐈𝐈\mathbf{I}bold_Iは服を着た人物の参照画像を、𝐆𝐆\mathbf{G}bold_Gは対応する衣服画像を表しているからである。

VITON-HDをより詳細に調査したところ、訓練セットに95組の重複画像ペア(0.8%)、テストセットに6組の重複ペア(0.3%)が存在することが判明した。さらに、訓練セットには元のテスト分割に含まれていた36ペア(1.8%)が見つかった。実験の完全性を確保するため、我々は両サブセットの全ての重複を削除し、テストセットからリークした例も全て除去することでデータセットをクリーンアップした。結果として得られたクリーンなデータセットには、訓練用に11,552組のユニークな画像ペア、テスト用に1,990組のユニークな画像ペアが含まれている。我々はデータセットをクリーンアップするためのスクリプトを我々のコードリポジトリで提供している。

Implementation Details.

我々は、事前学習済みのStable Diffusion v1.4 [35]を基に構築し、デノイジングU-Netの微調整とアダプターレイヤーのゼロからの訓練に焦点を当てて、TryOffDiffを訓練する。cf. セクション 3.2。前処理ステップとして、入力参照画像の幅に沿ってパディングを行い正方形のアスペクト比にし、その後512×512512512512\times 512512 × 512の解像度にリサイズする。これは、事前学習済みのSigLIPとVAEエンコーダーの予想される入力形式に合わせるためである。訓練時には、衣服画像も同様に前処理する。画像特徴抽出器としてSigLIP-B/16-512を使用し、これは1024個のトークン埋め込み(次元768)を出力する。我々のアダプターは、8つの注意ヘッドを持つ単一のトランスフォーマーエンコーダー層と、それに続く線形層と正規化層で構成されており、これらをn=77𝑛77n=77italic_n = 77個の条件付け埋め込み(次元m=768𝑚768m=768italic_m = 768)に縮小する。

訓練は4台のNVIDIA A40 GPUを搭載した単一ノードで220,000イテレーションにわたって行われ、バッチサイズ16で約9日を要する。我々はAdamWオプティマイザー [29]を採用し、初期学習率は1e-4で、最初の1,000ウォームアップステップの間に0から線形に増加し、その後90,000ステップでハードリスタートを伴う余弦減衰で0に向かう。[28]で提案されているように、我々は1,000ステップのPNDMスケジューラーを使用する。最適化には標準的な平均二乗誤差(MSE)損失を使用し、これは各ステップで追加されたノイズと予測されたノイズの差を測定する。この損失関数は、モデルがノイズ付加プロセスを効果的に逆転させることを学習するよう導くために、拡散モデルで一般的に使用される。推論時には、我々はガイダンススケール2.0で50タイムステップにわたるPNDMスケジューラーを用いてTryOffDiffを実行する。単一のNVIDIA A6000 GPUで、このプロセスは1画像あたり12秒かかり、4.6GBのメモリを必要とする。

4.2 Baseline Approaches

ベースラインを確立するために、 我々は最先端のポーズ転送および仮想試着方法を適応させ、 各手法をできる限り衣服再構成機能に近似するように修正した。 これらのアプローチを5に示す。

GAN-Pose [36]

はGANベースのポーズ転送手法であり、 3つの入力を必要とする:参照画像、および参照と対象の 被写体のポーズヒートマップである。 VITON-HDからの衣服画像を使用して、 固定された中立的なポーズのヒートマップを推定する。 このセットアップにより、多様な参照画像から 人間のポーズを標準化されたポーズに転送し、 出力を製品画像の典型的な視点に合わせることが可能となる。

ViscoNet [7]

はテキストプロンプト、ポーズ、マスク、 および複数のマスクされた条件付け画像を入力として必要とする。 テキストプロンプトには、「eコマースの衣料品製品の写真」などの説明を使用する。 VITON-HDから衣服画像を選択し、 中立的なポーズおよび 汎用的な対象マスクを推定する。 ViscoNetは元々マスクされた条件付け画像で訓練されているため、 既製のファッションパーサー[50]を適用して 上半身の衣服をマスクし、それを入力として提供する。

OOTDiffusion [57]

は衣服画像と参照画像を入力として VTON出力を生成する。 このモデルをVTOFFに適応させるために、 我々は再びファッションパーサー[50]を適用して 上半身の衣服をマスクし、衣服画像を作成する。 中立的なポーズのマネキンを含む参照画像を さらなる入力として選択する。 中間ステップでは参照画像内の 上半身をマスクする必要があり、 そのために我々は参照画像の 手作業でマスクされたバージョンを使用する。

CatVTON [9]

は参照画像と条件付け衣服 画像を入力として使用し、VTON画像を 生成するモデルである。中間ステップでは 上半身のマスクを組み込んで試着プロセスを誘導する。 VTOFFへの適応のために、 我々は参照画像を単純な白画像に置き換え、 中立的なポーズの手作業のマスクを使用し、 CatVTONが特定の人物に依存せずに 衣服転送を実行できるようにする。

我々のすべてのベースラインにおいて、出力を Segment Anything (SAM) [25]とポイントプロンプトで 後処理し、衣服マスクを分離する。 特定された衣服部分を切り取り、 白い背景に貼り付けて 最終的な衣服画像出力とする。

4.3 Quantitative Results

VITON-HDデータセットにおける我々の実験の数値結果を1に示す。 我々が調整したTryOffDiffアプローチは、すべての生成性能指標において すべてのベースライン手法を上回る性能を示している。 しかしながら、ベースラインのランキングは 選択された指標によって大きく異なる。 例えば、GAN-PoseはSSIM、MS-SSIM、CW-SSIMなどの 完全参照型指標を使用した場合、2番目に良い結果を示している。 対照的に、FID、CLIP-FID、KIDなどの 非参照型指標では、 CatVTONが最も強力なベースラインとして浮上し、 GAN-Poseは最低の性能を示している。

DISTS指標は、構造的情報とテクスチャ情報のバランスを取り、 生成された画像の品質をより細やかに評価するため、我々の主要な指標である。 ベースライン手法のランキングを検討すると、 CatVTONがGAN-Poseをわずかに上回り、 GAN-PoseはViscoNetとOOTDiffをわずかに上回る性能を示している。 このランキングは我々の主観的な視覚的認識とよく一致しており、 これについては以下のセクション4.4でさらに議論する。 我々は、TryOffDiffが次に優れたベースライン手法と比較して 5.2パーセントポイントの大幅な改善を示していることを強調する。

MS- CW- L- CLIP- DI-
Method SSIM\uparrow SSIM\uparrow SSIM\uparrow PIPS\downarrow  FID\downarrow FID\downarrow KID\downarrow STS\downarrow
GAN-Pose [36] 77.4 63.8 32.5 44.2 73.2 30.9 55.8 30.4
ViscoNet [7] 58.5 50.7 28.9 54.0 42.3 12.1 25.5 31.2
OOTDiff. [57] 65.1 50.6 26.1 49.5 54.0 17.5 33.2 32.4
CatVTON [9] 72.8 56.9 32.0 45.9 31.4 9.7 17.8 28.2
Ours: TryOffDiff 79.5 70.4 46.2 32.4 25.1 9.4 8.9 23.0
表1: 定量的比較。VTOFF課題におけるVITON-HD-testデータセットでの様々な手法の評価指標。

4.4 Qualitative Analysis

定性的結果は6に示されている。 我々は、これらが定量的結果と一致しており、 セクション3.1で議論したように、 各指標が衣服再構成の異なる側面を強調し、 一貫性のないランキングにつながることを示していることを見出した。 GAN-Poseは、ターゲット衣服の主要な色と形状を 近似する出力を生成する。 しかし、予測された画像には、衣服の一部が欠落している 小さな領域がしばしば含まれる。 これらのギャップは全体的な衣服構造が 依然として大部分intact状態であるため、 全参照指標に大きな影響を与えないが、 視覚的な忠実性を顕著に低下させ、 画像に不自然な外観を与える。 この劣化は、このような視覚的アーティファクトに より敏感な無参照指標に反映されている。

ViscoNetは一般的にGAN-Poseよりも現実的な出力を生成するが、 衣服の形状を正確に捉えるのに苦労し、 しばしば変形した表現になる。 さらに、ViscoNetはターゲット衣服の実際のデザインに関係なく、 長袖を生成する傾向がある。 ほとんどの出力にはテクスチャの詳細も欠けており、 衣服再構成タスクにおけるViscoNetの限界をさらに浮き彫りにしている。

元々バーチャル試着方法として設計されたOOTDiffusionは、 現実的な画像を生成する際にGAN-Poseと同様の困難に直面する。 全体的に詳細なテクスチャを保持するのに苦労する一方で、 以前の方法と比較してロゴなどの細かい要素を 保存するのにより優れている。 それにもかかわらず、全体的なテクスチャの詳細を 一貫して捉えることができないことは、 バーチャル試着解除におけるその限界を浮き彫りにしている。

CatVTONもロゴ要素を保存する能力を示している。さらに、 一般的にターゲット衣服のものに 非常に似たテクスチャの詳細を生成することに成功している。 この方法が生成する衣服の形状は自然に見え、 CatVTONの出力を視覚的に魅力的にし、 視覚的忠実性の点で最も強力なベースライン方法となっている。 CatVTONは自然な外観の衣服を生成するが、 形状がターゲット衣服の実際の形状と一貫して一致しないため、 全参照指標のパフォーマンスを損ない、 VTOFFにおける全体的な有効性を制限している。

我々のTryOffDiffモデルは、ターゲット衣服の形状を一貫して捉え、 参照画像で隠れている衣服の部分さえも再構成する。 例えば、TryOffDiffは、参照画像のモデルがパンツを着用している場合でも、 ハイカットボディスーツの形状を正しく推論できる。 衣服のきつさや肩紐などの特徴といった微妙な指標が この再構成を可能にしている。さらに、TryOffDiffは色、パターン、ボタン、リボン、 ロゴなどの詳細なテクスチャを確実に復元し、 すべてのベースライン方法を上回り、 我々の実験においてVTOFFのトップパフォーマンスモデルとなっている。

TryOffDiffがVTOFF専用に設計された唯一の方法であることに注目する一方で、 テクスチャの詳細を正確に再構成できる唯一のアプローチとして際立っている。 これは、正確なテクスチャの復元と全体的に高品質な衣服再構成を 可能にする我々の提案する画像条件付け機構の有効性を強調している。

Refer to caption
(a) 参照
Refer to caption
(b) Gan-Pose
Refer to caption
(c) ViscoNet
Refer to caption
(d) OOTDiffusion
Refer to caption
(e) CatVTON
Refer to caption
(f) TryOffDiff
Refer to caption
(g) ターゲット
図6: 定性的比較。 ベースラインアプローチと比較して、TryOffDiffは正確な構造的詳細と細かいテクスチャの詳細を持つ衣服画像を生成することができる。

5 Conclusion

本稿では、VTOFFという新しいタスクを紹介した。これは、着用者の1枚の参照画像に基づいて、標準化された衣服画像を再構築することに焦点を当てている。VTOFFはVTONと類似点を共有しているが、明確に定義された出力を目標としているため、生成モデルの衣服再構築精度を評価するのにより適していることを我々は実証した。

さらに我々は、Stable Diffusionを適応させた最初の専用VTOFFモデルであるTryOffDiffを提案する。我々は、生成プロセスを導くために、Stable Diffusionのテキスト条件付けを適応したSigLIP特徴量に置き換えた。我々の実験では、既存のVITON-HDデータセットを再利用し、既存のVTONアプローチに基づくいくつかのベースラインとの直接比較を可能にした。TryOffDiffは、前処理および後処理のステップの要件が少ないにもかかわらず、これらのベースラインを大幅に上回る性能を示した。特に、パターンやロゴなどの細かい詳細をより良く保持できることが分かった。また、この利点は生成モデルの再構築品質に関する従来の評価指標では反映されないことも観察した。視覚的忠実性をより適切に捉えるために、我々は主要な評価指標としてDISTSを採用した。

VTOFFは、誘導された生成モデルの性能に関する我々の理解を深める可能性を示している。我々の結果は有望であるが、ロゴや印刷されたデザインなどの複雑な構造を保持する点ではまだ改善の余地がある。今後の研究では、より新しい生成モデル、代替的な視覚的条件付け手法、および詳細の保持を向上させるための追加の損失関数を探求することが有益であろう。最後に、我々の発見は、定性的な印象と定量的な評価をより適切に一致させるために、改善された品質指標(ユーザー調査と組み合わせる可能性がある)の必要性を強調している。

Acknowledgment

本研究は、研究訓練グループ「DataNinja」(シームレスな問題解決のための信頼できるAI:次世代インテリジェンスと堅牢なデータ分析の融合)の一環として、およびKI-Starter研究資金プログラムの一部として、ドイツ連邦州ノルトライン=ヴェストファーレン州から資金提供を受けた。我々は、ハードウェアへのアクセスを提供してくれたUniZG-FERに感謝の意を表する。

References

  • Ba et al. [2016] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. stat, 1050:21, 2016.
  • Baldridge et al. [2024] Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, et al. Imagen 3. arXiv, 2024. https://doi.org/nqr4.
  • Belongie et al. [2002] Serge Belongie, Jitendra Malik, and Jan Puzicha. Shape matching and object recognition using shape contexts. IEEE TPAMI, 2002.
  • Betker et al. [2023] James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, et al. Improving image generation with better captions. preprint, 2023.
  • Bińkowski et al. [2018] Mikołaj Bińkowski, Danica J Sutherland, Michael Arbel, and Arthur Gretton. Demystifying mmd gans. In ICLR, 2018.
  • Chen and Mo [2022] Chaofeng Chen and Jiadi Mo. IQA-PyTorch: Pytorch toolbox for image quality assessment. https://github.com/chaofengc/IQA-PyTorch, 2022.
  • Cheong et al. [2024] Soon Yau Cheong, Armin Mustafa, and Andrew Gilbert. Visconet: Bridging and harmonizing visual and textual conditioning for controlnet. In ECCVW, 2024.
  • Choi et al. [2024] Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, and Jinwoo Shin. Improving diffusion models for virtual try-on. arXiv, 2024. https://doi.org/np47.
  • Chong et al. [2024] Zheng Chong, Xiao Dong, Haoxiang Li, Shiyue Zhang, Wenqing Zhang, Xujie Zhang, Hanqing Zhao, and Xiaodan Liang. Catvton: Concatenation is all you need for virtual try-on with diffusion models. arXiv, 2024. https://doi.org/npf6.
  • Cui et al. [2021] Aiyu Cui, Daniel McKee, and Svetlana Lazebnik. Dressing in order: Recurrent person image generation for pose transfer, virtual try-on and outfit editing. In ICCV, 2021.
  • Ding et al. [2020] Keyan Ding, Kede Ma, Shiqi Wang, and Eero P Simoncelli. Image quality assessment: Unifying structure and texture similarity. IEEE TPAMI, 2020.
  • Dong et al. [2019] Haoye Dong, Xiaodan Liang, Xiaohui Shen, Bowen Wu, Bing-Cheng Chen, and Jian Yin. Fw-gan: Flow-navigated warping gan for video virtual try-on. In ICCV, 2019.
  • Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, et al. Scaling rectified flow transformers for high-resolution image synthesis. In ICML, 2024.
  • Ge et al. [2019] Yuying Ge, Ruimao Zhang, Lingyun Wu, Xiaogang Wang, Xiaoou Tang, and Ping Luo. A versatile benchmark for detection, pose estimation, segmentation and re-identification of clothing images. In CVPR, 2019.
  • Ge et al. [2021] Yuying Ge, Yibing Song, Ruimao Zhang, Chongjian Ge, Wei Liu, and Ping Luo. Parser-free virtual try-on via distilling appearance flows. In CVPR, 2021.
  • Gugger et al. [2022] Sylvain Gugger, Lysandre Debut, Thomas Wolf, Philipp Schmid, Zachary Mueller, Sourab Mangrulkar, et al. Accelerate: Training and inference at scale made simple, efficient and adaptable. https://github.com/huggingface/accelerate, 2022.
  • Han et al. [2018] Xintong Han, Zuxuan Wu, Zhe Wu, Ruichi Yu, and Larry S Davis. Viton: An image-based virtual try-on network. In CVPR, 2018.
  • Han et al. [2019] Xintong Han, Xiaojun Hu, Weilin Huang, and Matthew R Scott. Clothflow: A flow-based model for clothed person generation. In CVPR, 2019.
  • Han et al. [2023] Xiao Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, and Tao Xiang. Controllable person image synthesis with pose-constrained latent diffusion. In ICCV, 2023.
  • Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In NeurIPS, 2017.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
  • Jang and Agapito [2024] Wonbong Jang and Lourdes Agapito. Nvist: In the wild new view synthesis from a single image with transformers. In CVPR, 2024.
  • Jetchev and Bergmann [2017] Nikolay Jetchev and Urs Bergmann. The conditional analogy gan: Swapping fashion articles on people images. In ICCVW, 2017.
  • Karras et al. [2023] Johanna Karras, Aleksander Holynski, Ting-Chun Wang, and Ira Kemelmacher-Shlizerman. Dreampose: Fashion image-to-video synthesis via stable diffusion. In ICCV, 2023.
  • Kirillov et al. [2023] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In ICCV, 2023.
  • Kulkarni et al. [2015] Tejas D Kulkarni, William F Whitney, Pushmeet Kohli, and Josh Tenenbaum. Deep convolutional inverse graphics network. In NeurIPS, 2015.
  • Lee et al. [2022] Sangyun Lee, Gyojung Gu, Sunghyun Park, Seunghwan Choi, and Jaegul Choo. High-resolution virtual try-on with misalignment and occlusion-handled conditions. In ECCV, 2022.
  • Liu et al. [2022] Luping Liu, Yi Ren, Zhijie Lin, and Zhou Zhao. Pseudo numerical methods for diffusion models on manifolds. In ICLR, 2022.
  • Loshchilov and Hutter [2019] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In ICLR, 2019.
  • Mou et al. [2024] Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, and Ying Shan. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models. In AAAI, 2024.
  • Parmar et al. [2022] Gaurav Parmar, Richard Zhang, and Jun-Yan Zhu. On aliased resizing and surprising subtleties in gan evaluation. In CVPR, 2022.
  • Parmar et al. [2023] Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, and Jun-Yan Zhu. Zero-shot image-to-image translation. In SIGGRAPH, 2023.
  • Qin et al. [2020] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R Zaiane, and Martin Jagersand. U2-net: Going deeper with nested u-structure for salient object detection. Pattern Recognit., 2020.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
  • Roy et al. [2023] Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, and Umapada Pal. Multi-scale attention guided pose transfer. Pattern Recognit., 2023.
  • Saharia et al. [2022a] Chitwan Saharia, William Chan, Huiwen Chang, Chris Lee, Jonathan Ho, Tim Salimans, et al. Palette: Image-to-image diffusion models. In SIGGRAPH, 2022a.
  • Saharia et al. [2022b] Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement. IEEE TPAMI, 2022b.
  • Shen et al. [2024] Fei Shen, Hu Ye, Jun Zhang, Cong Wang, Xiao Han, and Wei Yang. Advancing pose-guided image synthesis with progressive conditional diffusion models. In ICLR, 2024.
  • Simonyan and Zisserman [2015] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
  • Song et al. [2021] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR, 2021.
  • Stein et al. [2024] George Stein, Jesse Cresswell, Rasa Hosseinzadeh, Yi Sui, Brendan Ross, Valentin Villecroze, Zhaoyan Liu, Anthony L Caterini, Eric Taylor, and Gabriel Loaiza-Ganem. Exposing flaws of generative model evaluation metrics and their unfair treatment of diffusion models. In NeurIPS, 2024.
  • Sun et al. [2018] Shao-Hua Sun, Minyoung Huh, Yuan-Hong Liao, Ning Zhang, and Joseph J Lim. Multi-view to novel view: Synthesizing novel views with self-learned confidence. In ECCV, 2018.
  • Szegedy et al. [2015] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In CVPR, 2015.
  • Tang et al. [2011] Huixuan Tang, Neel Joshi, and Ashish Kapoor. Learning a blind measure of perceptual image quality. In CVPR, 2011.
  • Tatarchenko et al. [2016] Maxim Tatarchenko, Alexey Dosovitskiy, and Thomas Brox. Multi-view 3d models from single images with a convolutional network. In ECCV, 2016.
  • Theis et al. [2016] Lucas Theis, Aäron van den Oord, and Matthias Bethge. A note on the evaluation of generative models. In ICLR, 2016.
  • Tochilkin et al. [2024] Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, and Yan-Pei Cao. Triposr: Fast 3d object reconstruction from a single image. arXiv, 2024. https://doi.org/nq56.
  • Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017.
  • Velioglu et al. [2024] Riza Velioglu, Robin Chan, and Barbara Hammer. Fashionfail: Addressing failure cases in fashion object detection and segmentation. In IJCNN, 2024.
  • von Platen et al. [2022] Patrick von Platen, Suraj Patil, Anton Lozhkov, Pedro Cuenca, Nathan Lambert, Kashif Rasul, et al. Diffusers: State-of-the-art diffusion models. https://github.com/huggingface/diffusers, 2022.
  • Wang et al. [2018] Bochao Wang, Huabin Zheng, Xiaodan Liang, Yimin Chen, Liang Lin, and Meng Yang. Toward characteristic-preserving image-based virtual try-on network. In ECCV, 2018.
  • Wang et al. [2024] Chenhui Wang, Tao Chen, Zhihao Chen, Zhizhong Huang, Taoran Jiang, Qi Wang, and Hongming Shan. Fldm-vton: Faithful latent diffusion model for virtual try-on. In IJCAI, 2024.
  • Wang et al. [2004] Zhou Wang, A.C. Bovik, H.R. Sheikh, and E.P. Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE Trans. Image Process., 2004.
  • Xie et al. [2021] Zhenyu Xie, Zaiyu Huang, Fuwei Zhao, Haoye Dong, Michael Kampffmeyer, and Xiaodan Liang. Towards scalable unpaired virtual try-on via patch-routed spatially-adaptive gan. In NeurIPS, 2021.
  • Xu et al. [2024a] Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao Huang, Irfan Essa, and Humphrey Shi. Prompt-free diffusion: Taking” text” out of text-to-image diffusion models. In CVPR, 2024a.
  • Xu et al. [2024b] Yuhao Xu, Tao Gu, Weifeng Chen, and Chengcai Chen. Ootdiffusion: Outfitting fusion based latent diffusion for controllable virtual try-on. arXiv, 2024b. https://doi.org/npf9.
  • Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv, 2023. https://doi.org/np3v.
  • Zhai et al. [2023] Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. Sigmoid loss for language image pre-training. In ICCV, 2023.
  • Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.
  • Zhao et al. [2018] Bo Zhao, Xiao Wu, Zhi-Qi Cheng, Hao Liu, Zequn Jie, and Jiashi Feng. Multi-view image generation from a single-view. In ACM MM, 2018.
  • Zhou et al. [2016] Tinghui Zhou, Shubham Tulsiani, Weilun Sun, Jitendra Malik, and Alexei A Efros. View synthesis by appearance flow. In ECCV, 2016.
  • Zhu et al. [2024] Luyang Zhu, Yingwei Li, Nan Liu, Hao Peng, Dawei Yang, and Ira Kemelmacher-Shlizerman. M&m vto: Multi-garment virtual try-on and editing. In CVPR, 2024.

6 Ablation Studies

我々のアブレーション実験では、様々なTryOffDiffの構成がもたらす影響を調査する。 ピクセル空間と潜在空間での操作の違いを分析し、アダプターの設計選択を評価し、 異なる画像エンコーダーと条件付け特徴の影響を評価する。 さらに、ファインチューニングとゼロからのトレーニングの効果を比較する。 最後に、本手法の推論フェーズにおけるデノイジングハイパーパラメータの役割についてさらに検討する。

6.1 Impact of TryOffDiff configurations

我々の最初の一連の実験では、評価において同等の結果を達成した手法のみに焦点を当て、異なるTryOffDiffのセットアップを探索する。TryOffDiffを除くすべてのモデルは、ゼロから訓練された。

オートエンコーダは、顕著な物体検出のために当初提案された入れ子構造のU-Net [33]に基づいている。我々はMSEを用いてモデルをゼロから訓練した。このアプローチは衣服の一般的な形状を再構成することができるが、ロゴ、テキスト、パターンなどの詳細な特徴が欠けている。

PixelModelは、オリジナルの拡散アーキテクチャ [21]に基づくピクセル空間で動作する拡散モデルであり、ピクセルレベルの詳細が改善されているが、推論が遅いため実世界のアプリケーションには実用的ではない。

Latent Diffusion Models (LDMs)については、StableDiffusion-3 [13]の最近のVAEエンコーダを活用し、U-Netのクロスアテンション層を通じて画像で条件付けを行っている。全体的なアーキテクチャはStableDiffusion-1.4 [35]を反映しているが、異なる画像エンコーダ、アダプタ層、混合精度設定を通じてバリエーションがある。

詳細なモデルの詳細は 2に記載されており、VITON-HDデータセットにおけるVTOFFタスクに対応する定量的結果は 3にまとめられている。以前の実験とは異なり、ここでは背景除去を適用せずに生成モデルの生の出力を評価している。以前は、VTOFFタスクに適応されたVTONモデル用に設計されたベースライン手法との比較可能性を確保するために、背景除去が必要であった。不要な要素(例えば上半身の衣服以外のもの)はSAMによるセグメンテーションベースの後処理を通じて除去された。しかし、この比較におけるすべてのモデルはVTOFFタスク専用に訓練されているため、背景除去を直接処理することが期待される。TryOffDiffは、SAMの後処理なしで評価した場合、わずかに優れたパフォーマンス指標を達成している。

8は、我々のアプローチの異なる設定に対する定性的結果を示している。これらの結果は、既存の画像生成メトリクスの欠点をさらに浮き彫りにしている。これらのメトリクスは、しばしば画像品質に対する人間の知覚と一致しない。例えば、列1のオートエンコーダは、細部の欠如にもかかわらず高いスコアを達成している。この限界は 7でも示されている。

Refer to caption
(a) 81.9 / 36.281.9 / 36.281.9\text{ / }36.281.9 / 36.2
Refer to caption
(b) 81.5 / 40.481.5 / 40.481.5\text{ / }40.481.5 / 40.4
Refer to caption
(c) 81.7 / 39.781.7 / 39.781.7\text{ / }39.781.7 / 39.7
Refer to caption
(d) 80.3 / 24.280.3 / 24.280.3\text{ / }24.280.3 / 24.2
Refer to caption
(e) 75.3 / 25.075.3 / 25.075.3\text{ / }25.075.3 / 25.0
Refer to caption
(f) 80.3 / 19.480.3 / 19.480.3\text{ / }19.480.3 / 19.4
図7: VTOFFに適用されたパフォーマンスメトリクス(SSIM↑ / DISTS↓)とオートエンコーダモデルの適合性/不適合性を示す例。 各図において、左の画像は真の画像であり、右の画像はオートエンコーダ(上、a-c)とTryOffDiff(下、d-f)のモデル予測である。再構成された衣服画像の視覚的品質が低いにもかかわらず、オートエンコーダのSSIMスコアがTryOffDiffよりも高いことに注目されたい。
Method VAE Img. Encoder Emb.shape Adapter Cond.shape Sched. Prec. Steps
Autoencoder - - - - - - fp32 290k
PixelModel - SigLIP-B/16 (1024,768) Linear+LN (64,768) DDPM fp16 300k
LDM-1 SD3 CLIP ViT-B/32 (50,768) - (50,768) DDPM fp16 180k
LDM-2 SD3 SigLIP-B/16 (1024,768) Linear+LN (64,768) DDPM fp16 320k
LDM-3 SD3 SigLIP-B/16 (1024,768) Linear+LN (64,768) DDPM fp32 120k
TryOffDiff SD1.4 SigLIP-B/16 (1024,768) Trans.+Linear+LN (77,768) PNDM fp32 220k
表2: アブレーション実験の訓練設定。
Method  Sched.   s𝑠sitalic_s   n𝑛nitalic_n SSIM\uparrow MS-SSIM\uparrow CW-SSIM\uparrow LPIPS\downarrow    FID   \downarrow CLIP-FID\downarrow KID\downarrow  DISTS\downarrow
Autoencoder - - - 81.4 72.0 37.3 39.5 108.7 31.7 66.8 32.5
PixelModel DDPM - 50 76.0 66.3 37.0 52.1 75.4 20.7 56.4 32.6
LDM-1 DDPM - 50 79.6 70.5 42.0 33.0 26.6 9.14 11.5 24.3
LDM-2 DDPM - 50 80.2 72.3 48.3 31.8 18.9 7.5 5.4 21.8
LDM-3 DDPM - 50 79.5 71.3 46.9 32.6 18.6 7.5 6.7 22.7
TryOffDiff PNDM 2.0 50 79.4 71.5 47.2 33.2 20.2 8.3 6.8 22.5
表3: 定量的比較。 VTOFFタスクにおけるVITON-HD-testデータセットに対する異なる手法の評価メトリクス。結果は背景除去を行わない生の予測に基づいて報告されている。LDM-2がより良いパフォーマンスメトリクスを達成する可能性があるが、衣服画像生成においてより良い主観的視覚品質を示すため、我々はLDM-2よりもTryOffDiffを選択する。 8も参照されたい。
Refer to caption
(a) オートエンコーダ
Refer to caption
(b) PixelModel
Refer to caption
(c) LDM-1
Refer to caption
(d) LDM-2
Refer to caption
(e) LDM-3
Refer to caption
(f) TryOffDiff
Refer to caption
(g) 目標
図8: 我々のアブレーション研究で探索された異なる設定間の定性的比較。 詳細については 2も参照されたい。
Refer to caption
(a) ガイダンススケール
Refer to caption
(b) 推論ステップ
図9: ガイダンススケール(s𝑠sitalic_s)と推論ステップ(n𝑛nitalic_n)がDISTSとFIDスコアに与える影響に関するアブレーション研究。 実験はDDIM [41] ノイズスケジューラを使用したTryOffDiffを用いてVITON-HD-testで実施された。
Refer to caption

s=0𝑠0s=0italic_s = 0

s=1.2𝑠1.2s=1.2italic_s = 1.2

s=1.5𝑠1.5s=1.5italic_s = 1.5

s=1.8𝑠1.8s=1.8italic_s = 1.8

s=2.0𝑠2.0s=2.0italic_s = 2.0

s=2.5𝑠2.5s=2.5italic_s = 2.5

s=3.0𝑠3.0s=3.0italic_s = 3.0

s=3.5𝑠3.5s=3.5italic_s = 3.5

真の画像

図10: 異なるガイダンスに対する定性的結果。 左:ガイダンスなし(s=0𝑠0s=0italic_s = 0)。中央:ガイダンススケールの変化(s[1.2,1.5,1.8,2.0,2.5,3.0,3.5]𝑠1.21.51.82.02.53.03.5s\in[1.2,1.5,1.8,2.0,2.5,3.0,3.5]italic_s ∈ [ 1.2 , 1.5 , 1.8 , 2.0 , 2.5 , 3.0 , 3.5 ])。右:真の画像。

6.2 Hyper-parameter choice in the denoising process

9は、様々なガイダンススケールと推論ステップがFIDとDISTSにどのような影響を与えるかを示している。 我々は、我々のアプローチの性能がノイズ除去ステップ数に関して比較的安定していることを見出した。 しかし、ガイダンススケールの値の影響を受けており、これについては10で定性的な結果をさらに示している。ガイダンス値が低いと詳細が失われ、高い値ではリアリズムが損なわれ、過度のコントラストや色彩の飽和などのアーティファクトが生じる。

1112は、ノイズ付加のシードを変えることが再構成の品質にどのような影響を与えるかを示している。 全体として、生成された衣服画像は推論の実行間で強い一貫性を示している。しかし、一部の例では、衣服の形状にわずかな変動が生じることがある。これは、リボンや短いトップスなどの難しい特徴を持つ上半身の衣服で顕著である。 同様に、シャツのプリントデザインやテキストなどの複雑なパターンでは、再構成にわずかな差異が見られることがある。対照的に、単色や縞模様などの基本的なパターンを持つ単純な衣服は、すべての実行で高い一貫性を示し、グラウンドトルースに近い結果となっている。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption

我々のTryOffDiffモデルを使用して複数の推論実行から生成された例

ターゲット

図11: サンプルのバリエーション。複雑な衣服では形状やパターンにわずかな変動が生じる可能性があるが、TryOffDiffの全体的な出力は、異なるランダムシードを用いた複数の推論実行にわたって一貫した衣服の再構成を示している。
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption

我々のTryOffDiffモデルを使用して複数の推論実行から生成された例

ターゲット

図12: サンプルのバリエーション。複雑な衣服では形状やパターンにわずかな変動が生じる可能性があるが、TryOffDiffの全体的な出力は、異なるランダムシードを用いた複数の推論実行にわたって一貫した衣服の再構成を示している。

7 Person-to-person Try-On

TryOffDiffは、既存の仮想試着モデルを人物間試着に適応させるために使用できる。 このセットアップでは、我々の手法はターゲットモデルからターゲット衣服を生成し、 それを地面真実の衣服画像の代わりに従来のVTONモデルへの入力として使用する。 我々はOOTDiffusion [57] を用いて実験を行い、 地面真実の衣服と我々の予測した衣服を使用した場合の仮想試着の品質を比較する。 さらに、最先端の人物間試着モデルであるCatVTON [9] と比較評価を行う。その際、公式GitHubリポジトリのデフォルト推論設定を使用する。 定量的結果は 4にまとめられている。 VITON-HDデータセットには人物間試着の地面真実データが欠けているため、 知覚品質を評価する指標のみを報告する。

Method FID\downarrow CLIP-FID\downarrow KID\downarrow
CatVTON 12.0 3.5 3.9
OOTDiffusion + GT 10.8 2.8 2.0
OOTDiffusion + TryOffDiff 12.0 3.5 2.5
表4: 仮想試着モデルの定量的比較。 地面真実(GT)の衣服を使用した場合と、TryOffDiffによって予測された衣服を使用した場合のOOTDiffusionの結果を比較する。 さらに、専門的な人物間試着モデルであるCatVTONの結果も示す。 VTONモデルと組み合わせた我々のTryOffDiffモデルは、人物間VTONにおいて競争力のある性能を達成している。

地面真実の衣服をTryOffDiffの予測で置き換えると、 再構成が完全ではないため、品質がわずかに低下する。 我々のアプローチはCatVTONをわずかに上回る性能を示す。 これは、CatVTONが衣服の詳細を保持する強みを持つにもかかわらず、 人物の再構成に困難を抱えていることに一部起因する可能性がある。 この観察は、VTONタスクと一般的に使用されるVTON指標の限界をさらに浮き彫りにしている。 これらは人物と衣服の再構成品質を適切に区別することができない。

定性的結果は13および14に示されている。 全体として、CatVTONとOOTDiffusionにTryOffDiffを組み合わせたものとの間に明確な優劣はない。 CatVTONはテクスチャやパターンの詳細を保持する点で優れているが、 時折拡散アーティファクトに悩まされる(13の3行目、14の2行目)。 さらに、CatVTONは時々ターゲットモデルの属性を ソースモデルに転移させてしまう(13の3行目と4行目、14の4行目)。 これは従来の試着モデルでは見られなかった制限である。

最後に、複雑な衣類アイテムは、 バーチャル試着に正解画像を使用しても 依然として課題が残る(13の1行目、14の1行目と4行目)。

それにもかかわらず、これらの結果はバーチャル試着タスクとTryOffDiffモデルの可能性を強調している。 TryOffDiffは人物間のバーチャル試着に特化して訓練されていないにもかかわらず、 VTONモデルとの統合は有望なアプローチを示しており、すでに最先端の 人物間バーチャル試着手法と比較して競争力のある性能を示している。

Refer to caption
図13: (人物間)VTONタスクにおける定性的比較。列は以下を示す:(a) すべてのモデルが参照入力の1つとして使用する着衣対象の人物、(b) 直接的な人物間VTONの条件として目標の衣服を着用した人物の画像を使用するCatVTONモデルの出力、(c) 目標の衣服の画像を入力とするOOTDiffusionモデルの出力、(d) 間接的な人物間VTONのために我々のTryOffDiffモデルの出力を入力とするOODDiffusionモデルの出力。
Refer to caption
図14: (人物間)VTON タスクにおける定性的比較。列は以下を示している:(a) 全てのモデルが参照入力の1つとして使用する、着衣させる対象の人物、(b) 直接的な人物間VTONのために目標衣服を着用した人物の画像を条件として使用するCatVTONモデルの出力、(c) 目標衣服の画像を入力とするOOTDiffusionモデルの出力、(d) 間接的な人物間VTONのために我々のTryOffDiffモデルの出力を入力とするOODDiffusionモデルの出力。

8 Additional Qualitative Results

本節では、追加の定性的結果を提示する。 我々は、セクション4.2で紹介したベースラインモデルとのさらなる比較を15に示す。

また、テストセットの10%に対するTryOffDiffの出力を可視化する。これは、テスト画像をアルファベット順にソートし、10番目ごとの画像を選択することで得られる。これらの結果は16および17に示されている。

9 Implementation Details

実装は、コアフレームワークとしてPyTorchを使用し、拡散モデルのコンポーネントにはHuggingFaceのDiffusersライブラリ[51]を、効率的なマルチGPUトレーニングにはAccelerateライブラリ[16]を利用している。

評価には、SSIM、MS-SSIM、CW-SSIM、LPIPSの計算に'IQA-PyTorch'[6]を使用し、FID、CLIP-FID、KIDには'clean-fid'[31]ライブラリを使用している。 最後に、知覚的画質評価にはDISTS[11]のオリジナル実装を採用している。 可読性のため、本稿で提示するSSIM、MS-SSIM、CW-SSIM、LPIPS、DISTSの値は100倍し、KIDは1000倍している。

Refer to caption
(a) Gan-Pose
Refer to caption
(b) ViscoNet
Refer to caption
(c) OOTDiffusion
Refer to caption
(d) CatVTON
Refer to caption
(e) TryOffDiff
Refer to caption
(f) 目標
図15: ベースラインとTryOffDiffの定性的比較。ベースラインのアプローチと比較して、TryOffDiffは正確な構造的詳細と細かなテクスチャの詳細を持つ衣服画像を生成する能力がより高い。
Refer to caption
図16: VITON-HD-testデータセットにおけるTryOffDiffの予測結果(サンプル1~100)。ファイル名をアルファベット順にソートした後、テストセットから10サンプルごとに選択することで、最初の100個の予測を可視化している。
Refer to caption
図17: VITON-HD-testデータセットにおけるTryOffDiffの予測結果(サンプル101~200)。ファイル名をアルファベット順にソートした後、テストセットから10サンプルごとに選択することで、次の100個の予測を可視化している。