Free2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
Abstract
拡散モデルは、テキストから画像(T2I)やテキストから動画(T2V)への生成などの生成タスクにおいて印象的な結果を達成している。しかし、T2V生成において正確なテキストアラインメントを実現することは、フレーム間の複雑な時間的依存性のため、依然として課題となっている。テキストアラインメントを向上させるための既存の強化学習(RL)ベースのアプローチは、多くの場合、微分可能な報酬関数を必要とするか、限られたプロンプトに制約されており、その拡張性と適用性が妨げられている。本稿では、Free2Guideを提案する。これは、追加のモデル訓練を必要とせずに生成された動画をテキストプロンプトにアラインさせるための新しい勾配フリーフレームワークである。経路積分制御の原理を活用し、Free2Guideは非微分報酬関数を用いて拡散モデルのガイダンスを近似し、それによって強力なブラックボックスの大規模視覚言語モデル(LVLM)を報酬モデルとして統合することを可能にする。さらに、我々のフレームワークは、大規模な画像ベースのモデルを含む複数の報酬モデルの柔軟なアンサンブルをサポートし、大幅な計算オーバーヘッドを発生させることなく、相乗的にアラインメントを向上させる。我々は、Free2Guideが様々な次元でテキストアラインメントを大幅に改善し、生成された動画の全体的な品質を向上させることを実証する。我々の結果とコードはプロジェクトページで入手可能である111https://kjm981995.github.io/free2guide/。
1 Introduction
拡散モデル [song2021scorebased, sohl2015deep, karras2022elucidating, rombach2022high] は、生成モデリングにおいて強力かつ多用途なツールとして台頭し、テキストから画像への変換(T2I) [rombach2022high] やテキストから動画への変換(T2V) [ho2020denoising, dhariwal2021diffusion] など、コンテンツ生成の細かな制御を要する課題において最先端の結果を達成している。しかしながら、テキスト条件との完全な整合性を実現することは依然として大きな課題である [gokhale2022benchmarking]。この問題は動画領域においてさらに困難となり、フレーム間でテキストに関連するコンテンツを維持するには複雑な時間的依存関係を扱う必要があり、しばしば生成されたフレームと与えられたテキストプロンプトとの間に不整合が生じる。
画像領域では、強化学習(RL)ベースの手法が、拡散モデル内で人間の選好を推定する報酬モデルを使用することにより、テキストガイドによるT2I生成の課題に対処するために導入されている [xu2024imagereward, wu2023human, black2023training, fan2024reinforcement]。従来の研究は主に、報酬関数から導出された勾配を用いて拡散モデルを直接微調整するか [clark2023directly, prabhudesai2023aligning, prabhudesai2024video]、RLベースの方策勾配アプローチを採用するか [black2023training, fan2024reinforcement] のいずれかに焦点を当てている。これらの微調整手法はサンプルの整合性を効果的に改善できるが、顕著な制限がある。前者は微分可能な報酬関数を必要とし、後者は通常、少数のプロンプトに限定される。
これらのテキストアライメントアプローチを動画領域に直接適用する場合、主に2つの課題がある。第一に、多くの場合、動画に特化した報酬関数や、厳選された動画データセットでの追加訓練が必要となる。大規模な、アラインされたテキスト-動画データセットの収集は、画像データの収集よりもはるかに複雑であり、動画タスクに合わせた報酬関数の開発も同様に困難である。第二に、動画領域用に訓練された報酬モデルがあったとしても、バックプロパゲーションのための大幅なメモリ要求など、追加の課題が浮上する。これらの課題はモデルの規模が大きくなるにつれて比例的に増大する(すなわち、スケーリング則)[kaplan2020scaling]。
代替アプローチとして、モデルパラメータの微調整なしに拡散モデルを誘導するために、推論時に微分可能な報酬モデルを使用する方法がある[wallace2023end]。しかし、ガイダンスベースの手法でも微分可能な報酬関数が必要であり、最先端の視覚-言語モデルAPIや人間の選好に基づくメトリクスなどの非微分可能なオプションは除外される。この問題に対処するため、最近の研究では、非微分可能な目的関数を用いてサンプリングプロセス中に拡散モデルを誘導するための確率的最適化が探求されている[huang2024symbolic]。また、並行研究では画像領域内でこのアイデアを拡張している[yeh2024training, zheng2024ensemble]。しかし、このような手法は、複雑な時間的依存関係が関与するため、動画拡散モデルに直接適用することはできない。
したがって、我々は大規模視覚言語モデル(LVLM)の時間的理解能力を活用し、確率的最適化を動画領域に拡張する方法を提案する。強力なブラックボックスモデルを使用することの利点にもかかわらず、微分不可能な報酬関数の文脈におけるそれらの応用は、これまでの研究では十分に探求されていない。 具体的には、我々はFree2Guideを導入する。これは、報酬関数からの勾配を必要としない動画生成におけるテキストプロンプトの整合性を図るための新しいフレームワークである。経路積分制御の原理を応用し、Free2Guideは報酬関数の微分可能性に関係なく、生成された動画をテキストプロンプトと整合させるためのガイダンスを近似する。そのため、Free2Guideは強力なブラックボックスの視覚言語モデルを報酬モデルとして使用することを可能にし、図1に示されるようにテキストと動画の整合性を向上させる。さらに、我々のフレームワークは、計算コストの高い微調整やバックプロパゲーションの必要性を排除することで、報酬モデルの柔軟な組み合わせを可能にする。我々は、LVLMと既存の大規模画像ベースモデルを協調させるためのいくつかの組み合わせアプローチを探求する。広範な実験により、我々の手法がテキストの整合性と生成された動画の品質を向上させることが示されている。
本稿の貢献は以下のようにまとめられる:
-
•
我々はFree2Guideを導入する。これは、報酬関数からの勾配を必要とせずに生成された動画をテキストプロンプトと整合させるための新しいフレームワークである。我々の知る限り、Free2Guideは追加の訓練を必要としない、テキストから動画への生成のための最初の勾配フリーガイダンスアプローチである。
-
•
我々は、テキストと動画の整合性を向上させるために微分不可能なLVLM APIを適応させ、動画生成のガイダンスに大規模画像ベースモデルを活用するための効果的なアンサンブルアプローチを開発する。
2 Related Work
Text-to-Video diffusion model
テキストからビデオへの拡散モデル(例:LaVie [wang2023lavie]、VideoCrafter [chen2023videocrafter1, chen2024videocrafter2])は、テキストプロンプトから一貫性のあるビデオシーケンスを生成するために拡散プロセスを採用している [luo2023latent, he2022latent, ho2022video]。しかしながら、ビデオ拡散モデルは、与えられたテキストプロンプトと正確に一致するビデオを生成することに苦戦することが多いという顕著な制限がある。特に空間的関係(例:「AがBの上にある」)や時間的スタイルの表現(例:「ズームイン」)において課題がある。
Diffusion model with LVLM feedback
大規模言語モデル(LLM)を用いて拡散生成プロセスを改善するためのいくつかのアプローチが提案されているが [lian2023llm, wu2024self, feng2024layoutgpt, zhong2023adapter]、画像ドメインも扱える大規模視覚言語モデル(LVLM)を活用する方法の探求は限られている。最近の研究では、拡散モデルへのフィードバック機構としてLVLMを統合し、制御を強化し拡散プロセスを誘導する方法が探求されている。例えば、RPG [yang2024mastering]は、拡散モデルのクロスアテンション層を操作するプランナーとしてLVLMを利用し、一方Demon [yeh2024training]は、LVLMが与えられたペルソナに沿って拡散を誘導できることを示している。対照的に、我々のアプローチは、LVLMのフレーム間ダイナミクスを理解する能力を活用し、この強みをビデオドメインに適用してテキストとビデオの整合性を向上させている。
Human Preference Alignment via Reward Models
人間の選好との整合性は、報酬モデルの勾配を用いた拡散モデルの微調整(DRaFT [clark2023directly]、AlignProp [prabhudesai2023aligning])または方策勾配(DDPO [black2023training]、DPOK [fan2024reinforcement])を通じて、拡散モデルの生成品質を向上させてきた。一方、DOODL [wallace2023end]とDemon [yeh2024training]は、拡散モデルを訓練せずにテキストとの整合性を達成するために、ノイズ除去プロセスを誘導する。ただし、前述の手法はすべて画像領域に焦点を当てていることに注意が必要である。最近の研究であるVADER [prabhudesai2024video]は、美的およびテキストに整合した生成のために、報酬モデルの勾配を用いて事前訓練された動画拡散モデルを微調整している。この手法は動画報酬モデルを使用して有望な結果を示しているが、大量のメモリを必要とし、LVLMを活用していない。我々は、画像報酬勾配を微調整なしで近似するテキスト-動画整合手法を提案することで、これらの制限に対処する。
Zeroth order gradient approximation
0次勾配、または勾配フリーアプローチは、複数の点を評価することで微分不可能な関数の勾配を近似する [liu2020primer, nesterov2017random]。拡散ベースの逆問題では、EnKF [zheng2024ensemble]やSCG [huang2024symbolic]のような手法が、微分不可能またはブラックボックスの順モデルに基づいてサンプリングを誘導するために勾配フリー近似を活用している。しかし、動画拡散モデルのサンプリングを誘導するための勾配フリーアプローチに特化した研究は不足している。動画拡散モデルにおいて、ブラックボックスの報酬モデルを0次勾配で近似することは有利である。なぜなら、報酬の勾配が利用できず、動画データの高次元空間がメモリに制限を課すためである。
3 Preliminaries
3.1 Video Latent diffusion model
ビデオ潜在拡散モデル(VLDM)は、前方拡散過程によって生成されたランダムノイズを反復的に除去することで確率過程を学習する[dhariwal2021diffusion]。
(1) |
ここで、はエンコーダーによるクリーンビデオの潜在エンコーディングであり、はタイムステップにおけるノイズスケジューリング係数である。VLDMは以下の目的関数を最小化することでのノイズを推定する:
(2) |
ここで、およびは条件付け入力を表す。
クリーンな潜在表現を取得するために、我々は逆時間確率微分方程式(SDE)サンプリングプロセスを使用する:
(3) |
ここで、およびはそれぞれ前方SDEと逆SDEのドリフト項であり、は拡散係数、は逆時間ウィーナー過程を表す。逆SDEの初期点は正規ガウス分布からサンプリングされる。適切なノイズスケジュールで逆SDEを離散化することにより、VLDMはDDIM [song2020denoising]軌道に基づいてクリーンな潜在表現を取得する。
(4) |
ここで、はサンプリングの確率性を制御し、およびはTweedieの公式[efron2011tweedie]によって計算されたの事後平均またはノイズ除去版を表す。潜在表現をビデオドメインに戻すために、デコーダーが潜在表現をデコードするために使用される。
3.2 Guidance in Diffusion Model
式(3)の逆SDEが与えられた場合、我々の目標は最適な制御 を得ることである:
(5) |
これはサンプリングプロセスを目標分布 に向けて導く。ここで はラベル、クラス、またはテキストプロンプトなどの望ましい条件を表す[williams1979diffusions]。 分類器ガイダンス[nie2022diffusion]では、尤度 を推定する補助的な分類器が利用可能な場合、制御項は以下のように定義できる:
(6) |
ここで はガイダンスの強さを調整するスケーリング係数である。この制御項は、ベイズの定理を適用して を表現することから導かれる。
報酬モデルを分類器として扱うことで分類器ガイダンスを適応させることを考えるかもしれない。しかし、この手法には2つの課題がある:報酬モデルはノイズのある潜在表現 で訓練されておらず、微分可能性が必要である。これらの制限を緩和するために、我々は以下の第3.3節で説明するように、0次勾配近似を用いたパス積分制御アプローチを利用する。
3.3 Path Integral Control
拡散モデルをエントロピー正則化されたマルコフ決定過程(MDP)と考えると、我々は逆確率微分方程式を強化学習(RL)フレームワークとして概念化できる[uehara2024understanding, black2023training, fan2024reinforcement]。ここで、状態と行動は入力に対応する。この定式化において、最適方策は以下の目的関数を最大化する:
(7) |
ここで、は拡散モデルによって定義される元の方策とのKLダイバージェンスの係数である。を拡散モデルのSDEにおける逆遷移分布とし、とする。我々は価値関数を以下のように定義できる:
(8) |
ここで、は報酬関数である[uehara2024understanding]。
エントロピー正則化されたMDPシステムに対する最適制御は、以下のハミルトン・ヤコビ・ベルマン(HJB)方程式を解くことで得られる[uehara2024fine, huang2024symbolic]:
(9) |
しかし、この項は価値関数の勾配を必要とする。勾配の要件を回避するために、経路積分制御を使用することができる。これは確率的最適制御の原理に基づいて最適制御(またはガイダンス)を推定するアプローチである[theodorou2010generalized, kappen2005path, uehara2024fine]。 [huang2024symbolic]では、最適制御は以下のように近似される:
(10) |
SCG[huang2024symbolic]がこの最適制御を拡散モデルと共に使用して画像ドメインの逆問題を解決する一方で、我々はLVLMsを使用してビデオをガイドし、テキストとの整合性を向上させることを目指す。
4 Method: Free2Guide
本節では、Free2Guideを紹介する。これは、サンプリングプロセス中に非微分可能な報酬モデルを使用してビデオ生成を誘導するフレームワークである。4.1節では、大規模ビジョン言語モデル(LVLM)を含む画像ベースの報酬モデルをテキスト-ビデオの整合性に適用する方法について論じる。4.2節では、相乗効果を達成するために複数の報酬モデルをアンサンブルする方法を概説する。最後に、拡散モデルをエントロピー正則化されたMDPとして解釈し、その実践的な実装について説明する(4.3節)。
4.1 Adapting Image-based Rewards for Video
セクション3.3で議論したパス積分制御アプローチを活用することで、報酬関数の勾配に依存せずに逆過程を誘導することができる。式(10)の報酬モデルが生成された動画とテキストプロンプトの整合性を評価する場合、プロンプトに対する動画出力の忠実度を向上させるのに役立つ。しかし、静止画と比較して動画の複雑さが高いため、動画とテキストの整合性に特化して訓練された大規模モデルは限られている。そのため、我々は大規模なテキスト-画像ペアのデータセットで訓練されたモデルに依存している。
しかしながら、これらの画像ベースの報酬モデルを動画のガイダンスに直接適用することには課題がある。画像ベースのモデルは動き、フロー、ダイナミクスなどの時間依存の特徴を処理するように設計されていないため、テキストと動画の整合性を評価するためにはこれらのモデルに特別な適応が必要である。アルゴリズム1に示すように、我々は画像ベースのモデルからフレームごとの報酬を合計することで動画の報酬を計算する。このアプローチにより、個々の動画フレーム内の空間情報との整合性が可能になるが、時間的なダイナミクスに関するガイダンスはまだ不足している。
我々のフレームワークは報酬モデルの微分可能性を必要としないため、動画の整合性を扱う強力なブラックボックスLVLMを十分に活用できる。LVLMは静的な画像-テキストデータで訓練されているが、多様な視覚的文脈に関する広範な事前訓練により、動きの要素を捉えることができるため、時間情報を効果的に扱うことができる。ここで、我々はLVLMの時間認識を活用してテキストと動画の整合性を評価するために、LVLMを報酬モデルとして採用する。LVLMを複数のフレームを同時に評価するように適応させるために、図2に示すように、キーフレームを1つの合成画像に結合し、同時に時間処理を可能にする。次に、システムプロンプトを通じて合成画像内のフレームの順序に関する明示的な指示を提供し、モデルがシーケンスを理解できるようにする。この効率的な適応により、LVLMはフレームを線形にリストアップするのではなく、フレーム番号を参照することでフレームの順序を認識できるようになる。その後、合成画像とテキストプロンプトの間の整合性スコアを要求する。LVLMは1から9のスケールでキーフレームとプロンプトの整合性を評価し、これが報酬関数として機能する。システム指示とクエリテンプレートの詳細は付録Aに記載されている。
4.2 Ensembling Reward Functions
勾配ベースのガイダンスとは異なり、我々の手法は計算量の多い逆伝播プロセスを回避することで、メモリ要件を大幅に削減する。これにより、サンプリングガイダンスに複数の報酬を同時に使用することが可能となり、大規模画像モデルとの相乗効果が期待できる。我々は、LVLMが時間情報を取り込むことを可能にするアンサンブル手法を探求し、大規模画像モデルと組み合わせることでビデオアラインメントのより効果的なガイダンスを支援する。なお、アンサンブル報酬を提案した同時期の研究であるDemon [yeh2024training]は、アンサンブルの相乗効果を示すことができず、時間情報を扱う必要もなかったことに留意されたい。
個のビデオが与えられた場合、我々は複数の報酬モデルを組み合わせるための3つのアンサンブル手法を提案する:加重和、正規化和、およびコンセンサスである。
-
•
加重和: この手法は、固定の重み付け和を計算することで出力を組み合わせ、各報酬モデルの影響を制御することを可能にする。
(11) ここで、は報酬モデルとの寄与をバランスさせる定数の重み係数である。
-
•
正規化和: この手法では、まず各報酬の出力をの範囲に正規化し、その後これらの正規化された値を合計して最終的なアンサンブル報酬を得る。この正規化により、各報酬モデルのスコアが比較可能なスケールとなり、バランスの取れた寄与が可能となる。
(12) ここで、は報酬出力の最大値と最小値を表す。
-
•
コンセンサス: コンセンサス手法、すなわちボルダカウント[emerson2013original]では、 各報酬モデルがビデオを最良から最悪までランク付けし、そのランクに基づいてポイントを割り当てる。最上位のビデオが最大ポイントを受け取り、最下位のランクまで1ポイントずつ減少する。各ビデオの総報酬は、両方の報酬モデルからのポイントの合計である。
(13) ここで、は各ランクにポイントを割り当てる(例えば、最良のビデオに5、2番目に4、など)。
4.3 Guidance using Path Integral Control
報酬関数の勾配を計算せずに逆サンプリングプロセスを誘導するために、我々は式(10)で概説されたフレームワークを利用する。しかし、式(10)における報酬関数の期待値は、PF-ODE [song2021scorebased]のような複雑な微分方程式を解くことによる広範なネットワーク関数評価(NFE)を要求する。[huang2024symbolic]に触発され、我々は代わりにDPS [chung2023diffusion]アプローチを適用し、式(8)を式(4)で定義されるの事後平均を用いて近似する。DPSに従い、我々はをディラックのデルタ分布を用いて設定できる。そうすると式(10)は以下のようになる:
(14) |
この期待値をモンテカルロ法で近似するために、我々は式(4)で概説された逆SDEを通じて個の異なるをサンプリングする。そして最適制御を得るためにを仮定する。この仮定の下で、式(3)はの報酬を最大化するを選択することと等価になる[huang2024symbolic]。[huang2024symbolic]が報酬関数を恣意的に重み付けし、その重みをゼロと仮定したのに対し、我々はこれを拡散プロセスをエントロピー正則化MDPとして定義することで、式(7)のエントロピー正則化項を緩和するものとして解釈する。実際には、このアプローチは最大の報酬を持つを選択することで、慎重なパラメータ探索を排除する。
アルゴリズム2で説明されているこの調整されたサンプリング戦略に従うことで、Free2Guideは報酬信号とのより良い整合性に向けて動画生成を効率的に誘導することができる。
5 Experiments
ベースラインとサンプリング戦略。 我々は、オープンソースのテキストから動画への拡散モデルであるLaVie [wang2023lavie]とVideoCrafter2 [chen2024videocrafter2]をベースラインモデルとして使用する。生成された動画は16フレームで、解像度はである。我々はLVLMとしてGPT-4o-2024-08-06 [achiam2023gpt]をOpenAI APIを使用して採用する。我々は、LVLMの時間的ダイナミクスを考慮する能力が、大規模な画像報酬モデルと併用された場合にテキストと動画の整合性を向上させることを検証するために、CLIP [radford2021learning]とImageReward [xu2024imagereward]という2つの大規模モデルを採用する。CLIPでは、テキストと画像の埋め込みのコサイン類似度を測定することで整合性を評価できる。一方、ImageRewardは画像とテキストのペアに対する人間の選好を予測するため、その出力を報酬として使用できる。動画ドメインへの適応のために、各ノイズ除去された動画からキーフレームを抽出し、各フレームの報酬を合計して全体的な整合性を評価する。これはアルゴリズム1に概説されている。
我々は、式(4)においてを用いた確率的DDIMサンプリングを採用し、合計ステップを実行し、LaVieではガイダンススケール、VideoCrafter2ではを使用してクラスフリーガイダンス[ho2022classifier]を適用する。各ガイダンスステップでのサンプル数はLaVieでは、VideoCrafter2ではに設定される。ガイダンスはサンプリングの初期ステップ、具体的にはの範囲内で適用される。重み付き和アンサンブルでは、LVLM報酬にの重みを割り当てる。
Method | Avg. |
LaVie + CLIP | 0.5712 |
+ GPTWeighted Sum | 0.5738 |
+ GPTNormalized Sum | 0.5734 |
+ GPTConsensus | 0.5679 |
Method | Avg. |
LaVie + ImageReward | 0.5676 |
+ GPTWeighted Sum | 0.5726 |
+ GPTNormalized Sum | 0.5715 |
+ GPTConsensus | 0.5692 |
Style | Semantics | Condition Consistency | Avg. | ||||
Method |
Appearance Style | Temporal Style | Human Action | Multiple Objects | Spatial Relationship | Overall Consistency | |
LaVie [wang2023lavie] |
0.2312 | 0.2502 | 0.9300 | 0.2027 | 0.3496 | 0.2694 | 0.3722 |
+GPTOurs |
0.2366
(+2.3%) |
0.2508
(+0.2%) |
0.9300
(-0.0%) |
0.2546
(+25.6%) |
0.3531
(+1.0%) |
0.2709
(+0.6%) |
0.3827 |
+ CLIP |
0.2370
(+2.5%) |
0.2490
(-0.5%) |
0.9400
(+1.1%) |
0.2607
(+28.6%) |
0.3074
(-12.1%) |
0.2738
(+1.6%) |
0.3780 |
++ GPTOurs |
0.2350
(+1.6%) |
0.2487
(-0.6%) |
1.000
(+7.5%) |
0.2447
(+20.7%) |
0.3180
(-9.0%) |
0.2742
(+1.7%) |
0.3868 |
+ ImageReward |
0.2360
(+2.1%) |
0.2483
(-0.8%) |
0.9300
(-0.0%) |
0.2637
(+30.1%) |
0.2614
(-25.2%) |
0.2728
(+1.2%) |
0.3687 |
++ GPTOurs |
0.2373
(+2.6%) |
0.2497
(-0.2%) |
0.9400
(+1.1%) |
0.2462
(+21.4%) |
0.3014
(-13.8%) |
0.2772
(+2.9%) |
0.3753 |
VideoCrafter2 [chen2024videocrafter2] |
0.2490 | 0.2567 | 0.9300 | 0.3880 | 0.3760 | 0.2778 | 0.4129 |
+GPTOurs |
0.2504
(+0.6%) |
0.2568
(+0.0%) |
0.9500
(+2.2%) |
0.4878
(+25.7%) |
0.4225
(+12.4%) |
0.2872
(+3.4%) |
0.4425 |
+ CLIP |
0.2542
(+2.1%) |
0.2621
(+2.1%) |
0.9300
(-0.0%) |
0.4261
(+9.8%) |
0.2923
(-22.3%) |
0.2802
(+0.9%) |
0.4075 |
++ GPTOurs |
0.2490
(+0.0%) |
0.2612
(+1.8%) |
0.9600
(+3.2%) |
0.4474
(+15.3%) |
0.3361
(-10.6%) |
0.2837
(+2.1%) |
0.4229 |
+ ImageReward |
0.2513
(+0.9%) |
0.2574
(+0.3%) |
0.9700
(+4.3%) |
0.4733
(+22.0%) |
0.4264
(+13.4%) |
0.2826
(+1.7%) |
0.4435 |
++ GPTOurs |
0.2533
(+1.7%) |
0.2607
(+1.6%) |
0.9400
(+1.1%) |
0.5160
(+33.0%) |
0.4371
(+16.3%) |
0.2828
(+1.8%) |
0.4483 |
Temporal Consistency | Dynamics | Frame-wise Quality | Avg. | ||||
Method |
Subject Consistency | Background Consistency | Motion Smoothness | Dynamic Degree | Aesthetic Quality | Imaging Quality | |
LaVie [wang2023lavie] |
0.9450 | 0.9689 | 0.9718 | 0.4799 | 0.5687 | 0.6611 | 0.7659 |
+GPTOurs |
0.9470
(+0.2%) |
0.9693
(+0.0%) |
0.9742
(+0.2%) |
0.4725
(-1.5%) |
0.5726
(+0.7%) |
0.6615
(+0.1%) |
0.7662 |
+ CLIP |
0.9495
(+0.5%) |
0.9712
(+0.2%) |
0.9735
(+0.2%) |
0.4560
(-5.0%) |
0.5727
(0.7%) |
0.6637
(+0.4%) |
0.7644 |
++ GPTOurs |
0.9622
(+1.8%) |
0.9781
(+0.9%) |
0.9804
(+0.9%) |
0.3703
(-22.8%) |
0.5951
(+4.6%) |
0.6795
(+2.8%) |
0.7609 |
+ ImageReward |
0.9443
(-0.1%) |
0.9681
(-0.1%) |
0.9732
(+0.1%) |
0.4872
(+1.5%) |
0.5664
(-0.4%) |
0.6605
(-0.1%) |
0.7666 |
++ GPTOurs |
0.9758
(+1.0%) |
0.9813
(+0.7%) |
0.9832
(+0.1%) |
0.5165
(+7.6%) |
0.5662
(-0.4%) |
0.6530
(-1.2%) |
0.7699 |
VideoCrafter2 [chen2024videocrafter2] |
0.9658 | 0.9748 | 0.9818 | 0.3846 | 0.5860 | 0.6772 | 0.7617 |
+GPTOurs |
0.9746
(+0.9%) |
0.9800
(+0.5%) |
0.9827
(+0.1%) |
0.2949
(-23.3%) |
0.5977
(+2.0%) |
0.6924
(+2.3%) |
0.7537 |
+ CLIP |
0.9762
(+1.1%) |
0.9816
(+0.7%) |
0.9839
(+0.2%) |
0.2491
(-35.2%) |
0.6037
(+3.0%) |
0.6886
(+1.7%) |
0.7472 |
++ GPTOurs |
0.9770
(+1.2%) |
0.9823
(+0.8%) |
0.9838
(+0.2%) |
0.2399
(-37.6%) |
0.6042
(+3.1%) |
0.6878
(+1.6%) |
0.7458 |
+ ImageReward |
0.9739
(+0.8%) |
0.9801
(+0.5%) |
0.9828
(+0.1%) |
0.2711
(-29.5%) |
0.5994
(+2.3%) |
0.6857
(+1.3%) |
0.7488 |
++ GPTOurs |
0.9458
(+1.0%) |
0.9813
(+0.7%) |
0.9832
(+0.1%) |
0.2564
(-33.3%) |
0.6039
(+3.1%) |
0.6877
(+1.6%) |
0.7480 |
テキストアラインメント評価。 我々は、VBench [huang2023vbench]を用いて定量的評価を行った。これはテキストプロンプトに対するテキスト動画変換(T2V)モデルの整合性を評価するために設計されたベンチマークである。我々の評価プロトコルは、外観スタイル、時間的スタイル、人間の行動、複数のオブジェクト、空間的関係、全体的な一貫性という6つの次元でテキストアラインメントを測定する。公平な比較のため、各指標に標準化されたプロンプトを使用し、異なるモデル間で一貫した条件を確保した。これらの次元は、スタイル、セマンティクス、条件の一貫性という3つの核心的な評価側面にグループ化できる。
スタイルグループは、色、テクスチャ、カメラの動きなどのスタイル的品質を評価する。セマンティクスグループは、人間中心の動き、オブジェクト間の相互作用、テキストプロンプトで指定された空間的関係の遵守など、セマンティックコンテンツを生成するモデルの能力を評価する。条件の一貫性は、セマンティックおよびスタイル的安定性の観点から生成された動画の一貫性を測定する。
一般的な動画品質評価。 テキストアラインメントに加えて、我々はテキストプロンプトとは独立して、生成された動画の一般的な品質を6つの指標で評価する:被写体の一貫性、背景の一貫性、動きの滑らかさ、動的度合い、美的品質、画像品質。これらは3つのグループに分類される:時間的一貫性(被写体と背景の安定性)、ダイナミクス(動きの滑らかさとフロー)、品質(フレームレベルでのリアリズム、自然さ、芸術的品質)。
5.1 Results
本節では、我々の手法の有効性を示すために、定性的および定量的な結果の両方を提示する。図3の上4行は、ベースラインと報酬モデルの視覚的比較を示している。GPT-4oモデルを活用してテキストと動画の整合性を評価することで、時間的動態(例えば「下に傾ける」)および意味的表現(例えば「AとB」)に関する整合性が向上することが観察される。これらの結果は、LVLMが動画の複数のサブフレームを同時に処理することで時間情報を考慮でき、空間理解においても高い性能を発揮することを示している。
LVLMの時間的動態を考慮する能力に基づき、我々は大規模画像モデルからのガイダンスを統合するアンサンブル技術の実現可能性を検証する。このアプローチにより、LVLMは時間情報を処理し、ガイダンスの質を向上させることができる。表1では、VBenchからのテキスト整合性と一般的な動画品質評価の平均スコアを比較することで、最も効果的なアンサンブル手法を探索する。我々は、LVLMにより多くの重みを割り当てることが、モデルの貢献を均等にバランスを取る代替案よりも優れていることを発見した。これは、LVLMの役割が重要であることを示している。したがって、我々は重み付き和アンサンブルをデフォルト設定として採用する。図3の下4行もまた、アンサンブルの定性的結果を示しており、GPT-4oと他の画像報酬モデルを組み合わせることで、単独の報酬モデルでは適切に識別できない動態や複数のオブジェクトに関連する問題を正確に解決しつつ、全体的な構造を維持できることを示している。
より詳細な評価のために、表2でテキストと動画の整合性を評価する定量的結果を比較する。平均評価スコアの分析により、LVLMを組み込むことが一貫してそれを除外した構成を上回ることが明らかになった。特に、ベースライン全体で空間関係の処理において最も顕著な改善が観察された。CLIPはゼロショットでの空間推論能力が限られているため[subramanian2022reclip]、CLIPのみを使用した場合、空間関係におけるテキスト整合性のパフォーマンスが低下する。しかし、LVLMとのアンサンブルは、CLIPが空間的意味をより良く考慮するのに役立つ追加の手がかりを提供し、パフォーマンスの向上につながる。さらに、LVLMを組み込むことで、CLIPが報酬モデルとして使用される場合を除いて、時間的スタイルが向上する。LVLMは複数のフレームを一度に処理することで時間的なニュアンスを理解できるため、時間的な動きの整合性をサポートすることでパフォーマンスを向上させる。
さらに、表3で一般的な動画品質を比較する。我々は、一貫性や動きに関する明示的なガイダンスがなくても、テキストプロンプトとの整合性が動的度合いを除くほとんどの品質指標を向上させることを確認した。この指標は一貫性とトレードオフの関係にあることが多いが、LaVieモデルでGPT-4oとImageRewardをアンサンブルすることで改善できる。これは、ImageRewardがGPT-4o単独では対処できない動的度合いのパフォーマンス低下を補完し、最高のパフォーマンスをもたらすことを示唆している。
5.2 Ablation Study
LVLMを用いた評価方針。 我々は、VideoCrafter2モデルで生成された平均スコアを分析することにより、LVLMにおける評価プロトコルの影響を評価する。具体的には、テキストとビデオの整合性を評価する際に「はい」または「いいえ」のみで回答するようLVLMにシステムプロンプトを変更する。整合性スコアは、上位5つのロジットのうち「はい」に対応する割合を計算することで導出される。表4は、1から9のスケールで整合性を採点することが、テキストの整合性の観点からより良いパフォーマンスを達成することを示している。これは、より広いスケールが忠実度のより微妙な区別を可能にし、LVLMがテキストとビデオの整合性のわずかな違いをより効果的に捉えることができるためであると考えられる。
Method | Text Alignment | General Quailty | Avg. |
VideoCrafter2 | 0.4129 | 0.7617 | 0.5873 |
+GPTYes or No | 0.4358 | 0.7550 | 0.5954 |
+GPTFrom 1 to 9 | 0.4425 | 0.7537 | 0.5981 |
6 Conclusion and Limitation
Conclusion
本稿では、報酬勾配に依存せずにテキストと動画の整合性を向上させる、拡散ベースの生成モデルのための新しい勾配フリーフレームワークであるFree2Guideを紹介した。報酬関数の勾配を近似することにより、Free2Guideは強力なブラックボックスLVLMを含む微分不可能な報酬モデルを効果的に統合し、より良い整合性に向けて動画生成プロセスを誘導する。我々の実験により、Free2Guideがテキストプロンプトとの整合性および全体的な動画品質を一貫して向上させることが示された。LVLMとのアンサンブルを可能にすることで、我々の手法は相乗効果の恩恵を受け、さらにパフォーマンスを向上させる。
Limitation
我々のアプローチにおけるサンプリングでは、勾配を近似するために追加の処理時間が必要である。我々のアプローチはベースラインと比較してサンプリング時間をわずかに延長する可能性があるが、LVLM APIなどの微分不可能な報酬モデルによるガイダンスを独自に可能にする。さらに、我々のフレームワークの有効性は報酬関数の精度に影響されるが、これは報酬モデルが進化し続けるにつれてさらなる改善の余地を開くものである。
References
- Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
- Black et al. [2023] Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine. Training diffusion models with reinforcement learning. arXiv preprint arXiv:2305.13301, 2023.
- Chen et al. [2023] Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, and Ying Shan. Videocrafter1: Open diffusion models for high-quality video generation, 2023.
- Chen et al. [2024] Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, and Ying Shan. Videocrafter2: Overcoming data limitations for high-quality video diffusion models, 2024.
- Chung et al. [2023] Hyungjin Chung, Jeongsol Kim, Michael Thompson Mccann, Marc Louis Klasky, and Jong Chul Ye. Diffusion posterior sampling for general noisy inverse problems. In International Conference on Learning Representations, 2023.
- Clark et al. [2023] Kevin Clark, Paul Vicol, Kevin Swersky, and David J Fleet. Directly fine-tuning diffusion models on differentiable rewards. arXiv preprint arXiv:2309.17400, 2023.
- Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat GANs on image synthesis. In Advances in Neural Information Processing Systems, 2021.
- Efron [2011] Bradley Efron. Tweedie’s formula and selection bias. Journal of the American Statistical Association, 106(496):1602–1614, 2011.
- Emerson [2013] Peter Emerson. The original borda count and partial voting. Social Choice and Welfare, 40(2):353–358, 2013.
- Fan et al. [2024] Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, and Kimin Lee. Reinforcement learning for fine-tuning text-to-image diffusion models. Advances in Neural Information Processing Systems, 36, 2024.
- Feng et al. [2024] Weixi Feng, Wanrong Zhu, Tsu-jui Fu, Varun Jampani, Arjun Akula, Xuehai He, Sugato Basu, Xin Eric Wang, and William Yang Wang. Layoutgpt: Compositional visual planning and generation with large language models. Advances in Neural Information Processing Systems, 36, 2024.
- Gokhale et al. [2022] Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta Baral, and Yezhou Yang. Benchmarking spatial relationships in text-to-image generation. arXiv preprint arXiv:2212.10015, 2022.
- He et al. [2022] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, and Qifeng Chen. Latent video diffusion models for high-fidelity long video generation. arXiv preprint arXiv:2211.13221, 2022.
- Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33:6840–6851, 2020.
- Ho et al. [2022] Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, and David J Fleet. Video diffusion models. Advances in Neural Information Processing Systems, 35:8633–8646, 2022.
- Huang et al. [2024a] Yujia Huang, Adishree Ghatare, Yuanzhe Liu, Ziniu Hu, Qinsheng Zhang, Chandramouli S Sastry, Siddharth Gururani, Sageev Oore, and Yisong Yue. Symbolic music generation with non-differentiable rule guided diffusion. arXiv preprint arXiv:2402.14285, 2024a.
- Huang et al. [2024b] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, and Ziwei Liu. VBench: Comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024b.
- Kaplan et al. [2020] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
- Kappen [2005] Hilbert J Kappen. Path integrals and symmetry breaking for optimal control theory. Journal of statistical mechanics: theory and experiment, 2005(11):P11011, 2005.
- Karras et al. [2022] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. In Proc. NeurIPS, 2022.
- Lian et al. [2023] Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, and Boyi Li. Llm-grounded video diffusion models. arXiv preprint arXiv:2309.17444, 2023.
- Liu et al. [2020] Sijia Liu, Pin-Yu Chen, Bhavya Kailkhura, Gaoyuan Zhang, Alfred O Hero III, and Pramod K Varshney. A primer on zeroth-order optimization in signal processing and machine learning: Principals, recent advances, and applications. IEEE Signal Processing Magazine, 37(5):43–54, 2020.
- Luo et al. [2023] Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, and Hang Zhao. Latent consistency models: Synthesizing high-resolution images with few-step inference. arXiv preprint arXiv:2310.04378, 2023.
- Nesterov and Spokoiny [2017] Yurii Nesterov and Vladimir Spokoiny. Random gradient-free minimization of convex functions. Foundations of Computational Mathematics, 17(2):527–566, 2017.
- Nie et al. [2022] Weili Nie, Brandon Guo, Yujia Huang, Chaowei Xiao, Arash Vahdat, and Anima Anandkumar. Diffusion models for adversarial purification. arXiv preprint arXiv:2205.07460, 2022.
- Prabhudesai et al. [2023] Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, and Katerina Fragkiadaki. Aligning text-to-image diffusion models with reward backpropagation. arXiv preprint arXiv:2310.03739, 2023.
- Prabhudesai et al. [2024] Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, and Deepak Pathak. Video diffusion alignment via reward gradients. arXiv preprint arXiv:2407.08737, 2024.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10684–10695, 2022.
- Sohl-Dickstein et al. [2015] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pages 2256–2265. PMLR, 2015.
- Song et al. [2021a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In 9th International Conference on Learning Representations, ICLR, 2021a.
- Song et al. [2021b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In International Conference on Learning Representations, 2021b.
- Subramanian et al. [2022] Sanjay Subramanian, William Merrill, Trevor Darrell, Matt Gardner, Sameer Singh, and Anna Rohrbach. Reclip: A strong zero-shot baseline for referring expression comprehension. arXiv preprint arXiv:2204.05991, 2022.
- Theodorou et al. [2010] Evangelos Theodorou, Jonas Buchli, and Stefan Schaal. A generalized path integral control approach to reinforcement learning. The Journal of Machine Learning Research, 11:3137–3181, 2010.
- Uehara et al. [2024a] Masatoshi Uehara, Yulai Zhao, Tommaso Biancalani, and Sergey Levine. Understanding reinforcement learning-based fine-tuning of diffusion models: A tutorial and review. arXiv preprint arXiv:2407.13734, 2024a.
- Uehara et al. [2024b] Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Tommaso Biancalani, and Sergey Levine. Fine-tuning of continuous-time diffusion models as entropy-regularized control. arXiv preprint arXiv:2402.15194, 2024b.
- Wallace et al. [2023] Bram Wallace, Akash Gokul, Stefano Ermon, and Nikhil Naik. End-to-end diffusion latent optimization improves classifier guidance. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7280–7290, 2023.
- Wang et al. [2023a] Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, et al. Lavie: High-quality video generation with cascaded latent diffusion models. arXiv preprint arXiv:2309.15103, 2023a.
- Wang et al. [2023b] Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, et al. Internvid: A large-scale video-text dataset for multimodal understanding and generation. In The Twelfth International Conference on Learning Representations, 2023b.
- Williams and Rogers [1979] David Williams and L Chris G Rogers. Diffusions, Markov processes, and martingales. John Wiley & Sons, 1979.
- Wu et al. [2024] Tsung-Han Wu, Long Lian, Joseph E Gonzalez, Boyi Li, and Trevor Darrell. Self-correcting llm-controlled diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6327–6336, 2024.
- Wu et al. [2023] Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao, and Hongsheng Li. Human preference score v2: A solid benchmark for evaluating human preferences of text-to-image synthesis. arXiv preprint arXiv:2306.09341, 2023.
- Xu et al. [2024] Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, and Yuxiao Dong. Imagereward: Learning and evaluating human preferences for text-to-image generation. Advances in Neural Information Processing Systems, 36, 2024.
- Yang et al. [2024] Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, and CUI Bin. Mastering text-to-image diffusion: Recaptioning, planning, and generating with multimodal llms. In Forty-first International Conference on Machine Learning, 2024.
- Yeh et al. [2024] Po-Hung Yeh, Kuang-Huei Lee, and Jun-Cheng Chen. Training-free diffusion model alignment with sampling demons. arXiv preprint arXiv:2410.05760, 2024.
- Zheng et al. [2024] Hongkai Zheng, Wenda Chu, Austin Wang, Nikola Kovachki, Ricardo Baptista, and Yisong Yue. Ensemble kalman diffusion guidance: A derivative-free method for inverse problems. arXiv preprint arXiv:2409.20175, 2024.
- Zhong et al. [2023] Shanshan Zhong, Zhongzhan Huang, Weushao Wen, Jinghui Qin, and Liang Lin. Sur-adapter: Enhancing text-to-image pre-trained diffusion models with large language models. In Proceedings of the 31st ACM International Conference on Multimedia, pages 567–578, 2023.
Appendix A Implementation Details
A.1 Model Checkpoints
我々は、事前学習済みのT2V拡散モデルであるLaVieとVideoCrafter2を使用している。これらはhttps://github.com/Vchitect/LaVieおよびhttps://github.com/AILab-CVC/VideoCrafterでそれぞれ入手可能である。LaVieについては、潜在空間のエンコードとデコードにStable Diffusion v1.4モデルを採用している。また、https://huggingface.co/openai/clip-vit-base-patch32からCLIPを、https://github.com/THUDM/ImageRewardからImageRewardモデルも利用している。
A.2 Evaluation Details
動画ガイダンスプロセス中、我々は動画からキーフレームを抽出する—具体的には、1番目、6番目、11番目、16番目のフレーム—そして報酬を評価する。LVLMを報酬モデルとして使用する際、我々は以下のスクリプトを用いてキーフレームを連結する:
次に、我々はLVLMにシーケンス順序を理解させ、実行すべきタスクを明示的に記述するシステム指示を提供する。
Appendix B Additional Ablation Study
Number of Samples
我々は、サンプリング量がテキスト整合性能に与える影響を分析し、CLIPリワードモデルを用いたLaVieモデルによる平均テキスト整合スコアを評価した。表5に示すように、でサンプリングサイズが最適であることが分かった。サンプル数を増やすことで、所望の制御に整合するデノイズされたビデオを選択する可能性が高まる。しかし、過度のサンプリングにはリスクがある:初期サンプリングステップでTweedieの公式によって予測されるエラーが、不可逆的な変化をもたらし、ビデオ品質に悪影響を及ぼす可能性がある。
Avg. | |
1 | 0.3722 |
3 | 0.3749 |
5 | 0.3780 |
10 | 0.3705 |
Guidance Range
我々は同じベースラインを用いてガイダンス範囲の効果も評価した。表6は、初期段階でのガイダンス適用が後期段階よりも効果的であることを示している。これは、これらの初期ステップがビデオの全体的な空間構造を確立するためである。しかし、ガイダンス範囲を広げすぎると、近似された最適制御のエラーが蓄積され、最終的な出力ビデオの品質が低下する。
Guidance Step | Avg. |
None | 0.3722 |
0.3780 | |
0.3769 | |
0.3635 |
Appendix C Additional Analysis
C.1 Reward Robustness
我々は、我々の手法が特定の報酬に過適合することなく頑健な性能を達成することを検証した。表7は、各手法によって生成された最終的な動画出力に対して、アルゴリズム1で説明された報酬関数を比較している。LVLMとアンサンブルされた報酬を用いた動画ガイダンスは、一般的により高いメトリクスを達成しており、表2のテキスト整合性の結果と同様の傾向を示している。これらの発見は、アンサンブルアプローチが特定の報酬に対して過度に最適化されておらず、多様な報酬にわたって改善された頑健性に寄与していることを示している。
Method | CLIP () | ImageReward () | GPT () |
LaVie | 29.60 | -0.49 | 6.79 |
+GPT | 29.60 | -0.47 | 6.86 |
+CLIP | 29.76 | -0.44 | 6.78 |
++GPT | 30.28 | -0.33 | 6.62 |
+ImageReward | 29.57 | -0.51 | 6.87 |
++GPT | 29.73 | -0.46 | 6.92 |
Method | CLIP () | ImageReward () | GPT () |
VideoCrafter2 | 30.39 | -0.10 | 7.09 |
+GPT | 30.90 | 0.23 | 7.28 |
+CLIP | 30.96 | 0.14 | 7.11 |
++GPT | 30.95 | 0.20 | 7.07 |
+ImageReward | 30.92 | 0.22 | 7.28 |
++GPT | 30.96 | 0.28 | 7.33 |
C.2 Video Reward Guidance
動画ベースの報酬モデルを使用して動画をガイドすることはより自然なアプローチであるが、我々は、動画-テキストペアのデータセットが画像と比較して比較的限られているため、動画報酬モデルがガイダンスに必要な表現を捉えきれていないと主張する。これを裏付けるために、我々はガイダンスに動画ベースの報酬モデルを使用した結果と、テキスト整合に動画ベースの報酬モデルを使用した結果を比較する。動画報酬モデルとして、https://huggingface.co/OpenGVLab/ViCLIPで入手可能な事前学習済み動画-テキスト表現学習モデルであるViCLIP [wang2023internvid]を採用する。LaVieをベースラインとして、8フレームの動画に基づいて報酬を計算し、動画とテキストの埋め込み間の類似度を測定する。
表8は、動画ベースの報酬モデルが画像ベースの報酬モデルを大きく上回らないことを示している。しかし、特に全体的一貫性と動的度合いの指標を向上させている。注目すべきは、全体的一貫性の指標がViCLIP自体を使用して評価されており、これが動画報酬モデルに有利なバイアスを生じさせている可能性がある。さらに、我々はViCLIPがCLIPと比較して空間情報の処理に苦戦していることを観察しており、これが複数オブジェクトと空間関係の指標でのパフォーマンス低下につながっている。これらの結果は、訓練データセットの不足により、動画報酬モデルが動画とテキストの関係を完全に捉えることの難しさを浮き彫りにしている。
Style | Semantics | Condition Consistency | Avg. | ||||
Method |
Appearance Style | Temporal Style | Human Action | Multiple Objects | Spatial Relationship | Overall Consistency | |
LaVie [wang2023lavie] |
0.2312 | 0.2502 | 0.9300 | 0.2027 | 0.3496 | 0.2694 | 0.3722 |
+ CLIP |
0.2370
(+2.5%) |
0.2490
(-0.5%) |
0.9400
(+1.1%) |
0.2607
(+28.6%) |
0.3074
(-12.1%) |
0.2738
(+1.6%) |
0.3780 |
+ ViCLIP |
0.2348
(+1.6%) |
0.2485
(-0.7%) |
0.9600
(+3.2%) |
0.2149
(+6.0%) |
0.2872
(-17.9%) |
0.2752
(+2.1%) |
0.3701 |
Temporal Consistency | Dynamics | Frame-wise Quality | Avg. | ||||
Method |
Subject Consistency | Background Consistency | Motion Smoothness | Dynamic Degree | Aesthetic Quality | Imaging Quality | |
LaVie [wang2023lavie] |
0.9450 | 0.9689 | 0.9718 | 0.4799 | 0.5687 | 0.6611 | 0.7659 |
+ CLIP |
0.9495
(+0.5%) |
0.9712
(+0.2%) |
0.9735
(+0.2%) |
0.4560
(-5.0%) |
0.5727
(0.7%) |
0.6637
(+0.4%) |
0.7644 |
+ ViCLIP |
0.9443
(-0.1%) |
0.9694
(+0.0%) |
0.9741
(+0.2%) |
0.4707
(-1.9%) |
0.5746
(1.0%) |
0.6487
(-1.9%) |
0.7636 |
C.3 Video Inverse Problem
我々のフレームワークは、先行研究のアプローチを基に、動画領域における逆問題に容易に拡張することができる[zheng2024ensemble, huang2024symbolic]。図4では、空間解像度に対して16の平均プーリングを用いて我々の手法で再構成された動画を示している。報酬関数として、我々は破損した復元動画と破損動画間の距離を使用し、VideoCrafter2を用いて500ステップにわたるDDIMで各ステップにおいてサンプリングサイズ10を適用している。我々の結果は、ガイドなしのサンプリングと比較して、我々の手法が入力に忠実でありながら現実的な動画を生成することを示している。動画逆問題については今後の課題として残しておく。