JaLMS
最新の AI 研究を日本語で解読

Free2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Jaemin Kim,         Bryan S Kim,         Jong Chul Ye
Kim Jaechul Graduate School of AI, KAIST
{kjm981995, bryanswkim, jong.ye}@kaist.ac.kr
Abstract

拡散モデルは、テキストから画像(T2I)やテキストから動画(T2V)への生成などの生成タスクにおいて印象的な結果を達成している。しかし、T2V生成において正確なテキストアラインメントを実現することは、フレーム間の複雑な時間的依存性のため、依然として課題となっている。テキストアラインメントを向上させるための既存の強化学習(RL)ベースのアプローチは、多くの場合、微分可能な報酬関数を必要とするか、限られたプロンプトに制約されており、その拡張性と適用性が妨げられている。本稿では、Free2Guideを提案する。これは、追加のモデル訓練を必要とせずに生成された動画をテキストプロンプトにアラインさせるための新しい勾配フリーフレームワークである。経路積分制御の原理を活用し、Free2Guideは非微分報酬関数を用いて拡散モデルのガイダンスを近似し、それによって強力なブラックボックスの大規模視覚言語モデル(LVLM)を報酬モデルとして統合することを可能にする。さらに、我々のフレームワークは、大規模な画像ベースのモデルを含む複数の報酬モデルの柔軟なアンサンブルをサポートし、大幅な計算オーバーヘッドを発生させることなく、相乗的にアラインメントを向上させる。我々は、Free2Guideが様々な次元でテキストアラインメントを大幅に改善し、生成された動画の全体的な品質を向上させることを実証する。我々の結果とコードはプロジェクトページで入手可能である111https://kjm981995.github.io/free2guide/

1 Introduction

拡散モデル [song2021scorebased, sohl2015deep, karras2022elucidating, rombach2022high] は、生成モデリングにおいて強力かつ多用途なツールとして台頭し、テキストから画像への変換(T2I) [rombach2022high] やテキストから動画への変換(T2V) [ho2020denoising, dhariwal2021diffusion] など、コンテンツ生成の細かな制御を要する課題において最先端の結果を達成している。しかしながら、テキスト条件との完全な整合性を実現することは依然として大きな課題である [gokhale2022benchmarking]。この問題は動画領域においてさらに困難となり、フレーム間でテキストに関連するコンテンツを維持するには複雑な時間的依存関係を扱う必要があり、しばしば生成されたフレームと与えられたテキストプロンプトとの間に不整合が生じる。

画像領域では、強化学習(RL)ベースの手法が、拡散モデル内で人間の選好を推定する報酬モデルを使用することにより、テキストガイドによるT2I生成の課題に対処するために導入されている [xu2024imagereward, wu2023human, black2023training, fan2024reinforcement]。従来の研究は主に、報酬関数から導出された勾配を用いて拡散モデルを直接微調整するか [clark2023directly, prabhudesai2023aligning, prabhudesai2024video]、RLベースの方策勾配アプローチを採用するか [black2023training, fan2024reinforcement] のいずれかに焦点を当てている。これらの微調整手法はサンプルの整合性を効果的に改善できるが、顕著な制限がある。前者は微分可能な報酬関数を必要とし、後者は通常、少数のプロンプトに限定される。

これらのテキストアライメントアプローチを動画領域に直接適用する場合、主に2つの課題がある。第一に、多くの場合、動画に特化した報酬関数や、厳選された動画データセットでの追加訓練が必要となる。大規模な、アラインされたテキスト-動画データセットの収集は、画像データの収集よりもはるかに複雑であり、動画タスクに合わせた報酬関数の開発も同様に困難である。第二に、動画領域用に訓練された報酬モデルがあったとしても、バックプロパゲーションのための大幅なメモリ要求など、追加の課題が浮上する。これらの課題はモデルの規模が大きくなるにつれて比例的に増大する(すなわち、スケーリング則)[kaplan2020scaling]

代替アプローチとして、モデルパラメータの微調整なしに拡散モデルを誘導するために、推論時に微分可能な報酬モデルを使用する方法がある[wallace2023end]。しかし、ガイダンスベースの手法でも微分可能な報酬関数が必要であり、最先端の視覚-言語モデルAPIや人間の選好に基づくメトリクスなどの非微分可能なオプションは除外される。この問題に対処するため、最近の研究では、非微分可能な目的関数を用いてサンプリングプロセス中に拡散モデルを誘導するための確率的最適化が探求されている[huang2024symbolic]。また、並行研究では画像領域内でこのアイデアを拡張している[yeh2024training, zheng2024ensemble]。しかし、このような手法は、複雑な時間的依存関係が関与するため、動画拡散モデルに直接適用することはできない。

したがって、我々は大規模視覚言語モデル(LVLM)の時間的理解能力を活用し、確率的最適化を動画領域に拡張する方法を提案する。強力なブラックボックスモデルを使用することの利点にもかかわらず、微分不可能な報酬関数の文脈におけるそれらの応用は、これまでの研究では十分に探求されていない。 具体的には、我々はFree2Guideを導入する。これは、報酬関数からの勾配を必要としない動画生成におけるテキストプロンプトの整合性を図るための新しいフレームワークである。経路積分制御の原理を応用し、Free2Guideは報酬関数の微分可能性に関係なく、生成された動画をテキストプロンプトと整合させるためのガイダンスを近似する。そのため、Free2Guideは強力なブラックボックスの視覚言語モデルを報酬モデルとして使用することを可能にし、図1に示されるようにテキストと動画の整合性を向上させる。さらに、我々のフレームワークは、計算コストの高い微調整やバックプロパゲーションの必要性を排除することで、報酬モデルの柔軟な組み合わせを可能にする。我々は、LVLMと既存の大規模画像ベースモデルを協調させるためのいくつかの組み合わせアプローチを探求する。広範な実験により、我々の手法がテキストの整合性と生成された動画の品質を向上させることが示されている。

本稿の貢献は以下のようにまとめられる:

  • 我々はFree2Guideを導入する。これは、報酬関数からの勾配を必要とせずに生成された動画をテキストプロンプトと整合させるための新しいフレームワークである。我々の知る限り、Free2Guideは追加の訓練を必要としない、テキストから動画への生成のための最初の勾配フリーガイダンスアプローチである。

  • 我々は、テキストと動画の整合性を向上させるために微分不可能なLVLM APIを適応させ、動画生成のガイダンスに大規模画像ベースモデルを活用するための効果的なアンサンブルアプローチを開発する。

2 Related Work

Refer to caption
図2: Free2Guideの全体的なパイプライン。報酬勾配を必要とせずにテキストとビデオの整合性を向上させるために、経路積分制御を活用している。サンプリングプロセス中、Free2Guideは複数のノイズ除去されたビデオサンプルを生成し、非微分可能な大規模視覚言語モデル(LVLM)を用いてテキストとの整合性を評価する。

Text-to-Video diffusion model

テキストからビデオへの拡散モデル(例:LaVie [wang2023lavie]、VideoCrafter [chen2023videocrafter1, chen2024videocrafter2])は、テキストプロンプトから一貫性のあるビデオシーケンスを生成するために拡散プロセスを採用している [luo2023latent, he2022latent, ho2022video]。しかしながら、ビデオ拡散モデルは、与えられたテキストプロンプトと正確に一致するビデオを生成することに苦戦することが多いという顕著な制限がある。特に空間的関係(例:「AがBの上にある」)や時間的スタイルの表現(例:「ズームイン」)において課題がある。

Diffusion model with LVLM feedback

大規模言語モデル(LLM)を用いて拡散生成プロセスを改善するためのいくつかのアプローチが提案されているが [lian2023llm, wu2024self, feng2024layoutgpt, zhong2023adapter]、画像ドメインも扱える大規模視覚言語モデル(LVLM)を活用する方法の探求は限られている。最近の研究では、拡散モデルへのフィードバック機構としてLVLMを統合し、制御を強化し拡散プロセスを誘導する方法が探求されている。例えば、RPG [yang2024mastering]は、拡散モデルのクロスアテンション層を操作するプランナーとしてLVLMを利用し、一方Demon [yeh2024training]は、LVLMが与えられたペルソナに沿って拡散を誘導できることを示している。対照的に、我々のアプローチは、LVLMのフレーム間ダイナミクスを理解する能力を活用し、この強みをビデオドメインに適用してテキストとビデオの整合性を向上させている。

Human Preference Alignment via Reward Models

人間の選好との整合性は、報酬モデルの勾配を用いた拡散モデルの微調整(DRaFT [clark2023directly]、AlignProp [prabhudesai2023aligning])または方策勾配(DDPO [black2023training]、DPOK [fan2024reinforcement])を通じて、拡散モデルの生成品質を向上させてきた。一方、DOODL [wallace2023end]とDemon [yeh2024training]は、拡散モデルを訓練せずにテキストとの整合性を達成するために、ノイズ除去プロセスを誘導する。ただし、前述の手法はすべて画像領域に焦点を当てていることに注意が必要である。最近の研究であるVADER [prabhudesai2024video]は、美的およびテキストに整合した生成のために、報酬モデルの勾配を用いて事前訓練された動画拡散モデルを微調整している。この手法は動画報酬モデルを使用して有望な結果を示しているが、大量のメモリを必要とし、LVLMを活用していない。我々は、画像報酬勾配を微調整なしで近似するテキスト-動画整合手法を提案することで、これらの制限に対処する。

Zeroth order gradient approximation

0次勾配、または勾配フリーアプローチは、複数の点を評価することで微分不可能な関数の勾配を近似する [liu2020primer, nesterov2017random]。拡散ベースの逆問題では、EnKF [zheng2024ensemble]やSCG [huang2024symbolic]のような手法が、微分不可能またはブラックボックスの順モデルに基づいてサンプリングを誘導するために勾配フリー近似を活用している。しかし、動画拡散モデルのサンプリングを誘導するための勾配フリーアプローチに特化した研究は不足している。動画拡散モデルにおいて、ブラックボックスの報酬モデルを0次勾配で近似することは有利である。なぜなら、報酬の勾配が利用できず、動画データの高次元空間がメモリに制限を課すためである。

3 Preliminaries

3.1 Video Latent diffusion model

ビデオ潜在拡散モデル(VLDM)は、前方拡散過程によって生成されたランダムノイズを反復的に除去することで確率過程を学習する[dhariwal2021diffusion]

q(𝒛t|𝒛0)=𝒩(𝒛t;1α¯t𝒛0,α¯t𝐈),𝑞conditionalsubscript𝒛𝑡subscript𝒛0𝒩subscript𝒛𝑡1subscript¯𝛼𝑡subscript𝒛0subscript¯𝛼𝑡𝐈q({\bm{z}}_{t}|{\bm{z}}_{0})=\mathcal{N}({\bm{z}}_{t};\sqrt{1-\bar{\alpha}_{t}% }\,{\bm{z}}_{0},\bar{\alpha}_{t}\mathbf{I}),italic_q ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) = caligraphic_N ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ; square-root start_ARG 1 - over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_I ) , (1)

ここで、𝒛0=(𝒙)subscript𝒛0𝒙{\bm{z}}_{0}=\mathcal{E}({\bm{x}})bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT = caligraphic_E ( bold_italic_x )はエンコーダー\mathcal{E}caligraphic_Eによるクリーンビデオの潜在エンコーディングであり、α¯tsubscript¯𝛼𝑡\bar{\alpha}_{t}over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTはタイムステップt𝑡titalic_tにおけるノイズスケジューリング係数である。VLDMは以下の目的関数を最小化することで𝒛tsubscript𝒛𝑡{\bm{z}}_{t}bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTのノイズを推定する:

𝔼𝒛0,ϵ,t,𝒄[ϵϵθ(𝒛t,t,𝒄)2],subscript𝔼subscript𝒛0bold-italic-ϵ𝑡𝒄delimited-[]superscriptnormbold-italic-ϵsubscriptbold-italic-ϵ𝜃subscript𝒛𝑡𝑡𝒄2\mathbb{E}_{{\bm{z}}_{0},\bm{\epsilon},t,{\bm{c}}}\left[\|\bm{\epsilon}-\bm{% \epsilon}_{\theta}({\bm{z}}_{t},t,{\bm{c}})\|^{2}\right],blackboard_E start_POSTSUBSCRIPT bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , bold_italic_ϵ , italic_t , bold_italic_c end_POSTSUBSCRIPT [ ∥ bold_italic_ϵ - bold_italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_italic_c ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ] , (2)

ここで、ϵ𝒩(0,𝐈)similar-tobold-italic-ϵ𝒩0𝐈\bm{\epsilon}\sim\mathcal{N}(0,\mathbf{I})bold_italic_ϵ ∼ caligraphic_N ( 0 , bold_I )および𝒄𝒄{\bm{c}}bold_italic_cは条件付け入力を表す。

クリーンな潜在表現を取得するために、我々は逆時間確率微分方程式(SDE)サンプリングプロセスを使用する:

d𝒛t=𝒇¯(𝒛t)dt+g(𝒛t)d𝐰¯=[𝒇(𝒛t)g(𝒛t)2𝒛tlogp(𝒛t)]dt+g(𝒛t)d𝐰¯,𝑑subscript𝒛𝑡¯𝒇subscript𝒛𝑡𝑑𝑡𝑔subscript𝒛𝑡𝑑¯𝐰delimited-[]𝒇subscript𝒛𝑡𝑔superscriptsubscript𝒛𝑡2subscriptsubscript𝒛𝑡𝑝subscript𝒛𝑡𝑑𝑡𝑔subscript𝒛𝑡𝑑¯𝐰\displaystyle\begin{split}d{\bm{z}}_{t}&=\bar{{\bm{f}}}({\bm{z}}_{t})dt+g({\bm% {z}}_{t})\,d\bar{\mathbf{w}}\\ &=\left[{\bm{f}}({\bm{z}}_{t})-g({\bm{z}}_{t})^{2}\nabla_{{\bm{z}}_{t}}\log p(% {\bm{z}}_{t})\right]dt+g({\bm{z}}_{t})\,d\bar{\mathbf{w}},\end{split}start_ROW start_CELL italic_d bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_CELL start_CELL = over¯ start_ARG bold_italic_f end_ARG ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) italic_d italic_t + italic_g ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) italic_d over¯ start_ARG bold_w end_ARG end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = [ bold_italic_f ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) - italic_g ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ∇ start_POSTSUBSCRIPT bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUBSCRIPT roman_log italic_p ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ] italic_d italic_t + italic_g ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) italic_d over¯ start_ARG bold_w end_ARG , end_CELL end_ROW (3)

ここで、𝒇𝒇{\bm{f}}bold_italic_fおよび𝒇¯¯𝒇\bar{{\bm{f}}}over¯ start_ARG bold_italic_f end_ARGはそれぞれ前方SDEと逆SDEのドリフト項であり、g𝑔gitalic_gは拡散係数、𝐰¯¯𝐰\bar{\mathbf{w}}over¯ start_ARG bold_w end_ARGは逆時間ウィーナー過程を表す。逆SDEの初期点は正規ガウス分布からサンプリングされる。適切なノイズスケジュールで逆SDEを離散化することにより、VLDMはDDIM [song2020denoising]軌道に基づいてクリーンな潜在表現を取得する。

σt:=η(1α¯t11α¯t)(1α¯tα¯t1)𝒛0|t=1α¯t(𝒛t1α¯tϵθ(𝒛t,t,𝒄))𝒛t1=α¯t1𝒛0|t+1α¯t1σt2ϵθ(𝒛t,t,𝒄)+σtϵ,assignsubscript𝜎𝑡𝜂1subscript¯𝛼𝑡11subscript¯𝛼𝑡1subscript¯𝛼𝑡subscript¯𝛼𝑡1subscript𝒛conditional0𝑡1subscript¯𝛼𝑡subscript𝒛𝑡1subscript¯𝛼𝑡subscriptitalic-ϵ𝜃subscript𝒛𝑡𝑡𝒄subscript𝒛𝑡1subscript¯𝛼𝑡1subscript𝒛conditional0𝑡1subscript¯𝛼𝑡1superscriptsubscript𝜎𝑡2subscriptbold-italic-ϵ𝜃subscript𝒛𝑡𝑡𝒄subscript𝜎𝑡bold-italic-ϵ\displaystyle\begin{split}\sigma_{t}&:=\eta\sqrt{\left(\frac{1-\bar{\alpha}_{t% -1}}{1-\bar{\alpha}_{t}}\right)\left(1-\frac{\bar{\alpha}_{t}}{\bar{\alpha}_{t% -1}}\right)}\\ {\bm{z}}_{0|t}&=\frac{1}{\sqrt{\bar{\alpha}_{t}}}\left({\bm{z}}_{t}-\sqrt{1-% \bar{\alpha}_{t}}\epsilon_{\theta}({\bm{z}}_{t},t,{\bm{c}})\right)\\ {\bm{z}}_{t-1}&=\sqrt{\bar{\alpha}_{t-1}}{\bm{z}}_{0|t}+\sqrt{1-\bar{\alpha}_{% t-1}-\sigma_{t}^{2}}\bm{\epsilon}_{\theta}({\bm{z}}_{t},t,{\bm{c}})+\sigma_{t}% {\bm{\epsilon}},\end{split}start_ROW start_CELL italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_CELL start_CELL := italic_η square-root start_ARG ( divide start_ARG 1 - over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG start_ARG 1 - over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG ) ( 1 - divide start_ARG over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG start_ARG over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG ) end_ARG end_CELL end_ROW start_ROW start_CELL bold_italic_z start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT end_CELL start_CELL = divide start_ARG 1 end_ARG start_ARG square-root start_ARG over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - square-root start_ARG 1 - over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_italic_c ) ) end_CELL end_ROW start_ROW start_CELL bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_CELL start_CELL = square-root start_ARG over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG bold_italic_z start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT + square-root start_ARG 1 - over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT - italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG bold_italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_italic_c ) + italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_italic_ϵ , end_CELL end_ROW (4)

ここで、σtsubscript𝜎𝑡\sigma_{t}italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTはサンプリングの確率性を制御し、ϵ𝒩(0,𝐈)similar-tobold-italic-ϵ𝒩0𝐈{\bm{\epsilon}}\sim{\mathcal{N}}(0,{\mathbf{I}})bold_italic_ϵ ∼ caligraphic_N ( 0 , bold_I )および𝒛0|t=𝔼[𝒛0|𝒛t]subscript𝒛conditional0𝑡𝔼delimited-[]conditionalsubscript𝒛0subscript𝒛𝑡{\bm{z}}_{0|t}={\mathbb{E}}[{\bm{z}}_{0}|{\bm{z}}_{t}]bold_italic_z start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT = blackboard_E [ bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ]はTweedieの公式[efron2011tweedie]によって計算された𝒛tsubscript𝒛𝑡{\bm{z}}_{t}bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの事後平均またはノイズ除去版を表す。潜在表現をビデオドメインに戻すために、デコーダー𝒟𝒟\mathcal{D}caligraphic_Dが潜在表現をデコードするために使用される。

3.2 Guidance in Diffusion Model

式(3)の逆SDEが与えられた場合、我々の目標は最適な制御 𝒖(𝒛t)𝒖subscript𝒛𝑡{\bm{u}}({\bm{z}}_{t})bold_italic_u ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) を得ることである:

d𝒛t𝑑subscript𝒛𝑡\displaystyle d{\bm{z}}_{t}italic_d bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT =[f¯(𝒛t)+𝒖(𝒛t)]dt+g(𝒛t)d𝐰¯,absentdelimited-[]¯𝑓subscript𝒛𝑡𝒖subscript𝒛𝑡𝑑𝑡𝑔subscript𝒛𝑡𝑑¯𝐰\displaystyle=\left[\bar{f}({\bm{z}}_{t})+{\bm{u}}({\bm{z}}_{t})\right]dt+g({% \bm{z}}_{t})\,d\bar{\mathbf{w}},= [ over¯ start_ARG italic_f end_ARG ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) + bold_italic_u ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ] italic_d italic_t + italic_g ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) italic_d over¯ start_ARG bold_w end_ARG , (5)

これはサンプリングプロセスを目標分布 p(𝒛t|y)𝑝conditionalsubscript𝒛𝑡𝑦p({\bm{z}}_{t}|y)italic_p ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_y ) に向けて導く。ここで y𝑦yitalic_y はラベル、クラス、またはテキストプロンプトなどの望ましい条件を表す[williams1979diffusions]。 分類器ガイダンス[nie2022diffusion]では、尤度 p(y|𝒛t)𝑝conditional𝑦subscript𝒛𝑡p(y|{\bm{z}}_{t})italic_p ( italic_y | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) を推定する補助的な分類器が利用可能な場合、制御項は以下のように定義できる:

𝒖(𝒛t)=g(𝒛t)2w𝒛tlogp(y|𝒛t),𝒖subscript𝒛𝑡𝑔superscriptsubscript𝒛𝑡2𝑤subscriptsubscript𝒛𝑡𝑝conditional𝑦subscript𝒛𝑡{\bm{u}}({\bm{z}}_{t})=-g({\bm{z}}_{t})^{2}w\nabla_{{\bm{z}}_{t}}\log p(y|{\bm% {z}}_{t}),bold_italic_u ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) = - italic_g ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT italic_w ∇ start_POSTSUBSCRIPT bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUBSCRIPT roman_log italic_p ( italic_y | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) , (6)

ここで w𝑤witalic_w はガイダンスの強さを調整するスケーリング係数である。この制御項は、ベイズの定理を適用して p(𝒛t|y)p(𝒛t|y)p(y|𝒛t)wproportional-to𝑝conditionalsubscript𝒛𝑡𝑦𝑝conditionalsubscript𝒛𝑡𝑦𝑝superscriptconditional𝑦subscript𝒛𝑡𝑤p({\bm{z}}_{t}|y)\propto p({\bm{z}}_{t}|y)p(y|{\bm{z}}_{t})^{w}italic_p ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_y ) ∝ italic_p ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_y ) italic_p ( italic_y | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT italic_w end_POSTSUPERSCRIPT を表現することから導かれる。

報酬モデルを分類器として扱うことで分類器ガイダンスを適応させることを考えるかもしれない。しかし、この手法には2つの課題がある:報酬モデルはノイズのある潜在表現 𝒛tsubscript𝒛𝑡{\bm{z}}_{t}bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT で訓練されておらず、微分可能性が必要である。これらの制限を緩和するために、我々は以下の第3.3節で説明するように、0次勾配近似を用いたパス積分制御アプローチを利用する。

3.3 Path Integral Control

拡散モデルをエントロピー正則化されたマルコフ決定過程(MDP)と考えると、我々は逆確率微分方程式を強化学習(RL)フレームワークとして概念化できる[uehara2024understanding, black2023training, fan2024reinforcement]。ここで、状態𝒔tsubscript𝒔𝑡{\bm{s}}_{t}bold_italic_s start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTと行動𝒂tsubscript𝒂𝑡{\bm{a}}_{t}bold_italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTは入力𝒛tsubscript𝒛𝑡{\bm{z}}_{t}bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTに対応する。この定式化において、最適方策psuperscript𝑝p^{*}italic_p start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPTは以下の目的関数を最大化する:

𝔼p[𝒓(𝒛0)ατ=T1DKL(p(𝒛τ1|𝒛τ)||pθ(𝒛τ1|𝒛τ))],{\mathbb{E}}_{p}[{\bm{r}}({\bm{z}}_{0})-\alpha\sum_{\tau=T}^{1}D_{KL}(p({\bm{z% }}_{\tau-1}|{\bm{z}}_{\tau})||p_{\theta}({\bm{z}}_{\tau-1}|{\bm{z}}_{\tau}))],blackboard_E start_POSTSUBSCRIPT italic_p end_POSTSUBSCRIPT [ bold_italic_r ( bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) - italic_α ∑ start_POSTSUBSCRIPT italic_τ = italic_T end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT italic_D start_POSTSUBSCRIPT italic_K italic_L end_POSTSUBSCRIPT ( italic_p ( bold_italic_z start_POSTSUBSCRIPT italic_τ - 1 end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT italic_τ end_POSTSUBSCRIPT ) | | italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_τ - 1 end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT italic_τ end_POSTSUBSCRIPT ) ) ] , (7)

ここで、α𝛼\alphaitalic_αは拡散モデルによって定義される元の方策pθsubscript𝑝𝜃p_{\theta}italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTとのKLダイバージェンスの係数である。pθ(𝒛t1|𝒛t)=𝒩(𝝁t,σt2𝑰)subscript𝑝𝜃conditionalsubscript𝒛𝑡1subscript𝒛𝑡𝒩subscript𝝁𝑡superscriptsubscript𝜎𝑡2𝑰p_{\theta}({\bm{z}}_{t-1}|{\bm{z}}_{t})={\mathcal{N}}({\bm{\mu}}_{t},\sigma_{t% }^{2}{\bm{I}})italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) = caligraphic_N ( bold_italic_μ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT bold_italic_I )を拡散モデルのSDEにおける逆遷移分布とし、pθ(𝒛0:t):=pθ(𝒛t)Πτ=1tp(𝒛τ1|𝒛τ)assignsubscript𝑝𝜃subscript𝒛:0𝑡subscript𝑝𝜃subscript𝒛𝑡superscriptsubscriptΠ𝜏1𝑡𝑝conditionalsubscript𝒛𝜏1subscript𝒛𝜏p_{\theta}({\bm{z}}_{0:t}):=p_{\theta}({\bm{z}}_{t})\Pi_{\tau=1}^{t}p({\bm{z}}% _{\tau-1}|{\bm{z}}_{\tau})italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT 0 : italic_t end_POSTSUBSCRIPT ) := italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) roman_Π start_POSTSUBSCRIPT italic_τ = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT italic_p ( bold_italic_z start_POSTSUBSCRIPT italic_τ - 1 end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT italic_τ end_POSTSUBSCRIPT )とする。我々は価値関数を以下のように定義できる:

exp(𝒗(𝒛t)α)=exp(𝒗(𝒛t1)α)pθ(𝒛t1|𝒛t)𝑑𝒛t1=𝔼pθ(𝒛0:t)[exp(𝒓(𝒛0)α)|𝒛t],𝒗subscript𝒛𝑡𝛼𝒗subscript𝒛𝑡1𝛼subscript𝑝𝜃conditionalsubscript𝒛𝑡1subscript𝒛𝑡differential-dsubscript𝒛𝑡1subscript𝔼subscript𝑝𝜃subscript𝒛:0𝑡delimited-[]conditional𝒓subscript𝒛0𝛼subscript𝒛𝑡\displaystyle\begin{split}\exp{\left(\frac{{\bm{v}}({\bm{z}}_{t})}{\alpha}% \right)}&=\int\exp{\left(\frac{{\bm{v}}({\bm{z}}_{t-1})}{\alpha}\right)}p_{% \theta}({\bm{z}}_{t-1}|{\bm{z}}_{t})d{\bm{z}}_{t-1}\\ &={\mathbb{E}}_{p_{\theta}({\bm{z}}_{0:t})}\left[\exp\left(\frac{{\bm{r}}({\bm% {z}}_{0})}{\alpha}\right)|{\bm{z}}_{t}\right],\end{split}start_ROW start_CELL roman_exp ( divide start_ARG bold_italic_v ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α end_ARG ) end_CELL start_CELL = ∫ roman_exp ( divide start_ARG bold_italic_v ( bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α end_ARG ) italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) italic_d bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = blackboard_E start_POSTSUBSCRIPT italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT 0 : italic_t end_POSTSUBSCRIPT ) end_POSTSUBSCRIPT [ roman_exp ( divide start_ARG bold_italic_r ( bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α end_ARG ) | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ] , end_CELL end_ROW (8)

ここで、𝒗(𝒛0)=𝒓(𝒛0)𝒗subscript𝒛0𝒓subscript𝒛0{\bm{v}}({\bm{z}}_{0})={\bm{r}}({\bm{z}}_{0})bold_italic_v ( bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) = bold_italic_r ( bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT )は報酬関数である[uehara2024understanding]

エントロピー正則化されたMDPシステムに対する最適制御は、以下のハミルトン・ヤコビ・ベルマン(HJB)方程式を解くことで得られる[uehara2024fine, huang2024symbolic]

𝒖(𝒛t)=σt2𝒛t𝒗(𝒛t)α.𝒖subscript𝒛𝑡superscriptsubscript𝜎𝑡2subscriptsubscript𝒛𝑡𝒗subscript𝒛𝑡𝛼{\bm{u}}({\bm{z}}_{t})=-\frac{\sigma_{t}^{2}\nabla_{{\bm{z}}_{t}}{\bm{v}}({\bm% {z}}_{t})}{\alpha}.bold_italic_u ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) = - divide start_ARG italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ∇ start_POSTSUBSCRIPT bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUBSCRIPT bold_italic_v ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α end_ARG . (9)

しかし、この項は価値関数の勾配を必要とする。勾配の要件を回避するために、経路積分制御を使用することができる。これは確率的最適制御の原理に基づいて最適制御(またはガイダンス)を推定するアプローチである[theodorou2010generalized, kappen2005path, uehara2024fine][huang2024symbolic]では、最適制御は以下のように近似される:

𝒖(𝒛t)𝔼[exp(𝒓(𝒛0)α)(𝒛t1𝝁t)|𝒛t]𝔼[exp(𝒓(𝒛0)α)|𝒛t].similar-to-or-equals𝒖subscript𝒛𝑡𝔼delimited-[]conditional𝒓subscript𝒛0𝛼subscript𝒛𝑡1subscript𝝁𝑡subscript𝒛𝑡𝔼delimited-[]conditional𝒓subscript𝒛0𝛼subscript𝒛𝑡\displaystyle\begin{split}{\bm{u}}({\bm{z}}_{t})&\simeq-\frac{{\mathbb{E}}% \left[\exp\left(\frac{{\bm{r}}({\bm{z}}_{0})}{\alpha}\right)({\bm{z}}_{t-1}-{% \bm{\mu}}_{t})|{\bm{z}}_{t}\right]}{{\mathbb{E}}\left[\exp\left(\frac{{\bm{r}}% ({\bm{z}}_{0})}{\alpha}\right)|{\bm{z}}_{t}\right]}.\end{split}start_ROW start_CELL bold_italic_u ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_CELL start_CELL ≃ - divide start_ARG blackboard_E [ roman_exp ( divide start_ARG bold_italic_r ( bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α end_ARG ) ( bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT - bold_italic_μ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ] end_ARG start_ARG blackboard_E [ roman_exp ( divide start_ARG bold_italic_r ( bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α end_ARG ) | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ] end_ARG . end_CELL end_ROW (10)

SCG[huang2024symbolic]がこの最適制御を拡散モデルと共に使用して画像ドメインの逆問題を解決する一方で、我々はLVLMsを使用してビデオをガイドし、テキストとの整合性を向上させることを目指す。

4 Method: Free2Guide

本節では、Free2Guideを紹介する。これは、サンプリングプロセス中に非微分可能な報酬モデルを使用してビデオ生成を誘導するフレームワークである。4.1節では、大規模ビジョン言語モデル(LVLM)を含む画像ベースの報酬モデルをテキスト-ビデオの整合性に適用する方法について論じる。4.2節では、相乗効果を達成するために複数の報酬モデルをアンサンブルする方法を概説する。最後に、拡散モデルをエントロピー正則化されたMDPとして解釈し、その実践的な実装について説明する(4.3節)。

4.1 Adapting Image-based Rewards for Video

セクション3.3で議論したパス積分制御アプローチを活用することで、報酬関数の勾配に依存せずに逆過程を誘導することができる。式(10)の報酬モデル𝒓𝒓{\bm{r}}bold_italic_rが生成された動画とテキストプロンプトの整合性を評価する場合、プロンプトに対する動画出力の忠実度を向上させるのに役立つ。しかし、静止画と比較して動画の複雑さが高いため、動画とテキストの整合性に特化して訓練された大規模モデルは限られている。そのため、我々は大規模なテキスト-画像ペアのデータセットで訓練されたモデルに依存している。

しかしながら、これらの画像ベースの報酬モデルを動画のガイダンスに直接適用することには課題がある。画像ベースのモデルは動き、フロー、ダイナミクスなどの時間依存の特徴を処理するように設計されていないため、テキストと動画の整合性を評価するためにはこれらのモデルに特別な適応が必要である。アルゴリズム1に示すように、我々は画像ベースのモデルからフレームごとの報酬を合計することで動画の報酬を計算する。このアプローチにより、個々の動画フレーム内の空間情報との整合性が可能になるが、時間的なダイナミクスに関するガイダンスはまだ不足している。

我々のフレームワークは報酬モデルの微分可能性を必要としないため、動画の整合性を扱う強力なブラックボックスLVLMを十分に活用できる。LVLMは静的な画像-テキストデータで訓練されているが、多様な視覚的文脈に関する広範な事前訓練により、動きの要素を捉えることができるため、時間情報を効果的に扱うことができる。ここで、我々はLVLMの時間認識を活用してテキストと動画の整合性を評価するために、LVLMを報酬モデルとして採用する。LVLMを複数のフレームを同時に評価するように適応させるために、図2に示すように、キーフレームを1つの合成画像に結合し、同時に時間処理を可能にする。次に、システムプロンプトを通じて合成画像内のフレームの順序に関する明示的な指示を提供し、モデルがシーケンスを理解できるようにする。この効率的な適応により、LVLMはフレームを線形にリストアップするのではなく、フレーム番号を参照することでフレームの順序を認識できるようになる。その後、合成画像とテキストプロンプトの間の整合性スコアを要求する。LVLMは1から9のスケールでキーフレームとプロンプトの整合性を評価し、これが報酬関数として機能する。システム指示とクエリテンプレートの詳細は付録Aに記載されている。

アルゴリズム1 報酬モデル 𝒓(𝒟(𝒛0|t),𝒄)𝒓𝒟subscript𝒛conditional0𝑡𝒄{\bm{r}}(\mathcal{D}({\bm{z}}_{0|t}),{\bm{c}})bold_italic_r ( caligraphic_D ( bold_italic_z start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT ) , bold_italic_c )
1:報酬関数 𝒓𝒓{\bm{r}}bold_italic_r、条件 𝒄𝒄{\bm{c}}bold_italic_c、プロンプト 𝒑𝒑{\bm{p}}bold_italic_p、デコードされたフレーム 𝒙0|t:=𝒟(𝒛0|t)assignsubscript𝒙conditional0𝑡𝒟subscript𝒛conditional0𝑡{\bm{x}}_{0|t}:=\mathcal{D}({\bm{z}}_{0|t})bold_italic_x start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT := caligraphic_D ( bold_italic_z start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT )、およびキーフレーム k[1,N]𝑘1𝑁k\subset[1,N]italic_k ⊂ [ 1 , italic_N ]
2:if 𝒓𝒓{\bm{r}}bold_italic_r が CLIP である then
3: 報酬 iksim(𝒓(𝒙0|ti),𝒓(𝒄))absentsubscript𝑖𝑘sim𝒓superscriptsubscript𝒙conditional0𝑡𝑖𝒓𝒄\leftarrow\sum_{i\in k}\texttt{sim}({\bm{r}}({\bm{x}}_{0|t}^{i}),{\bm{r}}({\bm% {c}}))← ∑ start_POSTSUBSCRIPT italic_i ∈ italic_k end_POSTSUBSCRIPT sim ( bold_italic_r ( bold_italic_x start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ) , bold_italic_r ( bold_italic_c ) )
4:else if 𝒓𝒓{\bm{r}}bold_italic_r が ImageReward である then
5: 報酬 ik𝒓(𝒙0|ti,𝒄)absentsubscript𝑖𝑘𝒓superscriptsubscript𝒙conditional0𝑡𝑖𝒄\leftarrow\sum_{i\in k}{\bm{r}}({\bm{x}}_{0|t}^{i},{\bm{c}})← ∑ start_POSTSUBSCRIPT italic_i ∈ italic_k end_POSTSUBSCRIPT bold_italic_r ( bold_italic_x start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT , bold_italic_c )
6:else if 𝒓𝒓{\bm{r}}bold_italic_r が LVLM である then
7: 報酬 𝒓(concatik(𝒙0|ti),𝒄,𝒑)absent𝒓subscriptconcat𝑖𝑘superscriptsubscript𝒙conditional0𝑡𝑖𝒄𝒑\leftarrow{\bm{r}}(\texttt{concat}_{i\in k}({\bm{x}}_{0|t}^{i}),{\bm{c}},{\bm{% p}})← bold_italic_r ( concat start_POSTSUBSCRIPT italic_i ∈ italic_k end_POSTSUBSCRIPT ( bold_italic_x start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ) , bold_italic_c , bold_italic_p )
8:end if
9:return 報酬
アルゴリズム2 Free2Guide
1:動画拡散モデル ϵθsubscriptbold-italic-ϵ𝜃{\bm{\epsilon}}_{\theta}bold_italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT、報酬関数 𝒓𝒓{\bm{r}}bold_italic_r、デコーダー 𝒟𝒟\mathcal{D}caligraphic_D、ノイズスケジューリングパラメータ {α¯t}t=1T,{σt}t=1Tsuperscriptsubscriptsubscript¯𝛼𝑡𝑡1𝑇superscriptsubscriptsubscript𝜎𝑡𝑡1𝑇\{\bar{\alpha}_{t}\}_{t=1}^{T},\{\sigma_{t}\}_{t=1}^{T}{ over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_t = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT , { italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_t = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT
2:for t=T𝑡𝑇t=Titalic_t = italic_T to 1111 do
3: 𝒛0|t1α¯t1(𝒛t1α¯tϵθ(𝒛t))subscript𝒛conditional0𝑡1subscript¯𝛼𝑡1subscript𝒛𝑡1subscript¯𝛼𝑡subscriptbold-italic-ϵ𝜃subscript𝒛𝑡{\bm{z}}_{0|t}\leftarrow\frac{1}{\sqrt{\bar{\alpha}_{t-1}}}\left({\bm{z}}_{t}-% \sqrt{1-\bar{\alpha}_{t}}{\bm{\epsilon}}_{\theta}({\bm{z}}_{t})\right)bold_italic_z start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT ← divide start_ARG 1 end_ARG start_ARG square-root start_ARG over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG end_ARG ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - square-root start_ARG 1 - over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG bold_italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) )
4: 𝒛^t1α¯t𝒛0|t+1α¯t1σt2ϵθ(𝒛t)subscript^𝒛𝑡1subscript¯𝛼𝑡subscript𝒛conditional0𝑡1subscript¯𝛼𝑡1superscriptsubscript𝜎𝑡2subscriptbold-italic-ϵ𝜃subscript𝒛𝑡\hat{{\bm{z}}}_{t-1}\leftarrow\sqrt{\bar{\alpha}_{t}}{\bm{z}}_{0|t}+\sqrt{1-% \bar{\alpha}_{t-1}-\sigma_{t}^{2}}{\bm{\epsilon}}_{\theta}({\bm{z}}_{t})over^ start_ARG bold_italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT ← square-root start_ARG over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG bold_italic_z start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT + square-root start_ARG 1 - over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT - italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG bold_italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )
5: ϵ1,,ϵn𝒩(0,𝐈)similar-tosuperscriptbold-italic-ϵ1superscriptbold-italic-ϵ𝑛𝒩0𝐈{\bm{\epsilon}}^{1},\cdots,{\bm{\epsilon}}^{n}\sim{\mathcal{N}}(0,{\mathbf{I}})bold_italic_ϵ start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , ⋯ , bold_italic_ϵ start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT ∼ caligraphic_N ( 0 , bold_I )
6: 𝒛t1i𝒛^t1+σtϵisuperscriptsubscript𝒛𝑡1𝑖subscript^𝒛𝑡1subscript𝜎𝑡superscriptbold-italic-ϵ𝑖{\bm{z}}_{t-1}^{i}\leftarrow\hat{{\bm{z}}}_{t-1}+\sigma_{t}{\bm{\epsilon}}^{i}bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ← over^ start_ARG bold_italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT + italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_italic_ϵ start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT
7: 𝒛0|t1i1α¯t1(𝒛t1i1α¯t1ϵθ(𝒛t1i))superscriptsubscript𝒛conditional0𝑡1𝑖1subscript¯𝛼𝑡1superscriptsubscript𝒛𝑡1𝑖1subscript¯𝛼𝑡1subscriptbold-italic-ϵ𝜃superscriptsubscript𝒛𝑡1𝑖{\bm{z}}_{0|t-1}^{i}\leftarrow\frac{1}{\sqrt{\bar{\alpha}_{t-1}}}\left({\bm{z}% }_{t-1}^{i}-\sqrt{1-\bar{\alpha}_{t-1}}{\bm{\epsilon}}_{\theta}({\bm{z}}_{t-1}% ^{i})\right)bold_italic_z start_POSTSUBSCRIPT 0 | italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ← divide start_ARG 1 end_ARG start_ARG square-root start_ARG over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG end_ARG ( bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - square-root start_ARG 1 - over¯ start_ARG italic_α end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG bold_italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ) )
8: 𝒓1subscript𝒓1absent{\bm{r}}_{1}\leftarrowbold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ←LVLM
9: if アンサンブル then
10: 𝒓2{CLIP, ImageReward}subscript𝒓2CLIP, ImageReward{\bm{r}}_{2}\in\{\text{CLIP, ImageReward}\}bold_italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ∈ { CLIP, ImageReward }
11: jargmaxi𝑗subscriptargmax𝑖j\leftarrow\text{argmax}_{i}italic_j ← argmax start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT セクション4.2からの報酬(𝒟(𝒛0|t1i),𝒓1,𝒓2)ens{}_{\text{ens}}(\mathcal{D}({\bm{z}}_{0|t-1}^{i}),{\bm{r}}_{1},{\bm{r}}_{2})\quadstart_FLOATSUBSCRIPT ens end_FLOATSUBSCRIPT ( caligraphic_D ( bold_italic_z start_POSTSUBSCRIPT 0 | italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ) , bold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , bold_italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT )
12: else
13: jargmaxi𝑗subscriptargmax𝑖j\leftarrow\text{argmax}_{i}italic_j ← argmax start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 𝒓1(𝒟(𝒛0|t1i),𝒄)subscript𝒓1𝒟superscriptsubscript𝒛conditional0𝑡1𝑖𝒄{\bm{r}}_{1}(\mathcal{D}({\bm{z}}_{0|t-1}^{i}),{\bm{c}})bold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( caligraphic_D ( bold_italic_z start_POSTSUBSCRIPT 0 | italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ) , bold_italic_c )
14: end if
15: 𝒛t1𝒛t1jsubscript𝒛𝑡1superscriptsubscript𝒛𝑡1𝑗{\bm{z}}_{t-1}\leftarrow{\bm{z}}_{t-1}^{j}bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT ← bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_j end_POSTSUPERSCRIPT
16:end for
17:return 𝒛0subscript𝒛0{\bm{z}}_{0}bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT

4.2 Ensembling Reward Functions

勾配ベースのガイダンスとは異なり、我々の手法は計算量の多い逆伝播プロセスを回避することで、メモリ要件を大幅に削減する。これにより、サンプリングガイダンスに複数の報酬を同時に使用することが可能となり、大規模画像モデルとの相乗効果が期待できる。我々は、LVLMが時間情報を取り込むことを可能にするアンサンブル手法を探求し、大規模画像モデルと組み合わせることでビデオアラインメントのより効果的なガイダンスを支援する。なお、アンサンブル報酬を提案した同時期の研究であるDemon [yeh2024training]は、アンサンブルの相乗効果を示すことができず、時間情報を扱う必要もなかったことに留意されたい。

n𝑛nitalic_n個のビデオ{Vi}i=1nsuperscriptsubscriptsubscript𝑉𝑖𝑖1𝑛\{V_{i}\}_{i=1}^{n}{ italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPTが与えられた場合、我々は複数の報酬モデルを組み合わせるための3つのアンサンブル手法を提案する:加重和、正規化和、およびコンセンサスである。

  • 加重和: この手法は、固定の重み付け和を計算することで出力を組み合わせ、各報酬モデルの影響を制御することを可能にする。

    Rewardens(Vi,𝒓1,𝒓2)=β𝒓1(Vi)+(1β)𝒓2(Vi),subscriptRewardenssubscript𝑉𝑖subscript𝒓1subscript𝒓2𝛽subscript𝒓1subscript𝑉𝑖1𝛽subscript𝒓2subscript𝑉𝑖\text{Reward}_{\text{ens}}(V_{i},{\bm{r}}_{1},{\bm{r}}_{2})=\beta{\bm{r}}_{1}(% V_{i})+(1-\beta){\bm{r}}_{2}(V_{i}),Reward start_POSTSUBSCRIPT ens end_POSTSUBSCRIPT ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , bold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , bold_italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) = italic_β bold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) + ( 1 - italic_β ) bold_italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) , (11)

    ここで、β[0,1]𝛽01\beta\in[0,1]italic_β ∈ [ 0 , 1 ]は報酬モデル𝒓1subscript𝒓1{\bm{r}}_{1}bold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT𝒓2subscript𝒓2{\bm{r}}_{2}bold_italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTの寄与をバランスさせる定数の重み係数である。

  • 正規化和: この手法では、まず各報酬の出力を[0,1]01[0,1][ 0 , 1 ]の範囲に正規化し、その後これらの正規化された値を合計して最終的なアンサンブル報酬を得る。この正規化により、各報酬モデルのスコアが比較可能なスケールとなり、バランスの取れた寄与が可能となる。

    Rewardens(Vi,𝒓1,𝒓2)=𝒓𝒓(Vi)min(𝒓(Vi))max(𝒓(Vi))min(𝒓(Vi)),subscriptRewardenssubscript𝑉𝑖subscript𝒓1subscript𝒓2subscript𝒓𝒓subscript𝑉𝑖𝒓subscript𝑉𝑖𝒓subscript𝑉𝑖𝒓subscript𝑉𝑖\text{Reward}_{\text{ens}}(V_{i},{\bm{r}}_{1},{\bm{r}}_{2})=\sum_{{\bm{r}}}% \frac{{\bm{r}}(V_{i})-\min({\bm{r}}(V_{i}))}{\max({\bm{r}}(V_{i}))-\min({\bm{r% }}(V_{i}))},Reward start_POSTSUBSCRIPT ens end_POSTSUBSCRIPT ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , bold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , bold_italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) = ∑ start_POSTSUBSCRIPT bold_italic_r end_POSTSUBSCRIPT divide start_ARG bold_italic_r ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) - roman_min ( bold_italic_r ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ) end_ARG start_ARG roman_max ( bold_italic_r ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ) - roman_min ( bold_italic_r ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ) end_ARG , (12)

    ここで、max(𝒓),min(𝒓)𝒓𝒓\max({\bm{r}}),\min({\bm{r}})roman_max ( bold_italic_r ) , roman_min ( bold_italic_r )n𝑛nitalic_n報酬出力の最大値と最小値を表す。

  • コンセンサス: コンセンサス手法、すなわちボルダカウント[emerson2013original]では、 各報酬モデルがビデオを最良から最悪までランク付けし、そのランクに基づいてポイントを割り当てる。最上位のビデオが最大ポイントを受け取り、最下位のランクまで1ポイントずつ減少する。各ビデオVisubscript𝑉𝑖V_{i}italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの総報酬は、両方の報酬モデルからのポイントの合計である。

    Rewardens(Vi,𝒓1,𝒓2)=points𝒓2(Vi)+points𝒓1(Vi),subscriptRewardenssubscript𝑉𝑖subscript𝒓1subscript𝒓2subscriptpointssubscript𝒓2subscript𝑉𝑖subscriptpointssubscript𝒓1subscript𝑉𝑖\text{Reward}_{\text{ens}}(V_{i},{\bm{r}}_{1},{\bm{r}}_{2})=\text{points}_{{% \bm{r}}_{2}}(V_{i})+\text{points}_{{\bm{r}}_{1}}(V_{i}),Reward start_POSTSUBSCRIPT ens end_POSTSUBSCRIPT ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , bold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , bold_italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) = points start_POSTSUBSCRIPT bold_italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) + points start_POSTSUBSCRIPT bold_italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_V start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) , (13)

    ここで、points𝒓subscriptpoints𝒓\text{points}_{{\bm{r}}}points start_POSTSUBSCRIPT bold_italic_r end_POSTSUBSCRIPTは各ランクにポイントを割り当てる(例えば、最良のビデオに5、2番目に4、など)。

4.3 Guidance using Path Integral Control

報酬関数の勾配を計算せずに逆サンプリングプロセスを誘導するために、我々は式(10)で概説されたフレームワークを利用する。しかし、式(10)における報酬関数の期待値は、PF-ODE [song2021scorebased]のような複雑な微分方程式を解くことによる広範なネットワーク関数評価(NFE)を要求する。[huang2024symbolic]に触発され、我々は代わりにDPS [chung2023diffusion]アプローチを適用し、式(8)を式(4)で定義される𝒛tsubscript𝒛𝑡{\bm{z}}_{t}bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの事後平均を用いて近似する。DPSに従い、我々はp(𝒛0:t)=δ(𝒛𝔼[𝒛0|𝒛t])𝑝subscript𝒛:0𝑡𝛿𝒛𝔼delimited-[]conditionalsubscript𝒛0subscript𝒛𝑡p({\bm{z}}_{0:t})=\delta({\bm{z}}-{\mathbb{E}}\left[{\bm{z}}_{0}|{\bm{z}}_{t}% \right])italic_p ( bold_italic_z start_POSTSUBSCRIPT 0 : italic_t end_POSTSUBSCRIPT ) = italic_δ ( bold_italic_z - blackboard_E [ bold_italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ] )をディラックのデルタ分布δ𝛿\deltaitalic_δを用いて設定できる。そうすると式(10)は以下のようになる:

𝒖(𝒛t)𝔼pθ(𝒛t1|𝒛t)[exp(𝒓(𝒛0|t1)α)(𝒛t1𝝁t)]exp(𝒓(𝒛0|t)α).similar-to-or-equals𝒖subscript𝒛𝑡subscript𝔼subscript𝑝𝜃conditionalsubscript𝒛𝑡1subscript𝒛𝑡delimited-[]𝒓subscript𝒛conditional0𝑡1𝛼subscript𝒛𝑡1subscript𝝁𝑡𝒓subscript𝒛conditional0𝑡𝛼{\bm{u}}({\bm{z}}_{t})\simeq-\frac{{\mathbb{E}}_{p_{\theta}({\bm{z}}_{t-1}|{% \bm{z}}_{t})}\left[\exp\left(\frac{{\bm{r}}({\bm{z}}_{0|t-1})}{\alpha}\right)(% {\bm{z}}_{t-1}-{\bm{\mu}}_{t})\right]}{\exp\left(\frac{{\bm{r}}({\bm{z}}_{0|t}% )}{\alpha}\right)}.bold_italic_u ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ≃ - divide start_ARG blackboard_E start_POSTSUBSCRIPT italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT | bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_POSTSUBSCRIPT [ roman_exp ( divide start_ARG bold_italic_r ( bold_italic_z start_POSTSUBSCRIPT 0 | italic_t - 1 end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α end_ARG ) ( bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT - bold_italic_μ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ] end_ARG start_ARG roman_exp ( divide start_ARG bold_italic_r ( bold_italic_z start_POSTSUBSCRIPT 0 | italic_t end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α end_ARG ) end_ARG . (14)

この期待値をモンテカルロ法で近似するために、我々は式(4)で概説された逆SDEを通じてn𝑛nitalic_n個の異なる𝒛t1subscript𝒛𝑡1{\bm{z}}_{t-1}bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTをサンプリングする。そして最適制御を得るためにα0𝛼0\alpha\rightarrow 0italic_α → 0を仮定する。この仮定の下で、式(3)は𝒛t1subscript𝒛𝑡1{\bm{z}}_{t-1}bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTの報酬を最大化する𝒛0|t1subscript𝒛conditional0𝑡1{\bm{z}}_{0|t-1}bold_italic_z start_POSTSUBSCRIPT 0 | italic_t - 1 end_POSTSUBSCRIPTを選択することと等価になる[huang2024symbolic][huang2024symbolic]が報酬関数を恣意的に重み付けし、その重みをゼロと仮定したのに対し、我々はこれを拡散プロセスをエントロピー正則化MDPとして定義することで、式(7)のエントロピー正則化項を緩和するものとして解釈する。実際には、このアプローチは最大の報酬を持つ𝒛t1subscript𝒛𝑡1{\bm{z}}_{t-1}bold_italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTを選択することで、慎重なパラメータ探索を排除する。

アルゴリズム2で説明されているこの調整されたサンプリング戦略に従うことで、Free2Guideは報酬信号とのより良い整合性に向けて動画生成を効率的に誘導することができる。

Refer to caption
図3: 我々の手法の定性的結果。左がLaVieをベースラインとし、右がVideoCrafter2をベースラインとしている。

5 Experiments

ベースラインとサンプリング戦略。 我々は、オープンソースのテキストから動画への拡散モデルであるLaVie [wang2023lavie]とVideoCrafter2 [chen2024videocrafter2]をベースラインモデルとして使用する。生成された動画は16フレームで、解像度は320×512320512320\times 512320 × 512である。我々はLVLMとしてGPT-4o-2024-08-06 [achiam2023gpt]をOpenAI APIを使用して採用する。我々は、LVLMの時間的ダイナミクスを考慮する能力が、大規模な画像報酬モデルと併用された場合にテキストと動画の整合性を向上させることを検証するために、CLIP [radford2021learning]とImageReward [xu2024imagereward]という2つの大規模モデルを採用する。CLIPでは、テキストと画像の埋め込みのコサイン類似度を測定することで整合性を評価できる。一方、ImageRewardは画像とテキストのペアに対する人間の選好を予測するため、その出力を報酬として使用できる。動画ドメインへの適応のために、各ノイズ除去された動画からキーフレームを抽出し、各フレームの報酬を合計して全体的な整合性を評価する。これはアルゴリズム1に概説されている。

我々は、式(4)においてη=1𝜂1\eta=1italic_η = 1を用いた確率的DDIMサンプリングを採用し、合計T=50𝑇50T=50italic_T = 50ステップを実行し、LaVieではガイダンススケールw=7.5𝑤7.5w=7.5italic_w = 7.5、VideoCrafter2ではw=12𝑤12w=12italic_w = 12を使用してクラスフリーガイダンス[ho2022classifier]を適用する。各ガイダンスステップでのサンプル数はLaVieではn=5𝑛5n=5italic_n = 5、VideoCrafter2ではn=10𝑛10n=10italic_n = 10に設定される。ガイダンスはサンプリングの初期ステップ、具体的にはt[T,T5]𝑡𝑇𝑇5t\in[T,T-5]italic_t ∈ [ italic_T , italic_T - 5 ]の範囲内で適用される。重み付き和アンサンブルでは、LVLM報酬にβ=0.75𝛽0.75\beta=0.75italic_β = 0.75の重みを割り当てる。

Method Avg.
LaVie + CLIP 0.5712
+ GPTWeighted Sum 0.5738
+ GPTNormalized Sum 0.5734
+ GPTConsensus 0.5679
Method Avg.
LaVie + ImageReward 0.5676
+ GPTWeighted Sum 0.5726
+ GPTNormalized Sum 0.5715
+ GPTConsensus 0.5692
表1: アンサンブル手法間の定性的比較。
Style Semantics Condition Consistency Avg.

Method

Appearance Style Temporal Style Human Action Multiple Objects Spatial Relationship Overall Consistency

LaVie [wang2023lavie]

0.2312 0.2502 0.9300 0.2027 0.3496 0.2694 0.3722

+GPTOurs

0.2366

(+2.3%)

0.2508

(+0.2%)

0.9300

(-0.0%)

0.2546

(+25.6%)

0.3531

(+1.0%)

0.2709

(+0.6%)

0.3827

+ CLIP

0.2370

(+2.5%)

0.2490

(-0.5%)

0.9400

(+1.1%)

0.2607

(+28.6%)

0.3074

(-12.1%)

0.2738

(+1.6%)

0.3780

++ GPTOurs

0.2350

(+1.6%)

0.2487

(-0.6%)

1.000

(+7.5%)

0.2447

(+20.7%)

0.3180

(-9.0%)

0.2742

(+1.7%)

0.3868

+ ImageReward

0.2360

(+2.1%)

0.2483

(-0.8%)

0.9300

(-0.0%)

0.2637

(+30.1%)

0.2614

(-25.2%)

0.2728

(+1.2%)

0.3687

++ GPTOurs

0.2373

(+2.6%)

0.2497

(-0.2%)

0.9400

(+1.1%)

0.2462

(+21.4%)

0.3014

(-13.8%)

0.2772

(+2.9%)

0.3753

VideoCrafter2 [chen2024videocrafter2]

0.2490 0.2567 0.9300 0.3880 0.3760 0.2778 0.4129

+GPTOurs

0.2504

(+0.6%)

0.2568

(+0.0%)

0.9500

(+2.2%)

0.4878

(+25.7%)

0.4225

(+12.4%)

0.2872

(+3.4%)

0.4425

+ CLIP

0.2542

(+2.1%)

0.2621

(+2.1%)

0.9300

(-0.0%)

0.4261

(+9.8%)

0.2923

(-22.3%)

0.2802

(+0.9%)

0.4075

++ GPTOurs

0.2490

(+0.0%)

0.2612

(+1.8%)

0.9600

(+3.2%)

0.4474

(+15.3%)

0.3361

(-10.6%)

0.2837

(+2.1%)

0.4229

+ ImageReward

0.2513

(+0.9%)

0.2574

(+0.3%)

0.9700

(+4.3%)

0.4733

(+22.0%)

0.4264

(+13.4%)

0.2826

(+1.7%)

0.4435

++ GPTOurs

0.2533

(+1.7%)

0.2607

(+1.6%)

0.9400

(+1.1%)

0.5160

(+33.0%)

0.4371

(+16.3%)

0.2828

(+1.8%)

0.4483
表2: テキストアラインメントに関する定量的評価。数値が高いほどテキストプロンプトとの整合性が高いことを示す。括弧内の数字はベースラインからの性能差を表す。
Temporal Consistency Dynamics Frame-wise Quality Avg.

Method

Subject Consistency Background Consistency Motion Smoothness Dynamic Degree Aesthetic Quality Imaging Quality

LaVie [wang2023lavie]

0.9450 0.9689 0.9718 0.4799 0.5687 0.6611 0.7659

+GPTOurs

0.9470

(+0.2%)

0.9693

(+0.0%)

0.9742

(+0.2%)

0.4725

(-1.5%)

0.5726

(+0.7%)

0.6615

(+0.1%)

0.7662

+ CLIP

0.9495

(+0.5%)

0.9712

(+0.2%)

0.9735

(+0.2%)

0.4560

(-5.0%)

0.5727

(0.7%)

0.6637

(+0.4%)

0.7644

++ GPTOurs

0.9622

(+1.8%)

0.9781

(+0.9%)

0.9804

(+0.9%)

0.3703

(-22.8%)

0.5951

(+4.6%)

0.6795

(+2.8%)

0.7609

+ ImageReward

0.9443

(-0.1%)

0.9681

(-0.1%)

0.9732

(+0.1%)

0.4872

(+1.5%)

0.5664

(-0.4%)

0.6605

(-0.1%)

0.7666

++ GPTOurs

0.9758

(+1.0%)

0.9813

(+0.7%)

0.9832

(+0.1%)

0.5165

(+7.6%)

0.5662

(-0.4%)

0.6530

(-1.2%)

0.7699

VideoCrafter2 [chen2024videocrafter2]

0.9658 0.9748 0.9818 0.3846 0.5860 0.6772 0.7617

+GPTOurs

0.9746

(+0.9%)

0.9800

(+0.5%)

0.9827

(+0.1%)

0.2949

(-23.3%)

0.5977

(+2.0%)

0.6924

(+2.3%)

0.7537

+ CLIP

0.9762

(+1.1%)

0.9816

(+0.7%)

0.9839

(+0.2%)

0.2491

(-35.2%)

0.6037

(+3.0%)

0.6886

(+1.7%)

0.7472

++ GPTOurs

0.9770

(+1.2%)

0.9823

(+0.8%)

0.9838

(+0.2%)

0.2399

(-37.6%)

0.6042

(+3.1%)

0.6878

(+1.6%)

0.7458

+ ImageReward

0.9739

(+0.8%)

0.9801

(+0.5%)

0.9828

(+0.1%)

0.2711

(-29.5%)

0.5994

(+2.3%)

0.6857

(+1.3%)

0.7488

++ GPTOurs

0.9458

(+1.0%)

0.9813

(+0.7%)

0.9832

(+0.1%)

0.2564

(-33.3%)

0.6039

(+3.1%)

0.6877

(+1.6%)

0.7480
表3: テキストプロンプトとは独立した、生成された動画の全般的な品質の比較。数値が高いほど動画の品質が優れていることを示す。括弧内の数字はベースラインからの性能差を表す。

テキストアラインメント評価。 我々は、VBench [huang2023vbench]を用いて定量的評価を行った。これはテキストプロンプトに対するテキスト動画変換(T2V)モデルの整合性を評価するために設計されたベンチマークである。我々の評価プロトコルは、外観スタイル、時間的スタイル、人間の行動、複数のオブジェクト、空間的関係、全体的な一貫性という6つの次元でテキストアラインメントを測定する。公平な比較のため、各指標に標準化されたプロンプトを使用し、異なるモデル間で一貫した条件を確保した。これらの次元は、スタイル、セマンティクス、条件の一貫性という3つの核心的な評価側面にグループ化できる。

スタイルグループは、色、テクスチャ、カメラの動きなどのスタイル的品質を評価する。セマンティクスグループは、人間中心の動き、オブジェクト間の相互作用、テキストプロンプトで指定された空間的関係の遵守など、セマンティックコンテンツを生成するモデルの能力を評価する。条件の一貫性は、セマンティックおよびスタイル的安定性の観点から生成された動画の一貫性を測定する。

一般的な動画品質評価。 テキストアラインメントに加えて、我々はテキストプロンプトとは独立して、生成された動画の一般的な品質を6つの指標で評価する:被写体の一貫性、背景の一貫性、動きの滑らかさ、動的度合い、美的品質、画像品質。これらは3つのグループに分類される:時間的一貫性(被写体と背景の安定性)、ダイナミクス(動きの滑らかさとフロー)、品質(フレームレベルでのリアリズム、自然さ、芸術的品質)。

5.1 Results

本節では、我々の手法の有効性を示すために、定性的および定量的な結果の両方を提示する。図3の上4行は、ベースラインと報酬モデルの視覚的比較を示している。GPT-4oモデルを活用してテキストと動画の整合性を評価することで、時間的動態(例えば「下に傾ける」)および意味的表現(例えば「AとB」)に関する整合性が向上することが観察される。これらの結果は、LVLMが動画の複数のサブフレームを同時に処理することで時間情報を考慮でき、空間理解においても高い性能を発揮することを示している。

LVLMの時間的動態を考慮する能力に基づき、我々は大規模画像モデルからのガイダンスを統合するアンサンブル技術の実現可能性を検証する。このアプローチにより、LVLMは時間情報を処理し、ガイダンスの質を向上させることができる。表1では、VBenchからのテキスト整合性と一般的な動画品質評価の平均スコアを比較することで、最も効果的なアンサンブル手法を探索する。我々は、LVLMにより多くの重みを割り当てることが、モデルの貢献を均等にバランスを取る代替案よりも優れていることを発見した。これは、LVLMの役割が重要であることを示している。したがって、我々は重み付き和アンサンブルをデフォルト設定として採用する。図3の下4行もまた、アンサンブルの定性的結果を示しており、GPT-4oと他の画像報酬モデルを組み合わせることで、単独の報酬モデルでは適切に識別できない動態や複数のオブジェクトに関連する問題を正確に解決しつつ、全体的な構造を維持できることを示している。

より詳細な評価のために、表2でテキストと動画の整合性を評価する定量的結果を比較する。平均評価スコアの分析により、LVLMを組み込むことが一貫してそれを除外した構成を上回ることが明らかになった。特に、ベースライン全体で空間関係の処理において最も顕著な改善が観察された。CLIPはゼロショットでの空間推論能力が限られているため[subramanian2022reclip]、CLIPのみを使用した場合、空間関係におけるテキスト整合性のパフォーマンスが低下する。しかし、LVLMとのアンサンブルは、CLIPが空間的意味をより良く考慮するのに役立つ追加の手がかりを提供し、パフォーマンスの向上につながる。さらに、LVLMを組み込むことで、CLIPが報酬モデルとして使用される場合を除いて、時間的スタイルが向上する。LVLMは複数のフレームを一度に処理することで時間的なニュアンスを理解できるため、時間的な動きの整合性をサポートすることでパフォーマンスを向上させる。

さらに、表3で一般的な動画品質を比較する。我々は、一貫性や動きに関する明示的なガイダンスがなくても、テキストプロンプトとの整合性が動的度合いを除くほとんどの品質指標を向上させることを確認した。この指標は一貫性とトレードオフの関係にあることが多いが、LaVieモデルでGPT-4oとImageRewardをアンサンブルすることで改善できる。これは、ImageRewardがGPT-4o単独では対処できない動的度合いのパフォーマンス低下を補完し、最高のパフォーマンスをもたらすことを示唆している。

5.2 Ablation Study

LVLMを用いた評価方針。 我々は、VideoCrafter2モデルで生成された平均スコアを分析することにより、LVLMにおける評価プロトコルの影響を評価する。具体的には、テキストとビデオの整合性を評価する際に「はい」または「いいえ」のみで回答するようLVLMにシステムプロンプトを変更する。整合性スコアは、上位5つのロジットのうち「はい」に対応する割合を計算することで導出される。表4は、1から9のスケールで整合性を採点することが、テキストの整合性の観点からより良いパフォーマンスを達成することを示している。これは、より広いスケールが忠実度のより微妙な区別を可能にし、LVLMがテキストとビデオの整合性のわずかな違いをより効果的に捉えることができるためであると考えられる。

Method Text Alignment General Quailty Avg.
VideoCrafter2 0.4129 0.7617 0.5873
+GPTYes or No 0.4358 0.7550 0.5954
+GPTFrom 1 to 9 0.4425 0.7537 0.5981
表4: LVLMを用いた評価方針による平均結果。

6 Conclusion and Limitation

Conclusion

本稿では、報酬勾配に依存せずにテキストと動画の整合性を向上させる、拡散ベースの生成モデルのための新しい勾配フリーフレームワークであるFree2Guideを紹介した。報酬関数の勾配を近似することにより、Free2Guideは強力なブラックボックスLVLMを含む微分不可能な報酬モデルを効果的に統合し、より良い整合性に向けて動画生成プロセスを誘導する。我々の実験により、Free2Guideがテキストプロンプトとの整合性および全体的な動画品質を一貫して向上させることが示された。LVLMとのアンサンブルを可能にすることで、我々の手法は相乗効果の恩恵を受け、さらにパフォーマンスを向上させる。

Limitation

我々のアプローチにおけるサンプリングでは、勾配を近似するために追加の処理時間が必要である。我々のアプローチはベースラインと比較してサンプリング時間をわずかに延長する可能性があるが、LVLM APIなどの微分不可能な報酬モデルによるガイダンスを独自に可能にする。さらに、我々のフレームワークの有効性は報酬関数の精度に影響されるが、これは報酬モデルが進化し続けるにつれてさらなる改善の余地を開くものである。

References

  • Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
  • Black et al. [2023] Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine. Training diffusion models with reinforcement learning. arXiv preprint arXiv:2305.13301, 2023.
  • Chen et al. [2023] Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, and Ying Shan. Videocrafter1: Open diffusion models for high-quality video generation, 2023.
  • Chen et al. [2024] Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, and Ying Shan. Videocrafter2: Overcoming data limitations for high-quality video diffusion models, 2024.
  • Chung et al. [2023] Hyungjin Chung, Jeongsol Kim, Michael Thompson Mccann, Marc Louis Klasky, and Jong Chul Ye. Diffusion posterior sampling for general noisy inverse problems. In International Conference on Learning Representations, 2023.
  • Clark et al. [2023] Kevin Clark, Paul Vicol, Kevin Swersky, and David J Fleet. Directly fine-tuning diffusion models on differentiable rewards. arXiv preprint arXiv:2309.17400, 2023.
  • Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat GANs on image synthesis. In Advances in Neural Information Processing Systems, 2021.
  • Efron [2011] Bradley Efron. Tweedie’s formula and selection bias. Journal of the American Statistical Association, 106(496):1602–1614, 2011.
  • Emerson [2013] Peter Emerson. The original borda count and partial voting. Social Choice and Welfare, 40(2):353–358, 2013.
  • Fan et al. [2024] Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, and Kimin Lee. Reinforcement learning for fine-tuning text-to-image diffusion models. Advances in Neural Information Processing Systems, 36, 2024.
  • Feng et al. [2024] Weixi Feng, Wanrong Zhu, Tsu-jui Fu, Varun Jampani, Arjun Akula, Xuehai He, Sugato Basu, Xin Eric Wang, and William Yang Wang. Layoutgpt: Compositional visual planning and generation with large language models. Advances in Neural Information Processing Systems, 36, 2024.
  • Gokhale et al. [2022] Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta Baral, and Yezhou Yang. Benchmarking spatial relationships in text-to-image generation. arXiv preprint arXiv:2212.10015, 2022.
  • He et al. [2022] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, and Qifeng Chen. Latent video diffusion models for high-fidelity long video generation. arXiv preprint arXiv:2211.13221, 2022.
  • Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33:6840–6851, 2020.
  • Ho et al. [2022] Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, and David J Fleet. Video diffusion models. Advances in Neural Information Processing Systems, 35:8633–8646, 2022.
  • Huang et al. [2024a] Yujia Huang, Adishree Ghatare, Yuanzhe Liu, Ziniu Hu, Qinsheng Zhang, Chandramouli S Sastry, Siddharth Gururani, Sageev Oore, and Yisong Yue. Symbolic music generation with non-differentiable rule guided diffusion. arXiv preprint arXiv:2402.14285, 2024a.
  • Huang et al. [2024b] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, and Ziwei Liu. VBench: Comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024b.
  • Kaplan et al. [2020] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
  • Kappen [2005] Hilbert J Kappen. Path integrals and symmetry breaking for optimal control theory. Journal of statistical mechanics: theory and experiment, 2005(11):P11011, 2005.
  • Karras et al. [2022] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. In Proc. NeurIPS, 2022.
  • Lian et al. [2023] Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, and Boyi Li. Llm-grounded video diffusion models. arXiv preprint arXiv:2309.17444, 2023.
  • Liu et al. [2020] Sijia Liu, Pin-Yu Chen, Bhavya Kailkhura, Gaoyuan Zhang, Alfred O Hero III, and Pramod K Varshney. A primer on zeroth-order optimization in signal processing and machine learning: Principals, recent advances, and applications. IEEE Signal Processing Magazine, 37(5):43–54, 2020.
  • Luo et al. [2023] Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, and Hang Zhao. Latent consistency models: Synthesizing high-resolution images with few-step inference. arXiv preprint arXiv:2310.04378, 2023.
  • Nesterov and Spokoiny [2017] Yurii Nesterov and Vladimir Spokoiny. Random gradient-free minimization of convex functions. Foundations of Computational Mathematics, 17(2):527–566, 2017.
  • Nie et al. [2022] Weili Nie, Brandon Guo, Yujia Huang, Chaowei Xiao, Arash Vahdat, and Anima Anandkumar. Diffusion models for adversarial purification. arXiv preprint arXiv:2205.07460, 2022.
  • Prabhudesai et al. [2023] Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, and Katerina Fragkiadaki. Aligning text-to-image diffusion models with reward backpropagation. arXiv preprint arXiv:2310.03739, 2023.
  • Prabhudesai et al. [2024] Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, and Deepak Pathak. Video diffusion alignment via reward gradients. arXiv preprint arXiv:2407.08737, 2024.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10684–10695, 2022.
  • Sohl-Dickstein et al. [2015] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pages 2256–2265. PMLR, 2015.
  • Song et al. [2021a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In 9th International Conference on Learning Representations, ICLR, 2021a.
  • Song et al. [2021b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In International Conference on Learning Representations, 2021b.
  • Subramanian et al. [2022] Sanjay Subramanian, William Merrill, Trevor Darrell, Matt Gardner, Sameer Singh, and Anna Rohrbach. Reclip: A strong zero-shot baseline for referring expression comprehension. arXiv preprint arXiv:2204.05991, 2022.
  • Theodorou et al. [2010] Evangelos Theodorou, Jonas Buchli, and Stefan Schaal. A generalized path integral control approach to reinforcement learning. The Journal of Machine Learning Research, 11:3137–3181, 2010.
  • Uehara et al. [2024a] Masatoshi Uehara, Yulai Zhao, Tommaso Biancalani, and Sergey Levine. Understanding reinforcement learning-based fine-tuning of diffusion models: A tutorial and review. arXiv preprint arXiv:2407.13734, 2024a.
  • Uehara et al. [2024b] Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Tommaso Biancalani, and Sergey Levine. Fine-tuning of continuous-time diffusion models as entropy-regularized control. arXiv preprint arXiv:2402.15194, 2024b.
  • Wallace et al. [2023] Bram Wallace, Akash Gokul, Stefano Ermon, and Nikhil Naik. End-to-end diffusion latent optimization improves classifier guidance. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7280–7290, 2023.
  • Wang et al. [2023a] Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, et al. Lavie: High-quality video generation with cascaded latent diffusion models. arXiv preprint arXiv:2309.15103, 2023a.
  • Wang et al. [2023b] Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, et al. Internvid: A large-scale video-text dataset for multimodal understanding and generation. In The Twelfth International Conference on Learning Representations, 2023b.
  • Williams and Rogers [1979] David Williams and L Chris G Rogers. Diffusions, Markov processes, and martingales. John Wiley & Sons, 1979.
  • Wu et al. [2024] Tsung-Han Wu, Long Lian, Joseph E Gonzalez, Boyi Li, and Trevor Darrell. Self-correcting llm-controlled diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6327–6336, 2024.
  • Wu et al. [2023] Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao, and Hongsheng Li. Human preference score v2: A solid benchmark for evaluating human preferences of text-to-image synthesis. arXiv preprint arXiv:2306.09341, 2023.
  • Xu et al. [2024] Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, and Yuxiao Dong. Imagereward: Learning and evaluating human preferences for text-to-image generation. Advances in Neural Information Processing Systems, 36, 2024.
  • Yang et al. [2024] Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, and CUI Bin. Mastering text-to-image diffusion: Recaptioning, planning, and generating with multimodal llms. In Forty-first International Conference on Machine Learning, 2024.
  • Yeh et al. [2024] Po-Hung Yeh, Kuang-Huei Lee, and Jun-Cheng Chen. Training-free diffusion model alignment with sampling demons. arXiv preprint arXiv:2410.05760, 2024.
  • Zheng et al. [2024] Hongkai Zheng, Wenda Chu, Austin Wang, Nikola Kovachki, Ricardo Baptista, and Yisong Yue. Ensemble kalman diffusion guidance: A derivative-free method for inverse problems. arXiv preprint arXiv:2409.20175, 2024.
  • Zhong et al. [2023] Shanshan Zhong, Zhongzhan Huang, Weushao Wen, Jinghui Qin, and Liang Lin. Sur-adapter: Enhancing text-to-image pre-trained diffusion models with large language models. In Proceedings of the 31st ACM International Conference on Multimedia, pages 567–578, 2023.

Appendix A Implementation Details

A.1 Model Checkpoints

我々は、事前学習済みのT2V拡散モデルであるLaVieとVideoCrafter2を使用している。これらはhttps://github.com/Vchitect/LaVieおよびhttps://github.com/AILab-CVC/VideoCrafterでそれぞれ入手可能である。LaVieについては、潜在空間のエンコードとデコードにStable Diffusion v1.4モデルを採用している。また、https://huggingface.co/openai/clip-vit-base-patch32からCLIPを、https://github.com/THUDM/ImageRewardからImageRewardモデルも利用している。

A.2 Evaluation Details

動画ガイダンスプロセス中、我々は動画からキーフレームを抽出する—具体的には、1番目、6番目、11番目、16番目のフレーム—そして報酬を評価する。LVLMを報酬モデルとして使用する際、我々は以下のスクリプトを用いてキーフレームを連結する:

1fig, axes = plt.subplots(2, 2, figsize=(12, 8))
2key_frames = [0, 5, 10, 15]
3
4for idx, frame in enumerate(key_frames):
5 ax = axes[idx // 2, idx % 2]
6 ax.imshow(video[0, :, frame, :, :].permute(1, 2, 0).cpu().numpy())
7 ax.axis('off')
8 ax.set_title(f'Frame {frame + 1}')
9
10# レイアウトを調整し、プロットを表示する
11plt.tight_layout()
12plt.savefig(f'frame_{i}_{j}.png')
リスト1: キーフレームを一度に結合するための擬似コード。

次に、我々はLVLMにシーケンス順序を理解させ、実行すべきタスクを明示的に記述するシステム指示を提供する。

1あなたは 動画 品質 評価 応答 する 有用 ヘルパー です
2与えられた 画像 動画 4 キー フレーム グリッド 配置 したもの です 左上 1 フレーム目 右上 2 フレーム目 左下
3 3 フレーム目 そして 最後 右下 4 フレーム目 です
4まず 理由 答え その後 最終 回答 してください 理由 冒頭 には '理由付け ' 記載 論理的 検討
5してください
6理由付け 検討 した 最終 回答 '回答 '
記載 して ください
7 フレーム 確認 比較 した あなた 理由付け 適切 最終 回答 つながる
ことを確認してください
8最終 '回答' 1 スコア のみ とし スコア 1

Appendix B Additional Ablation Study

Number of Samples

我々は、サンプリング量がテキスト整合性能に与える影響を分析し、CLIPリワードモデルを用いたLaVieモデルによる平均テキスト整合スコアを評価した。表5に示すように、n=5𝑛5n=5italic_n = 5でサンプリングサイズが最適であることが分かった。サンプル数を増やすことで、所望の制御に整合するデノイズされたビデオを選択する可能性が高まる。しかし、過度のサンプリングにはリスクがある:初期サンプリングステップでTweedieの公式によって予測されるエラーが、不可逆的な変化をもたらし、ビデオ品質に悪影響を及ぼす可能性がある。

n𝑛nitalic_n Avg.
1 0.3722
3 0.3749
5 0.3780
10 0.3705
表5: サンプルサイズによるテキスト整合の定量的結果。

Guidance Range

我々は同じベースラインを用いてガイダンス範囲の効果も評価した。表6は、初期段階でのガイダンス適用が後期段階よりも効果的であることを示している。これは、これらの初期ステップがビデオの全体的な空間構造を確立するためである。しかし、ガイダンス範囲を広げすぎると、近似された最適制御のエラーが蓄積され、最終的な出力ビデオの品質が低下する。

Guidance Step Avg.
None 0.3722
t[T,T5]𝑡𝑇𝑇5t\in[T,T-5]italic_t ∈ [ italic_T , italic_T - 5 ] 0.3780
t[T5,T10]𝑡𝑇5𝑇10t\in[T-5,T-10]italic_t ∈ [ italic_T - 5 , italic_T - 10 ] 0.3769
t[T,T10]𝑡𝑇𝑇10t\in[T,T-10]italic_t ∈ [ italic_T , italic_T - 10 ] 0.3635
表6: ガイダンスステップの範囲によるテキスト整合の定量的結果。

Appendix C Additional Analysis

C.1 Reward Robustness

我々は、我々の手法が特定の報酬に過適合することなく頑健な性能を達成することを検証した。表7は、各手法によって生成された最終的な動画出力に対して、アルゴリズム1で説明された報酬関数を比較している。LVLMとアンサンブルされた報酬を用いた動画ガイダンスは、一般的により高いメトリクスを達成しており、表2のテキスト整合性の結果と同様の傾向を示している。これらの発見は、アンサンブルアプローチが特定の報酬に対して過度に最適化されておらず、多様な報酬にわたって改善された頑健性に寄与していることを示している。

Method CLIP (\uparrow) ImageReward (\uparrow) GPT (\uparrow)
LaVie 29.60 -0.49 6.79
+GPT 29.60 -0.47 6.86
+CLIP 29.76 -0.44 6.78
++GPT 30.28 -0.33 6.62
+ImageReward 29.57 -0.51 6.87
++GPT 29.73 -0.46 6.92
Method CLIP (\uparrow) ImageReward (\uparrow) GPT (\uparrow)
VideoCrafter2 30.39 -0.10 7.09
+GPT 30.90 0.23 7.28
+CLIP 30.96 0.14 7.11
++GPT 30.95 0.20 7.07
+ImageReward 30.92 0.22 7.28
++GPT 30.96 0.28 7.33
表7: 生成された動画の報酬関数の比較。太字: 最良、下線: 2番目に良い。

C.2 Video Reward Guidance

動画ベースの報酬モデルを使用して動画をガイドすることはより自然なアプローチであるが、我々は、動画-テキストペアのデータセットが画像と比較して比較的限られているため、動画報酬モデルがガイダンスに必要な表現を捉えきれていないと主張する。これを裏付けるために、我々はガイダンスに動画ベースの報酬モデルを使用した結果と、テキスト整合に動画ベースの報酬モデルを使用した結果を比較する。動画報酬モデルとして、https://huggingface.co/OpenGVLab/ViCLIPで入手可能な事前学習済み動画-テキスト表現学習モデルであるViCLIP [wang2023internvid]を採用する。LaVieをベースラインとして、8フレームの動画に基づいて報酬を計算し、動画とテキストの埋め込み間の類似度を測定する。

8は、動画ベースの報酬モデルが画像ベースの報酬モデルを大きく上回らないことを示している。しかし、特に全体的一貫性と動的度合いの指標を向上させている。注目すべきは、全体的一貫性の指標がViCLIP自体を使用して評価されており、これが動画報酬モデルに有利なバイアスを生じさせている可能性がある。さらに、我々はViCLIPがCLIPと比較して空間情報の処理に苦戦していることを観察しており、これが複数オブジェクトと空間関係の指標でのパフォーマンス低下につながっている。これらの結果は、訓練データセットの不足により、動画報酬モデルが動画とテキストの関係を完全に捉えることの難しさを浮き彫りにしている。

Style Semantics Condition Consistency Avg.

Method

Appearance Style Temporal Style Human Action Multiple Objects Spatial Relationship Overall Consistency

LaVie [wang2023lavie]

0.2312 0.2502 0.9300 0.2027 0.3496 0.2694 0.3722

+ CLIP

0.2370

(+2.5%)

0.2490

(-0.5%)

0.9400

(+1.1%)

0.2607

(+28.6%)

0.3074

(-12.1%)

0.2738

(+1.6%)

0.3780

+ ViCLIP

0.2348

(+1.6%)

0.2485

(-0.7%)

0.9600

(+3.2%)

0.2149

(+6.0%)

0.2872

(-17.9%)

0.2752

(+2.1%)

0.3701
Temporal Consistency Dynamics Frame-wise Quality Avg.

Method

Subject Consistency Background Consistency Motion Smoothness Dynamic Degree Aesthetic Quality Imaging Quality

LaVie [wang2023lavie]

0.9450 0.9689 0.9718 0.4799 0.5687 0.6611 0.7659

+ CLIP

0.9495

(+0.5%)

0.9712

(+0.2%)

0.9735

(+0.2%)

0.4560

(-5.0%)

0.5727

(0.7%)

0.6637

(+0.4%)

0.7644

+ ViCLIP

0.9443

(-0.1%)

0.9694

(+0.0%)

0.9741

(+0.2%)

0.4707

(-1.9%)

0.5746

(1.0%)

0.6487

(-1.9%)

0.7636
表8: 動画ベースの報酬モデルとの比較。数値が高いほど動画品質が良いことを示す。括弧内の数字はベースラインからのパフォーマンス差を表す。

C.3 Video Inverse Problem

我々のフレームワークは、先行研究のアプローチを基に、動画領域における逆問題に容易に拡張することができる[zheng2024ensemble, huang2024symbolic]。図4では、空間解像度に対して×\times×16の平均プーリングを用いて我々の手法で再構成された動画を示している。報酬関数として、我々は破損した復元動画と破損動画間のL2subscript𝐿2L_{2}italic_L start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT距離を使用し、VideoCrafter2を用いて500ステップにわたるDDIMで各ステップにおいてサンプリングサイズ10を適用している。我々の結果は、ガイドなしのサンプリングと比較して、我々の手法が入力に忠実でありながら現実的な動画を生成することを示している。動画逆問題については今後の課題として残しておく。

Refer to caption
図4: 我々の手法を逆問題に適用した結果。ベースラインはサンプリング中にガイダンスが適用されていないことを表す。

Appendix D Additional Visual Results

Refer to caption
図5: 異なる報酬モデルの更なる定性的比較。赤字はモデル間の差異を強調している。
Refer to caption
図6: LVLMsとのアンサンブルの更なる定性的結果。赤字はモデル間の差異を強調している。