Mind the Time: Temporally-Controlled Multi-Event Video Generation
Abstract
実世界の動画は一連の出来事から構成されている。既存の動画生成器は単一の段落のテキストを入力として使用するため、そのような一連の出来事を正確な時間制御で生成することは不可能である。複数の出来事を単一のプロンプトで記述して生成するよう指示された場合、このような手法ではしばしば一部の出来事が無視されたり、正しい順序で配置されなかったりする。 この制限に対処するため、我々は時間制御が可能な複数出来事動画生成器MinTを提案する。我々の重要な洞察は、各出来事を生成される動画の特定の期間に結びつけることであり、これによりモデルは一度に一つの出来事に集中できる。出来事のキャプションと動画トークン間の時間を意識した相互作用を可能にするため、我々はReRoPEと呼ばれる時間ベースの位置エンコーディング手法を設計した。このエンコーディングはクロスアテンション操作の誘導に役立つ。 時間的に基礎付けられたデータで事前学習された動画拡散トランスフォーマーを微調整することで、我々のアプローチは滑らかに接続された出来事を持つ一貫性のある動画を生成する。 本稿は、生成された動画における出来事のタイミングの制御を可能にした初めての研究である。 広範な実験により、MinTが既存のオープンソースモデルを大幅に上回る性能を示すことが実証された。 追加の結果と詳細は我々のプロジェクトページで閲覧可能である。
1 Introduction
動画拡散モデルに関する最近の研究[37]は、tremendous な進歩を遂げている[8, 9, 36, 69, 13, 14, 26, 96]。 これらのアプローチは通常、単一のテキストプロンプトに依存し、単一のイベントのみを捉えた動画を生成する。 対照的に、現実世界の動画は多くの場合、豊かなダイナミクスを持つ一連のイベントで構成されている。 したがって、リアリズムを達成するには、細かい時間的制御を伴う複数のイベントを生成する能力が必要である[63, 88]。
複数イベントのビデオ生成に対する素朴な解決策は、すべてのイベント記述を単一の長い指示文に連結することである。例えば、「男性が腕を上げ、下ろし、そして左右に動かす」というようなものである。 しかし、図 2が示すように、最先端のビデオモデルでさえ、このような指示文から満足のいく結果を生成することに苦心している。 一部の最近の研究は、この問題を自己回帰的な方法で取り組んでいる[87, 63]。 これらは各イベントを独自の指示文で個別に生成し、一貫性を確保するために前のイベントの最後のフレームをモデルの条件として使用する。 しかし、これらは往々にして動きの限られた停滞したビデオフレームを生成してしまう[31, 22]。 別の研究の流れは、パーソナライズされたビデオ生成を活用して、一貫した被写体を持つ複数のイベントクリップを合成している[54, 50]。 最終的なビデオを得るためには、生成されたすべてのクリップを1つに連結する必要があり、これは急激なシーンの切り替えにつながる。 さらに、既存のすべての手法は各イベントを固定長のビデオで表現しており、個々のイベントの持続時間を制御することができない。
最近の研究[47, 49]により、テキストガイドモデルは複雑な空間的プロンプトに苦戦することが多く、これは物体を空間的入力(例:バウンディングボックス)に紐付けることで改善できることが示されている。 同様に、我々は明示的な時間的紐付けの欠如が、現在のモデルにおける複数イベントの動画生成の成功を妨げていると仮説を立てている。 タイムスタンプのない複数イベントのテキストプロンプトが与えられた場合、生成器は動画を形成するために各イベントの時間範囲を計画しなければならず、これには複雑な推論が伴う。 動画生成におけるコンテンツ-モーション分解パラダイム[83, 86]にインスピレーションを得て、我々はモデル入力として(i)背景や被写体の外観などのコンテンツを描写するグローバルキャプション、および(ii)動的イベントを記述する時間的キャプション[44]のシーケンスを使用することを提案する。 各時間的キャプションは、テキスト記述とイベントの開始および終了時間で構成される。 時間的に局在化されたキャプションを提供することで、モデルは一度に一つのイベントに集中できる。 さらに、我々のモデルはすべてのテキストプロンプトを処理して一度に動画を生成するため、被写体の一貫性とイベント間のスムーズな遷移が保証される。
我々の結果として得られた手法は、Mind the Time (MinT)と名付けられ、事前学習された潜在拡散トランスフォーマー(DiT)[66]に基づいて構築された時間的に基礎付けられた動画生成器である。 各DiTブロックにおいて、我々はグローバルキャプションと時間的キャプションそれぞれに対して2つのクロスアテンション層を採用している。 イベントのシーケンスにモデルを条件付けるために、すべての時間的キャプションのテキスト埋め込みを連結し、クロスアテンションを実行する。 ここでの主要な課題は、イベントのタイムスタンプを使用して各キャプションを対応する動画トークンに関連付ける方法である。 回転位置埋め込み(RoPE)[81]にインスピレーションを得て、我々は再スケーリングされたRoPE(ReRoPE)を導入し、イベントキャプションがその時間範囲内のフレームに注目するよう導きつつ、隣接するイベント間のスムーズな遷移を確保する。
要約すると、本稿は以下の4つの主要な貢献をしている: (i) MinT、時間制御を伴う逐次的イベント生成をサポートする初めての動画生成器。 (ii) シーンカットに基づいてモデルを条件付けする新規の訓練戦略。これにより、長尺動画の訓練とショット遷移の制御が容易になる。 (iii) 我々のデータセットとStoryBench [12]のホールドアウトセットにおいて、テキストのみの設定と画像条件付き設定の両方で、最先端のマルチイベント動画生成結果を達成。 (iv) 短いプロンプトを詳細なグローバルおよび時間的キャプションに拡張するLLMベースのプロンプト拡張器。これにより、VBench [39]で評価されたより豊かな動きを持つ動画を生成することができる。
2 Related Work
テキストから動画への拡散モデル。 拡散モデルの最近の進歩 [78, 35, 51] により、テキストから動画への生成は tremendous な進歩を遂げた [37, 8, 36]。 初期の研究では、事前学習された画像拡散モデルに時間的注意層を挿入することで拡張した [9, 77, 26, 13, 14, 89, 95, 42, 93, 29, 104, 7]。 これらは通常、U-Net [75] モデルをノイズ除去ネットワークとして採用し、変分オートエンコーダー(VAE) [74, 43, 101] によって生成された圧縮された潜在空間で拡散プロセスを実行する。 最近では、Transformerベースのアーキテクチャ [85, 66] が注目を集めている。これは、高解像度で複雑な動画の生成においてより優れたスケーラビリティを示しているためである [11, 57, 61, 100, 27, 17, 76, 69]。 しかしながら、我々はこれらのモデルにおいて、連続的なイベントを生成する能力の欠如が共通の失敗例であると認識している。 MinTは、イベントキャプションを時間に結びつけ、時間的に根付いたデータでファインチューニングすることで、複数イベントの合成を大幅に改善している。
ストーリーの視覚化。 従来、ストーリーの視覚化の目標は、複数のテキストプロンプトに基づいて、一貫したエンティティを持つ画像シーケンスを生成することであった [59, 58, 60, 73, 107, 64]。 最近の研究では、各テキストプロンプトに対してビデオを生成することでタスクを拡張している [102, 106, 48, 24, 30]。 これらは通常、大規模言語モデル(LLM)を活用してイベントの時間的順序を計画し、その後、一貫したキャラクター識別性を持つクリップを生成するためにビデオパーソナライゼーション手法を実行する。 しかし、これらの手法は単に生成されたすべてのクリップを連結してストーリーを形成するため、イベント間で唐突なシーンの切り替えが生じる [50, 54]。 本稿では、自然な遷移を伴う複数のイベントのビデオを生成することを目的とする異なるタスクに取り組む。
複数イベントのビデオ生成。 複数のテキストプロンプトから時間的に一貫したビデオを生成することを探求した研究がいくつか存在する [25, 31, 88, 22]。 先駆的な研究であるPhenaki [87]は、マスクされたTransformerを訓練し、各イベントをそのテキストプロンプトと前のイベントのフレームを条件として生成する。 しかし、自己回帰的生成パラダイムは、必然的により長いシーケンスにおいて品質の劣化をもたらす。 FreeNoise [70]とMEVG [63]は代わりに、以前に生成されたクリップを使用して現在のクリップのノイズ潜在を初期化し、モデルにソフトな指針を提供する。 逐次生成アプローチの根本的な制限は、すべてのイベントを固定長で生成することである [31]。 さらに、これらのモデルは現在のイベントを生成する際に将来のイベントに関する情報を持たないため、ビデオ全体を計画することができない。 対照的に、MinTはすべてのイベントのテキストプロンプトを一緒に処理し、イベントの持続時間の細かい制御と、グローバルに一貫したビデオの生成を可能にする。
ビデオ生成のための豊富なキャプション。 これまでの大規模なビデオ-テキストデータセットは、通常短いキャプションを伴うビデオで構成されていた[18, 6]。 最近の研究では、詳細なキャプションが高品質のビデオ生成に不可欠であることが示されている[41, 100, 11, 15]。 しかし、これらのデータセットは主にビデオ内のすべてのエンティティの外観と空間的配置に焦点を当てている。 我々のタスクにより近いのはLVD-2Mデータセット[97]であり、これは動きの豊富なビデオにおける連続的なイベントにラベルを付けている。 しかし、彼らはイベントの順序を記述するためにテキストを使用するのみで、それらを時間的に位置付けていない。 本稿では、我々はビデオ生成のためにキャプションに正確なタイムスタンプを付加する最初の試みを行っている。 さらに、これまで見過ごされてきたビデオデータのシーンカットアノテーションを研究し、これによって我々のモデルの制御可能性をさらに向上させている。
3 Method
タスクの定式化。 個の時間的に局在化されたテキストプロンプトと個のカット時間スタンプが与えられたとき、我々の目標は、それぞれのテキストプロンプトに従って、所望の時間範囲ですべてのイベントを含む動画を生成することである。 動画は、入力されたカット時間スタンプ以外にショットの遷移がないと仮定される。
概要。 我々は、事前学習されたテキストから動画への拡散トランスフォーマー(DiT)[66]を基盤としている(セクション 3.1)。 我々の手法であるMinTは、イベントのタイムスタンプ制御を可能にするために時間認識型クロスアテンション層を組み込み(セクション 3.2)、動画のシーンカットに対する条件付けを行う(セクション 3.3)。 最後に、ユーザーが我々のモデルを用いて単純なプロンプトから複数イベントの動画を生成できるようにするプロンプトエンハンサーを設計する(セクション 3.4)。
3.1 Background: Text-to-Video Latent DiT
動画が与えられると、我々の潜在DiT [66] はまず、トークナイザー [43] を用いてそれを動画トークン にエンコードする。 次に、 にガウスノイズ を加えてノイズのあるサンプル を得、整流フロー定式化 [51, 52] に従って除ノイズネットワークを訓練する:
(1) |
ここで、 はDiTブロックのスタックで構成されるTransformerモデル [85] として実装され、 は動画キャプションのテキスト埋め込みなどの条件付け信号を表す。 最近の研究 [27, 69, 103] と同様に、我々の基本モデルの各DiTブロックには、動画トークンに対するセルフアテンション層、動画とテキストを融合するクロスアテンション層、およびMLPが含まれている。
回転位置埋め込み(RoPE)。 アテンションにおける動画トークンの位置を示すために、我々の基本モデルはRoPE [81] を使用している。これは最近の研究 [56, 23, 100, 46] で広く応用されているためである。 概略すると、 の ベクトルの列が与えられた場合、RoPEは各ベクトル に対して、その位置 を用いて角度 を計算し、 を で回転させて を得る:
(2) |
ここで、 は事前に定義された基本角度である。11実際、RoPEはベクトル の各要素を個別に回転させるために角度のリスト を使用する。本稿では、 のすべての次元が に対して単調に変化するため [81]、簡略化のために単一の角度として扱う。 RoPEを用いると、 と が近い場合、ベクトル は ベクトル と類似した回転角を持つ。 結果として、RoPEは近接するベクトルがより高いセルフアテンションの重み を持つよう促す:
(3) |
ここで、 の場合、 は に対して単調減少する。 これは通常、我々のDiTにおいて成り立つ。なぜなら、動画トークン は低解像度だからである。 厳密な議論については 付録 A.2 を参照されたい。 我々の動画DiTでは、RoPEはセルフアテンションにのみ適用される。 入力テキストプロンプトは動画全体を記述することが期待されるため、動画-テキストクロスアテンションには位置エンコーディングは存在しない。
3.2 Temporally Aware Video DiT
既存のテキストガイド付きビデオ拡散モデルは、ビデオに対して1つのグローバルなテキストプロンプトのみを入力としている。 図 3 (a)に示すように、我々はさらに、各イベントを正確な時間範囲に結びつける一連の時間的キャプションを入力する。 グローバルキャプションと時間的キャプションの分解は、ビデオ生成における古典的なコンテンツ-モーション分離[83, 86]に類似しており、モデルにビデオダイナミクスのより明確な指針を提供する。
時間的クロスアテンション。 MinTを時間的キャプションに条件付けるために、我々は図 3 (b)に示すように、元のセルフアテンション層とクロスアテンション層の間に新しい時間的クロスアテンション層を追加する。 先行研究[47, 90, 92]は、このような設計が新しい空間的条件入力への迅速な適応を可能にすることを示しており、我々はこれが時間的条件付けにも有効であることを示す。 まず、各イベントテキストプロンプトに対してテキスト埋め込みを抽出する。ここで、はテキストの長さ、は埋め込みの次元である。 次に、各に位置エンコーディングを適用してその時間範囲を示し、それらをシーケンス次元に沿って連結してビデオトークンとクロスアテンションを実行する:
(4) |
位置エンコーディングとは別に、イベントの時間範囲を示す直感的な方法としてハードマスキングがある。これはが内のビデオトークンにのみ注目することを許可する。 しかし、イベントの遷移点に近いフレームについては、滑らかな遷移を合成するために両方のイベントからの情報を受け取ることが有益である。 したがって、我々は各イベントのテキスト埋め込みを導くソフトマスキングとしてRoPEを使用することを決定した。
直感的に、我々は時間的クロスアテンションが3つの重要な特性を持つことを望む:
(i) イベントの時間範囲内のビデオトークンは、常にこのイベントのテキスト埋め込みに最も注目すべきである。
(ii) あるイベントについて、注意の重みはその時間範囲の中間点にあるビデオトークンでピークを迎え、イベントの境界に向かって減少すべきである。
(iii) 2つのイベント間の遷移点にあるビデオトークンは、それらのテキスト埋め込みに等しく注目すべきであり、これはモデルがイベント境界を局在化するのに役立つ。
以下で、我々はバニラRoPEが(i)と(iii)を達成できないことを示し、このタスクのための新しい位置エンコーディングの必要性を明らかにする。
バニラ時間的RoPE。 我々は式 2の標準的なRoPEから始める。 フレームの任意の空間位置にあるビデオトークンについて、ここでは時間的対応に焦点を当てているため、タイムスタンプのみを使用してその回転角を決定する。 で発生するイベントについて、そのテキスト埋め込みをエンコードする自然な方法は、その中間タイムスタンプを使用することである。 したがって、バニラRoPEは以下のようになる:
(5) | |||
(6) |
このような設計は特性(ii)を満たすが、図 4 (a)に示すように他の特性に違反する。 この例では、最初のイベントに属するフレーム7がよりもに近いため、2番目のイベントとの注意の重みが高くなる。 さらに、2つのイベントの交点にあるフレーム8は、最初のイベントよりも2番目のイベントにより注目する。 その結果、モデルは正確なイベント境界を特定できない。
3.3 Scene Cut Conditioning
これまでの大規模ビデオデータセットは通常、シーンカットのあるビデオを除外するか、より短いクリップに分割していた[18, 41, 94]。 実際、カットのあるビデオでジェネレータを訓練すると、生成されたビデオに望ましくないシーン遷移が生じる可能性がある。
一般的に、プロフェッショナルに編集されたビデオには頻繁にカットが含まれており、訓練時にそれらを除外すると貴重な情報が失われる可能性がある。 そのようなクリップを除去すると、訓練データの量も大幅に減少する(我々のデータでは、クリップの20%にカットが含まれている)。 しかし最も重要なのは、そのような貴重な映画技法を使用できなくなり、時間的に切り取られたビデオになってしまうことである。 以前の画像生成モデルは、画像のクロッピングに関して同様の問題に直面していた[68]。そこでは、モデルがフレーム外のオブジェクトを含む「クロップされた」画像を生成することを学習する可能性があった。 これらの洞察に基づき、我々はすべてのビデオを保持しつつ、カットのタイムスタンプを明示的にモデルに条件付けすることを決定した。 モデルがこのような条件付けを学習すれば、推論時にゼロを入力することでカットのないビデオを強制できる。
3.4 Prompt Enhancer
MinTは、イベントのタイミングを正確に制御してビデオ生成を行うことができる。しかし、特定のアプリケーションでは、単一のプロンプトから開始することがより望ましい場合がある。先行研究では、大規模言語モデル(LLM)がテキストプロンプトから物理的に意味のあるシーンの空間レイアウトを生成できることが示されている[49, 50]。同様に、我々はLLMが複数のイベントを含むビデオの時間的構造を計画できることを示す。 短いテキストが与えられると、我々はLLMにそれを詳細なグローバルキャプションと、時間範囲を持つ複数のイベントキャプションに拡張するようプロンプトを与える。 その後、我々のモデルは強化されたプロンプトから豊かな動きの内容を持つビデオを生成することができる。
4 Experiments
我々の実験は以下の問いに答えることを目的としている: (i) MinTはテキストから動画(T2V)および画像から動画(I2V)の両設定においてイベントのタイミングを制御できるか?(セクション 4.2 および セクション 4.3) (ii) プロンプト強化は単一のプロンプトから高品質な複数イベントの動画を生成することにつながるか?(セクション 4.4) (iii) 我々のフレームワークにおける各設計選択はどのような影響を与えるか?(セクション 4.5)
4.1 Experimental Setup
我々の実験設定の主要な側面をここに列挙する。 詳細については、付録 Bを参照されたい。
訓練データ。 時間ベースのキャプションを持つ既存の動画データセットは、通常、密な動画キャプショニング[44, 105]から得られる。 しかし、これらのデータセットは規模が限られており、大規模な動画生成器を微調整することは不可能である。 そのため、我々は既存のデータセット[18, 98]から得た動画に時間的イベントを手動でアノテーションし、約20万件の動画を得た。そのうち2千件を評価用に確保した。 シーンカットでモデルに条件付けするために、アノテーションされた動画にTransNetV2 [80]を実行してシーン境界を検出した。
評価データセット。 我々は2千件の保留動画を主要なベンチマーク(HoldOutと呼ぶ)として活用する。 また、我々のものと類似した時間的キャプションをアノテーションしているStoryBench [12]データセットでもテストを行う。 単一のイベントのみを持つ動画を除外し、約3千件のテストサンプルとなった。 最後に、短いプロンプトから動きの豊かな動画を生成するMinTの能力をテストするために、VBench [39]からのプロンプトリストを利用する。
ベースライン。 現在の動画モデルが複数イベントの動画を生成できないことを示すために、我々はConcatと呼ばれる単純な方法を設計した。これは単にすべてのプロンプトを連結するものである。 我々はこれを我々のベースモデルと、最先端のオープンソースモデルであるCogVideoX [100]とMochi [82]の両方に適用する。 また、コードが利用可能で滑らかに接続されたイベントを生成するように設計されたアプローチとも比較する。 MEVG [63]は最先端の複数イベント動画生成方法である。 これは各イベントをそのプロンプトから個別に生成する。 滑らかな遷移を確保するために、現在のイベントのノイズ初期化として、以前に生成されたイベントにDDIM反転[79]を実行する。 我々はまた、イベントを自己回帰的に生成するために画像条件付き動画拡散モデルを微調整するベースライン(AutoRegと呼ぶ)を設計する。 アーキテクチャの影響を方法から分離するために、我々はMEVGとAutoRegの両方を我々のベースモデル上に実装し、公平な比較を確保する。 特筆すべきは、ベースラインはイベントのタイミングを制御できないため、比較を可能にするために単純にすべてのイベントを同じ長さに設定したことである。
評価指標。 我々は視覚的品質、テキストとの整合性、イベント遷移の滑らかさの3つの次元に焦点を当てる。 視覚的品質にはFID [33]、FVD [84]などの一般的な指標を、テキストとの整合性にはフレームごとのCLIPスコア[32]を報告する。 さらに、我々は最先端の動画品質評価モデルであるVideoScore [28]を活用する。これは人間の評価者と一致する結果を生成することが示されている。 我々は視覚的品質に視覚的品質と動的度の出力を、テキストとの整合性にテキストと動画の整合性の出力を、イベント遷移の滑らかさに時間的一貫性の出力を使用する。 特筆すべきは、我々はイベントの生成に注目しているため、時間的キャプションとイベントの範囲に基づいてクロップされた動画クリップの間のテキストの整合性を計算することである。 最後に、イベント遷移の滑らかさを測定するために、生成された動画にTransNetV2を実行してカットを検出する。
4.2 Text-to-Video Generation
図 5はHoldOutとStoryBenchデータセットにおける定量的結果を示している。 図 6は定性的比較を示している。 我々のモデルと同じベースモデルを共有するConcatと比較すると、MinTはHoldOutでは視覚的品質がわずかに低く、StoryBenchではより良い結果を達成している。 これは、StoryBenchのプロンプトが我々のモデルにとって分布外であるためである。 にもかかわらず、時間ベースのキャプションはMinTが良好な時間構造を持つ動画を生成するのに役立っている。 一方で、我々はテキストとの整合性がはるかに高いイベントを生成している。 CogVideoXとMochiに基づくConcatベースラインとMinTを比較した場合も、同様の観察結果が得られる。 全体として、これは我々のモデルが高い視覚的品質を維持しながら、連続的なイベント生成という新しい能力を獲得したことを証明している。
マルチイベント生成手法に関しては、AutoRegとMEVGはテキストとの整合性を大幅に向上させている。これは、各イベントをそのプロンプトから個別に生成しているためである。 しかし、AutoRegは視覚的品質が大幅に低下している。これは、生成されたフレームに条件付けることで、動画の停滞などのアーティファクトが生じるためである。 MEVGはフレーム反転によりこの問題を解決している。 しかし、多数のカットが示すように、イベント間で急激な遷移が生じることが多い。 実際、MEVGの反転技術は、2つの連続するイベントキャプションが類似した構造を持つ場合(例えば、同じ主語が異なる動作をする場合)にのみうまく機能することがわかった。 図 6のように、2つのキャプションで主語が変わる場合、生成されるイベントには通常、まったく異なるキャラクターが含まれる。 全体として、MinTは動画の品質、イベントの位置特定、および時間的滑らかさの間で最良のバランスを達成している。 商用モデルとの比較についてはセクション C.6を参照されたい。
人間による評価。 我々はHoldOutからランダムにサンプリングした200のプロンプトを使用してユーザー調査を実施した。 参加者にMinTと各ベースラインからのペアサンプルを提示し、サンプルごとに5人のユーザーから選好を収集した。 図 7の結果は、MinTが同等以上の視覚的品質を持ち、テキストとの整合性、タイミングの正確さ、遷移の滑らかさが大幅に向上したイベントを生成していることを示している。
イベント時間の制御。 MinTはイベントのタイミングの細かい制御をサポートしている。 我々の結果についてはセクション C.4を参照されたい。
4.3 Image-conditioned Video Generation
我々は、既存の画像内のエンティティを連続的なイベントを実行するようにアニメーション化するモデルの能力を評価する。 [12]に従い、モデルはテスト用動画の真の初期フレームとイベントのテキストプロンプトにアクセスできる。
設定。 T2V設定と同じデータセットと評価指標を使用する。 最良のベースラインであるMEVGと比較する。 MEVGには画像条件付きの変種があり、初期フレームを複製して疑似的な動画を形成する。 MinTについては、先行研究[8, 96]と同様に、ノイズの加えられた潜在表現と画像を連結することで画像に条件付けるようにファインチューニングを行う。
結果。 表 1はHoldOutとStoryBenchデータセットにおける複数イベントの画像アニメーション結果を示している。 T2V設定と同様の観察結果が得られた。 MinTは視覚的品質において同等以上の結果を達成し、イベントキャプションとのテキスト整合性およびイベント遷移の時間的滑らかさにおいて大幅に優れた性能を示している。
Method | FID | FVD | VQ | DD | CLIP-T | TA | TC | #Cuts |
---|---|---|---|---|---|---|---|---|
Dataset: HoldOut | ||||||||
MEVG | 57.57 | 495.75 | 2.56 | 3.39 | 0.266 | 2.72 | 2.25 | 0.108 |
Ours | 22.04 | 218.21 | 2.60 | 3.30 | 0.272 | 3.00 | 2.47 | 0.025 |
Dataset: StoryBench | ||||||||
MEVG | 56.51 | 732.94 | 3.27 | 3.80 | 0.265 | 2.83 | 3.03 | 0.150 |
Ours | 21.85 | 314.59 | 3.36 | 3.76 | 0.273 | 3.37 | 3.29 | 0.014 |
4.4 Prompt Enhanced Video Generation
MinTは、ユーザーが時間的キャプションを通じて生成される動画の動きの量を制御できるという、プロンプト強化の新しい次元を導入する。 我々は、このプロセスがLLMによって自動化できることを示す。 これにより、ユーザーは短いプロンプトからより興味深い動画を生成することが可能となる。
データセット。 我々は生成された動画の動きに興味があるため、VBench [39]の動的度合い評価次元からプロンプトのリストを採用する。 これらのプロンプトは多様であり、常に静的でない動作を行う主体を含んでいる。 しかし、それらはすべて約10語程度の短いものである。
Method | Subject | Background | Aesthetic | Imaging | Motion | Dynamic |
---|---|---|---|---|---|---|
Consist. | Consist. | Quality | Quality | Smooth | Degree | |
Short | 0.857 | 0.939 | 0.498 | 0.583 | 0.995 | 0.481 |
Global | 0.890 | 0.950 | 0.541 | 0.613 | 0.995 | 0.517 |
Ours | 0.900 | 0.950 | 0.544 | 0.609 | 0.988 | 0.711 |
プロンプト強化器。 我々はGPT-4 [3]に、短いプロンプトを詳細なグローバルキャプションと時間的キャプションに拡張するようプロンプトを与える。 我々が使用するプロンプトについては、セクション C.2を参照されたい。
ベースラインと評価指標。 我々は、元の短いプロンプトを使用して我々のベースモデルで生成された動画(Shortと呼ぶ)と比較する。 グローバルキャプションと時間的キャプションの効果を切り分けるために、強化されたグローバルキャプションを使用して我々のベースモデルで生成された動画(Globalと呼ぶ)とも比較する。 評価のために、公式のVBenchテストスイートから6つの指標を計算する。これらは視覚的品質、時間的滑らかさ、動きの豊かさに焦点を当てている。
4.5 Ablation Study
我々のモデルの各構成要素の効果を表 3で検討する。 すべてのアブレーションはHoldOutで実施された。
時間条件付け。 我々はイベントの時間範囲でモデルに条件付けを行う異なる方法を検討する。 時間の連結はタイムスタンプを高次元特徴量に埋め込むためにMLPを実行し、それを時間的キャプションのテキスト埋め込みと連結する。 しかし、我々のベースモデルはRoPEを使用しているため、ビデオトークンには絶対位置情報が含まれていない。 したがって、時間埋め込みされたテキスト特徴量とクロスアテンションを行っても、イベントをビデオフレームに関連付けることができず、イベントキャプションとのテキスト整合性が大幅に低下する。 ハードアテンションマスクは時間的クロスアテンションにハードマスキングを採用し、イベントは時間範囲内のフレームにのみ注目する。 これにより、所望の時間帯にイベントを合成することが可能になる。 しかし、ハードマスキングによりイベント境界のビデオトークンが次のイベントに注目できなくなり、結果としてイベントの遷移が急激になり、時間的一貫性が低下し、シーンカットが増加する。 最後に、通常のRoPEはビデオトークンとイベントのテキスト埋め込みを生のタイムスタンプでエンコードする。 図 4で議論したように、これはイベントの境界を正確に特定できず、テキスト整合性スコアの低下が示すようにイベントのタイミング制御が劣化する。
ReRoPEのリスケール長 。 デフォルトでは、我々はと設定している。 表 3は、またはを使用しても同様の結果が得られることを示している。 これは、モデルがこのハイパーパラメータに対して敏感ではないことを示している。 異なる値を持つReRoPEに関するさらなる議論については、セクション A.3を参照されたい。
シーンカット条件付け。 表 3の最後の行では、訓練中のシーンカット条件付けを除去している。 セクション 3.3で議論したように、シーンカット情報にアクセスできない場合、モデルは生成されたビデオに望ましくないショットの遷移を導入する。 実際、このバリアントは我々の完全なモデルと同様の視覚的品質とテキスト整合性を持つが、時間的一貫性のスコアが大幅に低く、より多くのカットを生成する。 さらなる分析についてはセクション C.3を参照されたい。
Method | VQ | DD | CLIP-T | TA | TC | #Cuts |
---|---|---|---|---|---|---|
Full Model | 2.56 | 3.32 | 0.270 | 2.92 | 2.44 | 0.026 |
Concat time | 2.53 | 3.31 | 0.249 | 2.42 | 2.33 | 0.075 |
Hard attn mask | 2.45 | 3.34 | 0.260 | 2.68 | 2.30 | 0.069 |
Vanilla RoPE | 2.54 | 3.32 | 0.262 | 2.79 | 2.42 | 0.030 |
ReRoPE (=4) | 2.54 | 3.33 | 0.264 | 2.88 | 2.43 | 0.029 |
ReRoPE (=16) | 2.55 | 3.32 | 0.265 | 2.90 | 2.44 | 0.025 |
No cut condition | 2.54 | 3.33 | 0.268 | 2.89 | 2.34 | 0.084 |
5 Conclusion
我々は、イベントタイミング制御を伴う複数イベントビデオ生成のためのフレームワークであるMinTを提示する。 我々の手法は、ビデオの時間的ダイナミクスを誘導するユニークな位置エンコーディング方法を採用しており、滑らかに接続されたイベントと一貫した被写体を実現している。 LLMを搭載することで、我々はさらに、シンプルなプロンプトから動きの豊かなビデオを生成できるプロンプトエンハンサーを設計した。 我々は本稿を、制御可能なコンテンツ作成ツールに向けた重要な一歩と考えている。 我々の限界と失敗事例については付録 Dで議論している。
Acknowledgments
我々は、貴重な議論とサポートを提供してくれたTsai-Shien Chen、Alper Canberk、Yuanhao Ban、Sherwin Bahmani、Moayed Haji Ali、およびXijie Huangに感謝の意を表したい。
References
- Gen [2024] Gen-3 Alpha. https://runwayml.com/research/introducing-gen-3-alpha, 2024. Accessed: 2024-10-24.
- KLI [2024] Kling1.5. https://klingai.com/, 2024. Accessed: 2024-10-24.
- Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
- Anne Hendricks et al. [2017] Lisa Anne Hendricks, Oliver Wang, Eli Shechtman, Josef Sivic, Trevor Darrell, and Bryan Russell. Localizing moments in video with natural language. In ICCV, 2017.
- Ba [2016] Jimmy Lei Ba. Layer Normalization. arXiv preprint arXiv:1607.06450, 2016.
- Bain et al. [2021] Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman. Frozen in time: A joint video and image encoder for end-to-end retrieval. In ICCV, 2021.
- Bar-Tal et al. [2024] Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, et al. Lumiere: A space-time diffusion model for video generation. arXiv preprint arXiv:2401.12945, 2024.
- Blattmann et al. [2023a] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023a.
- Blattmann et al. [2023b] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In CVPR, 2023b.
- Brooks et al. [2023] Tim Brooks, Aleksander Holynski, and Alexei A Efros. Instructpix2pix: Learning to follow image editing instructions. In CVPR, 2023.
- Brooks et al. [2024] Tim Brooks, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang, and Aditya Ramesh. Video generation models as world simulators. OpenAI technical reports, 2024.
- Bugliarello et al. [2024] Emanuele Bugliarello, H Hernan Moraldo, Ruben Villegas, Mohammad Babaeizadeh, Mohammad Taghi Saffar, Han Zhang, Dumitru Erhan, Vittorio Ferrari, Pieter-Jan Kindermans, and Paul Voigtlaender. StoryBench: a multifaceted benchmark for continuous story visualization. NeurIPS, 2024.
- Chen et al. [2023a] Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, and Ying Shan. Videocrafter1: Open diffusion models for high-quality video generation. arXiv preprint arXiv:2310.19512, 2023a.
- Chen et al. [2024a] Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, and Ying Shan. Videocrafter2: Overcoming data limitations for high-quality video diffusion models. In CVPR, 2024a.
- Chen et al. [2024b] Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, et al. ShareGPT4Video: Improving video understanding and generation with better captions. NeurIPS, 2024b.
- Chen et al. [2023b] Shouyuan Chen, Sherman Wong, Liangjian Chen, and Yuandong Tian. Extending context window of large language models via positional interpolation. arXiv preprint arXiv:2306.15595, 2023b.
- Chen et al. [2024c] Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, and Juan-Manuel Perez-Rua. GenTron: Diffusion transformers for image and video generation. In CVPR, 2024c.
- Chen et al. [2024d] Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, et al. Panda-70M: Captioning 70m videos with multiple cross-modality teachers. In CVPR, 2024d.
- Dao et al. [2022] Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. FlashAttention: Fast and memory-efficient exact attention with io-awareness. NeurIPS, 2022.
- Epstein et al. [2020] Dave Epstein, Boyuan Chen, and Carl Vondrick. Oops! predicting unintentional action in video. In CVPR, 2020.
- Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In ICML, 2024.
- Fu-Yun et al. [2024] Wang Fu-Yun, Huang Zhaoyang, Ma Qiang, Song Guanglu, Lu Xudong, Bian Weikang, Li Yijin, Liu Yu, and Li Hongsheng. ZoLA: Zero-shot creative long animation generation with short video model. In ECCV, 2024.
- Gao et al. [2024] Peng Gao, Le Zhuo, Ziyi Lin, Dongyang Liu, Ruoyi Du, Xu Luo, Longtian Qiu, Yuhang Zhang, et al. Lumina-t2x: Transforming text into any modality, resolution, and duration via flow-based large diffusion transformers. arXiv preprint arXiv:2405.05945, 2024.
- Gong et al. [2023] Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Yingqing He, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, et al. TaleCrafter: Interactive story visualization with multiple characters. arXiv preprint arXiv:2305.18247, 2023.
- Gu et al. [2023] Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang Jiang, and Hang Xu. Reuse and diffuse: Iterative denoising for text-to-video generation. arXiv preprint arXiv:2309.03549, 2023.
- Guo et al. [2024] Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, and Bo Dai. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. In ICLR, 2024.
- Gupta et al. [2023] Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, and José Lezama. Photorealistic video generation with diffusion models. arXiv preprint arXiv:2312.06662, 2023.
- He et al. [2024] Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, et al. VideoScore: Building automatic metrics to simulate fine-grained human feedback for video generation. In EMNLP, 2024.
- He et al. [2022] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, and Qifeng Chen. Latent video diffusion models for high-fidelity video generation with arbitrary lengths. arXiv preprint arXiv:2211.13221, 2022.
- He et al. [2023] Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, et al. Animate-A-Story: Storytelling with retrieval-augmented video generation. arXiv preprint arXiv:2307.06940, 2023.
- Henschel et al. [2024] Roberto Henschel, Levon Khachatryan, Daniil Hayrapetyan, Hayk Poghosyan, Vahram Tadevosyan, Zhangyang Wang, Shant Navasardyan, and Humphrey Shi. StreamingT2V: Consistent, dynamic, and extendable long video generation from text. arXiv preprint arXiv:2403.14773, 2024.
- Hessel et al. [2021] Jack Hessel, Ari Holtzman, Maxwell Forbes, Ronan Le Bras, and Yejin Choi. Clipscore: A reference-free evaluation metric for image captioning. In EMNLP, 2021.
- Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. NeurIPS, 2017.
- Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
- Ho et al. [2022a] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben Poole, Mohammad Norouzi, David J Fleet, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022a.
- Ho et al. [2022b] Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, and David J Fleet. Video diffusion models. NeurIPS, 2022b.
- Huang et al. [2020] Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, and Radu Soricut. Multimodal pretraining for dense video captioning. arXiv preprint arXiv:2011.11760, 2020.
- Huang et al. [2024] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, et al. VBench: Comprehensive benchmark suite for video generative models. In CVPR, 2024.
- Jiang et al. [2024] Yuming Jiang, Tianxing Wu, Shuai Yang, Chenyang Si, Dahua Lin, Yu Qiao, Chen Change Loy, and Ziwei Liu. VideoBooth: Diffusion-based video generation with image prompts. In CVPR, 2024.
- Ju et al. [2024] Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, and Ying Shan. MiraData: A large-scale video dataset with long durations and structured captions. arXiv preprint arXiv:2407.06358, 2024.
- Khachatryan et al. [2023] Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, and Humphrey Shi. Text2video-zero: Text-to-image diffusion models are zero-shot video generators. In CVPR, 2023.
- Kingma and Welling [2013] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
- Krishna et al. [2017] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles. Dense-captioning events in videos. In ICCV, 2017.
- Kynkäänniemi et al. [2024] Tuomas Kynkäänniemi, Miika Aittala, Tero Karras, Samuli Laine, Timo Aila, and Jaakko Lehtinen. Applying guidance in a limited interval improves sample and distribution quality in diffusion models. arXiv preprint arXiv:2404.07724, 2024.
- Lab and etc. [2024] PKU-Yuan Lab and Tuzhan AI etc. Open-Sora-Plan, 2024.
- Li et al. [2023] Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, and Yong Jae Lee. GLIGEN: Open-set grounded text-to-image generation. In CVPR, 2023.
- Li et al. [2024] Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, and Min Zhang. Anim-Director: A large multimodal model powered agent for controllable animation video generation. In SIGGRAPH Asia Conference Track, 2024.
- Lian et al. [2024] Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, and Boyi Li. Llm-grounded video diffusion models. In ICLR, 2024.
- Lin et al. [2024] Han Lin, Abhay Zala, Jaemin Cho, and Mohit Bansal. VideoDirectorGPT: Consistent multi-scene video generation via llm-guided planning. In COLM, 2024.
- Lipman et al. [2023] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow matching for generative modeling. In ICLR, 2023.
- Liu et al. [2023] Xingchao Liu, Chengyue Gong, et al. Flow straight and fast: Learning to generate and transfer data with rectified flow. In ICLR, 2023.
- Liu et al. [2024] Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu, and Dahua Lin. Scaling laws of rope-based extrapolation. In ICLR, 2024.
- Long et al. [2024] Fuchen Long, Zhaofan Qiu, Ting Yao, and Tao Mei. VideoStudio: Generating consistent-content and multi-scene videos. In ECCV, 2024.
- Loshchilov and Hutter [2019] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In ICLR, 2019.
- Lu et al. [2024] Zeyu Lu, ZiDong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, and LEI BAI. FiT: Flexible vision transformer for diffusion model. In ICML, 2024.
- Ma et al. [2024] Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, and Yu Qiao. Latte: Latent diffusion transformer for video generation. arXiv preprint arXiv:2401.03048, 2024.
- Maharana and Bansal [2021] Adyasha Maharana and Mohit Bansal. Integrating visuospatial, linguistic and commonsense structure into story visualization. In EMNLP, 2021.
- Maharana et al. [2021] Adyasha Maharana, Darryl Hannan, and Mohit Bansal. Improving generation and evaluation of visual stories via semantic consistency. In NAACL, 2021.
- Maharana et al. [2022] Adyasha Maharana, Darryl Hannan, and Mohit Bansal. StoryDALL-E: Adapting pretrained text-to-image transformers for story continuation. In ECCV, 2022.
- Menapace et al. [2024] Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, et al. Snap video: Scaled spatiotemporal transformers for text-to-video synthesis. CVPR, 2024.
- Ni et al. [2022] Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, and Haibin Ling. Expanding language-image pretrained models for general video recognition. In ECCV, 2022.
- Oh et al. [2024] Gyeongrok Oh, Jaehwan Jeong, Sieun Kim, Wonmin Byeon, Jinkyu Kim, Sungwoong Kim, and Sangpil Kim. MEVG: Multi-event video generation with text-to-video models. In ECCV, 2024.
- Pan et al. [2024] Xichen Pan, Pengda Qin, Yuhong Li, Hui Xue, and Wenhu Chen. Synthesizing coherent story with auto-regressive latent diffusion models. In WACV, 2024.
- Paszke et al. [2019] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. PyTorch: An imperative style, high-performance deep learning library. NeurIPS, 2019.
- Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. ICCV, 2023.
- Peng et al. [2024] Bowen Peng, Jeffrey Quesnelle, Honglu Fan, and Enrico Shippole. YaRN: Efficient context window extension of large language models. In ICLR, 2024.
- Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
- Polyak et al. [2024] Adam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, et al. Movie gen: A cast of media foundation models. arXiv preprint arXiv:2410.13720, 2024.
- Qiu et al. [2024] Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, and Ziwei Liu. FreeNoise: Tuning-free longer video diffusion via noise rescheduling. In ICLR, 2024.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.
- Raffel et al. [2020] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. JMLR, 2020.
- Rahman et al. [2023] Tanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta Mahajan, and Leonid Sigal. Make-A-Story: Visual memory conditioned consistent story generation. In CVPR, 2023.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
- Ronneberger et al. [2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-Net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
- Sharma et al. [2024] Abhishek Sharma, Adams Yu, Ali Razavi, Andeep Toor, Andrew Pierson, Ankush Gupta, Austin Waters, Daniel Tanis, Dumitru Erhan, Eric Lau, Eleni Shaw, Gabe Barth-Maron, Greg Shaw, Han Zhang, Henna Nandwani, Hernan Moraldo, Hyunjik Kim, Irina Blok, Jakob Bauer, Jeff Donahue, Junyoung Chung, Kory Mathewson, Kurtis David, Lasse Espeholt, Marc van Zee, Matt McGill, Medhini Narasimhan, Miaosen Wang, Mikołaj Bińkowski, Mohammad Babaeizadeh, Mohammad Taghi Saffar, Nick Pezzotti, Pieter-Jan Kindermans, Poorva Rane, Rachel Hornung, Robert Riachi, Ruben Villegas, Rui Qian, Sander Dieleman, Serena Zhang, Serkan Cabi, Shixin Luo, Shlomi Fruchter, Signe Nørly, Srivatsan Srinivasan, Tobias Pfaff, Tom Hume, Vikas Verma, Weizhe Hua, William Zhu, Xinchen Yan, Xinyu Wang, Yelin Kim, Yuqing Du, and Yutian Chen. Veo, 2024.
- Singer et al. [2023] Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, et al. Make-a-video: Text-to-video generation without text-video data. In ICLR, 2023.
- Sohl-Dickstein et al. [2015] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In ICML, 2015.
- Song et al. [2021] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR, 2021.
- Souček and Lokoč [2020] Tomáš Souček and Jakub Lokoč. TransNet V2: An effective deep network architecture for fast shot transition detection. arXiv preprint arXiv:2008.04838, 2020.
- Su et al. [2024] Jianlin Su, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 2024.
- Team [2024] Genmo Team. Mochi, 2024.
- Tulyakov et al. [2018] Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, and Jan Kautz. MoCoGAN: Decomposing motion and content for video generation. In CVPR, 2018.
- Unterthiner et al. [2018] Thomas Unterthiner, Sjoerd van Steenkiste, Karol Kurach, Raphael Marinier, Marcin Michalski, and Sylvain Gelly. Towards accurate generative models of video: A new metric & challenges. arXiv preprint arXiv:1812.01717, 2018.
- Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. NeurIPS, 2017.
- Villegas et al. [2017] Ruben Villegas, Jimei Yang, Seunghoon Hong, Xunyu Lin, and Honglak Lee. Decomposing motion and content for natural video sequence prediction. In ICLR, 2017.
- Villegas et al. [2022] Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, and Dumitru Erhan. Phenaki: Variable length video generation from open domain textual descriptions. In ICLR, 2022.
- Wang et al. [2023a] Fu-Yun Wang, Wenshuo Chen, Guanglu Song, Han-Jia Ye, Yu Liu, and Hongsheng Li. Gen-L-Video: Multi-text to long video generation via temporal co-denoising. arXiv preprint arXiv:2305.18264, 2023a.
- Wang et al. [2023b] Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, and Shiwei Zhang. Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571, 2023b.
- Wang et al. [2024a] Jiawei Wang, Yuchen Zhang, Jiaxin Zou, Yan Zeng, Guoqiang Wei, Liping Yuan, and Hang Li. Boximator: Generating rich and controllable motions for video synthesis. arXiv preprint arXiv:2402.01566, 2024a.
- Wang et al. [2021] Weiyao Wang, Matt Feiszli, Heng Wang, and Du Tran. Unidentified video objects: A benchmark for dense, open-world segmentation. In ICCV, 2021.
- Wang et al. [2024b] Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, and Ishan Misra. InstanceDiffusion: Instance-level control for image generation. In CVPR, 2024b.
- Wang et al. [2024c] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. VideoComposer: Compositional video synthesis with motion controllability. NeurIPS, 2024c.
- Wang et al. [2024d] Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, et al. InternVid: A large-scale video-text dataset for multimodal understanding and generation. In ICLR, 2024d.
- Wu et al. [2023] Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, and Mike Zheng Shou. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation. In ICCV, 2023.
- Xing et al. [2024] Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Xintao Wang, Tien-Tsin Wong, and Ying Shan. DynamiCrafter: Animating open-domain images with video diffusion priors. In ECCV, 2024.
- Xiong et al. [2024] Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, and Xihui Liu. Lvd-2m: A long-take video dataset with temporally dense captions. NeurIPS, 2024.
- Xue et al. [2022] Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan Yang, Jianlong Fu, and Baining Guo. Advancing high-resolution video-language representation with large-scale video transcriptions. In CVPR, 2022.
- Yang et al. [2023] Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, and Cordelia Schmid. VidChapters-7M: Video chapters at scale. NeurIPS, 2023.
- Yang et al. [2024] Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, et al. CogVideoX: Text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:2408.06072, 2024.
- Yu et al. [2023] Lijun Yu, José Lezama, Nitesh B Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu, Alexander G Hauptmann, et al. Language model beats diffusion–tokenizer is key to visual generation. arXiv preprint arXiv:2310.05737, 2023.
- Zhao et al. [2024] Canyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, and Chunhua Shen. MovieDreamer: Hierarchical generation for coherent long visual sequence. arXiv preprint arXiv:2407.16655, 2024.
- Zheng et al. [2024] Zangwei Zheng, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, and Yang You. Open-Sora: Democratizing efficient video production for all, 2024.
- Zhou et al. [2022] Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, and Jiashi Feng. MagicVideo: Efficient video generation with latent diffusion models. arXiv preprint arXiv:2211.11018, 2022.
- Zhou et al. [2018] Luowei Zhou, Chenliang Xu, and Jason Corso. Towards automatic learning of procedures from web instructional videos. In AAAI, 2018.
- Zhou et al. [2024] Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, and Qibin Hou. StoryDiffusion: Consistent self-attention for long-range image and video generation. arXiv preprint arXiv:2405.01434, 2024.
- Zhu and Tang [2024] Zhongyang Zhu and Jie Tang. CogCartoon: Towards practical story visualization. IJCV, 2024.
Appendix A Details on Rotary Position Embedding
A.1 Derivation of RoPE
本稿の主要部分のセクション 3.1で行われた導出の詳細を説明する。 我々の導出は主に[81, 53, 67]に従っており、我々の手法の直感的な動機付けのみを提供している。 より厳密な結果については、それらの論文を参照されたい。
インデックスにおけるクエリベクトルとインデックスにおけるキーベクトルが与えられた場合、RoPEを適用するには、まず2つの要素ごとにグループ化し、以下のように複素数にする:
(1) |
次に、RoPEは各複素数を角度だけ回転させる。これは要素ごとの乗算によって達成される:
(2) |
ここで、はベクトル内の各要素の位置によって決定される。 我々は先行研究[81, 46]に従い、以下を使用する:
(3) |
式 3は、各が固定値であることを示しており、したがって式 2の回転結果はベクトルのインデックスとによってのみ決定される。 これが、本稿の主要部分で、異なる要素に対してではなく、単一ののみを考慮している理由である。
A.2 Proof of the Property of ReRoPE
本稿のセクション 3.2において、我々はすべてのイベントを固定長に再スケーリングすることを提案している。 番目のイベント内にあるタイムスタンプに対して、以下のように変換する:
(5) |
変換後、番目のイベント内のビデオトークンとこのイベントの中間タイムスタンプとの距離は:
(6) |
次に、これが時間的クロスアテンションの3つの望ましい特性を満たすことを証明する:
(i) イベントの時間範囲内のビデオトークンは、そのイベントのテキスト埋め込みに最も注目すべきである。
証明 に対して、以下が成り立つ:
(7) |
したがって、である。 番目のイベントに対して、であれば、このビデオトークンとの距離は:
(8) |
であるため、以下が得られる:
(9) |
したがって、以下が成り立つ:
(10) |
RoPEアテンションは距離に応じて単調に減衰するため、この特性が成立する。
(ii) イベントに対して、アテンションの重みはその時間範囲の中点にあるビデオトークンでピークを迎え、イベントの境界に向かって減少すべきである。
証明 ビデオトークンがイベントの中点にある場合、となる。
したがって、アテンションの重みが最も高くなる。
さらに、式 6はがからまたはに向かうにつれて増加し、重みが減少することになる。
(iii) 2つのイベント間の遷移点にあるビデオトークンは、それらのテキスト埋め込みに等しく注目すべきである。
証明 またはに対して、常に距離となる。
したがって、イベントの境界にあるビデオトークンに対するアテンション値は同じになる。
これは、我々がすべてのイベントを同じ長さに再スケーリングするReRoPEでのみ可能である。
A.3 Visualizations of ReRoPE
Appendix B Detailed Experimental Setup
本節では、データセット、ベースライン、評価設定、および我々のモデルの学習と推論の実装詳細について完全な情報を提供する。
B.1 Training Data
本研究以前は、オープンセットのイベントキャプションとその正確なタイムスタンプを注釈付けする主に2種類のビデオデータセットが存在していた。 一つは密なビデオキャプショニングの分野である[44, 105, 38]。 しかし、これらのデータセットは規模が限られており(通常10,000本未満のビデオ)、大規模なビデオジェネレータのファインチューニングには不十分である。 もう一つはビデオチャプタリングの分野である[99]。 しかし、ここでの時間的キャプションは高レベルのチャプター分割であり、注釈付けされた各イベントは通常1分以上の長さがある。 これは現在のビデオ拡散モデルの訓練には長すぎる。
我々のモデルは大規模で細粒度のビデオイベント注釈を必要とするため、既存のデータセットからビデオを手動で収集し[18, 98]、注釈を付けた結果、約20万本のビデオを得た。 シーンカットに基づいてモデルを条件付けするために、TransNetV2[80]を実行し、信頼度閾値0.5で注釈付けされたビデオのシーン境界を検出した。
図 10に我々のデータセットの基本的な統計を示す。 訓練用ビデオの長さは様々であるが、ビデオあたりのイベント数と平均イベント長は類似しており、これによりモデルの訓練が容易になる。
B.2 Evaluation Datasets
HoldOut. 我々は訓練データから無作為に2千本の動画をホールドアウトテストセットとしてサンプリングした。 ここでのプロンプトは訓練データと分布が同じであり、訓練データとの最小ギャップを持つ。
StoryBench [12]は、DiDeMo [4]、Oops [20]、およびUVO [91]データセットから収集された動画で構成されている。 各動画には背景キャプションと1つ以上の時間的キャプションが我々のフォーマットに類似した形で注釈付けされている。 我々は彼らの背景キャプションを我々の設定におけるグローバルキャプションとして扱い、モデルの分布外プロンプトへの汎化性を示す。 単一のイベントのみを持つ動画をフィルタリングし、約3千のテストサンプルを得た。
VBench [39]は、動画生成モデルの異なる側面をテストする包括的なベンチマークである。 16の評価次元があり、それぞれに慎重に収集されたテキストプロンプトのリストがある。 我々は生成された動画のダイナミクスに興味があるため、72のプロンプトを提供するDynamic Degree次元を選択した。 公式の評価プロトコルに従い、各モデルで5つのランダムシードを使用して各プロンプトに対して5本の動画を生成する。
B.3 Baselines
我々は、滑らかに接続されたイベントを生成でき、かつコードを公開している手法とのみ比較を行う。
MEVG [63]は最先端のマルチイベントビデオ生成手法である。 イベントプロンプトの連続が与えられると、最初のイベントプロンプトを使用して最初のビデオクリップを生成する。 次に、次のイベントを生成するために、DDIM逆変換[79]を実行して前のクリップの逆変換されたノイズ潜在表現を取得し、これを現在のノイズ潜在表現の初期化に使用する。 その後、現在の潜在表現のデノイジング時に、隣接フレーム間の潜在表現の類似性を強制するためのいくつかの損失を導入する。 オリジナルのMEVGはLVDM[29]とVideoCrafter[13]に基づいているが、これらは時代遅れである。 公平な比較のため、我々は我々のベースモデルに基づいてMEVGを再実装した。 我々の知る限り、整流フローモデルの逆変換に関する先行研究はないため、DDIM逆変換に従ってRF逆変換を実装し、同様の結果を達成した。 グローバルキャプションと時間的キャプションの両方を扱うために、グローバルキャプションと最初の時間的キャプションを連結して最初のクリップを生成する。 その他の損失とハイパーパラメータはMEVGと同じに保つ222MEVGは本稿投稿時点でコードを公開していなかった。我々は著者との個人的なメールのやり取りを通じて公式コードを入手した。。
AutoReg. 我々は、初期フレーム条件付きビデオ生成をサポートするために我々のベースモデルを微調整する。 この手法はMEVGと類似しており、各イベントを自身のキャプションと前のクリップの最後のフレームに基づいて生成する。
Concatは、単純にグローバルキャプションとすべての時間的キャプションを連結して長いプロンプトを形成し、それからビデオを生成する素朴なベースラインである。
備考。 MEVGとAutoRegはどちらも自己回帰的手法であるため、各イベントに対して固定長のビデオしか生成できない。 比較を可能にするため、メトリクスを計算する際に、テストイベントがすべて同じ持続時間を持つと単純に仮定する。 Concatの場合、異なるイベントの生成を分離できない。 したがって、生成されたビデオ内ですべてのイベントが均一に分布していると仮定する。
B.4 Evaluation Metrics
我々は、複数イベントのテキストから動画生成において3つの重要な側面を特定している:視覚的品質、イベントテキストとの整合性、およびイベント間の遷移の滑らかさである。 我々は、視覚的品質についてはFID [33]、FVD [84]などの一般的な指標を、テキストとの整合性についてはフレームごとのCLIPスコア [32, 71]を報告している。 X-CLIPスコア [62]などのより高度な指標も試みたが、CLIPスコアと同様の性能を示すことがわかった。
従来の自動評価指標が人間の知覚と一致しないことはよく知られている。 最近の研究では、人間のフィードバックデータでマルチモーダルLLMを微調整することで、より人間に近い動画品質評価指標につながることが示されている [28]。 我々は、最先端の手法であるVideoScoreを採用し、これは動画に対して5つのスコアを出力する。 我々は、視覚的品質と動的度合いの出力を視覚的品質に、テキストと動画の整合性の出力をテキストとの整合性に、時間的一貫性の出力をイベント間の遷移の滑らかさに使用している。 さらに、TransNetV2 [80]を実行して、生成された動画のカット数の平均を計算し、イベント間の遷移の滑らかさを測定している。
視覚的品質とイベント間の遷移の滑らかさについては、動画全体に対して関連する指標を計算している。 各イベントの視覚的品質も計算したが、動画レベルの結果と正の相関があることがわかった。 テキストとの整合性については、イベントの生成に注目しているため、各イベントの開始時刻と終了時刻を取り、生成された動画からサブクリップを切り出し、このサブクリップと対応するイベントプロンプトとの間で指標を計算している。
B.5 Implementation Details
ベースモデル。
我々のベースとなるテキストから動画への生成器は、潜在拡散トランスフォーマーフレームワークを採用している [66]。
これはMAGVIT-v2 [101] をオートエンコーダーとして活用し、DiTブロックの深いカスケードをノイズ除去のバックボーンとしている。
オートエンコーダーはCogVideoX [100]のものと類似しており、空間次元を8倍、時間次元を4倍ダウンサンプリングする。
我々のバックボーンは32のDiTブロックを持つ。
各ブロックはOpen-Sora [46]のものと類似しており、すべての動画トークンに対して実行される3D自己注意層、動画トークンと入力プロンプトのT5テキスト埋め込み [72] との間のクロス注意層、およびMLPで構成されている。
我々は動画トークンに絶対位置エンコーディングを使用しない。
代わりに、[46]と同様に、空間軸と時間軸に分解された自己注意にRoPEを適用する。
最後に、自己注意とクロス注意の両方でFlashAttention [19] を使用する。
ベースモデルは整流フロー学習目的 [51, 52] を採用している。
我々はStable Diffusion 3 [21] に従い、拡散プロセスのサンプリングパラメータを選択する。
MinTモデル。 我々は時間的キャプション制御を可能にするために、ベースモデルからMinTを微調整する。 収束を加速させるために、元のクロス注意層から重みをコピーして、我々が追加した時間的クロス注意層を初期化する。これは両層が同じテキストモダリティを入力として受け取るためである。 先行研究 [47] に従い、0で初期化されるスケーリング係数を導入し、 活性化を通過させて時間的クロス注意層の出力と乗算する。 このような設計はモデルの学習を安定させることが示されている。
学習。 我々はAdamW [55] を使用して、バッチサイズ512で15,000ステップ、モデル全体を微調整する。 事前学習された重みにはの低い学習率を、追加された重みにはのより高い学習率を使用する。 両方の学習率は最初の1,000ステップで線形にウォームアップされ、その後一定に保たれる。 学習を安定させるために0.05の勾配クリッピングが適用される。 クラス無し誘導(CFG) [34] を適用するために、我々はグローバルおよび時間的キャプションのテキスト埋め込みを10%の確率でランダムにドロップする(つまり、ゼロに設定する)。 時間的キャプションをドロップする際には、すべてのイベントを一緒にドロップし、イベントのタイムスタンプもゼロに設定することに注意されたい。 我々はPyTorch [65] を使用してモデルを実装し、NVIDIA A100 GPUで学習を行う。
推論。 我々は256のサンプリングステップと8のクラス無し誘導 [34] スケールを用いて、整流フローサンプラー [52] を使用して動画を生成する。 また、過飽和の問題を緩和するために、[25, 100]サンプリングステップの間でのみCFGを適用するインターバル誘導 [45] も使用する。 我々は [10] と同様に、グローバルキャプションと時間的キャプションに対して別々のCFGを使用することを試みたが、結果の改善は見られなかった。
Appendix C More Results
C.1 More Qualitative Results on T2V
図11はベースラインとのさらなる定性的比較を示している。 Concatは女性が紙に書いている様子のみを生成し、その後の出来事を無視している。 AutoRegは最初と2番目の出来事の間をスムーズに遷移させることができるが、3番目の出来事の生成に失敗している。 これは、生成されたフレームに条件付けることで動画が停滞し、フレームが固定されてしまうためである。 MEVGは各出来事をうまく生成するが、それらは唐突なショットの遷移と全く異なる被写体で接続されている。 これは、我々が使用する自由形式のイベントキャプションが頻繁に被写体を変更するためである。 結果として、MEVGの反転技術は被写体をうまく保持できない。 現時点では、整流フローモデル用に設計された反転手法は存在しない。 総じて、MinTのみがすべての出来事をスムーズな遷移と一貫したエンティティで成功裏に生成している。
我々はMinTのさらなる定性的結果を図12に示す。 人間関連の被写体は視覚生成タスクにおいて困難であることが知られている。 しかし、これらの結果は人間の動作シーケンスと時間長に対する我々の柔軟な制御を実証している。
C.2 Prompt Enhancement
我々のプロンプト強化器はGPT-4 [3]を基盤としており、短いプロンプトを詳細なグローバルキャプションと、合理的なイベントタイムスタンプを持つ複数の時間的キャプションに拡張することができる。 我々が使用した指示はプロジェクトページに記載している。 これは最近の研究[63, 54]に触発されたものであり、より良いパフォーマンスを得るために我々のデータセットからの文脈内の例を使用している。
VBenchプロンプトを使用したさらなるプロンプト強化の結果を図 13に示す。 強力なLLMのおかげで、我々のプロンプト強化器は短いプロンプトを、豊富な物体の動きとカメラの動きを含む合理的な連続イベントに拡張することができる。 MinTは、拡張されたプロンプトからより興味深く「イベントに富んだ」動画を生成することができる。 これは本稿の手法の独自の能力を強調しており、よりユーザーフレンドリーな動画生成に向けた新しい方向性を切り開いている。
C.3 Scene Cut Conditioning
アブレーション実験で示されたように、シーンカット条件付けを除去すると、生成された動画に望ましくないショットの遷移が生じる。 詳細な検査により、カットの生成がイベントのテキストプロンプトに敏感であることが明らかになった。 プロンプトにカメラショットの説明(例:「クローズアップビューの」)が含まれている場合、カットが導入される可能性が高くなる。 対照的に、シーンカットを明示的に条件付けすることで、我々はこの問題から解放される。
シーンカット制御の定性的な結果を図 14に示す。 MinTは、被写体のアイデンティティを保持しながら、望ましいタイムスタンプでショットの遷移を生成することができる。 シーンカット入力をゼロにすると、カットのない動画を得ることができ、これは我々の設計の妥当性を示している。 最後に、我々のモデルが突然のカメラ変更や徐々にズームインやズームアウトする効果を切り替えられることを示し、細かな制御を可能にしている。
ジャンプカット、ディゾルブ、ワイプなど、異なるタイプのシーン遷移を学習することは興味深い方向性である。 我々の目標は凝った遷移制御を学習することではなく、トレーニングデータを保持することであるため、これは将来の研究課題として残しておく。
C.4 Event Time Span Control
MinTは、イベントの時間範囲を細かく制御することができる。 これを示すために、我々のデータセットからサンプルを取り、すべてのイベントの開始時刻と終了時刻を特定の値だけオフセットする。 図 15に結果を示す。各ビデオは新しいタイミングに従ってイベントを生成している。 さらに、主要な被写体と背景の外観をおおよそ変更せずに保つことができる。 MinTは、この制御能力を実現した文献上初めてのビデオジェネレーターである。 我々は、これを実用的なコンテンツ生成ツールに向けた重要な一歩であると考えている。
Method | FID | FVD | CLIP-score |
---|---|---|---|
Task: T2V (a.k.a. story generation in [12]) | |||
Phenaki | 273.41 | 998.19 | 0.210 |
Ours | 40.87 | 484.44 | 0.284 |
Task: I2V (a.k.a. story continuation in [12]) | |||
Phenaki | 240.21 | 674.5 | 0.219 |
Ours | 21.85 | 314.59 | 0.273 |
C.5 StoryBench Comparison with Phenaki
元のStoryBench論文[12]では、自己回帰的にイベントを生成するためにPhenaki[87]を実行する、データセットのベースラインを提案している。 しかし、彼らはかなり低い解像度(16096)で評価を行っており、コードも事前学習済みの重みも公開されていないため、直接比較することは困難である。 それでも、完全を期すために表 4で比較を行う。 我々は両論文が評価している指標のみを報告する。これらは視覚的品質(FID、FVD)とテキストの整合性(CLIPスコア)をカバーしている。 MinTは、T2VとI2Vの両タスクにおいて、すべての指標でPhenakiを大幅に上回っている。 これは、大規模な事前学習済みビデオモデルからのファインチューニングの有効性を示している。
C.6 Comparison with SOTA Video Generators
連続的なイベント生成が最先端のビデオ生成モデルにおいても一般的な失敗ケースであることを示すために、図 17および図 18でさらなる結果を提示する。 我々が得た驚くべき観察の1つは、これらのモデルの公式ガイドラインに従ってプロンプトを使用した場合(例えば、CogVideoXが提供するLLMを使用してプロンプトを強化する場合)、モデルは最初のイベントのみを生成し、それ以降のイベントをすべて無視することである。 カメラの動き、背景の説明、詳細な主体の属性などのグローバルな特性を指定せずにイベントのキャプションを直接連結した場合のみ(つまり、「人物がまずAを行い、次にBを行い、最後にCを行う」のようなプロンプトを直接使用した場合)、モデルはいくつかのイベントの遷移を生成し始める。333詳細なプロンプトはこれらのモデルの最大入力テキスト長を超えていないため、コンテキスト長がここでの理由ではない。 考えられる原因の1つは、これらのモデルの訓練データにおいて、連続的なイベントを含む動画がそのような詳細なグローバルな特性で注釈付けされていないことである。 しかし、我々はそれらの訓練の詳細にアクセスできないため、真の理由を突き止めることはできない。 したがって、我々はすべての結果を生成するために単純に連結されたプロンプトを使用するだけである。 これらのモデルに使用したプロンプトは我々のプロジェクトページで見つけることができる。 注目すべきは、この回避策により詳細なキャプションを使用してシーンと主体を制御することができなくなり、これらのモデルの制御可能性に大きく影響を与えることである。
それでも、複数のイベントを含むテキストでプロンプトを与えられた場合、これらのモデルには3つの共通の失敗モードがある:
備考。 MinTのように時間的に位置付けられたキャプションを使用せずに、この問題を解決する他の方法があるかもしれない。 例えば、詳細な連続的イベント情報で注釈付けされた動画データセットでモデルをファインチューニングすることが考えられる[97]。 それでも、これではイベントの開始時間と終了時間を正確に制御することはできず、これは我々のモデルの独自の能力である。
C.7 Out-of-Distribution Prompts
MinTは主に人間中心のイベントを描写する時間的キャプション付きビデオでファインチューニングされている。 本稿では、動物や交通などの非人間的な結果をいくつか示した。 ここでは、我々のモデルが依然として新しい概念とその組み合わせを生成する能力を持っていることを示す。これは大規模な事前学習済みビデオ生成器の重要な特性である。 図 16に示すように、MinTは戦士や宇宙飛行士などの分布外のキャラクター、宇宙にある宇宙船などのシーン、そしてヨガをする猫のような存在しないイベントを生成する。 これは、我々のモデルがベースモデルの豊富な事前学習知識を忘れていないことを証明している。
Appendix D Limitations and Future Works
MinTは事前学習済みのテキストから動画への拡散モデルからファインチューニングされているため、我々はベースモデルの能力に制限されている。 例えば、人間の手や複雑な物理現象を含むシーンの生成は困難である。
複数の主体が関与するイベントを生成する際、MinTは属性やアクションを正しい主体に関連付けることに失敗する可能性がある。 本稿で取り組もうとしている時間的結合問題と同様に、この問題は空間的結合によって解決できると我々は考えている。 例えば、主体をバウンディングボックスと属性ラベルで位置付けることによって[47, 49, 90]。
最後に、MinTは時折、グローバルキャプションと時間的キャプションで指定されたエンティティを関連付けることに失敗する。 このような関連付けにはテキスト条件付けの複雑な推論が必要であり、単に学習データを拡大することで解決される可能性がある。
これらの失敗事例の動画例と詳細な分析については、我々のプロジェクトページを参照されたい。
今後の課題。 最近の学習不要の長時間動画生成技術の進歩を用いて我々のモデルを強化することは興味深い[88, 31, 70]。 もう一つの方向性は、MinTを動画パーソナライゼーション手法と組み合わせることである[40, 50, 54]。これにより、ショット内での細かい制御とショット間での被写体の一貫性の両方を可能にし、数分間の動画作成を実現できる。