JaLMS
最新の AI 研究を日本語で解読

Mind the Time: Temporally-Controlled Multi-Event Video Generation

Ziyi Wu1,2,3, Aliaksandr Siarohin1, Willi Menapace1, Ivan Skorokhodov1,
Yuwei Fang1, Varnith Chordia1, Igor Gilitschenski2,3,∗, Sergey Tulyakov1,∗
1Snap Research, 2University of Toronto, 3Vector Institute
Abstract

実世界の動画は一連の出来事から構成されている。既存の動画生成器は単一の段落のテキストを入力として使用するため、そのような一連の出来事を正確な時間制御で生成することは不可能である。複数の出来事を単一のプロンプトで記述して生成するよう指示された場合、このような手法ではしばしば一部の出来事が無視されたり、正しい順序で配置されなかったりする。 この制限に対処するため、我々は時間制御が可能な複数出来事動画生成器MinTを提案する。我々の重要な洞察は、各出来事を生成される動画の特定の期間に結びつけることであり、これによりモデルは一度に一つの出来事に集中できる。出来事のキャプションと動画トークン間の時間を意識した相互作用を可能にするため、我々はReRoPEと呼ばれる時間ベースの位置エンコーディング手法を設計した。このエンコーディングはクロスアテンション操作の誘導に役立つ。 時間的に基礎付けられたデータで事前学習された動画拡散トランスフォーマーを微調整することで、我々のアプローチは滑らかに接続された出来事を持つ一貫性のある動画を生成する。 本稿は、生成された動画における出来事のタイミングの制御を可能にした初めての研究である。 広範な実験により、MinTが既存のオープンソースモデルを大幅に上回る性能を示すことが実証された。 追加の結果と詳細は我々のプロジェクトページで閲覧可能である。

1 Introduction

動画拡散モデルに関する最近の研究[37]は、tremendous な進歩を遂げている[8, 9, 36, 69, 13, 14, 26, 96]。 これらのアプローチは通常、単一のテキストプロンプトに依存し、単一のイベントのみを捉えた動画を生成する。 対照的に、現実世界の動画は多くの場合、豊かなダイナミクスを持つ一連のイベントで構成されている。 したがって、リアリズムを達成するには、細かい時間的制御を伴う複数のイベントを生成する能力が必要である[63, 88]

Refer to caption
図2: 最先端の動画生成器とMinTによる複数イベント動画生成の結果。 我々は、2つのオープンソースモデルであるCogVideoX-5B [100]とMochi 1 [82]、そして2つの商用モデルであるKling 1.5 [2]とGen-3 Alpha [1]を、4つの連続したイベントを含むテキストプロンプトで実行した。 これらはすべて、イベントの一部のみを生成し、残りのイベントを無視している。 対照的に、MinTはすべてのイベントがスムーズにつながった自然な動画を生成する。 より多くの比較については、セクション C.6と我々のプロジェクトページを参照されたい。

複数イベントのビデオ生成に対する素朴な解決策は、すべてのイベント記述を単一の長い指示文に連結することである。例えば、「男性が腕を上げ、下ろし、そして左右に動かす」というようなものである。 しかし、 2が示すように、最先端のビデオモデルでさえ、このような指示文から満足のいく結果を生成することに苦心している。 一部の最近の研究は、この問題を自己回帰的な方法で取り組んでいる[87, 63]。 これらは各イベントを独自の指示文で個別に生成し、一貫性を確保するために前のイベントの最後のフレームをモデルの条件として使用する。 しかし、これらは往々にして動きの限られた停滞したビデオフレームを生成してしまう[31, 22]。 別の研究の流れは、パーソナライズされたビデオ生成を活用して、一貫した被写体を持つ複数のイベントクリップを合成している[54, 50]。 最終的なビデオを得るためには、生成されたすべてのクリップを1つに連結する必要があり、これは急激なシーンの切り替えにつながる。 さらに、既存のすべての手法は各イベントを固定長のビデオで表現しており、個々のイベントの持続時間を制御することができない。

最近の研究[47, 49]により、テキストガイドモデルは複雑な空間的プロンプトに苦戦することが多く、これは物体を空間的入力(例:バウンディングボックス)に紐付けることで改善できることが示されている。 同様に、我々は明示的な時間的紐付けの欠如が、現在のモデルにおける複数イベントの動画生成の成功を妨げていると仮説を立てている。 タイムスタンプのない複数イベントのテキストプロンプトが与えられた場合、生成器は動画を形成するために各イベントの時間範囲を計画しなければならず、これには複雑な推論が伴う。 動画生成におけるコンテンツ-モーション分解パラダイム[83, 86]にインスピレーションを得て、我々はモデル入力として(i)背景や被写体の外観などのコンテンツを描写するグローバルキャプション、および(ii)動的イベントを記述する時間的キャプション[44]のシーケンスを使用することを提案する。 各時間的キャプションは、テキスト記述とイベントの開始および終了時間で構成される。 時間的に局在化されたキャプションを提供することで、モデルは一度に一つのイベントに集中できる。 さらに、我々のモデルはすべてのテキストプロンプトを処理して一度に動画を生成するため、被写体の一貫性とイベント間のスムーズな遷移が保証される。

我々の結果として得られた手法は、Mind the Time (MinT)と名付けられ、事前学習された潜在拡散トランスフォーマー(DiT)[66]に基づいて構築された時間的に基礎付けられた動画生成器である。 各DiTブロックにおいて、我々はグローバルキャプションと時間的キャプションそれぞれに対して2つのクロスアテンション層を採用している。 イベントのシーケンスにモデルを条件付けるために、すべての時間的キャプションのテキスト埋め込みを連結し、クロスアテンションを実行する。 ここでの主要な課題は、イベントのタイムスタンプを使用して各キャプションを対応する動画トークンに関連付ける方法である。 回転位置埋め込み(RoPE)[81]にインスピレーションを得て、我々は再スケーリングされたRoPE(ReRoPE)を導入し、イベントキャプションがその時間範囲内のフレームに注目するよう導きつつ、隣接するイベント間のスムーズな遷移を確保する。

要約すると、本稿は以下の4つの主要な貢献をしている: (i) MinT、時間制御を伴う逐次的イベント生成をサポートする初めての動画生成器。 (ii) シーンカットに基づいてモデルを条件付けする新規の訓練戦略。これにより、長尺動画の訓練とショット遷移の制御が容易になる。 (iii) 我々のデータセットとStoryBench [12]のホールドアウトセットにおいて、テキストのみの設定と画像条件付き設定の両方で、最先端のマルチイベント動画生成結果を達成。 (iv) 短いプロンプトを詳細なグローバルおよび時間的キャプションに拡張するLLMベースのプロンプト拡張器。これにより、VBench [39]で評価されたより豊かな動きを持つ動画を生成することができる。

2 Related Work

テキストから動画への拡散モデル。 拡散モデルの最近の進歩 [78, 35, 51] により、テキストから動画への生成は tremendous な進歩を遂げた [37, 8, 36]。 初期の研究では、事前学習された画像拡散モデルに時間的注意層を挿入することで拡張した [9, 77, 26, 13, 14, 89, 95, 42, 93, 29, 104, 7]。 これらは通常、U-Net [75] モデルをノイズ除去ネットワークとして採用し、変分オートエンコーダー(VAE) [74, 43, 101] によって生成された圧縮された潜在空間で拡散プロセスを実行する。 最近では、Transformerベースのアーキテクチャ [85, 66] が注目を集めている。これは、高解像度で複雑な動画の生成においてより優れたスケーラビリティを示しているためである [11, 57, 61, 100, 27, 17, 76, 69]。 しかしながら、我々はこれらのモデルにおいて、連続的なイベントを生成する能力の欠如が共通の失敗例であると認識している。 MinTは、イベントキャプションを時間に結びつけ、時間的に根付いたデータでファインチューニングすることで、複数イベントの合成を大幅に改善している。

ストーリーの視覚化。 従来、ストーリーの視覚化の目標は、複数のテキストプロンプトに基づいて、一貫したエンティティを持つ画像シーケンスを生成することであった [59, 58, 60, 73, 107, 64]。 最近の研究では、各テキストプロンプトに対してビデオを生成することでタスクを拡張している [102, 106, 48, 24, 30]。 これらは通常、大規模言語モデル(LLM)を活用してイベントの時間的順序を計画し、その後、一貫したキャラクター識別性を持つクリップを生成するためにビデオパーソナライゼーション手法を実行する。 しかし、これらの手法は単に生成されたすべてのクリップを連結してストーリーを形成するため、イベント間で唐突なシーンの切り替えが生じる [50, 54]。 本稿では、自然な遷移を伴う複数のイベントのビデオを生成することを目的とする異なるタスクに取り組む。

複数イベントのビデオ生成。 複数のテキストプロンプトから時間的に一貫したビデオを生成することを探求した研究がいくつか存在する [25, 31, 88, 22]。 先駆的な研究であるPhenaki [87]は、マスクされたTransformerを訓練し、各イベントをそのテキストプロンプトと前のイベントのフレームを条件として生成する。 しかし、自己回帰的生成パラダイムは、必然的により長いシーケンスにおいて品質の劣化をもたらす。 FreeNoise [70]とMEVG [63]は代わりに、以前に生成されたクリップを使用して現在のクリップのノイズ潜在を初期化し、モデルにソフトな指針を提供する。 逐次生成アプローチの根本的な制限は、すべてのイベントを固定長で生成することである [31]。 さらに、これらのモデルは現在のイベントを生成する際に将来のイベントに関する情報を持たないため、ビデオ全体を計画することができない。 対照的に、MinTはすべてのイベントのテキストプロンプトを一緒に処理し、イベントの持続時間の細かい制御と、グローバルに一貫したビデオの生成を可能にする。

ビデオ生成のための豊富なキャプション。 これまでの大規模なビデオ-テキストデータセットは、通常短いキャプションを伴うビデオで構成されていた[18, 6]。 最近の研究では、詳細なキャプションが高品質のビデオ生成に不可欠であることが示されている[41, 100, 11, 15]。 しかし、これらのデータセットは主にビデオ内のすべてのエンティティの外観と空間的配置に焦点を当てている。 我々のタスクにより近いのはLVD-2Mデータセット[97]であり、これは動きの豊富なビデオにおける連続的なイベントにラベルを付けている。 しかし、彼らはイベントの順序を記述するためにテキストを使用するのみで、それらを時間的に位置付けていない。 本稿では、我々はビデオ生成のためにキャプションに正確なタイムスタンプを付加する最初の試みを行っている。 さらに、これまで見過ごされてきたビデオデータのシーンカットアノテーションを研究し、これによって我々のモデルの制御可能性をさらに向上させている。

Refer to caption
図3: MinTフレームワーク。 (a) 我々のモデルは、ビデオ全体を記述するグローバルキャプションと、連続的なイベントを指定する時間的キャプションのリストを入力として受け取る。 我々は各イベントを時間範囲に結びつけ、生成されるイベントの時間的制御を可能にしている。 (b) 時間的キャプションに基づいてビデオDiTを条件付けするために、我々は各DiTブロックに新しい時間的クロスアテンション層を導入している。これは (c) すべてのイベントプロンプトのテキスト埋め込みを連結し、時間認識型の位置エンコーディング(Pos.Enc.)方法を活用して、イベントのタイムスタンプに基づいて各イベントを対応するフレームに関連付ける。 MinTは追加のシーンカット条件付けをサポートしており、これによってビデオのショット遷移を制御することができる。

3 Method

タスクの定式化。 Nesuperscript𝑁eN^{\mathrm{e}}italic_N start_POSTSUPERSCRIPT roman_e end_POSTSUPERSCRIPT個の時間的に局在化されたテキストプロンプト{(cn,tnstart,tnend)}n=1Nesuperscriptsubscriptsubscript𝑐𝑛subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛𝑛1superscript𝑁e\{(c_{n},t^{\mathrm{start}}_{n},t^{\mathrm{end}}_{n})\}_{n=1}^{N^{\mathrm{e}}}{ ( italic_c start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_n = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N start_POSTSUPERSCRIPT roman_e end_POSTSUPERSCRIPT end_POSTSUPERSCRIPTNcutsuperscript𝑁cutN^{\mathrm{cut}}italic_N start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT個のカット時間スタンプ{tncut}n=1Ncutsuperscriptsubscriptsubscriptsuperscript𝑡cut𝑛𝑛1superscript𝑁cut\{t^{\mathrm{cut}}_{n}\}_{n=1}^{N^{\mathrm{cut}}}{ italic_t start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_n = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT end_POSTSUPERSCRIPTが与えられたとき、我々の目標は、それぞれのテキストプロンプトcnsubscript𝑐𝑛c_{n}italic_c start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTに従って、所望の時間範囲(tnstart,tnend)subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛(t^{\mathrm{start}}_{n},t^{\mathrm{end}}_{n})( italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT )ですべてのイベントを含む動画を生成することである。 動画は、入力されたカット時間スタンプ以外にショットの遷移がないと仮定される。

概要。 我々は、事前学習されたテキストから動画への拡散トランスフォーマー(DiT)[66]を基盤としている(セクション 3.1)。 我々の手法であるMinTは、イベントのタイムスタンプ制御を可能にするために時間認識型クロスアテンション層を組み込み(セクション 3.2)、動画のシーンカットに対する条件付けを行う(セクション 3.3)。 最後に、ユーザーが我々のモデルを用いて単純なプロンプトから複数イベントの動画を生成できるようにするプロンプトエンハンサーを設計する(セクション 3.4)。

3.1 Background: Text-to-Video Latent DiT

動画が与えられると、我々の潜在DiT [66] はまず、トークナイザー [43] を用いてそれを動画トークン 𝒛𝒛\bm{z}bold_italic_z にエンコードする。 次に、𝒛𝒛\bm{z}bold_italic_z にガウスノイズ ϵtsubscriptbold-italic-ϵ𝑡\bm{\epsilon}_{t}bold_italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT を加えてノイズのあるサンプル 𝒛tsubscript𝒛𝑡\bm{z}_{t}bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT を得、整流フロー定式化 [51, 52] に従って除ノイズネットワークを訓練する:

DiT=𝒗tuθ(𝒛t,t,𝒚)2,where𝒗t=ϵt𝒛.formulae-sequencesubscriptDiTsuperscriptnormsubscript𝒗𝑡subscript𝑢𝜃subscript𝒛𝑡𝑡𝒚2wheresubscript𝒗𝑡subscriptbold-italic-ϵ𝑡𝒛\mathcal{L}_{\mathrm{DiT}}=||\bm{v}_{t}-u_{\theta}(\bm{z}_{t},t,\bm{y})||^{2},% \ \mathrm{where\ \ }\bm{v}_{t}=\bm{\epsilon}_{t}-\bm{z}.caligraphic_L start_POSTSUBSCRIPT roman_DiT end_POSTSUBSCRIPT = | | bold_italic_v start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_u start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_italic_y ) | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , roman_where bold_italic_v start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = bold_italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - bold_italic_z . (1)

ここで、uθsubscript𝑢𝜃u_{\theta}italic_u start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT はDiTブロックのスタックで構成されるTransformerモデル [85] として実装され、𝒚𝒚\bm{y}bold_italic_y は動画キャプションのテキスト埋め込みなどの条件付け信号を表す。 最近の研究 [27, 69, 103] と同様に、我々の基本モデルの各DiTブロックには、動画トークンに対するセルフアテンション層、動画とテキストを融合するクロスアテンション層、およびMLPが含まれている。

回転位置埋め込み(RoPE)。 アテンションにおける動画トークンの位置を示すために、我々の基本モデルはRoPE [81] を使用している。これは最近の研究 [56, 23, 100, 46] で広く応用されているためである。 概略すると、{𝒙n}n=1Nsuperscriptsubscriptsubscript𝒙𝑛𝑛1𝑁\{\bm{x}_{n}\}_{n=1}^{N}{ bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_n = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTN𝑁Nitalic_N ベクトルの列が与えられた場合、RoPEは各ベクトル 𝒙nsubscript𝒙𝑛\bm{x}_{n}bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT に対して、その位置 n𝑛nitalic_n を用いて角度 θnsubscript𝜃𝑛\theta_{n}italic_θ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT を計算し、𝒙nsubscript𝒙𝑛\bm{x}_{n}bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTθnsubscript𝜃𝑛\theta_{n}italic_θ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT で回転させて 𝒙~nsubscript~𝒙𝑛\tilde{\bm{x}}_{n}over~ start_ARG bold_italic_x end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT を得る:

θn=nθbase,𝒙~n=RoPE(𝒙n,n)=𝒙neiθn,formulae-sequencesubscript𝜃𝑛𝑛subscript𝜃basesubscript~𝒙𝑛RoPEsubscript𝒙𝑛𝑛subscript𝒙𝑛superscript𝑒𝑖subscript𝜃𝑛\theta_{n}=n\theta_{\mathrm{base}},\ \ \tilde{\bm{x}}_{n}=\mathrm{RoPE}(\bm{x}% _{n},n)=\bm{x}_{n}e^{i\theta_{n}},italic_θ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = italic_n italic_θ start_POSTSUBSCRIPT roman_base end_POSTSUBSCRIPT , over~ start_ARG bold_italic_x end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = roman_RoPE ( bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_n ) = bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT italic_e start_POSTSUPERSCRIPT italic_i italic_θ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , (2)

ここで、θbasesubscript𝜃base\theta_{\mathrm{base}}italic_θ start_POSTSUBSCRIPT roman_base end_POSTSUBSCRIPT は事前に定義された基本角度である。11実際、RoPEはベクトル 𝒙h𝒙superscript\bm{x}\in\mathbb{R}^{h}bold_italic_x ∈ blackboard_R start_POSTSUPERSCRIPT italic_h end_POSTSUPERSCRIPT の各要素を個別に回転させるために角度のリスト 𝜽h/2𝜽superscript2\bm{\theta}\in\mathbb{R}^{h/2}bold_italic_θ ∈ blackboard_R start_POSTSUPERSCRIPT italic_h / 2 end_POSTSUPERSCRIPT を使用する。本稿では、𝜽𝜽\bm{\theta}bold_italic_θ のすべての次元が n𝑛nitalic_n に対して単調に変化するため [81]、簡略化のために単一の角度として扱う。 RoPEを用いると、𝒙nsubscript𝒙𝑛\bm{x}_{n}bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT𝒙msubscript𝒙𝑚\bm{x}_{m}bold_italic_x start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT が近い場合、ベクトル 𝒙nsubscript𝒙𝑛\bm{x}_{n}bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT は ベクトル 𝒙msubscript𝒙𝑚\bm{x}_{m}bold_italic_x start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT と類似した回転角を持つ。 結果として、RoPEは近接するベクトルがより高いセルフアテンションの重み An,msubscript𝐴𝑛𝑚A_{n,m}italic_A start_POSTSUBSCRIPT italic_n , italic_m end_POSTSUBSCRIPT を持つよう促す:

An,msubscript𝐴𝑛𝑚\displaystyle A_{n,m}italic_A start_POSTSUBSCRIPT italic_n , italic_m end_POSTSUBSCRIPT =Re[𝒙~n,𝒙~m]=Re[𝒙n,𝒙mei(nm)θbase]absentRedelimited-[]subscript~𝒙𝑛subscript~𝒙𝑚Redelimited-[]subscript𝒙𝑛subscript𝒙𝑚superscript𝑒𝑖𝑛𝑚subscript𝜃base\displaystyle=\mathrm{Re}[\langle\tilde{\bm{x}}_{n},\tilde{\bm{x}}_{m}\rangle]% =\mathrm{Re}[\langle\bm{x}_{n},\bm{x}_{m}\rangle e^{i(n-m)\theta_{\mathrm{base% }}}]= roman_Re [ ⟨ over~ start_ARG bold_italic_x end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , over~ start_ARG bold_italic_x end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT ⟩ ] = roman_Re [ ⟨ bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , bold_italic_x start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT ⟩ italic_e start_POSTSUPERSCRIPT italic_i ( italic_n - italic_m ) italic_θ start_POSTSUBSCRIPT roman_base end_POSTSUBSCRIPT end_POSTSUPERSCRIPT ]
=Re[RoPE(𝒙n,𝒙m,nm)],absentRedelimited-[]RoPEsubscript𝒙𝑛subscript𝒙𝑚𝑛𝑚\displaystyle=\mathrm{Re}[\mathrm{RoPE}(\langle\bm{x}_{n},\bm{x}_{m}\rangle,n-% m)],= roman_Re [ roman_RoPE ( ⟨ bold_italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , bold_italic_x start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT ⟩ , italic_n - italic_m ) ] , (3)

ここで、(nm)θbase[π/2,π/2]𝑛𝑚subscript𝜃base𝜋2𝜋2(n-m)\theta_{\mathrm{base}}\in[-\pi/2,\pi/2]( italic_n - italic_m ) italic_θ start_POSTSUBSCRIPT roman_base end_POSTSUBSCRIPT ∈ [ - italic_π / 2 , italic_π / 2 ] の場合、An,msubscript𝐴𝑛𝑚A_{n,m}italic_A start_POSTSUBSCRIPT italic_n , italic_m end_POSTSUBSCRIPT|nm|𝑛𝑚\lvert n-m\rvert| italic_n - italic_m | に対して単調減少する。 これは通常、我々のDiTにおいて成り立つ。なぜなら、動画トークン 𝒛𝒛\bm{z}bold_italic_z は低解像度だからである。 厳密な議論については 付録 A.2 を参照されたい。 我々の動画DiTでは、RoPEはセルフアテンションにのみ適用される。 入力テキストプロンプトは動画全体を記述することが期待されるため、動画-テキストクロスアテンションには位置エンコーディングは存在しない。

3.2 Temporally Aware Video DiT

既存のテキストガイド付きビデオ拡散モデルは、ビデオに対して1つのグローバルなテキストプロンプトのみを入力としている。 3 (a)に示すように、我々はさらに、各イベントを正確な時間範囲に結びつける一連の時間的キャプションを入力する。 グローバルキャプションと時間的キャプションの分解は、ビデオ生成における古典的なコンテンツ-モーション分離[83, 86]に類似しており、モデルにビデオダイナミクスのより明確な指針を提供する。

時間的クロスアテンション。 MinTを時間的キャプションに条件付けるために、我々は 3 (b)に示すように、元のセルフアテンション層とクロスアテンション層の間に新しい時間的クロスアテンション層を追加する。 先行研究[47, 90, 92]は、このような設計が新しい空間的条件入力への迅速な適応を可能にすることを示しており、我々はこれが時間的条件付けにも有効であることを示す。 まず、各イベントテキストプロンプトcnsubscript𝑐𝑛c_{n}italic_c start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTに対してテキスト埋め込み𝒆ncLc×Dcsubscriptsuperscript𝒆c𝑛superscriptsuperscript𝐿𝑐superscript𝐷𝑐\bm{e}^{\mathrm{c}}_{n}\in\mathbb{R}^{L^{c}\times D^{c}}bold_italic_e start_POSTSUPERSCRIPT roman_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_L start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT × italic_D start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT end_POSTSUPERSCRIPTを抽出する。ここで、Lcsuperscript𝐿𝑐L^{c}italic_L start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPTはテキストの長さ、Dcsuperscript𝐷𝑐D^{c}italic_D start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPTは埋め込みの次元である。 次に、各𝒆ncsubscriptsuperscript𝒆c𝑛\bm{e}^{\mathrm{c}}_{n}bold_italic_e start_POSTSUPERSCRIPT roman_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTに位置エンコーディングを適用してその時間範囲[tnstart,tnend]subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛[t^{\mathrm{start}}_{n},t^{\mathrm{end}}_{n}][ italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ]を示し、それらをシーケンス次元に沿って連結してビデオトークンとクロスアテンションを実行する:

𝒆~ncsubscriptsuperscript~𝒆𝑐𝑛\displaystyle\tilde{\bm{e}}^{c}_{n}over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT =Pos.Enc.(𝒆nc,tnstart,tnend),formulae-sequenceabsentPosEncsubscriptsuperscript𝒆c𝑛subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛\displaystyle=\mathrm{Pos.Enc.}(\bm{e}^{\mathrm{c}}_{n},t^{\mathrm{start}}_{n}% ,t^{\mathrm{end}}_{n}),= roman_Pos . roman_Enc . ( bold_italic_e start_POSTSUPERSCRIPT roman_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) ,
𝒛~~𝒛\displaystyle\tilde{\bm{z}}over~ start_ARG bold_italic_z end_ARG =XAttn(𝒛,Concat([𝒆~1c,𝒆~2c,,𝒆~Nec])).absentXAttn𝒛Concatsubscriptsuperscript~𝒆𝑐1subscriptsuperscript~𝒆𝑐2subscriptsuperscript~𝒆𝑐superscript𝑁e\displaystyle=\mathrm{XAttn}(\bm{z},\mathrm{Concat}([\tilde{\bm{e}}^{c}_{1},% \tilde{\bm{e}}^{c}_{2},...,\tilde{\bm{e}}^{c}_{N^{\mathrm{e}}}])).= roman_XAttn ( bold_italic_z , roman_Concat ( [ over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_N start_POSTSUPERSCRIPT roman_e end_POSTSUPERSCRIPT end_POSTSUBSCRIPT ] ) ) . (4)

位置エンコーディングとは別に、イベントの時間範囲を示す直感的な方法としてハードマスキングがある。これは𝒆ncsubscriptsuperscript𝒆c𝑛\bm{e}^{\mathrm{c}}_{n}bold_italic_e start_POSTSUPERSCRIPT roman_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT[tnstart,tnend]subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛[t^{\mathrm{start}}_{n},t^{\mathrm{end}}_{n}][ italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ]内のビデオトークンにのみ注目することを許可する。 しかし、イベントの遷移点に近いフレームについては、滑らかな遷移を合成するために両方のイベントからの情報を受け取ることが有益である。 したがって、我々は各イベントのテキスト埋め込みを導くソフトマスキングとしてRoPEを使用することを決定した。

直感的に、我々は時間的クロスアテンションが3つの重要な特性を持つことを望む: (i) イベントの時間範囲内のビデオトークンは、常にこのイベントのテキスト埋め込みに最も注目すべきである。 (ii) あるイベントについて、注意の重みはその時間範囲の中間点にあるビデオトークンでピークを迎え、イベントの境界に向かって減少すべきである。 (iii) 2つのイベント間の遷移点にあるビデオトークンは、それらのテキスト埋め込みに等しく注目すべきであり、これはモデルがイベント境界を局在化するのに役立つ。
以下で、我々はバニラRoPEが(i)と(iii)を達成できないことを示し、このタスクのための新しい位置エンコーディングの必要性を明らかにする。

Refer to caption
図4: バニラRoPEと我々のRescaled RoPEの比較。 位置エンコーディングによって導入されるバイアスのみを可視化するために、ビデオトークンとテキスト埋め込みに同じランダムベクトルを使用している。 (a) バニラRoPEは生のタイムスタンプを回転角として使用するため、1つのイベント内のフレームが誤ったテキストにバイアスをかけられる可能性がある。 (b) 代わりに、我々はすべてのイベントを同じ長さL𝐿Litalic_Lに再スケールするので、ビデオトークンは常に現在のイベントに最も注目する。 さらに、イベント境界のフレームは隣接するイベントに等しく注目する。

バニラ時間的RoPE。 我々は 2の標準的なRoPEから始める。 フレームt𝑡titalic_tの任意の空間位置にあるビデオトークン𝒛[t,,]subscript𝒛𝑡\bm{z}_{[t,\cdot,\cdot]}bold_italic_z start_POSTSUBSCRIPT [ italic_t , ⋅ , ⋅ ] end_POSTSUBSCRIPTについて、ここでは時間的対応に焦点を当てているため、タイムスタンプt𝑡titalic_tのみを使用してその回転角θ𝜃\thetaitalic_θを決定する。 [tnstart,tnend]subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛[t^{\mathrm{start}}_{n},t^{\mathrm{end}}_{n}][ italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ]で発生するイベントについて、そのテキスト埋め込みをエンコードする自然な方法は、その中間タイムスタンプtnmid=(tnstart+tnend)/2subscriptsuperscript𝑡mid𝑛subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛2t^{\mathrm{mid}}_{n}=(t^{\mathrm{start}}_{n}+t^{\mathrm{end}}_{n})/2italic_t start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = ( italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT + italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) / 2を使用することである。 したがって、バニラRoPEは以下のようになる:

𝒛~[t,,]=RoPE(𝒛[t,,],t),𝒆~nc=RoPE(𝒆nc,tnmid),formulae-sequencesubscript~𝒛𝑡RoPEsubscript𝒛𝑡𝑡subscriptsuperscript~𝒆𝑐𝑛RoPEsubscriptsuperscript𝒆𝑐𝑛subscriptsuperscript𝑡mid𝑛\displaystyle\tilde{\bm{z}}_{[t,\cdot,\cdot]}=\mathrm{RoPE}(\bm{z}_{[t,\cdot,% \cdot]},t),\ \ \tilde{\bm{e}}^{c}_{n}=\mathrm{RoPE}(\bm{e}^{c}_{n},t^{\mathrm{% mid}}_{n}),over~ start_ARG bold_italic_z end_ARG start_POSTSUBSCRIPT [ italic_t , ⋅ , ⋅ ] end_POSTSUBSCRIPT = roman_RoPE ( bold_italic_z start_POSTSUBSCRIPT [ italic_t , ⋅ , ⋅ ] end_POSTSUBSCRIPT , italic_t ) , over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = roman_RoPE ( bold_italic_e start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) , (5)
Attn(𝒛~[t,,],𝒆~nc)=Re[RoPE(𝒛[t,,],𝒆nc,ttnmid)]Attnsubscript~𝒛𝑡subscriptsuperscript~𝒆𝑐𝑛Redelimited-[]RoPEsubscript𝒛𝑡subscriptsuperscript𝒆𝑐𝑛𝑡subscriptsuperscript𝑡mid𝑛\displaystyle\mathrm{Attn}(\tilde{\bm{z}}_{[t,\cdot,\cdot]},\tilde{\bm{e}}^{c}% _{n})=\mathrm{Re}[\mathrm{RoPE}(\langle\bm{z}_{[t,\cdot,\cdot]},\bm{e}^{c}_{n}% \rangle,t-t^{\mathrm{mid}}_{n})]roman_Attn ( over~ start_ARG bold_italic_z end_ARG start_POSTSUBSCRIPT [ italic_t , ⋅ , ⋅ ] end_POSTSUBSCRIPT , over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) = roman_Re [ roman_RoPE ( ⟨ bold_italic_z start_POSTSUBSCRIPT [ italic_t , ⋅ , ⋅ ] end_POSTSUBSCRIPT , bold_italic_e start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ⟩ , italic_t - italic_t start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) ] (6)

このような設計は特性(ii)を満たすが、 4 (a)に示すように他の特性に違反する。 この例では、最初のイベントに属するフレーム7がt2midsubscriptsuperscript𝑡mid2t^{\mathrm{mid}}_{2}italic_t start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTよりもt1midsubscriptsuperscript𝑡mid1t^{\mathrm{mid}}_{1}italic_t start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTに近いため、2番目のイベントとの注意の重みが高くなる。 さらに、2つのイベントの交点にあるフレーム8は、最初のイベントよりも2番目のイベントにより注目する。 その結果、モデルは正確なイベント境界を特定できない。

再スケールされたRoPE (ReRoPE)。 隣接するイベントの持続時間が異なる場合、それらの中間点のイベント境界までの距離も異なるため、バニラRoPEは失敗する。 したがって、我々はすべてのイベントを同じ長さL𝐿Litalic_Lに再スケールし、 5でエンコーディングのためのタイムスタンプを再計算することを提案する。 n𝑛nitalic_n番目のイベントに属するタイムスタンプt𝑡titalic_tについて、我々はそれを以下のように変換する:

t~=(ttnstart)Ltnendtnstart+(n1)L,s.t.tnstartttnend.formulae-sequence~𝑡𝑡subscriptsuperscript𝑡start𝑛𝐿subscriptsuperscript𝑡end𝑛subscriptsuperscript𝑡start𝑛𝑛1𝐿stsubscriptsuperscript𝑡start𝑛𝑡subscriptsuperscript𝑡end𝑛\tilde{t}=\frac{(t-t^{\mathrm{start}}_{n})L}{t^{\mathrm{end}}_{n}-t^{\mathrm{% start}}_{n}}+(n-1)L,\ \ \mathrm{s.t.}\ t^{\mathrm{start}}_{n}\leq t\leq t^{% \mathrm{end}}_{n}.over~ start_ARG italic_t end_ARG = divide start_ARG ( italic_t - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) italic_L end_ARG start_ARG italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG + ( italic_n - 1 ) italic_L , roman_s . roman_t . italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ≤ italic_t ≤ italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT . (7)

7をビデオトークンとイベントの両方に使用すると、以下のようになる:

t~t~nmid=(ttnstarttnendtnstart12)L.~𝑡subscriptsuperscript~𝑡mid𝑛𝑡subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛subscriptsuperscript𝑡start𝑛12𝐿\tilde{t}-\tilde{t}^{\mathrm{mid}}_{n}=\left(\frac{t-t^{\mathrm{start}}_{n}}{t% ^{\mathrm{end}}_{n}-t^{\mathrm{start}}_{n}}-\frac{1}{2}\right)L.over~ start_ARG italic_t end_ARG - over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = ( divide start_ARG italic_t - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG start_ARG italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG - divide start_ARG 1 end_ARG start_ARG 2 end_ARG ) italic_L . (8)

セクション A.2で示すように、我々のReRoPE設計は時間的クロスアテンションにおいて望ましい3つの特性をすべて達成する。

Positional Interpolation[16]にインスパイアされ、我々はL𝐿Litalic_Lに固定値を設定する。これにより、 8において異なる長さのビデオが同じ長さに再スケールされる。 結果として、ReRoPEは常に時間的クロスアテンションに同じ注意バイアスを導入し、レイヤーを実際のビデオ長に対して不変にする。

3.3 Scene Cut Conditioning

これまでの大規模ビデオデータセットは通常、シーンカットのあるビデオを除外するか、より短いクリップに分割していた[18, 41, 94]。 実際、カットのあるビデオでジェネレータを訓練すると、生成されたビデオに望ましくないシーン遷移が生じる可能性がある。

一般的に、プロフェッショナルに編集されたビデオには頻繁にカットが含まれており、訓練時にそれらを除外すると貴重な情報が失われる可能性がある。 そのようなクリップを除去すると、訓練データの量も大幅に減少する(我々のデータでは、クリップの20%にカットが含まれている)。 しかし最も重要なのは、そのような貴重な映画技法を使用できなくなり、時間的に切り取られたビデオになってしまうことである。 以前の画像生成モデルは、画像のクロッピングに関して同様の問題に直面していた[68]。そこでは、モデルがフレーム外のオブジェクトを含む「クロップされた」画像を生成することを学習する可能性があった。 これらの洞察に基づき、我々はすべてのビデオを保持しつつ、カットのタイムスタンプを明示的にモデルに条件付けすることを決定した。 モデルがこのような条件付けを学習すれば、推論時にゼロを入力することでカットのないビデオを強制できる。

我々はシーンカットを、同じ内容で開始と終了のタイムスタンプが等しい特別なイベントとして扱う。 MinTにこれを条件付けするために、学習可能なベクトル𝒆cut1×Dcsuperscript𝒆cutsuperscript1superscript𝐷𝑐\bm{e}^{\mathrm{cut}}\in\mathbb{R}^{1\times D^{c}}bold_italic_e start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT 1 × italic_D start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT end_POSTSUPERSCRIPTを初期化し、 7で変換されたそのタイムスタンプtncutsubscriptsuperscript𝑡cut𝑛t^{\mathrm{cut}}_{n}italic_t start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTでReRoPEを適用し、時間的キャプションのテキスト埋め込みと連結してビデオトークンとのクロスアテンションを実行する:

𝒆~ncutsubscriptsuperscript~𝒆cut𝑛\displaystyle\tilde{\bm{e}}^{\mathrm{cut}}_{n}over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT =ReRoPE(𝒆ncut,tncut,tncut),absentReRoPEsubscriptsuperscript𝒆cut𝑛subscriptsuperscript𝑡cut𝑛subscriptsuperscript𝑡cut𝑛\displaystyle=\mathrm{ReRoPE}(\bm{e}^{\mathrm{cut}}_{n},t^{\mathrm{cut}}_{n},t% ^{\mathrm{cut}}_{n}),= roman_ReRoPE ( bold_italic_e start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , italic_t start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) ,
𝒛~=XAttn(𝒛,\displaystyle\tilde{\bm{z}}=\mathrm{XAttn}(\bm{z},\ over~ start_ARG bold_italic_z end_ARG = roman_XAttn ( bold_italic_z , Concat([𝒆~1c,,𝒆~Nec,𝒆~1cut,,𝒆~Ncutcut])).\displaystyle\mathrm{Concat}([\tilde{\bm{e}}^{c}_{1},...,\tilde{\bm{e}}^{c}_{N% ^{\mathrm{e}}},\tilde{\bm{e}}^{\mathrm{cut}}_{1},...,\tilde{\bm{e}}^{\mathrm{% cut}}_{N^{\mathrm{cut}}}])).roman_Concat ( [ over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT italic_c end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_N start_POSTSUPERSCRIPT roman_e end_POSTSUPERSCRIPT end_POSTSUBSCRIPT , over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , over~ start_ARG bold_italic_e end_ARG start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_N start_POSTSUPERSCRIPT roman_cut end_POSTSUPERSCRIPT end_POSTSUBSCRIPT ] ) ) . (9)

アブレーション(セクション 4.5)で示すように、この設計は要求されていない場合の望ましくないシーン遷移を大幅に減少させ、必要な場合に実践者がそれらを使用できるようにする。

3.4 Prompt Enhancer

MinTは、イベントのタイミングを正確に制御してビデオ生成を行うことができる。しかし、特定のアプリケーションでは、単一のプロンプトから開始することがより望ましい場合がある。先行研究では、大規模言語モデル(LLM)がテキストプロンプトから物理的に意味のあるシーンの空間レイアウトを生成できることが示されている[49, 50]。同様に、我々はLLMが複数のイベントを含むビデオの時間的構造を計画できることを示す。 短いテキストが与えられると、我々はLLMにそれを詳細なグローバルキャプションと、時間範囲を持つ複数のイベントキャプションに拡張するようプロンプトを与える。 その後、我々のモデルは強化されたプロンプトから豊かな動きの内容を持つビデオを生成することができる。

4 Experiments

我々の実験は以下の問いに答えることを目的としている: (i) MinTはテキストから動画(T2V)および画像から動画(I2V)の両設定においてイベントのタイミングを制御できるか?(セクション 4.2 および セクション 4.3(ii) プロンプト強化は単一のプロンプトから高品質な複数イベントの動画を生成することにつながるか?(セクション 4.4(iii) 我々のフレームワークにおける各設計選択はどのような影響を与えるか?(セクション 4.5

Refer to caption
図5: HoldOutとStoryBenchにおけるT2Vの結果。 CogVideoXとMochiについては、Concatベースラインと同様に、イベントを単一のプロンプトに連結した。最初の行の指標は視覚的品質を測定し、2行目の指標はテキストの整合性とイベント間の遷移の滑らかさに焦点を当てている。 MinTはイベント関連の指標で最高の性能を示しつつ、高い視覚的品質を維持している。

4.1 Experimental Setup

我々の実験設定の主要な側面をここに列挙する。 詳細については、付録 Bを参照されたい。

訓練データ。 時間ベースのキャプションを持つ既存の動画データセットは、通常、密な動画キャプショニング[44, 105]から得られる。 しかし、これらのデータセットは規模が限られており、大規模な動画生成器を微調整することは不可能である。 そのため、我々は既存のデータセット[18, 98]から得た動画に時間的イベントを手動でアノテーションし、約20万件の動画を得た。そのうち2千件を評価用に確保した。 シーンカットでモデルに条件付けするために、アノテーションされた動画にTransNetV2 [80]を実行してシーン境界を検出した。

評価データセット。 我々は2千件の保留動画を主要なベンチマーク(HoldOutと呼ぶ)として活用する。 また、我々のものと類似した時間的キャプションをアノテーションしているStoryBench [12]データセットでもテストを行う。 単一のイベントのみを持つ動画を除外し、約3千件のテストサンプルとなった。 最後に、短いプロンプトから動きの豊かな動画を生成するMinTの能力をテストするために、VBench [39]からのプロンプトリストを利用する。

Refer to caption
図6: T2Vの定性的結果。 すべてのイベントを単一のプロンプトに連結する方法(Concat)では、最初のイベントしか生成できない。 自己回帰生成(AutoReg)は動画の停滞に悩まされ、3番目のイベントを生成できない。 MEVGは人物のアイデンティティを保持するのに苦労し、急激なイベント遷移を生成する。 MinTは、滑らかな遷移と一貫したコンテンツですべてのイベントを生成する唯一の方法である。 より多くの定性的結果についてはセクション C.1を、動画結果については我々のプロジェクトページを参照されたい。

ベースライン。 現在の動画モデルが複数イベントの動画を生成できないことを示すために、我々はConcatと呼ばれる単純な方法を設計した。これは単にすべてのプロンプトを連結するものである。 我々はこれを我々のベースモデルと、最先端のオープンソースモデルであるCogVideoX [100]とMochi [82]の両方に適用する。 また、コードが利用可能で滑らかに接続されたイベントを生成するように設計されたアプローチとも比較する。 MEVG [63]は最先端の複数イベント動画生成方法である。 これは各イベントをそのプロンプトから個別に生成する。 滑らかな遷移を確保するために、現在のイベントのノイズ初期化として、以前に生成されたイベントにDDIM反転[79]を実行する。 我々はまた、イベントを自己回帰的に生成するために画像条件付き動画拡散モデルを微調整するベースライン(AutoRegと呼ぶ)を設計する。 アーキテクチャの影響を方法から分離するために、我々はMEVGとAutoRegの両方を我々のベースモデル上に実装し、公平な比較を確保する。 特筆すべきは、ベースラインはイベントのタイミングを制御できないため、比較を可能にするために単純にすべてのイベントを同じ長さに設定したことである。

評価指標。 我々は視覚的品質、テキストとの整合性、イベント遷移の滑らかさの3つの次元に焦点を当てる。 視覚的品質にはFID [33]、FVD [84]などの一般的な指標を、テキストとの整合性にはフレームごとのCLIPスコア[32]を報告する。 さらに、我々は最先端の動画品質評価モデルであるVideoScore [28]を活用する。これは人間の評価者と一致する結果を生成することが示されている。 我々は視覚的品質に視覚的品質動的度の出力を、テキストとの整合性にテキストと動画の整合性の出力を、イベント遷移の滑らかさに時間的一貫性の出力を使用する。 特筆すべきは、我々はイベントの生成に注目しているため、時間的キャプションとイベントの範囲に基づいてクロップされた動画クリップの間のテキストの整合性を計算することである。 最後に、イベント遷移の滑らかさを測定するために、生成された動画にTransNetV2を実行してカットを検出する。

実装の詳細。 MinTは[46, 103]と同様の事前訓練された潜在動画DiTに基づいている。 512×\times×288の解像度で最大12秒の動画を生成する。 我々はAdamWオプティマイザ[55]を用いてバッチサイズ512で12,000ステップ、モデル全体を微調整する。 推論時には、クラスフリーガイダンス[34]スケール8で256のノイズ除去ステップを実行する。

4.2 Text-to-Video Generation

5はHoldOutとStoryBenchデータセットにおける定量的結果を示している。 6は定性的比較を示している。 我々のモデルと同じベースモデルを共有するConcatと比較すると、MinTはHoldOutでは視覚的品質がわずかに低く、StoryBenchではより良い結果を達成している。 これは、StoryBenchのプロンプトが我々のモデルにとって分布外であるためである。 にもかかわらず、時間ベースのキャプションはMinTが良好な時間構造を持つ動画を生成するのに役立っている。 一方で、我々はテキストとの整合性がはるかに高いイベントを生成している。 CogVideoXとMochiに基づくConcatベースラインとMinTを比較した場合も、同様の観察結果が得られる。 全体として、これは我々のモデルが高い視覚的品質を維持しながら、連続的なイベント生成という新しい能力を獲得したことを証明している。

マルチイベント生成手法に関しては、AutoRegとMEVGはテキストとの整合性を大幅に向上させている。これは、各イベントをそのプロンプトから個別に生成しているためである。 しかし、AutoRegは視覚的品質が大幅に低下している。これは、生成されたフレームに条件付けることで、動画の停滞などのアーティファクトが生じるためである。 MEVGはフレーム反転によりこの問題を解決している。 しかし、多数のカットが示すように、イベント間で急激な遷移が生じることが多い。 実際、MEVGの反転技術は、2つの連続するイベントキャプションが類似した構造を持つ場合(例えば、同じ主語が異なる動作をする場合)にのみうまく機能することがわかった。 6のように、2つのキャプションで主語が変わる場合、生成されるイベントには通常、まったく異なるキャラクターが含まれる。 全体として、MinTは動画の品質、イベントの位置特定、および時間的滑らかさの間で最良のバランスを達成している。 商用モデルとの比較についてはセクション C.6を参照されたい。

Refer to caption
図7: T2Vベースラインに対する人間の選好評価。 MinTは視覚的品質において同等以上であり、他の3つのイベント関連指標において、ベースラインを大幅に上回っている。

人間による評価。 我々はHoldOutからランダムにサンプリングした200のプロンプトを使用してユーザー調査を実施した。 参加者にMinTと各ベースラインからのペアサンプルを提示し、サンプルごとに5人のユーザーから選好を収集した。 7の結果は、MinTが同等以上の視覚的品質を持ち、テキストとの整合性、タイミングの正確さ、遷移の滑らかさが大幅に向上したイベントを生成していることを示している。

イベント時間の制御。 MinTはイベントのタイミングの細かい制御をサポートしている。 我々の結果についてはセクション C.4を参照されたい。

4.3 Image-conditioned Video Generation

我々は、既存の画像内のエンティティを連続的なイベントを実行するようにアニメーション化するモデルの能力を評価する。 [12]に従い、モデルはテスト用動画の真の初期フレームとイベントのテキストプロンプトにアクセスできる。

設定。 T2V設定と同じデータセットと評価指標を使用する。 最良のベースラインであるMEVGと比較する。 MEVGには画像条件付きの変種があり、初期フレームを複製して疑似的な動画を形成する。 MinTについては、先行研究[8, 96]と同様に、ノイズの加えられた潜在表現と画像を連結することで画像に条件付けるようにファインチューニングを行う。

結果。 1はHoldOutとStoryBenchデータセットにおける複数イベントの画像アニメーション結果を示している。 T2V設定と同様の観察結果が得られた。 MinTは視覚的品質において同等以上の結果を達成し、イベントキャプションとのテキスト整合性およびイベント遷移の時間的滑らかさにおいて大幅に優れた性能を示している。

Method FID \downarrow FVD \downarrow VQ \uparrow DD \uparrow CLIP-T \uparrow TA \uparrow TC \uparrow #Cuts \downarrow
Dataset: HoldOut
MEVG 57.57 495.75 2.56 3.39 0.266 2.72 2.25 0.108
Ours 22.04 218.21 2.60 3.30 0.272 3.00 2.47 0.025
Dataset: StoryBench
MEVG 56.51 732.94 3.27 3.80 0.265 2.83 3.03 0.150
Ours 21.85 314.59 3.36 3.76 0.273 3.37 3.29 0.014
表1: HoldOutとStoryBenchにおけるI2V結果。 VQ、DD、TA、TCはそれぞれVideoScoreにおける視覚的品質、動的度合い、テキストと動画の整合性、時間的一貫性を表す。 #Cutsは動画あたりの平均カット数である。 T2Vと同様に、MinTはより優れた視覚的品質と滑らかなイベント遷移を達成している。

4.4 Prompt Enhanced Video Generation

MinTは、ユーザーが時間的キャプションを通じて生成される動画の動きの量を制御できるという、プロンプト強化の新しい次元を導入する。 我々は、このプロセスがLLMによって自動化できることを示す。 これにより、ユーザーは短いプロンプトからより興味深い動画を生成することが可能となる。

データセット。 我々は生成された動画の動きに興味があるため、VBench [39]動的度合い評価次元からプロンプトのリストを採用する。 これらのプロンプトは多様であり、常に静的でない動作を行う主体を含んでいる。 しかし、それらはすべて約10語程度の短いものである。

Method Subject Background Aesthetic Imaging Motion Dynamic
Consist. \uparrow Consist. \uparrow Quality \uparrow Quality \uparrow Smooth \uparrow Degree \uparrow
Short 0.857 0.939 0.498 0.583 0.995 0.481
Global 0.890 0.950 0.541 0.613 0.995 0.517
Ours 0.900 0.950 0.544 0.609 0.988 0.711
表2: VBenchにおけるプロンプト強化の結果。 Consist.は一貫性を意味する。 最初の4つの指標は動画の品質を測定するが、我々は生成された動画の動きに焦点を当てている。 MinTは、競争力のある視覚的品質と動きの滑らかさを維持しつつ、著しく高い動的度合いで動画を生成する。

プロンプト強化器。 我々はGPT-4 [3]に、短いプロンプトを詳細なグローバルキャプションと時間的キャプションに拡張するようプロンプトを与える。 我々が使用するプロンプトについては、セクション C.2を参照されたい。

ベースラインと評価指標。 我々は、元の短いプロンプトを使用して我々のベースモデルで生成された動画(Shortと呼ぶ)と比較する。 グローバルキャプションと時間的キャプションの効果を切り分けるために、強化されたグローバルキャプションを使用して我々のベースモデルで生成された動画(Globalと呼ぶ)とも比較する。 評価のために、公式のVBenchテストスイートから6つの指標を計算する。これらは視覚的品質、時間的滑らかさ、動きの豊かさに焦点を当てている。

Refer to caption
図8: プロンプト強化結果の定性的比較。 元の短いプロンプトは「水を飲む猫」である。

結果。 2は、VBenchにおける強化されたプロンプトからの動画生成結果を示している。 Globalは一貫してShortよりも優れた性能を示しており、詳細なプロンプトの使用が確かに有益であることを証明している。 追加の時間的キャプションを備えることで、MinTはベースラインと競争力のある視覚的品質と動きの滑らかさを達成しつつ、動的度合いで著しく高いスコアを獲得している。 8は定性的な例を示しており、単一の動作プロンプトを3つの動作を持つ一貫性のある動画に変換している。 より多くの定性的結果については、セクション C.2を参照されたい。

4.5 Ablation Study

我々のモデルの各構成要素の効果を 3で検討する。 すべてのアブレーションはHoldOutで実施された。

時間条件付け。 我々はイベントの時間範囲でモデルに条件付けを行う異なる方法を検討する。 時間の連結はタイムスタンプを高次元特徴量に埋め込むためにMLPを実行し、それを時間的キャプションのテキスト埋め込みと連結する。 しかし、我々のベースモデルはRoPEを使用しているため、ビデオトークンには絶対位置情報が含まれていない。 したがって、時間埋め込みされたテキスト特徴量とクロスアテンションを行っても、イベントをビデオフレームに関連付けることができず、イベントキャプションとのテキスト整合性が大幅に低下する。 ハードアテンションマスクは時間的クロスアテンションにハードマスキングを採用し、イベントは時間範囲内のフレームにのみ注目する。 これにより、所望の時間帯にイベントを合成することが可能になる。 しかし、ハードマスキングによりイベント境界のビデオトークンが次のイベントに注目できなくなり、結果としてイベントの遷移が急激になり、時間的一貫性が低下し、シーンカットが増加する。 最後に、通常のRoPEはビデオトークンとイベントのテキスト埋め込みを生のタイムスタンプでエンコードする。 4で議論したように、これはイベントの境界を正確に特定できず、テキスト整合性スコアの低下が示すようにイベントのタイミング制御が劣化する。

ReRoPEのリスケール長 L𝐿Litalic_L デフォルトでは、我々はL=8𝐿8L=8italic_L = 8と設定している。 3は、L=4𝐿4L=4italic_L = 4または16161616を使用しても同様の結果が得られることを示している。 これは、モデルがこのハイパーパラメータに対して敏感ではないことを示している。 異なるL𝐿Litalic_L値を持つReRoPEに関するさらなる議論については、セクション A.3を参照されたい。

シーンカット条件付け。 3の最後の行では、訓練中のシーンカット条件付けを除去している。 セクション 3.3で議論したように、シーンカット情報にアクセスできない場合、モデルは生成されたビデオに望ましくないショットの遷移を導入する。 実際、このバリアントは我々の完全なモデルと同様の視覚的品質とテキスト整合性を持つが、時間的一貫性のスコアが大幅に低く、より多くのカットを生成する。 さらなる分析についてはセクション C.3を参照されたい。

Method VQ \uparrow DD \uparrow CLIP-T \uparrow TA \uparrow TC \uparrow #Cuts \downarrow
Full Model 2.56 3.32 0.270 2.92 2.44 0.026
Concat time 2.53 3.31 0.249 2.42 2.33 0.075
Hard attn mask 2.45 3.34 0.260 2.68 2.30 0.069
Vanilla RoPE 2.54 3.32 0.262 2.79 2.42 0.030
ReRoPE (L𝐿Litalic_L=4) 2.54 3.33 0.264 2.88 2.43 0.029
ReRoPE (L𝐿Litalic_L=16) 2.55 3.32 0.265 2.90 2.44 0.025
No cut condition 2.54 3.33 0.268 2.89 2.34 0.084
表3: HoldOutにおけるアブレーション結果。 我々はイベントの時間範囲に対する異なる条件付けメカニズム、ReRoPEにおけるリスケール長L𝐿Litalic_L、およびシーンカット条件付けの使用について検討する。 VQ、DD、TA、およびTCはそれぞれVideoScoreにおける視覚的品質、動的度合い、テキストとビデオの整合性、および時間的一貫性を表す。 #Cutsはビデオあたりの平均シーンカット数である。

5 Conclusion

我々は、イベントタイミング制御を伴う複数イベントビデオ生成のためのフレームワークであるMinTを提示する。 我々の手法は、ビデオの時間的ダイナミクスを誘導するユニークな位置エンコーディング方法を採用しており、滑らかに接続されたイベントと一貫した被写体を実現している。 LLMを搭載することで、我々はさらに、シンプルなプロンプトから動きの豊かなビデオを生成できるプロンプトエンハンサーを設計した。 我々は本稿を、制御可能なコンテンツ作成ツールに向けた重要な一歩と考えている。 我々の限界と失敗事例については付録 Dで議論している。

Acknowledgments

我々は、貴重な議論とサポートを提供してくれたTsai-Shien Chen、Alper Canberk、Yuanhao Ban、Sherwin Bahmani、Moayed Haji Ali、およびXijie Huangに感謝の意を表したい。

References

  • Gen [2024] Gen-3 Alpha. https://runwayml.com/research/introducing-gen-3-alpha, 2024. Accessed: 2024-10-24.
  • KLI [2024] Kling1.5. https://klingai.com/, 2024. Accessed: 2024-10-24.
  • Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
  • Anne Hendricks et al. [2017] Lisa Anne Hendricks, Oliver Wang, Eli Shechtman, Josef Sivic, Trevor Darrell, and Bryan Russell. Localizing moments in video with natural language. In ICCV, 2017.
  • Ba [2016] Jimmy Lei Ba. Layer Normalization. arXiv preprint arXiv:1607.06450, 2016.
  • Bain et al. [2021] Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman. Frozen in time: A joint video and image encoder for end-to-end retrieval. In ICCV, 2021.
  • Bar-Tal et al. [2024] Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, et al. Lumiere: A space-time diffusion model for video generation. arXiv preprint arXiv:2401.12945, 2024.
  • Blattmann et al. [2023a] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023a.
  • Blattmann et al. [2023b] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In CVPR, 2023b.
  • Brooks et al. [2023] Tim Brooks, Aleksander Holynski, and Alexei A Efros. Instructpix2pix: Learning to follow image editing instructions. In CVPR, 2023.
  • Brooks et al. [2024] Tim Brooks, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang, and Aditya Ramesh. Video generation models as world simulators. OpenAI technical reports, 2024.
  • Bugliarello et al. [2024] Emanuele Bugliarello, H Hernan Moraldo, Ruben Villegas, Mohammad Babaeizadeh, Mohammad Taghi Saffar, Han Zhang, Dumitru Erhan, Vittorio Ferrari, Pieter-Jan Kindermans, and Paul Voigtlaender. StoryBench: a multifaceted benchmark for continuous story visualization. NeurIPS, 2024.
  • Chen et al. [2023a] Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, and Ying Shan. Videocrafter1: Open diffusion models for high-quality video generation. arXiv preprint arXiv:2310.19512, 2023a.
  • Chen et al. [2024a] Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, and Ying Shan. Videocrafter2: Overcoming data limitations for high-quality video diffusion models. In CVPR, 2024a.
  • Chen et al. [2024b] Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, et al. ShareGPT4Video: Improving video understanding and generation with better captions. NeurIPS, 2024b.
  • Chen et al. [2023b] Shouyuan Chen, Sherman Wong, Liangjian Chen, and Yuandong Tian. Extending context window of large language models via positional interpolation. arXiv preprint arXiv:2306.15595, 2023b.
  • Chen et al. [2024c] Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, and Juan-Manuel Perez-Rua. GenTron: Diffusion transformers for image and video generation. In CVPR, 2024c.
  • Chen et al. [2024d] Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, et al. Panda-70M: Captioning 70m videos with multiple cross-modality teachers. In CVPR, 2024d.
  • Dao et al. [2022] Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. FlashAttention: Fast and memory-efficient exact attention with io-awareness. NeurIPS, 2022.
  • Epstein et al. [2020] Dave Epstein, Boyuan Chen, and Carl Vondrick. Oops! predicting unintentional action in video. In CVPR, 2020.
  • Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In ICML, 2024.
  • Fu-Yun et al. [2024] Wang Fu-Yun, Huang Zhaoyang, Ma Qiang, Song Guanglu, Lu Xudong, Bian Weikang, Li Yijin, Liu Yu, and Li Hongsheng. ZoLA: Zero-shot creative long animation generation with short video model. In ECCV, 2024.
  • Gao et al. [2024] Peng Gao, Le Zhuo, Ziyi Lin, Dongyang Liu, Ruoyi Du, Xu Luo, Longtian Qiu, Yuhang Zhang, et al. Lumina-t2x: Transforming text into any modality, resolution, and duration via flow-based large diffusion transformers. arXiv preprint arXiv:2405.05945, 2024.
  • Gong et al. [2023] Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Yingqing He, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, et al. TaleCrafter: Interactive story visualization with multiple characters. arXiv preprint arXiv:2305.18247, 2023.
  • Gu et al. [2023] Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang Jiang, and Hang Xu. Reuse and diffuse: Iterative denoising for text-to-video generation. arXiv preprint arXiv:2309.03549, 2023.
  • Guo et al. [2024] Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, and Bo Dai. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. In ICLR, 2024.
  • Gupta et al. [2023] Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, and José Lezama. Photorealistic video generation with diffusion models. arXiv preprint arXiv:2312.06662, 2023.
  • He et al. [2024] Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, et al. VideoScore: Building automatic metrics to simulate fine-grained human feedback for video generation. In EMNLP, 2024.
  • He et al. [2022] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, and Qifeng Chen. Latent video diffusion models for high-fidelity video generation with arbitrary lengths. arXiv preprint arXiv:2211.13221, 2022.
  • He et al. [2023] Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, et al. Animate-A-Story: Storytelling with retrieval-augmented video generation. arXiv preprint arXiv:2307.06940, 2023.
  • Henschel et al. [2024] Roberto Henschel, Levon Khachatryan, Daniil Hayrapetyan, Hayk Poghosyan, Vahram Tadevosyan, Zhangyang Wang, Shant Navasardyan, and Humphrey Shi. StreamingT2V: Consistent, dynamic, and extendable long video generation from text. arXiv preprint arXiv:2403.14773, 2024.
  • Hessel et al. [2021] Jack Hessel, Ari Holtzman, Maxwell Forbes, Ronan Le Bras, and Yejin Choi. Clipscore: A reference-free evaluation metric for image captioning. In EMNLP, 2021.
  • Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. NeurIPS, 2017.
  • Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
  • Ho et al. [2022a] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben Poole, Mohammad Norouzi, David J Fleet, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022a.
  • Ho et al. [2022b] Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, and David J Fleet. Video diffusion models. NeurIPS, 2022b.
  • Huang et al. [2020] Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, and Radu Soricut. Multimodal pretraining for dense video captioning. arXiv preprint arXiv:2011.11760, 2020.
  • Huang et al. [2024] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, et al. VBench: Comprehensive benchmark suite for video generative models. In CVPR, 2024.
  • Jiang et al. [2024] Yuming Jiang, Tianxing Wu, Shuai Yang, Chenyang Si, Dahua Lin, Yu Qiao, Chen Change Loy, and Ziwei Liu. VideoBooth: Diffusion-based video generation with image prompts. In CVPR, 2024.
  • Ju et al. [2024] Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, and Ying Shan. MiraData: A large-scale video dataset with long durations and structured captions. arXiv preprint arXiv:2407.06358, 2024.
  • Khachatryan et al. [2023] Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, and Humphrey Shi. Text2video-zero: Text-to-image diffusion models are zero-shot video generators. In CVPR, 2023.
  • Kingma and Welling [2013] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
  • Krishna et al. [2017] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles. Dense-captioning events in videos. In ICCV, 2017.
  • Kynkäänniemi et al. [2024] Tuomas Kynkäänniemi, Miika Aittala, Tero Karras, Samuli Laine, Timo Aila, and Jaakko Lehtinen. Applying guidance in a limited interval improves sample and distribution quality in diffusion models. arXiv preprint arXiv:2404.07724, 2024.
  • Lab and etc. [2024] PKU-Yuan Lab and Tuzhan AI etc. Open-Sora-Plan, 2024.
  • Li et al. [2023] Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, and Yong Jae Lee. GLIGEN: Open-set grounded text-to-image generation. In CVPR, 2023.
  • Li et al. [2024] Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, and Min Zhang. Anim-Director: A large multimodal model powered agent for controllable animation video generation. In SIGGRAPH Asia Conference Track, 2024.
  • Lian et al. [2024] Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, and Boyi Li. Llm-grounded video diffusion models. In ICLR, 2024.
  • Lin et al. [2024] Han Lin, Abhay Zala, Jaemin Cho, and Mohit Bansal. VideoDirectorGPT: Consistent multi-scene video generation via llm-guided planning. In COLM, 2024.
  • Lipman et al. [2023] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow matching for generative modeling. In ICLR, 2023.
  • Liu et al. [2023] Xingchao Liu, Chengyue Gong, et al. Flow straight and fast: Learning to generate and transfer data with rectified flow. In ICLR, 2023.
  • Liu et al. [2024] Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu, and Dahua Lin. Scaling laws of rope-based extrapolation. In ICLR, 2024.
  • Long et al. [2024] Fuchen Long, Zhaofan Qiu, Ting Yao, and Tao Mei. VideoStudio: Generating consistent-content and multi-scene videos. In ECCV, 2024.
  • Loshchilov and Hutter [2019] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In ICLR, 2019.
  • Lu et al. [2024] Zeyu Lu, ZiDong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, and LEI BAI. FiT: Flexible vision transformer for diffusion model. In ICML, 2024.
  • Ma et al. [2024] Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, and Yu Qiao. Latte: Latent diffusion transformer for video generation. arXiv preprint arXiv:2401.03048, 2024.
  • Maharana and Bansal [2021] Adyasha Maharana and Mohit Bansal. Integrating visuospatial, linguistic and commonsense structure into story visualization. In EMNLP, 2021.
  • Maharana et al. [2021] Adyasha Maharana, Darryl Hannan, and Mohit Bansal. Improving generation and evaluation of visual stories via semantic consistency. In NAACL, 2021.
  • Maharana et al. [2022] Adyasha Maharana, Darryl Hannan, and Mohit Bansal. StoryDALL-E: Adapting pretrained text-to-image transformers for story continuation. In ECCV, 2022.
  • Menapace et al. [2024] Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, et al. Snap video: Scaled spatiotemporal transformers for text-to-video synthesis. CVPR, 2024.
  • Ni et al. [2022] Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, and Haibin Ling. Expanding language-image pretrained models for general video recognition. In ECCV, 2022.
  • Oh et al. [2024] Gyeongrok Oh, Jaehwan Jeong, Sieun Kim, Wonmin Byeon, Jinkyu Kim, Sungwoong Kim, and Sangpil Kim. MEVG: Multi-event video generation with text-to-video models. In ECCV, 2024.
  • Pan et al. [2024] Xichen Pan, Pengda Qin, Yuhong Li, Hui Xue, and Wenhu Chen. Synthesizing coherent story with auto-regressive latent diffusion models. In WACV, 2024.
  • Paszke et al. [2019] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. PyTorch: An imperative style, high-performance deep learning library. NeurIPS, 2019.
  • Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. ICCV, 2023.
  • Peng et al. [2024] Bowen Peng, Jeffrey Quesnelle, Honglu Fan, and Enrico Shippole. YaRN: Efficient context window extension of large language models. In ICLR, 2024.
  • Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
  • Polyak et al. [2024] Adam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, et al. Movie gen: A cast of media foundation models. arXiv preprint arXiv:2410.13720, 2024.
  • Qiu et al. [2024] Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, and Ziwei Liu. FreeNoise: Tuning-free longer video diffusion via noise rescheduling. In ICLR, 2024.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.
  • Raffel et al. [2020] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. JMLR, 2020.
  • Rahman et al. [2023] Tanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta Mahajan, and Leonid Sigal. Make-A-Story: Visual memory conditioned consistent story generation. In CVPR, 2023.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
  • Ronneberger et al. [2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-Net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
  • Sharma et al. [2024] Abhishek Sharma, Adams Yu, Ali Razavi, Andeep Toor, Andrew Pierson, Ankush Gupta, Austin Waters, Daniel Tanis, Dumitru Erhan, Eric Lau, Eleni Shaw, Gabe Barth-Maron, Greg Shaw, Han Zhang, Henna Nandwani, Hernan Moraldo, Hyunjik Kim, Irina Blok, Jakob Bauer, Jeff Donahue, Junyoung Chung, Kory Mathewson, Kurtis David, Lasse Espeholt, Marc van Zee, Matt McGill, Medhini Narasimhan, Miaosen Wang, Mikołaj Bińkowski, Mohammad Babaeizadeh, Mohammad Taghi Saffar, Nick Pezzotti, Pieter-Jan Kindermans, Poorva Rane, Rachel Hornung, Robert Riachi, Ruben Villegas, Rui Qian, Sander Dieleman, Serena Zhang, Serkan Cabi, Shixin Luo, Shlomi Fruchter, Signe Nørly, Srivatsan Srinivasan, Tobias Pfaff, Tom Hume, Vikas Verma, Weizhe Hua, William Zhu, Xinchen Yan, Xinyu Wang, Yelin Kim, Yuqing Du, and Yutian Chen. Veo, 2024.
  • Singer et al. [2023] Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, et al. Make-a-video: Text-to-video generation without text-video data. In ICLR, 2023.
  • Sohl-Dickstein et al. [2015] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In ICML, 2015.
  • Song et al. [2021] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR, 2021.
  • Souček and Lokoč [2020] Tomáš Souček and Jakub Lokoč. TransNet V2: An effective deep network architecture for fast shot transition detection. arXiv preprint arXiv:2008.04838, 2020.
  • Su et al. [2024] Jianlin Su, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 2024.
  • Team [2024] Genmo Team. Mochi, 2024.
  • Tulyakov et al. [2018] Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, and Jan Kautz. MoCoGAN: Decomposing motion and content for video generation. In CVPR, 2018.
  • Unterthiner et al. [2018] Thomas Unterthiner, Sjoerd van Steenkiste, Karol Kurach, Raphael Marinier, Marcin Michalski, and Sylvain Gelly. Towards accurate generative models of video: A new metric & challenges. arXiv preprint arXiv:1812.01717, 2018.
  • Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. NeurIPS, 2017.
  • Villegas et al. [2017] Ruben Villegas, Jimei Yang, Seunghoon Hong, Xunyu Lin, and Honglak Lee. Decomposing motion and content for natural video sequence prediction. In ICLR, 2017.
  • Villegas et al. [2022] Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, and Dumitru Erhan. Phenaki: Variable length video generation from open domain textual descriptions. In ICLR, 2022.
  • Wang et al. [2023a] Fu-Yun Wang, Wenshuo Chen, Guanglu Song, Han-Jia Ye, Yu Liu, and Hongsheng Li. Gen-L-Video: Multi-text to long video generation via temporal co-denoising. arXiv preprint arXiv:2305.18264, 2023a.
  • Wang et al. [2023b] Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, and Shiwei Zhang. Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571, 2023b.
  • Wang et al. [2024a] Jiawei Wang, Yuchen Zhang, Jiaxin Zou, Yan Zeng, Guoqiang Wei, Liping Yuan, and Hang Li. Boximator: Generating rich and controllable motions for video synthesis. arXiv preprint arXiv:2402.01566, 2024a.
  • Wang et al. [2021] Weiyao Wang, Matt Feiszli, Heng Wang, and Du Tran. Unidentified video objects: A benchmark for dense, open-world segmentation. In ICCV, 2021.
  • Wang et al. [2024b] Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, and Ishan Misra. InstanceDiffusion: Instance-level control for image generation. In CVPR, 2024b.
  • Wang et al. [2024c] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. VideoComposer: Compositional video synthesis with motion controllability. NeurIPS, 2024c.
  • Wang et al. [2024d] Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, et al. InternVid: A large-scale video-text dataset for multimodal understanding and generation. In ICLR, 2024d.
  • Wu et al. [2023] Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, and Mike Zheng Shou. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation. In ICCV, 2023.
  • Xing et al. [2024] Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Xintao Wang, Tien-Tsin Wong, and Ying Shan. DynamiCrafter: Animating open-domain images with video diffusion priors. In ECCV, 2024.
  • Xiong et al. [2024] Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, and Xihui Liu. Lvd-2m: A long-take video dataset with temporally dense captions. NeurIPS, 2024.
  • Xue et al. [2022] Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan Yang, Jianlong Fu, and Baining Guo. Advancing high-resolution video-language representation with large-scale video transcriptions. In CVPR, 2022.
  • Yang et al. [2023] Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, and Cordelia Schmid. VidChapters-7M: Video chapters at scale. NeurIPS, 2023.
  • Yang et al. [2024] Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, et al. CogVideoX: Text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:2408.06072, 2024.
  • Yu et al. [2023] Lijun Yu, José Lezama, Nitesh B Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu, Alexander G Hauptmann, et al. Language model beats diffusion–tokenizer is key to visual generation. arXiv preprint arXiv:2310.05737, 2023.
  • Zhao et al. [2024] Canyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, and Chunhua Shen. MovieDreamer: Hierarchical generation for coherent long visual sequence. arXiv preprint arXiv:2407.16655, 2024.
  • Zheng et al. [2024] Zangwei Zheng, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, and Yang You. Open-Sora: Democratizing efficient video production for all, 2024.
  • Zhou et al. [2022] Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, and Jiashi Feng. MagicVideo: Efficient video generation with latent diffusion models. arXiv preprint arXiv:2211.11018, 2022.
  • Zhou et al. [2018] Luowei Zhou, Chenliang Xu, and Jason Corso. Towards automatic learning of procedures from web instructional videos. In AAAI, 2018.
  • Zhou et al. [2024] Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, and Qibin Hou. StoryDiffusion: Consistent self-attention for long-range image and video generation. arXiv preprint arXiv:2405.01434, 2024.
  • Zhu and Tang [2024] Zhongyang Zhu and Jie Tang. CogCartoon: Towards practical story visualization. IJCV, 2024.

Appendix A Details on Rotary Position Embedding

A.1 Derivation of RoPE

本稿の主要部分のセクション 3.1で行われた導出の詳細を説明する。 我々の導出は主に[81, 53, 67]に従っており、我々の手法の直感的な動機付けのみを提供している。 より厳密な結果については、それらの論文を参照されたい。

インデックスn𝑛nitalic_nにおけるクエリベクトル𝒒n=[qn(0),,qn(d1)]dsubscript𝒒𝑛superscriptsubscript𝑞𝑛0superscriptsubscript𝑞𝑛𝑑1superscript𝑑\bm{q}_{n}=\left[q_{n}^{(0)},\cdots,q_{n}^{(d-1)}\right]\in\mathbb{R}^{d}bold_italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = [ italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT , ⋯ , italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_d - 1 ) end_POSTSUPERSCRIPT ] ∈ blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPTとインデックスm𝑚mitalic_mにおけるキーベクトル𝒌m=[km(0),,km(d1)]dsubscript𝒌𝑚superscriptsubscript𝑘𝑚0superscriptsubscript𝑘𝑚𝑑1superscript𝑑\bm{k}_{m}=\left[k_{m}^{(0)},\cdots,k_{m}^{(d-1)}\right]\in\mathbb{R}^{d}bold_italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT = [ italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT , ⋯ , italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_d - 1 ) end_POSTSUPERSCRIPT ] ∈ blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPTが与えられた場合、RoPEを適用するには、まず2つの要素ごとにグループ化し、以下のように複素数にする:

𝒒¯n=[q¯n(0),,q¯n(d/21)],q¯n(l)=qn(2l)+iqn(2l+1),𝒌¯m=[k¯m(0),,k¯m(d/21)],k¯m(l)=km(2l)+ikm(2l+1).\begin{gathered}\bar{\bm{q}}_{n}=\left[\bar{q}_{n}^{(0)},\cdots,\bar{q}_{n}^{(% d/2-1)}\right],\ \ \bar{q}_{n}^{(l)}=q_{n}^{(2l)}+iq_{n}^{(2l+1)},\\ \bar{\bm{k}}_{m}=\left[\bar{k}_{m}^{(0)},\cdots,\bar{k}_{m}^{(d/2-1)}\right],% \ \ \bar{k}_{m}^{(l)}=k_{m}^{(2l)}+ik_{m}^{(2l+1)}.\end{gathered}start_ROW start_CELL over¯ start_ARG bold_italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = [ over¯ start_ARG italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT , ⋯ , over¯ start_ARG italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_d / 2 - 1 ) end_POSTSUPERSCRIPT ] , over¯ start_ARG italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_l ) end_POSTSUPERSCRIPT = italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l ) end_POSTSUPERSCRIPT + italic_i italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l + 1 ) end_POSTSUPERSCRIPT , end_CELL end_ROW start_ROW start_CELL over¯ start_ARG bold_italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT = [ over¯ start_ARG italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT , ⋯ , over¯ start_ARG italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_d / 2 - 1 ) end_POSTSUPERSCRIPT ] , over¯ start_ARG italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_l ) end_POSTSUPERSCRIPT = italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l ) end_POSTSUPERSCRIPT + italic_i italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l + 1 ) end_POSTSUPERSCRIPT . end_CELL end_ROW (1)

次に、RoPEは各複素数を角度θlsubscript𝜃𝑙\theta_{l}italic_θ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPTだけ回転させる。これは要素ごとの乗算によって達成される:

𝒒~n=𝒒¯nein𝜽,𝒌~m=𝒌¯meim𝜽,formulae-sequencesubscript~𝒒𝑛direct-productsubscript¯𝒒𝑛superscript𝑒𝑖𝑛𝜽subscript~𝒌𝑚direct-productsubscript¯𝒌𝑚superscript𝑒𝑖𝑚𝜽\tilde{\bm{q}}_{n}=\bar{\bm{q}}_{n}\odot e^{in\bm{\theta}},\ \ \tilde{\bm{k}}_% {m}=\bar{\bm{k}}_{m}\odot e^{im\bm{\theta}},over~ start_ARG bold_italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = over¯ start_ARG bold_italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ⊙ italic_e start_POSTSUPERSCRIPT italic_i italic_n bold_italic_θ end_POSTSUPERSCRIPT , over~ start_ARG bold_italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT = over¯ start_ARG bold_italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT ⊙ italic_e start_POSTSUPERSCRIPT italic_i italic_m bold_italic_θ end_POSTSUPERSCRIPT , (2)

ここで、𝜽𝜽\bm{\theta}bold_italic_θはベクトル内の各要素の位置l𝑙litalic_lによって決定される。 我々は先行研究[81, 46]に従い、以下を使用する:

𝜽=[θ0,,θd/21],θl=100002l/d.formulae-sequence𝜽subscript𝜃0subscript𝜃𝑑21subscript𝜃𝑙superscript100002𝑙𝑑\bm{\theta}=\left[\theta_{0},\cdots,\theta_{d/2-1}\right],\ \ \theta_{l}=10000% ^{-2l/d}.bold_italic_θ = [ italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , ⋯ , italic_θ start_POSTSUBSCRIPT italic_d / 2 - 1 end_POSTSUBSCRIPT ] , italic_θ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT = 10000 start_POSTSUPERSCRIPT - 2 italic_l / italic_d end_POSTSUPERSCRIPT . (3)

3は、各θlsubscript𝜃𝑙\theta_{l}italic_θ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPTが固定値であることを示しており、したがって 2の回転結果はベクトルのインデックスn𝑛nitalic_nm𝑚mitalic_mによってのみ決定される。 これが、本稿の主要部分で、異なる要素に対して𝜽𝜽\bm{\theta}bold_italic_θではなく、単一のθbasesubscript𝜃base\theta_{\mathrm{base}}italic_θ start_POSTSUBSCRIPT roman_base end_POSTSUBSCRIPTのみを考慮している理由である。

これで、𝒒~nsubscript~𝒒𝑛\tilde{\bm{q}}_{n}over~ start_ARG bold_italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT𝒌~msubscript~𝒌𝑚\tilde{\bm{k}}_{m}over~ start_ARG bold_italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPTの間の注意を計算できる:

An,m=Resubscript𝐴𝑛𝑚Re\displaystyle A_{n,m}=\mathrm{Re}italic_A start_POSTSUBSCRIPT italic_n , italic_m end_POSTSUBSCRIPT = roman_Re [𝒒~n,𝒌~m]delimited-[]subscript~𝒒𝑛subscript~𝒌𝑚\displaystyle\left[\langle\tilde{\bm{q}}_{n},\tilde{\bm{k}}_{m}\rangle\right][ ⟨ over~ start_ARG bold_italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , over~ start_ARG bold_italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT ⟩ ] (4)
=ReabsentRe\displaystyle=\mathrm{Re}= roman_Re [(𝒒¯nein𝜽)(𝒌¯meim𝜽)]delimited-[]subscript¯𝒒𝑛superscript𝑒𝑖𝑛𝜽superscriptsubscript¯𝒌𝑚superscript𝑒𝑖𝑚𝜽\displaystyle\left[(\bar{\bm{q}}_{n}e^{in\bm{\theta}})\cdot(\bar{\bm{k}}_{m}e^% {im\bm{\theta}})^{*}\right][ ( over¯ start_ARG bold_italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT italic_e start_POSTSUPERSCRIPT italic_i italic_n bold_italic_θ end_POSTSUPERSCRIPT ) ⋅ ( over¯ start_ARG bold_italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT italic_e start_POSTSUPERSCRIPT italic_i italic_m bold_italic_θ end_POSTSUPERSCRIPT ) start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ]
=ReabsentRe\displaystyle=\mathrm{Re}= roman_Re [l=0d/21(q¯n(l)einθl)(k¯m(l)eimθl)]delimited-[]superscriptsubscript𝑙0𝑑21superscriptsubscript¯𝑞𝑛𝑙superscript𝑒𝑖𝑛subscript𝜃𝑙superscriptsubscript¯𝑘𝑚𝑙superscript𝑒𝑖𝑚subscript𝜃𝑙\displaystyle\left[\sum_{l=0}^{d/2-1}{(\bar{q}_{n}^{(l)}e^{in\theta_{l}})(\bar% {k}_{m}^{(l)*}e^{-im\theta_{l}}})\right][ ∑ start_POSTSUBSCRIPT italic_l = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_d / 2 - 1 end_POSTSUPERSCRIPT ( over¯ start_ARG italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_l ) end_POSTSUPERSCRIPT italic_e start_POSTSUPERSCRIPT italic_i italic_n italic_θ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT end_POSTSUPERSCRIPT ) ( over¯ start_ARG italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_l ) ∗ end_POSTSUPERSCRIPT italic_e start_POSTSUPERSCRIPT - italic_i italic_m italic_θ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT end_POSTSUPERSCRIPT ) ]
=ReabsentRe\displaystyle=\mathrm{Re}= roman_Re [l=0d/21q¯n(l)k¯m(l)ei(nm)θl]delimited-[]superscriptsubscript𝑙0𝑑21superscriptsubscript¯𝑞𝑛𝑙superscriptsubscript¯𝑘𝑚𝑙superscript𝑒𝑖𝑛𝑚subscript𝜃𝑙\displaystyle\left[{\sum_{l=0}^{d/2-1}\bar{q}_{n}^{(l)}}\bar{k}_{m}^{(l)*}e^{i% (n-m)\theta_{l}}\right][ ∑ start_POSTSUBSCRIPT italic_l = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_d / 2 - 1 end_POSTSUPERSCRIPT over¯ start_ARG italic_q end_ARG start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_l ) end_POSTSUPERSCRIPT over¯ start_ARG italic_k end_ARG start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_l ) ∗ end_POSTSUPERSCRIPT italic_e start_POSTSUPERSCRIPT italic_i ( italic_n - italic_m ) italic_θ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT end_POSTSUPERSCRIPT ]
=l=0d/21absentsuperscriptsubscript𝑙0𝑑21\displaystyle=\sum_{l=0}^{d/2-1}= ∑ start_POSTSUBSCRIPT italic_l = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_d / 2 - 1 end_POSTSUPERSCRIPT (qn(2l)km(2l)+qn(2l+1)km(2l+1))cos((nm)θl)+limit-fromsuperscriptsubscript𝑞𝑛2𝑙superscriptsubscript𝑘𝑚2𝑙superscriptsubscript𝑞𝑛2𝑙1superscriptsubscript𝑘𝑚2𝑙1𝑛𝑚subscript𝜃𝑙\displaystyle\left(q_{n}^{(2l)}k_{m}^{(2l)}+q_{n}^{(2l+1)}k_{m}^{(2l+1)}\right% )\cos{((n-m)\theta_{l})}+( italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l ) end_POSTSUPERSCRIPT italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l ) end_POSTSUPERSCRIPT + italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l + 1 ) end_POSTSUPERSCRIPT italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l + 1 ) end_POSTSUPERSCRIPT ) roman_cos ( ( italic_n - italic_m ) italic_θ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ) +
(qn(2l)km(2l+1)qn(2l+1)km(2l))sin((nm)θl).superscriptsubscript𝑞𝑛2𝑙superscriptsubscript𝑘𝑚2𝑙1superscriptsubscript𝑞𝑛2𝑙1superscriptsubscript𝑘𝑚2𝑙𝑛𝑚subscript𝜃𝑙\displaystyle\left(q_{n}^{(2l)}k_{m}^{(2l+1)}-q_{n}^{(2l+1)}k_{m}^{(2l)}\right% )\sin{((n-m)\theta_{l})}.( italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l ) end_POSTSUPERSCRIPT italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l + 1 ) end_POSTSUPERSCRIPT - italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l + 1 ) end_POSTSUPERSCRIPT italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 2 italic_l ) end_POSTSUPERSCRIPT ) roman_sin ( ( italic_n - italic_m ) italic_θ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ) .

我々はRoPEによって注意に導入されるバイアスに興味があるため、すべてのクエリ𝒒nsubscript𝒒𝑛\bm{q}_{n}bold_italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTとすべてのキー𝒌msubscript𝒌𝑚\bm{k}_{m}bold_italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPTが同じであると仮定し、RoPEなしの場合の注意値が同じになるようにする。 経験的に、我々のDiTではLayer Normalization[5]の使用により、クエリとキーベクトルが実際に類似した値を持つことを見出している。 sin()\sin{(\cdot)}roman_sin ( ⋅ )cos()\cos{(\cdot)}roman_cos ( ⋅ )の周期的性質により、 4から、An,m=Am,nsubscript𝐴𝑛𝑚subscript𝐴𝑚𝑛A_{n,m}=A_{m,n}italic_A start_POSTSUBSCRIPT italic_n , italic_m end_POSTSUBSCRIPT = italic_A start_POSTSUBSCRIPT italic_m , italic_n end_POSTSUBSCRIPTとなる。つまり、𝒒nsubscript𝒒𝑛\bm{q}_{n}bold_italic_q start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT𝒌msubscript𝒌𝑚\bm{k}_{m}bold_italic_k start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPTの間の注意バイアスは、2つのベクトル間の絶対距離|nm|𝑛𝑚\lvert n-m\rvert| italic_n - italic_m |によってのみ影響を受ける。

元のRoPE論文[81]は、An,msubscript𝐴𝑛𝑚A_{n,m}italic_A start_POSTSUBSCRIPT italic_n , italic_m end_POSTSUBSCRIPTの上限が距離|nm|𝑛𝑚\lvert n-m\rvert| italic_n - italic_m |とともに約40まで単調に減衰することを証明している。 時間的クロスアテンション層で使用されるRoPEは時間フレームインデックスのみを使用してベクトルをエンコードし、我々のビデオDiTは最大約50フレームのビデオトークンで訓練されているため、我々はRoPEの単調性をおおよそ保持している。 セクション A.3で見るように、長距離ではAn,msubscript𝐴𝑛𝑚A_{n,m}italic_A start_POSTSUBSCRIPT italic_n , italic_m end_POSTSUBSCRIPTにいくつかの変動があるものの、長期的な減衰によりその値は著しく低くなる。

A.2 Proof of the Property of ReRoPE

本稿のセクション 3.2において、我々はすべてのイベントを固定長L𝐿Litalic_Lに再スケーリングすることを提案している。 t𝑡titalic_t番目のイベント内にあるタイムスタンプn𝑛nitalic_nに対して、以下のように変換する:

t~=(ttnstart)Ltnendtnstart+~𝑡limit-from𝑡subscriptsuperscript𝑡start𝑛𝐿subscriptsuperscript𝑡end𝑛subscriptsuperscript𝑡start𝑛\displaystyle\tilde{t}=\frac{(t-t^{\mathrm{start}}_{n})L}{t^{\mathrm{end}}_{n}% -t^{\mathrm{start}}_{n}}+over~ start_ARG italic_t end_ARG = divide start_ARG ( italic_t - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) italic_L end_ARG start_ARG italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG + (n1)L,s.t.tnstartttnend,formulae-sequence𝑛1𝐿stsubscriptsuperscript𝑡start𝑛𝑡subscriptsuperscript𝑡end𝑛\displaystyle(n-1)L,\ \ \mathrm{s.t.}\ t^{\mathrm{start}}_{n}\leq t\leq t^{% \mathrm{end}}_{n},( italic_n - 1 ) italic_L , roman_s . roman_t . italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ≤ italic_t ≤ italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ,
t~nmidsubscriptsuperscript~𝑡mid𝑛\displaystyle\tilde{t}^{\mathrm{mid}}_{n}over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT =L/2+(n1)L.absent𝐿2𝑛1𝐿\displaystyle=L/2+(n-1)L.= italic_L / 2 + ( italic_n - 1 ) italic_L . (5)

変換後、n𝑛nitalic_n番目のイベント内のビデオトークンとこのイベントの中間タイムスタンプとの距離は:

|t~t~nmid|=|ttnstarttnendtnstart12|L.~𝑡subscriptsuperscript~𝑡mid𝑛𝑡subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛subscriptsuperscript𝑡start𝑛12𝐿\left|\tilde{t}-\tilde{t}^{\mathrm{mid}}_{n}\right|=\left|\frac{t-t^{\mathrm{% start}}_{n}}{t^{\mathrm{end}}_{n}-t^{\mathrm{start}}_{n}}-\frac{1}{2}\right|L.| over~ start_ARG italic_t end_ARG - over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT | = | divide start_ARG italic_t - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG start_ARG italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG - divide start_ARG 1 end_ARG start_ARG 2 end_ARG | italic_L . (6)

次に、これが時間的クロスアテンションの3つの望ましい特性を満たすことを証明する:

(i) イベントの時間範囲内のビデオトークンは、そのイベントのテキスト埋め込みに最も注目すべきである。
証明 tnstartttnendsubscriptsuperscript𝑡start𝑛𝑡subscriptsuperscript𝑡end𝑛t^{\mathrm{start}}_{n}\leq t\leq t^{\mathrm{end}}_{n}italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ≤ italic_t ≤ italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTに対して、以下が成り立つ:

12(ttnstarttnendtnstart12)12,12𝑡subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛subscriptsuperscript𝑡start𝑛1212-\frac{1}{2}\leq\left(\frac{t-t^{\mathrm{start}}_{n}}{t^{\mathrm{end}}_{n}-t^{% \mathrm{start}}_{n}}-\frac{1}{2}\right)\leq\frac{1}{2},- divide start_ARG 1 end_ARG start_ARG 2 end_ARG ≤ ( divide start_ARG italic_t - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG start_ARG italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG - divide start_ARG 1 end_ARG start_ARG 2 end_ARG ) ≤ divide start_ARG 1 end_ARG start_ARG 2 end_ARG , (7)

したがって、|t~t~nmid|L/2~𝑡subscriptsuperscript~𝑡mid𝑛𝐿2\left|\tilde{t}-\tilde{t}^{\mathrm{mid}}_{n}\right|\leq L/2| over~ start_ARG italic_t end_ARG - over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT | ≤ italic_L / 2である。 m𝑚mitalic_m番目のイベントに対して、mn𝑚𝑛m\neq nitalic_m ≠ italic_nであれば、このビデオトークンとの距離は:

|t~t~mmid|=|(ttnstarttnendtnstart12)+(nm)|L.~𝑡subscriptsuperscript~𝑡mid𝑚𝑡subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛subscriptsuperscript𝑡start𝑛12𝑛𝑚𝐿\left|\tilde{t}-\tilde{t}^{\mathrm{mid}}_{m}\right|=\left|\left(\frac{t-t^{% \mathrm{start}}_{n}}{t^{\mathrm{end}}_{n}-t^{\mathrm{start}}_{n}}-\frac{1}{2}% \right)+(n-m)\right|L.| over~ start_ARG italic_t end_ARG - over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT | = | ( divide start_ARG italic_t - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG start_ARG italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG - divide start_ARG 1 end_ARG start_ARG 2 end_ARG ) + ( italic_n - italic_m ) | italic_L . (8)

|nm|1𝑛𝑚1|n-m|\geq 1| italic_n - italic_m | ≥ 1であるため、以下が得られる:

|(ttnstarttnendtnstart12)+(nm)|12.𝑡subscriptsuperscript𝑡start𝑛subscriptsuperscript𝑡end𝑛subscriptsuperscript𝑡start𝑛12𝑛𝑚12\left|\left(\frac{t-t^{\mathrm{start}}_{n}}{t^{\mathrm{end}}_{n}-t^{\mathrm{% start}}_{n}}-\frac{1}{2}\right)+(n-m)\right|\geq\frac{1}{2}.| ( divide start_ARG italic_t - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG start_ARG italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_ARG - divide start_ARG 1 end_ARG start_ARG 2 end_ARG ) + ( italic_n - italic_m ) | ≥ divide start_ARG 1 end_ARG start_ARG 2 end_ARG . (9)

したがって、以下が成り立つ:

|t~t~mmid|L/2|t~t~nmid|,mn.formulae-sequence~𝑡subscriptsuperscript~𝑡mid𝑚𝐿2~𝑡subscriptsuperscript~𝑡mid𝑛for-all𝑚𝑛\left|\tilde{t}-\tilde{t}^{\mathrm{mid}}_{m}\right|\geq L/2\geq\left|\tilde{t}% -\tilde{t}^{\mathrm{mid}}_{n}\right|,\ \ \forall\ m\neq n.| over~ start_ARG italic_t end_ARG - over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT | ≥ italic_L / 2 ≥ | over~ start_ARG italic_t end_ARG - over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT | , ∀ italic_m ≠ italic_n . (10)

RoPEアテンションは距離に応じて単調に減衰するため、この特性が成立する。

(ii) イベントに対して、アテンションの重みはその時間範囲の中点にあるビデオトークンでピークを迎え、イベントの境界に向かって減少すべきである。
証明 ビデオトークンがイベントの中点にある場合、t~t~nmid=0~𝑡subscriptsuperscript~𝑡mid𝑛0\tilde{t}-\tilde{t}^{\mathrm{mid}}_{n}=0over~ start_ARG italic_t end_ARG - over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = 0となる。 したがって、アテンションの重みが最も高くなる。 さらに、 6t𝑡titalic_ttnmidsubscriptsuperscript𝑡mid𝑛t^{\mathrm{mid}}_{n}italic_t start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTからtnstartsubscriptsuperscript𝑡start𝑛t^{\mathrm{start}}_{n}italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTまたはtnendsubscriptsuperscript𝑡end𝑛t^{\mathrm{end}}_{n}italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTに向かうにつれて増加し、重みが減少することになる。

(iii) 2つのイベント間の遷移点にあるビデオトークンは、それらのテキスト埋め込みに等しく注目すべきである。
証明 t=tnstart𝑡subscriptsuperscript𝑡start𝑛t=t^{\mathrm{start}}_{n}italic_t = italic_t start_POSTSUPERSCRIPT roman_start end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTまたはtnendsubscriptsuperscript𝑡end𝑛t^{\mathrm{end}}_{n}italic_t start_POSTSUPERSCRIPT roman_end end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTに対して、常に距離|t~t~nmid|=L/2~𝑡subscriptsuperscript~𝑡mid𝑛𝐿2\left|\tilde{t}-\tilde{t}^{\mathrm{mid}}_{n}\right|=L/2| over~ start_ARG italic_t end_ARG - over~ start_ARG italic_t end_ARG start_POSTSUPERSCRIPT roman_mid end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT | = italic_L / 2となる。 したがって、イベントの境界にあるビデオトークンに対するアテンション値は同じになる。 これは、我々がすべてのイベントを同じ長さに再スケーリングするReRoPEでのみ可能である。

Refer to caption
図9: 異なる再スケーリング長L𝐿Litalic_Lを持つReRoPEの比較。 位置エンコーディングによって導入されるバイアスのみを可視化するために、ビデオトークンとテキスト埋め込みに同じランダムベクトルを使用している。 時間次元が50のビデオと3つの時間キャプションがある場合を可視化している。

A.3 Visualizations of ReRoPE

本稿のセクション 4.5では、ReRoPEにおいて異なるリスケーリング長L𝐿Litalic_Lを使用しても類似した結果が得られることを示している。 9は、L=4𝐿4L=4italic_L = 48888、および16161616を使用したクロスアテンションマップを可視化したものである。 これら3つのアテンションマップは確かに類似しており、これが性能が近似している理由を説明している。 また、L𝐿Litalic_Lが高くなるほど、各イベントのアテンションマップがより集中することも観察される。 この効果を詳細に研究することは興味深い方向性であり、我々は今後の研究課題としたい。

Refer to caption
Refer to caption
Refer to caption
図10: 我々の訓練データセットの基本統計。 動画の長さ、動画あたりのイベント数、および個々のイベントの長さの分布を示している。 ほとんどの動画は2〜4個のイベントを含み、ほとんどのイベントは5秒未満である。

Appendix B Detailed Experimental Setup

本節では、データセット、ベースライン、評価設定、および我々のモデルの学習と推論の実装詳細について完全な情報を提供する。

B.1 Training Data

本研究以前は、オープンセットのイベントキャプションとその正確なタイムスタンプを注釈付けする主に2種類のビデオデータセットが存在していた。 一つは密なビデオキャプショニングの分野である[44, 105, 38]。 しかし、これらのデータセットは規模が限られており(通常10,000本未満のビデオ)、大規模なビデオジェネレータのファインチューニングには不十分である。 もう一つはビデオチャプタリングの分野である[99]。 しかし、ここでの時間的キャプションは高レベルのチャプター分割であり、注釈付けされた各イベントは通常1分以上の長さがある。 これは現在のビデオ拡散モデルの訓練には長すぎる。

我々のモデルは大規模で細粒度のビデオイベント注釈を必要とするため、既存のデータセットからビデオを手動で収集し[18, 98]、注釈を付けた結果、約20万本のビデオを得た。 シーンカットに基づいてモデルを条件付けするために、TransNetV2[80]を実行し、信頼度閾値0.5で注釈付けされたビデオのシーン境界を検出した。

10に我々のデータセットの基本的な統計を示す。 訓練用ビデオの長さは様々であるが、ビデオあたりのイベント数と平均イベント長は類似しており、これによりモデルの訓練が容易になる。

データ処理。 訓練データセットには、異なる長さ、解像度、アスペクト比のビデオが含まれている。 一般的な慣行に従い[103, 68]、我々はデータバケティングを使用し、ビデオを固定サイズのセットにグループ化する。 全体として、訓練時には最大512の解像度と10秒までのビデオをサンプリングする。 バッチ訓練のために4つの時間的キャプションにパディングまたはサブサンプリングを行う。

B.2 Evaluation Datasets

HoldOut. 我々は訓練データから無作為に2千本の動画をホールドアウトテストセットとしてサンプリングした。 ここでのプロンプトは訓練データと分布が同じであり、訓練データとの最小ギャップを持つ。

StoryBench [12]は、DiDeMo [4]、Oops [20]、およびUVO [91]データセットから収集された動画で構成されている。 各動画には背景キャプションと1つ以上の時間的キャプションが我々のフォーマットに類似した形で注釈付けされている。 我々は彼らの背景キャプションを我々の設定におけるグローバルキャプションとして扱い、モデルの分布外プロンプトへの汎化性を示す。 単一のイベントのみを持つ動画をフィルタリングし、約3千のテストサンプルを得た。

VBench [39]は、動画生成モデルの異なる側面をテストする包括的なベンチマークである。 16の評価次元があり、それぞれに慎重に収集されたテキストプロンプトのリストがある。 我々は生成された動画のダイナミクスに興味があるため、72のプロンプトを提供するDynamic Degree次元を選択した。 公式の評価プロトコルに従い、各モデルで5つのランダムシードを使用して各プロンプトに対して5本の動画を生成する。

B.3 Baselines

我々は、滑らかに接続されたイベントを生成でき、かつコードを公開している手法とのみ比較を行う。

MEVG [63]は最先端のマルチイベントビデオ生成手法である。 イベントプロンプトの連続が与えられると、最初のイベントプロンプトを使用して最初のビデオクリップを生成する。 次に、次のイベントを生成するために、DDIM逆変換[79]を実行して前のクリップの逆変換されたノイズ潜在表現を取得し、これを現在のノイズ潜在表現の初期化に使用する。 その後、現在の潜在表現のデノイジング時に、隣接フレーム間の潜在表現の類似性を強制するためのいくつかの損失を導入する。 オリジナルのMEVGはLVDM[29]とVideoCrafter[13]に基づいているが、これらは時代遅れである。 公平な比較のため、我々は我々のベースモデルに基づいてMEVGを再実装した。 我々の知る限り、整流フローモデルの逆変換に関する先行研究はないため、DDIM逆変換に従ってRF逆変換を実装し、同様の結果を達成した。 グローバルキャプションと時間的キャプションの両方を扱うために、グローバルキャプションと最初の時間的キャプションを連結して最初のクリップを生成する。 その他の損失とハイパーパラメータはMEVGと同じに保つ222MEVGは本稿投稿時点でコードを公開していなかった。我々は著者との個人的なメールのやり取りを通じて公式コードを入手した。

AutoReg. 我々は、初期フレーム条件付きビデオ生成をサポートするために我々のベースモデルを微調整する。 この手法はMEVGと類似しており、各イベントを自身のキャプションと前のクリップの最後のフレームに基づいて生成する。

Concatは、単純にグローバルキャプションとすべての時間的キャプションを連結して長いプロンプトを形成し、それからビデオを生成する素朴なベースラインである。

備考。 MEVGとAutoRegはどちらも自己回帰的手法であるため、各イベントに対して固定長のビデオしか生成できない。 比較を可能にするため、メトリクスを計算する際に、テストイベントがすべて同じ持続時間を持つと単純に仮定する。 Concatの場合、異なるイベントの生成を分離できない。 したがって、生成されたビデオ内ですべてのイベントが均一に分布していると仮定する。

B.4 Evaluation Metrics

我々は、複数イベントのテキストから動画生成において3つの重要な側面を特定している:視覚的品質、イベントテキストとの整合性、およびイベント間の遷移の滑らかさである。 我々は、視覚的品質についてはFID [33]、FVD [84]などの一般的な指標を、テキストとの整合性についてはフレームごとのCLIPスコア [32, 71]を報告している。 X-CLIPスコア [62]などのより高度な指標も試みたが、CLIPスコアと同様の性能を示すことがわかった。

従来の自動評価指標が人間の知覚と一致しないことはよく知られている。 最近の研究では、人間のフィードバックデータでマルチモーダルLLMを微調整することで、より人間に近い動画品質評価指標につながることが示されている [28]。 我々は、最先端の手法であるVideoScoreを採用し、これは動画に対して5つのスコアを出力する。 我々は、視覚的品質動的度合いの出力を視覚的品質に、テキストと動画の整合性の出力をテキストとの整合性に、時間的一貫性の出力をイベント間の遷移の滑らかさに使用している。 さらに、TransNetV2 [80]を実行して、生成された動画のカット数の平均を計算し、イベント間の遷移の滑らかさを測定している。

視覚的品質とイベント間の遷移の滑らかさについては、動画全体に対して関連する指標を計算している。 各イベントの視覚的品質も計算したが、動画レベルの結果と正の相関があることがわかった。 テキストとの整合性については、イベントの生成に注目しているため、各イベントの開始時刻と終了時刻を取り、生成された動画からサブクリップを切り出し、このサブクリップと対応するイベントプロンプトとの間で指標を計算している。

Refer to caption
図11: T2Vの定性的比較。
Refer to caption
図12: MinTによるさらなるT2V結果。 より多くの結果については、我々のプロジェクトページをご覧ください。

B.5 Implementation Details

ベースモデル。 我々のベースとなるテキストから動画への生成器は、潜在拡散トランスフォーマーフレームワークを採用している [66]。 これはMAGVIT-v2 [101] をオートエンコーダーとして活用し、DiTブロックの深いカスケードをノイズ除去のバックボーンとしている。 オートエンコーダーはCogVideoX [100]のものと類似しており、空間次元を8×\times×倍、時間次元を4×\times×倍ダウンサンプリングする。 我々のバックボーンは32のDiTブロックを持つ。 各ブロックはOpen-Sora [46]のものと類似しており、すべての動画トークンに対して実行される3D自己注意層、動画トークンと入力プロンプトのT5テキスト埋め込み [72] との間のクロス注意層、およびMLPで構成されている。 我々は動画トークンに絶対位置エンコーディングを使用しない。 代わりに、[46]と同様に、空間軸と時間軸に分解された自己注意にRoPEを適用する。 最後に、自己注意とクロス注意の両方でFlashAttention [19] を使用する。
ベースモデルは整流フロー学習目的 [51, 52] を採用している。 我々はStable Diffusion 3 [21] に従い、拡散プロセスのサンプリングパラメータを選択する。

MinTモデル。 我々は時間的キャプション制御を可能にするために、ベースモデルからMinTを微調整する。 収束を加速させるために、元のクロス注意層から重みをコピーして、我々が追加した時間的クロス注意層を初期化する。これは両層が同じテキストモダリティを入力として受け取るためである。 先行研究 [47] に従い、0で初期化されるスケーリング係数を導入し、Tanh()Tanh\mathrm{Tanh(\cdot)}roman_Tanh ( ⋅ ) 活性化を通過させて時間的クロス注意層の出力と乗算する。 このような設計はモデルの学習を安定させることが示されている。

学習。 我々はAdamW [55] を使用して、バッチサイズ512で15,000ステップ、モデル全体を微調整する。 事前学習された重みには1×1051superscript1051\times 10^{-5}1 × 10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPTの低い学習率を、追加された重みには1×1041superscript1041\times 10^{-4}1 × 10 start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPTのより高い学習率を使用する。 両方の学習率は最初の1,000ステップで線形にウォームアップされ、その後一定に保たれる。 学習を安定させるために0.05の勾配クリッピングが適用される。 クラス無し誘導(CFG) [34] を適用するために、我々はグローバルおよび時間的キャプションのテキスト埋め込みを10%の確率でランダムにドロップする(つまり、ゼロに設定する)。 時間的キャプションをドロップする際には、すべてのイベントを一緒にドロップし、イベントのタイムスタンプもゼロに設定することに注意されたい。 我々はPyTorch [65] を使用してモデルを実装し、NVIDIA A100 GPUで学習を行う。

推論。 我々は256のサンプリングステップと8のクラス無し誘導 [34] スケールを用いて、整流フローサンプラー [52] を使用して動画を生成する。 また、過飽和の問題を緩和するために、[25, 100]サンプリングステップの間でのみCFGを適用するインターバル誘導 [45] も使用する。 我々は [10] と同様に、グローバルキャプションと時間的キャプションに対して別々のCFGを使用することを試みたが、結果の改善は見られなかった。

Refer to caption
図13: VBenchにおけるプロンプト強化の結果。 我々は単純なプロンプトからより興味深い動画を生成することができる。 これは時間的キャプションによってもたらされる柔軟なダイナミクス制御能力を強調している。 動画結果については我々のプロジェクトページをご覧いただきたい。

Appendix C More Results

Refer to caption
図14: シーンカット入力の有無による生成動画の比較。 各例において、1行目は図示されたタイムスタンプでシーンカットを入力して生成されたもの、2行目はシーンカット入力をゼロにして生成されたものである。 シーンカットを使用すると、モデルは望ましいタイムスタンプでショットの遷移を生成しつつ、被写体の一貫性を保つことができる。 2つ目の例では、シーンカットをゼロにした場合、モデルはスムーズなズームインとズームアウトの効果を生成している。 より多くの結果については、我々のプロジェクトページを参照されたい。

C.1 More Qualitative Results on T2V

11はベースラインとのさらなる定性的比較を示している。 Concatは女性が紙に書いている様子のみを生成し、その後の出来事を無視している。 AutoRegは最初と2番目の出来事の間をスムーズに遷移させることができるが、3番目の出来事の生成に失敗している。 これは、生成されたフレームに条件付けることで動画が停滞し、フレームが固定されてしまうためである。 MEVGは各出来事をうまく生成するが、それらは唐突なショットの遷移と全く異なる被写体で接続されている。 これは、我々が使用する自由形式のイベントキャプションが頻繁に被写体を変更するためである。 結果として、MEVGの反転技術は被写体をうまく保持できない。 現時点では、整流フローモデル用に設計された反転手法は存在しない。 総じて、MinTのみがすべての出来事をスムーズな遷移と一貫したエンティティで成功裏に生成している。

我々はMinTのさらなる定性的結果を12に示す。 人間関連の被写体は視覚生成タスクにおいて困難であることが知られている。 しかし、これらの結果は人間の動作シーケンスと時間長に対する我々の柔軟な制御を実証している。

C.2 Prompt Enhancement

我々のプロンプト強化器はGPT-4 [3]を基盤としており、短いプロンプトを詳細なグローバルキャプションと、合理的なイベントタイムスタンプを持つ複数の時間的キャプションに拡張することができる。 我々が使用した指示はプロジェクトページに記載している。 これは最近の研究[63, 54]に触発されたものであり、より良いパフォーマンスを得るために我々のデータセットからの文脈内の例を使用している。

VBenchプロンプトを使用したさらなるプロンプト強化の結果を 13に示す。 強力なLLMのおかげで、我々のプロンプト強化器は短いプロンプトを、豊富な物体の動きとカメラの動きを含む合理的な連続イベントに拡張することができる。 MinTは、拡張されたプロンプトからより興味深く「イベントに富んだ」動画を生成することができる。 これは本稿の手法の独自の能力を強調しており、よりユーザーフレンドリーな動画生成に向けた新しい方向性を切り開いている。

C.3 Scene Cut Conditioning

アブレーション実験で示されたように、シーンカット条件付けを除去すると、生成された動画に望ましくないショットの遷移が生じる。 詳細な検査により、カットの生成がイベントのテキストプロンプトに敏感であることが明らかになった。 プロンプトにカメラショットの説明(例:「クローズアップビューの」)が含まれている場合、カットが導入される可能性が高くなる。 対照的に、シーンカットを明示的に条件付けすることで、我々はこの問題から解放される。

シーンカット制御の定性的な結果を 14に示す。 MinTは、被写体のアイデンティティを保持しながら、望ましいタイムスタンプでショットの遷移を生成することができる。 シーンカット入力をゼロにすると、カットのない動画を得ることができ、これは我々の設計の妥当性を示している。 最後に、我々のモデルが突然のカメラ変更や徐々にズームインやズームアウトする効果を切り替えられることを示し、細かな制御を可能にしている。

ジャンプカット、ディゾルブ、ワイプなど、異なるタイプのシーン遷移を学習することは興味深い方向性である。 我々の目標は凝った遷移制御を学習することではなく、トレーニングデータを保持することであるため、これは将来の研究課題として残しておく。

Refer to caption
図15: 異なるイベント時間範囲で生成された動画。 各例では、すべてのイベントの開始および終了タイムスタンプを特定の秒数だけオフセットしている。 結果は、MinTが被写体の外見をほぼ同じに保ちながら、細かなイベントタイミング制御を可能にすることを示している。 この機能は制御可能な動画生成に非常に有用である。 より多くの結果については、我々のプロジェクトページを参照されたい。

C.4 Event Time Span Control

MinTは、イベントの時間範囲を細かく制御することができる。 これを示すために、我々のデータセットからサンプルを取り、すべてのイベントの開始時刻と終了時刻を特定の値だけオフセットする。 15に結果を示す。各ビデオは新しいタイミングに従ってイベントを生成している。 さらに、主要な被写体と背景の外観をおおよそ変更せずに保つことができる。 MinTは、この制御能力を実現した文献上初めてのビデオジェネレーターである。 我々は、これを実用的なコンテンツ生成ツールに向けた重要な一歩であると考えている。

Method FID \downarrow FVD \downarrow CLIP-score \uparrow
Task: T2V (a.k.a. story generation in [12])
Phenaki 273.41 998.19 0.210
Ours 40.87 484.44 0.284
Task: I2V (a.k.a. story continuation in [12])
Phenaki 240.21 674.5 0.219
Ours 21.85 314.59 0.273
表4: StoryBenchにおけるPhenakiとの比較。 我々のモデルはStoryBenchでファインチューニングされていないため、彼らの論文[12]のゼロショットバリアントであるPhenaki-Gen-ZSと比較する。 我々は両タスクにおいて、すべての指標でPhenakiを明らかに上回っている。

C.5 StoryBench Comparison with Phenaki

元のStoryBench論文[12]では、自己回帰的にイベントを生成するためにPhenaki[87]を実行する、データセットのベースラインを提案している。 しかし、彼らはかなり低い解像度(160×\times×96)で評価を行っており、コードも事前学習済みの重みも公開されていないため、直接比較することは困難である。 それでも、完全を期すために 4で比較を行う。 我々は両論文が評価している指標のみを報告する。これらは視覚的品質(FID、FVD)とテキストの整合性(CLIPスコア)をカバーしている。 MinTは、T2VとI2Vの両タスクにおいて、すべての指標でPhenakiを大幅に上回っている。 これは、大規模な事前学習済みビデオモデルからのファインチューニングの有効性を示している。

C.6 Comparison with SOTA Video Generators

連続的なイベント生成が最先端のビデオ生成モデルにおいても一般的な失敗ケースであることを示すために、 17および 18でさらなる結果を提示する。 我々が得た驚くべき観察の1つは、これらのモデルの公式ガイドラインに従ってプロンプトを使用した場合(例えば、CogVideoXが提供するLLMを使用してプロンプトを強化する場合)、モデルは最初のイベントのみを生成し、それ以降のイベントをすべて無視することである。 カメラの動き、背景の説明、詳細な主体の属性などのグローバルな特性を指定せずにイベントのキャプションを直接連結した場合のみ(つまり、「人物がまずAを行い、次にBを行い、最後にCを行う」のようなプロンプトを直接使用した場合)、モデルはいくつかのイベントの遷移を生成し始める。333詳細なプロンプトはこれらのモデルの最大入力テキスト長を超えていないため、コンテキスト長がここでの理由ではない。 考えられる原因の1つは、これらのモデルの訓練データにおいて、連続的なイベントを含む動画がそのような詳細なグローバルな特性で注釈付けされていないことである。 しかし、我々はそれらの訓練の詳細にアクセスできないため、真の理由を突き止めることはできない。 したがって、我々はすべての結果を生成するために単純に連結されたプロンプトを使用するだけである。 これらのモデルに使用したプロンプトは我々のプロジェクトページで見つけることができる。 注目すべきは、この回避策により詳細なキャプションを使用してシーンと主体を制御することができなくなり、これらのモデルの制御可能性に大きく影響を与えることである。

それでも、複数のイベントを含むテキストでプロンプトを与えられた場合、これらのモデルには3つの共通の失敗モードがある:

  • 1.

    部分的なイベントのみを生成し、残りのイベントを完全に無視する。例えば、 17の3番目の例では、すべてのモデルが「キスを投げる」アクションを見逃している;

  • 2.

    イベントを間違った順序で生成したり、複数のイベントを「融合」したりする。例えば、 17の最後の例では、Kling 1.5は動画の冒頭で男性の手が口の下にある状態を生成している。しかし、これは最後に起こるべきである;

  • 3.

    間違ったアクションや特性を主体に結びつける。例えば、 18の最初の例では、Gen-3 Alphaは男性の代わりに女性がフレームに入ってくるように生成している。

備考。 MinTのように時間的に位置付けられたキャプションを使用せずに、この問題を解決する他の方法があるかもしれない。 例えば、詳細な連続的イベント情報で注釈付けされた動画データセットでモデルをファインチューニングすることが考えられる[97]。 それでも、これではイベントの開始時間と終了時間を正確に制御することはできず、これは我々のモデルの独自の能力である。

Refer to caption
図16: 分布外のプロンプトで生成された動画。 ファインチューニング後も、MinTは基本モデルの新しい概念を生成する能力を保持している。 より多くの結果については、我々のプロジェクトページを参照されたい。

C.7 Out-of-Distribution Prompts

MinTは主に人間中心のイベントを描写する時間的キャプション付きビデオでファインチューニングされている。 本稿では、動物や交通などの非人間的な結果をいくつか示した。 ここでは、我々のモデルが依然として新しい概念とその組み合わせを生成する能力を持っていることを示す。これは大規模な事前学習済みビデオ生成器の重要な特性である。 16に示すように、MinTは戦士や宇宙飛行士などの分布外のキャラクター、宇宙にある宇宙船などのシーン、そしてヨガをする猫のような存在しないイベントを生成する。 これは、我々のモデルがベースモデルの豊富な事前学習知識を忘れていないことを証明している。

Appendix D Limitations and Future Works

MinTは事前学習済みのテキストから動画への拡散モデルからファインチューニングされているため、我々はベースモデルの能力に制限されている。 例えば、人間の手や複雑な物理現象を含むシーンの生成は困難である。

複数の主体が関与するイベントを生成する際、MinTは属性やアクションを正しい主体に関連付けることに失敗する可能性がある。 本稿で取り組もうとしている時間的結合問題と同様に、この問題は空間的結合によって解決できると我々は考えている。 例えば、主体をバウンディングボックスと属性ラベルで位置付けることによって[47, 49, 90]

最後に、MinTは時折、グローバルキャプションと時間的キャプションで指定されたエンティティを関連付けることに失敗する。 このような関連付けにはテキスト条件付けの複雑な推論が必要であり、単に学習データを拡大することで解決される可能性がある。

これらの失敗事例の動画例と詳細な分析については、我々のプロジェクトページを参照されたい。

今後の課題。 最近の学習不要の長時間動画生成技術の進歩を用いて我々のモデルを強化することは興味深い[88, 31, 70]。 もう一つの方向性は、MinTを動画パーソナライゼーション手法と組み合わせることである[40, 50, 54]。これにより、ショット内での細かい制御とショット間での被写体の一貫性の両方を可能にし、数分間の動画作成を実現できる。

Refer to caption
図17: 最先端のビデオ生成器とのさらなる比較。 我々は、最先端のオープンソースモデルであるCogVideoX [100]とMochi [82]、そして商用モデルのKling 1.5 [2]とGen-3 Alpha [1]をそれぞれのオンラインAPIを使用して実行した。 ビデオ結果については、我々のプロジェクトページを参照されたい。
Refer to caption
図18: 最先端のビデオ生成器とのさらなる比較。 我々は、最先端のオープンソースモデルであるCogVideoX [100]とMochi [82]、そして商用モデルのKling 1.5 [2]とGen-3 Alpha [1]をそれぞれのオンラインAPIを使用して実行した。 ビデオ結果については、我々のプロジェクトページを参照されたい。