arXiv	https://arxiv.org/abs/2412.04432
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Yuying Ge Yizhuo Li Yixiao Ge Ying Shan
ARC Lab, Tencent PCG
https://github.com/TencentARC/Divot

Abstract

近年、大規模言語モデル（LLM）内で画像理解と生成を統合することへの関心が大きく高まっている。この高まる関心は、我々にこの統合をビデオにまで拡張する探求を促した。核心的な課題は、ビデオの空間的特性と時間的動態の両方を捉え、LLM用の表現を得るための汎用的なビデオトークナイザーを開発することであり、その表現をさらに現実的なビデオクリップにデコードしてビデオ生成を可能にすることである。本稿では、Divot（Diffusion-Powered Video Tokenizer）を紹介する。これは拡散プロセスを活用して自己教師あり型のビデオ表現学習を行うものである。我々は、ビデオ拡散モデルがビデオトークナイザーの特徴を条件として効果的にビデオクリップのノイズを除去できるならば、そのトークナイザーは堅牢な空間的・時間的情報を捉えることに成功したと考える。さらに、ビデオ拡散モデルは本質的にデトークナイザーとして機能し、表現からビデオをデコードする。 Divotトークナイザーを基盤として、我々はビデオからテキストへの自己回帰とガウス混合モデルによる連続値Divot特徴の分布のモデル化によるテキストからビデオへの生成を通じて、Divot-LLMを提示する。実験結果は、我々の拡散ベースのビデオトークナイザーが事前学習済みLLMと統合された場合、様々なビデオ理解および生成のベンチマークにおいて競争力のある性能を達成することを示している。指示調整されたDivot-LLMは、ビデオストーリーテリングにおいても優れており、交互に配置された物語と対応するビデオを生成する。モデルとコードはhttps://github.com/TencentARC/Divotで入手可能である。

1 Introduction

Refer to caption — 図1: 我々は、統一的な理解と生成のために、自己教師あり方式でビデオトークナイザーを学習するために拡散プロセスを利用する。ここでは、時空間表現がビデオクリップのノイズ除去を行う拡散モデルの条件として機能する。さらに、プロキシ拡散モデルは、ビデオ表現から現実的なビデオクリップをデコードするデトークナイザーとして機能する。

近年、マルチモーダル大規模言語モデル（MLLMs）[55, 86, 15, 16, 12, 56, 93, 17, 77, 57, 91]の急速な進化により、画像理解と生成の統一において顕著な進歩が示されている。これにより、LLMs [60, 6, 11]はテキストを超えて画像を生成する能力を獲得している。これらの研究は主に画像-テキストデータに焦点を当てているが、この統一をビデオ領域に拡張することは比較的未探索のままである。統一的なビデオ理解と生成を達成することは、現実世界の動的な視覚コンテンツを理解し創造することができる、より高度な人工知能（AI）システムの開発にとって不可欠である。

統合的な動画理解と生成を実現する上での主な課題は、動画データに内在する複雑さに効果的に対処できる汎用的な動画トークナイザーを開発することにある。このトークナイザーは、動画理解のためのMLLMへの入力として機能する堅牢な動画表現を獲得でき、さらにこれらの表現を現実的な動画クリップにデコードして動画生成を可能にする必要がある。静止画とは異なり、動画は空間的特徴と時間的動態の両方を包含しており、その表現はより複雑である。最近の先駆的な研究[40, 26, 74]では、動画理解と生成を統合するために離散的な動画トークナイザーを採用しており、動画は離散的なフレームトークンの列、またはキーフレームトークンに続く離散的なモーショントークンとして表現される。このアプローチは、LLMによる自己回帰的な次トークン予測メカニズムを通じて動画生成を容易にするが、最近の研究[77]が指摘するように、マルチモーダル理解の性能を犠牲にしている。本稿では、連続的な動画表現を利用することで、動画理解と生成を統合する代替アプローチを探究することを目的としている。

この目的のために、我々はDivotを導入する。これは、図1に示すように、自己教師あり動画表現学習のために拡散プロセス[50]を活用するDiffusion-Powered Video Tokenizerである。核心となる前提は、拡散モデルが動画トークナイザーによって生成された特徴を条件として、動画クリップのVariational Autoencoder (VAE) 潜在表現[28]に追加されたノイズを効果的に予測できる場合、トークナイザーが動画データに内在する堅牢な空間的および時間的情報を成功的に捉えたことを示すということである。この能力は、動画に存在する複雑な動態を表現する上で極めて重要である。さらに、トークナイザーの学習のためのプロキシモジュールとしての役割に加えて、拡散モデルはデトークナイザーとして機能し、学習された表現から現実的な動画を効果的にデコードすることができる。この二重の機能性により、LLM内での動画コンテンツの理解と創造の統合が円滑に行われる。

具体的には、Divotトークナイザーは、事前学習済みのVision Transformer (ViT)エンコーダー[13]、時空間トランスフォーマー、そしてPerceiver Resampler[1]で構成されており、隣接フレーム間の意味的冗長性を考慮して低フレームレート（fps）でサンプリングされたビデオフレームからビデオ表現を取得する。このビデオ表現は、事前学習済みのビデオ拡散モデルであるDynamiCrafter[78]（初期ノイズとの条件付き画像の連結なし）の条件として機能し、ビデオフレームのVAEレイテントに追加されたノイズを予測する。学習後、ビデオ拡散モデルは、Divotトークナイザーが提供するビデオ表現を条件として取り込むことで、ノイズからリアルなビデオクリップを生成することができる。

我々はさらに、事前学習済みのMistral-7B¹¹我々は、より高度なLLMを探求しない。これは、我々の優位性が改善された視覚表現に由来するものであり、より洗練された基盤モデルの能力によるものではないことを確認したいためである。 [24]にDivotトークナイザーを装備することで、Divot-LLMを提示する。Divot-LLMは、ビデオ理解のためにDivotトークナイザーの時空間表現を入力として取り込み、ビデオ-キャプションデータで次の単語予測目的で事前学習される。そして、ビデオ生成のためにLLMで連続的なビデオ表現をモデル化するという課題が生じる。我々は経験的に、平均二乗誤差（MSE）損失を用いてLLM出力とビデオ表現間の距離を単純に最小化することでは、不十分な結果しか得られないことを見出した。これは、決定論的な回帰がLLMに過度に平均化されたビデオの特徴を学習させるためである。この問題に対処するため、最近の研究[33]に触発され、我々は決定論的モデリングから確率的モデリングへと焦点をシフトし、ガウス混合モデル（GMM）を用いてビデオ特徴の分布をモデル化する。具体的には、LLMを訓練して平均、分散、混合確率を含むGMMパラメータを予測し、負の対数尤度（NLL）損失を用いて予測されたGMM分布と実際のビデオ表現との間の不一致を最小化する。推論時には、予測されたGMM分布からサンプルを抽出し、それをビデオデトークナイザーの条件としてビデオクリップをデコードする。

我々は、Divot-LLMを幅広いビデオ理解タスクとゼロショットビデオ生成において評価し、32台のA100-40G GPUを使用して500万のビデオ-テキストペアで事前学習することで、競争力のある性能を達成した。ビデオトークナイザーの汎用性を活用することで、我々のDivot-LLMは特定のアニメーションデータセットでファインチューニングすることにより、時間的に一貫性のある物語と対応するビデオを生成するビデオストーリーテリングも可能にする。

本稿の貢献は3つある。(1) ビデオ理解と生成を統合することを目指し、自己教師あり動画表現学習のための拡散手順を活用した先進的なビデオトークナイザーであるDivotを導入する。(2) 事前学習されたLLMとDivotトークナイザーで構成されるDivot-LLMを提示し、単一のフレームワーク内でビデオコンテンツの理解と生成を可能にする。我々は、ビデオ生成のための確率的モデリングを用いてLLMで連続的なビデオ表現を適合させる効果的なアプローチを調査する。(3) 既存のビデオ理解・生成ベンチマークおよびビデオストーリーテリングにおけるDivot-LLMの競争力のある性能を実証するために広範な実験を行う。すべてのモデルとコードは公開される。

2 Related Work

MLLMs for Comprehension and Generation.

マルチモーダル大規模言語モデル（MLLM）の急速な発展に伴い、最近の研究では統合されたMLLM [16, 15, 86, 55, 54, 12, 73, 93, 25, 41, 40, 26, 57, 36, 17, 84, 77, 74, 91, 89, 67, 72, 83] に取り組んでおり、これらはマルチモーダルな理解と生成が可能である。LLMに視覚的コンテンツを生成する能力を付与するために、既存の研究は主に以下の3つのアプローチを採用している：(1) 事前学習された安定拡散モデルを使用し、LLMの出力（連続的特徴量または離散的トークン）に条件付けられた画像を生成する；(2) ベクトル量子化（VQ）[63] ベースのデコーダーを使用し、LLMによって予測された離散的コードから視覚的コンテンツを生成する；(3) LLMを使用して拡散プロセスを通じてガウスノイズを除去する。大半の研究が画像とテキストの統合に主に焦点を当てている一方で、いくつかの先駆的な研究 [40, 26, 74, 67] は、VQベースのデコーダーを使用して離散的コードからビデオを生成することにより、LLM内でのビデオ理解と生成の統合をさらに進めている。これは2番目のアプローチに該当する。本稿では、1番目のアプローチを採用し、拡散モデルを活用して連続的表現からの統合されたビデオ理解と生成を実現する。

Video Tokenizer in MLLMs.

LLMを用いたビデオ生成に関する従来の研究は、主に離散的なビデオトークナイザーを使用して、ビデオ信号を量子化されたトークンの列に変換している。例えば、LWM [40] とVILA-U [74] は、フレームレベルのトークナイザーを使用して各フレームを一連のコードに離散化している。VideoPoet [29]、Loong [69]、Emu3 [67] は3D CNNアーキテクチャを活用し、エンコードされた時空間特徴を離散的なトークンに量子化している。Video-LaVIT [26] は、ビデオクリップをキーフレームとそれに続く抽出されたモーションベクトルとして表現し、それぞれの離散的なコードを取得している。連続的な視覚信号を離散的なトークンに変換することで、元の次トークン予測メカニズムを採用し、LLMによるビデオ生成を促進することができる。しかしながら、最近の研究 [77] では、離散的な表現を使用した場合、連続的な表現を使用した場合と比較して、マルチモーダル理解タスクにおいて著しい性能低下が観察されている。本稿では、拡散 [50] 手順を活用することで連続的な表現を持つビデオトークナイザーを導入し、統一的な理解と生成のためにLLMと効果的に統合できるようにしている。

Diffusion for Representation Learning.

拡散プロセスは、表現学習の基準として探求されてきた。いくつかの研究[75, 3, 80, 90]では、事前学習された拡散モデルの中間活性化を、分類、セグメンテーション、深度推定などのダウンストリームタスクに活用している。他の研究[70, 23, 65]では、拡散モデルを自己教師あり学習のためのプロキシモジュールとして採用しており、ノイズの多い入力が画像表現を条件として除去される。このアプローチは、画像の主要な特性と意味を捉える情報量の多い表現の出現を促進する。本稿では、我々の知る限り、初めて拡散をビデオ表現学習に活用し、ビデオ拡散モデルが時空間表現を条件として取り入れることでビデオクリップのノイズを除去するよう訓練され、それによって空間的特徴と時間的ダイナミクスの捕捉を促進する。

3 Method

3.1 Divot Tokenizer

我々は、ビデオ表現学習のための拡散手順を活用する拡散駆動型トークナイザーであるDivotを紹介する。さらに、トークナイザーの訓練に使用されるプロキシ拡散モデルは、デトークナイザーとして機能し、空間時間表現から現実的なビデオクリップをデコードすることができる。

3.1.1 Preliminary: Video Diffusion Model.

拡散モデル[20, 50]は、データにノイズを徐々に追加するプロセスを逆転させることで確率分布をモデル化することを学習する。具体的には、データ $\mathbf{x}_{0}\sim p(\mathbf{x})$ が与えられた場合、前方プロセスは合計 $T$ タイムステップでパラメータ化トリックを通じてデータサンプル $\mathbf{x}_{0}$ にランダムなガウシアンノイズ $\mathbf{\epsilon_{t}}\in\mathcal{N}(\mathbf{0},\mathbf{I})$ を徐々に追加して $\mathbf{x}_{t}$ を生成する。ノイズ除去プロセスは、以下の目的関数で訓練されるノイズ除去ネットワーク $\mathbf{\epsilon}_{\theta}\left(\mathbf{x}_{t},t\right)$ を用いて、前方拡散プロセスにおける $\mathbf{\epsilon_{t}}$ を予測する。

\min_{\theta}\mathbb{E}_{t,\mathbf{x}\sim p,\mathbf{\epsilon}\sim\mathcal{N}(% \mathbf{0},\mathbf{I})}\|\mathbf{\epsilon}-\mathbf{\epsilon}_{\theta}\left(% \mathbf{x}_{t},t\right)\|_{2}^{2},

(1)

ここで、 $\mathbf{\epsilon}$ はサンプリングされたガウシアンノイズであり、 $\theta$ はノイズ除去ネットワークのパラメータを示す。推論時には、ランダムなガウシアンノイズからノイズ除去データ $\mathbf{x}_{0}$ に対して反復的なノイズ除去を実行できる。

ビデオ拡散モデル[8, 78]の場合、ビデオ $\mathbf{x}$ が与えられると、まず計算複雑性を低減するために潜在表現 $\mathbf{z}=\mathcal{E}(\mathbf{x})$ がエンコードされる。その後、前方拡散プロセスと後方ノイズ除去プロセスがこの潜在空間でノイズ除去ネットワーク $\mathbf{\epsilon}_{\theta}\left(\mathbf{x}_{t},\mathbf{c},t\right)$ を用いて実行される。ここで、 $\mathbf{c}$ はテキストや視覚的プロンプトなどのノイズ除去条件を表す。

3.1.2 Training Pipeline

図2に示すように、ビデオクリップが与えられると、我々は2 fpsでスパースなフレームを個別にサンプリングしてトークナイザーからビデオ表現を取得し、8 fpsで密なフレームをサンプリングして凍結されたVAE[28]エンコーダーから潜在表現 $z_{0}$ を取得する。隣接フレーム間の意味的冗長性を考慮して、スパースなフレームがビデオトークナイザーの入力としてサンプリングされる。前方拡散プロセスは、ノイズの多い入力 $z_{t}$ を生成するために $z_{0}$ にガウシアンノイズ $\theta$ を徐々に追加する。各後方ステップ $t$ において、ノイズ除去U-Netは、時間埋め込みとビデオ表現を条件として取り入れることで、前のステップから現在のステップに追加されたノイズを予測するように訓練される。具体的には、ビデオ表現はクロスアテンション層を通じてノイズ除去U-Netの中間特徴と相互作用し、各ノイズの多い潜在表現がすべてのビデオトークンに注意を向ける。ビデオ特徴に依存してビデオクリップの細かい空間的および時間的情報を再構築するようにU-Netを制約することで、Divotトークナイザーは堅牢なビデオ表現のために空間的特性と時間的ダイナミクスの両方を捉えるように最適化される。 Divotトークナイザーは、WebVid-10M[2]とPanda-70M[9]のサブセットの純粋なビデオ、合計1000万本のビデオで訓練される。

Divotトークナイザーの訓練後、パラメータ化された損失関数を実装するために使用されるプロキシノイズ除去U-Netは、効果的なビデオデトークナイザーとして機能し、図5に示すように、学習された空間時間表現から意味的に整合したビデオクリップをデコードすることができる。

3.1.3 Model Architecture

図2に示すように、Divotトークナイザーは、フレームレベルの特徴を抽出するための事前訓練されたViTエンコーダー、空間的および時間的融合のためのトランスフォーマー、そして固定数のビデオトークンを生成するためのPerceiver Resampler[1]で構成されている。Perceiver Resamplerは2つの理由で採用されている：(1) 生成のためにLLMが予測する必要があるビデオトークンの数を減らすため、(2) パッチ位置に依存する特徴を3D位置依存性のない高レベルの特徴のシーケンスに変換するため（これは経験的にLLMがフィットしやすいことが分かっている（セクション4.3参照））。具体的には、2秒間のビデオクリップが与えられた場合、我々は2 fpsで5フレームをサンプリングし、合計64のビデオトークンを得る。我々はDynamiCrafter[78]のノイズ除去U-Netを採用しているが、元の条件付き画像とノイズの多い潜在表現の連結を削除したため、3D畳み込みの入力チャネルを8から4に減らしている。

3.2 Video Representation Modeling with LLM

Divotトークナイザーを用いたLLMによる動画生成の核心的な課題は、連続的な動画特徴を効果的にモデル化することにある。最も直接的な解決策は、図4(a)に示すように、画像生成に関する先行研究[17, 54]に倣い、LLMの出力と動画表現との間の距離を平均二乗誤差（MSE）損失を用いて最小化することである。しかしながら、我々は経験的に、この手法が連続的な動画特徴のモデル化に効果的ではないことを見出した。生成された動画は繰り返しのパターンを示す傾向がある。我々の分析によれば、決定論的な回帰がLLMに過度に平均化された表現を学習させるよう正則化しており、これは動画が空間的にも時間的にも多様性を確保しなければならないという点で、動画生成において特に致命的である。

最近の研究であるMAR[33]に触発され、我々は決定論的な回帰の代わりに、LLMを用いて動画表現の確率分布をモデル化することを目指す。図4に示すように、我々は(b)拡散モデリング[33]と(c)GMMモデリング[61]の2つのアプローチを探求する。具体的には、拡散モデリングでは、予測される連続値の動画特徴が与えられると、LLMは出力を生成し、これが動画特徴に加えられたガウシアンノイズを予測する除ノイズネットワーク（小規模なMLP）の条件として機能する。拡散モデルは動画特徴の分布を表現するために訓練される。GMMモデリングでは、ガウス混合モデル（GMM）を用いて動画特徴の分布をモデル化し、LLMを訓練して動画トークンごとに $2kd+k$ 個のパラメータ（混合成分の $kd$ 個の平均パラメータと $kd$ 個の分散パラメータ、および $k$ 個の混合確率）を予測する。我々は、予測されたGMM分布と動画表現との間の負の対数尤度（NLL）損失を最小化することでLLMを最適化する。

推論時には、拡散モデリングでは、除ノイズネットワークがLLMの出力を条件として、ガウシアンノイズから最終的な動画特徴を徐々に除ノイズする。GMMモデリングでは、予測されたGMM分布からサンプルを抽出し、最終的な動画表現とする。上記のアプローチの有効性を経験的に調査するため、我々はMSR-VTT[79]を用いてLLMを訓練し、先行研究[82, 26]に倣い、FVD[62]と類似度スコア[49]を指標としてテストセットでテキストから動画への生成を評価する。表8に示すように、GMMモデリングは動画生成において拡散モデリングやMSE回帰よりも優れた性能を達成する。我々は、Divotトークナイザーによって得られる高レベルの特徴が、MARで使用されるVAEの潜在変数と比較してガウシアンノイズにより敏感であり、これが訓練をより困難にし、最適ではない結果をもたらしていると推測する。したがって、我々はDivot-LLMの訓練にGMMモデリングを採用する。

表2: トークナイザーとDivot-LLMの訓練に使用されたデータセット。

{tblr}

row4 = c, row6 = c,m, row7 = c,m, row8 = c, row9 = c, cell12 = c, cell13 = c, cell22 = c, cell23 = c, cell31 = r=2, cell32 = c, cell33 = c, cell51 = r=5, cell52 = c, cell53 = c, vline2-3 = 1-9, vline3 = 4,6-9, hline1,10 = -0.08em, hline2 = -0.05em, hline3,5 = -, hline4,6-9 = 2-3dashed, 段階 & 種類データセット
トークン化純粋な動画 WebVid-10M [2], Panda-70M [9]
事前訓練動画-テキスト WebVid-10M [2]
画像-テキスト CC3M [52], CapsFusion [87], LAION-COCO [51]
SFT 分類 Kinetics-710 [27], SSV2 [18]
VQA TGIF [34], NextQA [76], CLEVRER [85],
YouCook2 [92], PerceptionTest[48],
EgoQA [19], ActivityNetQA[88]
指示 Video-ChatGPT[43], LLaVA-mixed[39],
Valley [42], LLaVA-Video-178K[37]
生成 WebVid-10M [2]
ストーリーテリング自社データ

表3: MLLMsとの動画理解の比較。「Video-Gen」はモデルがテキストの他に動画を生成できるかどうかを示す。評価指標は正確度である。最良の結果は太字で、次点の結果は下線付きで示されている。

Model	LLM size	Video-Gen	EgoSchema	Perception-Test	MVBench	MSVD	ActivityNet
Gemini 1.0 Pro [58]	-	$\times$	55.7	51.1	-	-	49.8
Gemini 1.5 Pro [59]	-	$\times$	63.2	-	-	-	56.7
GPT4-V [46]	-	$\times$	55.6	-	43.7	-	59.5
GPT4-O [47]	-	$\times$	72.2	-	-	-	61.9
LLaMA-VID [35]	7B	$\times$	38.5	44.6	41.9	69.7	47.4
Video-ChatGPT [43]	7B	$\times$	-	-	-	64.9	35.2
Video-LLaVA [37]	7B	$\times$	38.4	44.3	41.0	70.7	45.3
VideoChat2 [31]	7B	$\times$	42.2	47.3	51.1	70.0	49.1
LLaVA-NeXT-Video [38]	7B	$\times$	43.9	48.8	46.5	67.8	53.5
LLaVA-NeXT-Video [38]	32B	$\times$	60.9	-	-	-	54.3
PLLaVA [81]	34B	$\times$	-	58.1	-	-	60.9
LLaVA-OneVision [30]	72B	$\times$	62.0	-	-	-	62.3
VideoLLaMA2 [10]	7B	$\times$	51.7	51.4	54.6	70.9	50.2
VideoLLaMA2 [10]	72B	$\times$	63.9	57.5	62.0	71.0	55.2
LWM [40]	7B	✓	-	-	-	55.9	-
Video-LaVIT [26]	7B	✓	37.3	47.9	-	73.2	50.1
VILA-U [74]	7B	✓	-	-	-	75.3	52.7
Divot-LLM	7B	✓	46.5	58.3	52.1	76.4	55.8

3.3 Pre-training and Instruction Tuning

3.3.1 Training Stage I: Multimodal Pre-training

図3に示すように、Divot-LLMは動画理解と生成のために、動画-テキストデータに対して次単語予測とGMMモデリングを採用している。具体的には、Divotトークナイザーからの動画特徴量、動画特徴量の開始と終了を示す特殊トークン、およびキャプションのテキストトークンが、事前学習済みのMistral-7B [24] に入力され、クロスエントロピー損失で学習される次トークン予測を行う。キャプションのテキストトークンと $N$ 個の学習可能なクエリがLLMに入力され、学習可能なクエリの出力は双方向アテンションを通じて学習され、NLL損失を用いて動画特徴量のGMM分布をモデル化する。推論時には、予測されたGMM分布からサンプルを抽出し、それをデノイジングU-Netの条件として現実的な動画をデコードする。我々は、事前学習済みのMistral-7Bモデルから、WebVid-10M [2] データのサブセット（キャプションの時間的ダイナミクスでフィルタリング）と画像-テキストデータを使用し、LoRA [22] を用いて32台のA100-40G GPUでDivot-LLMを事前学習する。

3.3.2 Training Stage II: Multimodal Instruction Tuning

我々は、Divot-LLMに対してマルチモーダル指示調整を行い、表2に記載された公開データセットを用いた教師あり微調整を通じて、人間の指示に合わせて調整する。さらに、我々は事前学習済みのDivot-LLMを「おさるのジョージ」というアニメシリーズで微調整し、ストーリーラインと対応する動画クリップを交互に生成する動画ストーリーテリングを実現する。

4 Experiment

4.1 Quantitative Evaluation

動画理解。

我々は、EgoSchema [44]、Perception-Test [48]、MVBench [32]における多肢選択式動画質問応答（MC-VQA）、およびMSVD [7]、ActivityNet [88]における自由回答式動画質問応答（OE-VQA）を含む動画理解ベンチマークで広範な評価を実施した。VideoLLaMA 2 [10]に倣い、我々はGPT-3.5を使用してOE-VQAの生成された回答の質を評価し、回答が正解と一致するかどうかを判断し、「Yes」の割合を正確度として報告する。

各テスト動画に対して、最大20クリップをサンプリングし、各クリップは5フレームを含む。評価結果は表3に報告されている。Divot-LLMは、テキストと動画の両方を生成できるベースラインモデルを上回る性能を示しており、我々のモデルが統一されたフレームワーク内で効果的に動画理解を達成していることを実証している。動画理解に特化して設計された同じLLMモデルサイズのVideoLLMと比較して、Divot-LLMは訓練に使用する動画-キャプションペアが大幅に少ない（4.8M対VideoLLaMA 2の100M）にもかかわらず、競争力のある結果を達成している。拡散過程を動画表現学習に活用することで、我々のDivotトークナイザーは堅牢な時空間表現を効果的に捉え、理解能力を向上させている。

動画生成。

我々は、MSR-VTT [79]でゼロショットのテキストから動画生成を評価する。各テスト動画に対してキャプションをランダムにサンプリングし、256 x 256ピクセルの解像度で16フレームを生成する。 Loong [69]に倣い、評価指標としてCLIP類似度（CLIPSIM）[71]とFréchet動画距離（FVD）[62]を採用する。表4に示すように、Divot-LLMは訓練に480万の動画-テキストペアのみを使用しているにもかかわらず、視覚的品質とキャプションとの意味的整合性の面で、既存の動画生成モデルと同等の性能を達成している。

4.2 Qualitative Evaluation

テキストから動画への生成。

我々は、統合された動画理解と生成が可能なベースラインMLLMとテキストから動画への生成の定性的比較を行う。図6に示されるように、予測されたGMMによってDivot特徴の分布をモデル化することで、我々のDivot-LLMはテキストプロンプトと意味的に整合し、フレーム間で時間的に一貫性のある動画を生成することができる。

動画ストーリーテリング。

我々は、動画ストーリーテリングのために、事前学習されたDivot-LLMを「おさるのジョージ」というアニメシリーズでファインチューニングする。図7に示されるように、簡単なストーリー指示が与えられると、我々のDivot-LLMは豊かな物語テキストと文脈的に関連し、時間的に一貫性のある動画を含むマルチモーダルなストーリーのシーケンスを生成することができる。新しいドメインへの適応のためにデトークナイザーのみをファインチューニングしているため、これは堅牢な動画表現を得るための我々のDivotトークナイザーの汎用性を示している。

表4: ゼロショットテキストから動画生成の比較。「データサイズ」は訓練用動画データの数を指し、「統合」はモデルが動画理解と生成を可能にするかどうかを示す。最良の結果は太字で、2番目に良い結果は下線で示されている。

Model	Data size	Unified	MSR-VTT
Model	Data size	Unified	CLIPSIM ( $\uparrow$ )	FVD ( $\downarrow$ )
CogVideo [21]	5.4M	$\times$	0.2631	1294
Video LDM [5]	10M	$\times$	0.2929	-
VideoComposer [66]	10M	$\times$	0.2932	580
InternVid [68]	28M	$\times$	0.2951	-
Make-A-Video [53]	20M	$\times$	0.3049	-
VideoPoet [29]	270M	$\times$	0.3049	213
PYoCo [14]	22.5M	$\times$	-	-
SVD [4]	152M	$\times$	-	-
Video-LavIT [26]	10M	✓	0.3012	188.36
Loong [69]	16M	$\times$	0.2903	274
Snap Video [45]	-	$\times$	0.2793	110.4
VILA-U [74]	1M	✓	0.2937	499.06
Divot-LLM	4.8M	✓	0.2938	301.4

4.3 Ablation Study

動画理解のための拡散

我々は、VideoLLMのための時空間表現を学習する拡散手順の有効性を検証するために、2つのベースラインを設計した。表6に示すように、両モデルはValley [42]で事前学習され、Video-ChatGPT [43]で指示調整されている。拡散損失を用いるモデルは我々のDivotトークナイザーを採用し、キャプション損失を用いるモデルは同じアーキテクチャを採用しているが、そのトークナイザーはValleyで凍結されたLLMを用いてキャプション損失で事前学習されている。拡散損失で学習された動画トークナイザーを採用するモデルは、動画理解ベンチマークでより良い性能を達成しており、拡散プロセスが対応するキャプションアノテーションを必要とせずに、自己教師あり方式で堅牢な動画表現を効果的に学習できることを示している。

表6: 動画トークナイザーの学習目的に関するアブレーション実験。評価指標は正確度である。

{tblr}

cell1-32 = c, cell1-33 = c, cell1-34 = c, vline2 = -, hline2 = -, hline1,4 = -0.08em, 損失タイプ & MV-Bench MSVD ActivityNet

キャプション 30.8 66.1 43.2
拡散 33.2 68.9 44.3

表8: 生成のためのLLMを用いた動画表現モデリングに関するアブレーション実験。MSR-VTTでテキストから動画への生成を評価する。

{tblr}

columneven = c, column3 = c, column5 = c, column9 = c, cell12 = c=2, cell14 = c=4, cell18 = c=3, cell22 = r=2, cell23 = r=2, cell25 = c=2, cell27 = c, cell29 = c=2, cell47 = c, cell57 = c, vline2,4,8 = -0.05em, hline1,6 = -0.08em, hline2 = 2-100.03em, hline3 = 2-10dashed, hline4 = -0.05em, & 表現目的メカニズム
パッチ位置
依存パッチ位置
非依存 MSE 拡散 GMM AR クエリ
$\mathbf{\epsilon}$ -予測 $v$ -予測因果的双方向
CLIPSIM ( $\uparrow$ ) 0.3192 0.3265 0.3168 0.2811 0.2842 0.3265 0.2386 0.3080 0.3265
FVD ( $\downarrow$ ) 378.50 366.60 438.94 418.19 377.17 366.60 447.88 416.60 366.60

LLMによる動画生成

我々は、MSR-VTTの訓練セットで学習し、テストセットでテキストから動画への生成を評価することで、LLMを通じて動画を生成する効果的なアプローチを探るために、様々なアブレーション実験を行った。より良い識別のために、CLIPSIMの計算にはViT-G/14を使用した。

Q1: どのタイプの動画表現がより容易か？我々は、空間時間トランスフォーマーから得られるパッチ位置依存の特徴と、学習可能なクエリを持つPerceiver Resampleの後のパッチ位置非依存の特徴という2つのタイプの動画表現を調査した。表8に示すように、3D位置依存性のない特徴をフィッティングすることで、より高い性能が達成され、これは最近の研究[64]でも観察されている。我々はまた、GIVT [61]に従って、正規分布の平均と分散を予測し、再パラメータ化トリックを用いて動画表現をサンプリングするVAE方式で動画トークナイザーを訓練する実験も行った。しかし、LLMが収束するのが難しく、動画デトークナイザーが不満足な再構成結果を達成することを観察した。我々は、高レベルの動画特徴のトークン化中に分散を導入することは適切ではない可能性があると結論付けた。

Q2: どの学習目的がより適切か？第3節で紹介したように、我々はLLMで高レベルの連続的特徴をフィッティングするために、MSE回帰、拡散モデリング、GMMモデリングを探索した。表8に示すように、MSE損失を用いてLLM出力を動画特徴と単純に整列させることは、最も低い生成品質をもたらし、決定論的回帰が時空間表現のモデリングには不十分であることを示唆している。LLM出力を条件として、ノイズのある動画特徴をデノイズするためにデノイジングネットワークを訓練することも、 $\mathbf{\epsilon}$ 予測と $v$ 予測の両方で劣った性能を達成した。低レベルのVAE潜在変数をデノイズするMAR [33]とは異なり、我々の目標は高レベルの動画特徴をデノイズすることである。我々は、これらの特徴がガウスノイズにより敏感であり、デノイズがより困難になると推測している。GMMモデルを用いて高レベルの動画特徴の分布をモデル化するようにLLMを訓練することで、最高の生成品質とキャプションとの意味的整合性が達成された。

Q3: どのLLMメカニズムがより効果的か？我々は、自己回帰アプローチとクエリベースのアプローチの両方を用いて、GMMモデリングで動画表現をフィッティングするようにLLMを訓練した。後者ではLLM内で因果的注意と双方向注意を探索した。各動画トークンの特徴を自己回帰的に予測することは、特に現在のトークンの分布を予測するために前のトークンの特徴がGMM分布からサンプリングされる場合、誤差の蓄積により最悪の性能をもたらす。クエリベースのアプローチは双方向注意でより良い結果を達成し、各クエリが予測のためにすべてのトークンに注意を向けることができるようになる。

5 Conclusion

本稿では、統一的な理解と生成のために自己教師あり方式で学習された拡散モデルを用いたビデオトークナイザーDivotを紹介する。さらに、我々はLLMを用いて連続的なビデオ表現をモデル化する効果的なアプローチを調査し、単一のフレームワークでビデオコンテンツを理解および生成するDivot-LLMを提示する。Divot-LLMは、ビデオ理解と生成のベンチマークにおいて競争力のある性能を達成し、効果的にビデオストーリーテリングを可能にする。我々は、本研究が洗練されたトークナイザーの設計を通じてビデオの理解と生成を統合することに対する注目を高めることを期待している。

限界。

我々は主に統一的なLLMによるビデオ生成のための効果的な表現とアプローチの探求に焦点を当てているため、現在のモデルは単一のクリップに対するビデオ表現の予測のみを学習しており、より長いビデオを生成することはできない。これは我々の今後の研究で探求される予定である。

References

Alayrac et al. [2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in Neural Information Processing Systems, 35:23716–23736, 2022.
Bain et al. [2021] Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman. Frozen in time: A joint video and image encoder for end-to-end retrieval. In Proceedings of the IEEE/CVF international conference on computer vision, pages 1728–1738, 2021.
Baranchuk et al. [2021] Dmitry Baranchuk, Ivan Rubachev, Andrey Voynov, Valentin Khrulkov, and Artem Babenko. Label-efficient semantic segmentation with diffusion models. arXiv preprint arXiv:2112.03126, 2021.
Blattmann et al. [2023a] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023a.
Blattmann et al. [2023b] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22563–22575, 2023b.
Brown et al. [2020] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
Chen and Dolan [2011] David Chen and William B Dolan. Collecting highly parallel data for paraphrase evaluation. In Proceedings of the 49th annual meeting of the association for computational linguistics: human language technologies, pages 190–200, 2011.
Chen et al. [2023] Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, et al. Videocrafter1: Open diffusion models for high-quality video generation. arXiv preprint arXiv:2310.19512, 2023.
Chen et al. [2024] Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, et al. Panda-70m: Captioning 70m videos with multiple cross-modality teachers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13320–13331, 2024.
Cheng et al. [2024] Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, et al. Videollama 2: Advancing spatial-temporal modeling and audio understanding in video-llms. arXiv preprint arXiv:2406.07476, 2024.
Chowdhery et al. [2022] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311, 2022.
Dong et al. [2023] Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, et al. Dreamllm: Synergistic multimodal comprehension and creation. arXiv preprint arXiv:2309.11499, 2023.
Dosovitskiy et al. [2020] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
Ge et al. [2023a] Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, and Yogesh Balaji. Preserve your own correlation: A noise prior for video diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 22930–22941, 2023a.
Ge et al. [2023b] Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, and Ying Shan. Planting a seed of vision in large language model. arXiv preprint arXiv:2307.08041, 2023b.
Ge et al. [2023c] Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang, and Ying Shan. Making llama see and draw with seed tokenizer. arXiv preprint arXiv:2310.01218, 2023c.
Ge et al. [2024] Yuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, and Ying Shan. Seed-x: Multimodal models with unified multi-granularity comprehension and generation. arXiv preprint arXiv:2404.14396, 2024.
Goyal et al. [2017] Raghav Goyal, Samira Ebrahimi Kahou, Vincent Michalski, Joanna Materzynska, Susanne Westphal, Heuna Kim, Valentin Haenel, Ingo Fruend, Peter Yianilos, Moritz Mueller-Freitag, et al. The” something something” video database for learning and evaluating visual common sense. In Proceedings of the IEEE international conference on computer vision, pages 5842–5850, 2017.
Grauman et al. [2022] Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis, Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu, Xingyu Liu, et al. Ego4d: Around the world in 3,000 hours of egocentric video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18995–19012, 2022.
Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
Hong et al. [2022] Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, and Jie Tang. Cogvideo: Large-scale pretraining for text-to-video generation via transformers. arXiv preprint arXiv:2205.15868, 2022.
Hu et al. [2021] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
Hudson et al. [2024] Drew A Hudson, Daniel Zoran, Mateusz Malinowski, Andrew K Lampinen, Andrew Jaegle, James L McClelland, Loic Matthey, Felix Hill, and Alexander Lerchner. Soda: Bottleneck diffusion models for representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 23115–23127, 2024.
Jiang et al. [2023] Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
Jin et al. [2023] Yang Jin, Kun Xu, Liwei Chen, Chao Liao, Jianchao Tan, Bin Chen, Chenyi Lei, An Liu, Chengru Song, Xiaoqiang Lei, et al. Unified language-vision pretraining with dynamic discrete visual tokenization. arXiv preprint arXiv:2309.04669, 2023.
Jin et al. [2024] Yang Jin, Zhicheng Sun, Kun Xu, Liwei Chen, Hao Jiang, Quzhe Huang, Chengru Song, Yuliang Liu, Di Zhang, Yang Song, et al. Video-lavit: Unified video-language pre-training with decoupled visual-motional tokenization. arXiv preprint arXiv:2402.03161, 2024.
Kay et al. [2017] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, et al. The kinetics human action video dataset. arXiv preprint arXiv:1705.06950, 2017.
Kingma and Welling [2013] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
Kondratyuk et al. [2023] Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, et al. Videopoet: A large language model for zero-shot video generation. arXiv preprint arXiv:2312.14125, 2023.
Li et al. [2024a] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326, 2024a.
Li et al. [2023a] Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, et al. Mvbench: A comprehensive multi-modal video understanding benchmark. arXiv preprint arXiv:2311.17005, 2023a.
Li et al. [2024b] Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, et al. Mvbench: A comprehensive multi-modal video understanding benchmark. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22195–22206, 2024b.
Li et al. [2024c] Tianhong Li, Yonglong Tian, He Li, Mingyang Deng, and Kaiming He. Autoregressive image generation without vector quantization. arXiv preprint arXiv:2406.11838, 2024c.
Li et al. [2016] Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, Larry Goldberg, Alejandro Jaimes, and Jiebo Luo. Tgif: A new dataset and benchmark on animated gif description. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4641–4650, 2016.
Li et al. [2023b] Yanwei Li, Chengyao Wang, and Jiaya Jia. Llama-vid: An image is worth 2 tokens in large language models. arXiv preprint arXiv:2311.17043, 2023b.
Li et al. [2024d] Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, and Jiaya Jia. Mini-gemini: Mining the potential of multi-modality vision language models. arXiv preprint arXiv:2403.18814, 2024d.
Lin et al. [2023] Bin Lin, Bin Zhu, Yang Ye, Munan Ning, Peng Jin, and Li Yuan. Video-llava: Learning united visual representation by alignment before projection. arXiv preprint arXiv:2311.10122, 2023.
Liu et al. [2024a] Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, and Yong Jae Lee. Llava-next: Improved reasoning, ocr, and world knowledge, 2024a.
Liu et al. [2024b] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. Advances in neural information processing systems, 36, 2024b.
Liu et al. [2024c] Hao Liu, Wilson Yan, Matei Zaharia, and Pieter Abbeel. World model on million-length video and language with ringattention. arXiv preprint arXiv:2402.08268, 2024c.
Lu et al. [2023] Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, and Aniruddha Kembhavi. Unified-io 2: Scaling autoregressive multimodal models with vision, language, audio, and action. arXiv preprint arXiv:2312.17172, 2023.
Luo et al. [2023] Ruipu Luo, Ziwang Zhao, Min Yang, Junwei Dong, Da Li, Pengcheng Lu, Tao Wang, Linmei Hu, Minghui Qiu, and Zhongyu Wei. Valley: Video assistant with large language model enhanced ability. arXiv preprint arXiv:2306.07207, 2023.
Maaz et al. [2023] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv preprint arXiv:2306.05424, 2023.
Mangalam et al. [2023] Karttikeya Mangalam, Raiymbek Akshulakov, and Jitendra Malik. Egoschema: A diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems, 36:46212–46244, 2023.
Menapace et al. [2024] Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, et al. Snap video: Scaled spatiotemporal transformers for text-to-video synthesis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7038–7048, 2024.
OpenAI [2023] OpenAI. Gpt-4v(ision) system card, 2023.
OpenAI [2024] OpenAI. Gpt-4o system card, 2024.
Patraucean et al. [2024] Viorica Patraucean, Lucas Smaira, Ankush Gupta, Adria Recasens, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Mateusz Malinowski, Yi Yang, Carl Doersch, et al. Perception test: A diagnostic benchmark for multimodal video models. Advances in Neural Information Processing Systems, 36, 2024.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
Schuhmann et al. [2022] Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022.
Sharma et al. [2018] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2556–2565, 2018.
Singer et al. [2022] Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, et al. Make-a-video: Text-to-video generation without text-video data. arXiv preprint arXiv:2209.14792, 2022.
Sun et al. [2023a] Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, et al. Generative multimodal models are in-context learners. arXiv preprint arXiv:2312.13286, 2023a.
Sun et al. [2023b] Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, and Xinlong Wang. Generative pretraining in multimodality. arXiv preprint arXiv:2307.05222, 2023b.
Sun et al. [2023c] Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, and Xinlong Wang. Generative pretraining in multimodality. arXiv preprint arXiv:2307.05222, 2023c.
Team [2024] Chameleon Team. Chameleon: Mixed-modal early-fusion foundation models. arXiv preprint arXiv:2405.09818, 2024.
Team et al. [2023] Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023.
Team et al. [2024] Gemini Team, Petko Georgiev, Ving Ian Lei, Ryan Burnell, Libin Bai, Anmol Gulati, Garrett Tanzer, Damien Vincent, Zhufeng Pan, Shibo Wang, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.
Touvron et al. [2023] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
Tschannen et al. [2025] Michael Tschannen, Cian Eastwood, and Fabian Mentzer. Givt: Generative infinite-vocabulary transformers. In European Conference on Computer Vision, pages 292–309. Springer, 2025.
Unterthiner et al. [2018] Thomas Unterthiner, Sjoerd Van Steenkiste, Karol Kurach, Raphael Marinier, Marcin Michalski, and Sylvain Gelly. Towards accurate generative models of video: A new metric & challenges. arXiv preprint arXiv:1812.01717, 2018.
Van Den Oord et al. [2017] Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. Advances in neural information processing systems, 30, 2017.
Wang et al. [2024a] Hanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, and Abhinav Shrivastava. Larp: Tokenizing videos with a learned autoregressive generative prior. arXiv preprint arXiv:2410.21264, 2024a.
Wang et al. [2024b] Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, and Xinlong Wang. Diffusion feedback helps clip see better. arXiv preprint arXiv:2407.20171, 2024b.
Wang et al. [2024c] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. Videocomposer: Compositional video synthesis with motion controllability. Advances in Neural Information Processing Systems, 36, 2024c.
Wang et al. [2024d] Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, et al. Emu3: Next-token prediction is all you need. arXiv preprint arXiv:2409.18869, 2024d.
Wang et al. [2023] Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, et al. Internvid: A large-scale video-text dataset for multimodal understanding and generation. arXiv preprint arXiv:2307.06942, 2023.
Wang et al. [2024e] Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, and Xihui Liu. Loong: Generating minute-level long videos with autoregressive language models. arXiv preprint arXiv:2410.02757, 2024e.
Wei et al. [2023] Chen Wei, Karttikeya Mangalam, Po-Yao Huang, Yanghao Li, Haoqi Fan, Hu Xu, Huiyu Wang, Cihang Xie, Alan Yuille, and Christoph Feichtenhofer. Diffusion models as masked autoencoders. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 16284–16294, 2023.
Wu et al. [2021] Chenfei Wu, Lun Huang, Qianxi Zhang, Binyang Li, Lei Ji, Fan Yang, Guillermo Sapiro, and Nan Duan. Godiva: Generating open-domain videos from natural descriptions. arXiv preprint arXiv:2104.14806, 2021.
Wu et al. [2024a] Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, et al. Janus: Decoupling visual encoding for unified multimodal understanding and generation. arXiv preprint arXiv:2410.13848, 2024a.
Wu et al. [2023] Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, and Tat-Seng Chua. Next-gpt: Any-to-any multimodal llm. arXiv preprint arXiv:2309.05519, 2023.
Wu et al. [2024b] Yecheng Wu, Zhuoyang Zhang, Junyu Chen, Haotian Tang, Dacheng Li, Yunhao Fang, Ligeng Zhu, Enze Xie, Hongxu Yin, Li Yi, et al. Vila-u: a unified foundation model integrating visual understanding and generation. arXiv preprint arXiv:2409.04429, 2024b.
Xiang et al. [2023] Weilai Xiang, Hongyu Yang, Di Huang, and Yunhong Wang. Denoising diffusion autoencoders are unified self-supervised learners. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 15802–15812, 2023.
Xiao et al. [2021] Junbin Xiao, Xindi Shang, Angela Yao, and Tat-Seng Chua. Next-qa: Next phase of question-answering to explaining temporal actions. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 9777–9786, 2021.
Xie et al. [2024] Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, and Mike Zheng Shou. Show-o: One single transformer to unify multimodal understanding and generation. arXiv preprint arXiv:2408.12528, 2024.
Xing et al. [2025] Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Wangbo Yu, Hanyuan Liu, Gongye Liu, Xintao Wang, Ying Shan, and Tien-Tsin Wong. Dynamicrafter: Animating open-domain images with video diffusion priors. In European Conference on Computer Vision, pages 399–417. Springer, 2025.
Xu et al. [2016] Jun Xu, Tao Mei, Ting Yao, and Yong Rui. Msr-vtt: A large video description dataset for bridging video and language. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5288–5296, 2016.
Xu et al. [2023] Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, and Shalini De Mello. Open-vocabulary panoptic segmentation with text-to-image diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2955–2966, 2023.
Xu et al. [2024] Lin Xu, Yilin Zhao, Daquan Zhou, Zhijie Lin, See Kiong Ng, and Jiashi Feng. Pllava: Parameter-free llava extension from images to videos for video dense captioning. arXiv preprint arXiv:2404.16994, 2024.
Yan et al. [2021] Wilson Yan, Yunzhi Zhang, Pieter Abbeel, and Aravind Srinivas. Videogpt: Video generation using vq-vae and transformers. arXiv preprint arXiv:2104.10157, 2021.
Yang et al. [2024a] Jian Yang, Dacheng Yin, Yizhou Zhou, Fengyun Rao, Wei Zhai, Yang Cao, and Zheng-Jun Zha. Mmar: Towards lossless multi-modal auto-regressive prababilistic modeling. arXiv preprint arXiv:2410.10798, 2024a.
Yang et al. [2024b] Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, and Yingcong Chen. Seed-story: Multimodal long story generation with large language model. arXiv preprint arXiv:2407.08683, 2024b.
Yi et al. [2019] Kexin Yi, Chuang Gan, Yunzhu Li, Pushmeet Kohli, Jiajun Wu, Antonio Torralba, and Joshua B Tenenbaum. Clevrer: Collision events for video representation and reasoning. arXiv preprint arXiv:1910.01442, 2019.
Yu et al. [2023] Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, et al. Scaling autoregressive multi-modal models: Pretraining and instruction tuning. arXiv preprint arXiv:2309.02591, 2023.
Yu et al. [2024] Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Yue Cao, Xinlong Wang, and Jingjing Liu. Capsfusion: Rethinking image-text data at scale. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14022–14032, 2024.
Yu et al. [2019] Zhou Yu, Dejing Xu, Jun Yu, Ting Yu, Zhou Zhao, Yueting Zhuang, and Dacheng Tao. Activitynet-qa: A dataset for understanding complex web videos via question answering. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 9127–9134, 2019.
Zhao et al. [2024] Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, and Jingdong Wang. Monoformer: One transformer for both diffusion and autoregression. arXiv preprint arXiv:2409.16280, 2024.
Zhao et al. [2023] Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, and Jiwen Lu. Unleashing text-to-image diffusion models for visual perception. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5729–5739, 2023.
Zhou et al. [2024] Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, and Omer Levy. Transfusion: Predict the next token and diffuse images with one multi-modal model. arXiv preprint arXiv:2408.11039, 2024.
Zhou et al. [2018] Luowei Zhou, Chenliang Xu, and Jason Corso. Towards automatic learning of procedures from web instructional videos. In Proceedings of the AAAI Conference on Artificial Intelligence, 2018.
Zhu et al. [2023] Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, and Ying Shan. Vl-gpt: A generative pre-trained transformer for vision and language understanding and generation. arXiv preprint arXiv:2312.09251, 2023.

Appendix A Implementation Details

A.1 Divot Tokenization.

モデルアーキテクチャ

Divot トークナイザーは、事前学習済みの ViT-H/14、時空間トランスフォーマー、およびパーシーバーリサンプラーで構成されている。具体的には、2秒間の動画クリップが与えられると、我々は2 fpsで5フレームをサンプリングし、それらをViTに入力してフレームレベルの特徴を抽出する。その後、抽出されたフレームレベルの特徴は時空間トランスフォーマーに入力される。これは時間的融合のための6層の時間的トランスフォーマー、プールサイズ5の平均プーリング、および空間的・時間的融合のための4層のトランスフォーマーで構成されている。動画トークンの数を減らすために、時空間トランスフォーマー後のこれらの特徴は、さらにパーシーバーリサンプラーに入力される。これは6層のパーシーバーアテンション[1]を含み、LLMとの統一的な理解と生成のための最終的な64個の動画トークンを取得する。デトークナイザーとしては、DynamiCrafter[78]のデノイジングU-Netを採用しているが、ノイズのあるラテント変数と条件付き画像の元の連結を削除したため、3D畳み込みの入力チャンネルを8から4に減らしている。デトークナイザーの再構成品質をさらに向上させるために、Divotトークナイザーの後に6層のパーシーバーアテンション[1]を追加し、U-Netの入力として125個の動画トークンを取得している。これらはLLMの学習中には使用されない。

学習パイプライン

元のDynamiCrafterは条件付き画像をフレームごとの初期ノイズと連結し、それらをガイダンスの形としてデノイジングU-Netに入力するため、低レベルの画像入力への追加の依存性により、動画表現学習に直接適用することはできない。この問題に対処するために、我々はまず、条件付き画像の連結を削除することで事前学習済みのDynamiCrafterを微調整する。この修正により、モデルは画像とキャプションの特徴、および時間的埋め込みのみを、ノイズのある動画クリップのデノイジングの唯一の条件として利用するようになる。次に、画像とキャプションの特徴をDivotトークナイザーによって生成された時空間表現に置き換え、DivotトークナイザーとデノイジングU-Netをデノイジングのための $v$ 予測とともにエンドツーエンドで学習する。この段階の後、デトークナイザーの生成品質をさらに向上させるために、Divotトークナイザーを凍結し、デノイジングU-Netのみを微調整する。この微調整プロセス中、我々は5%の確率で条件を削除することを導入し、推論時にクラシファイアフリーガイダンスを活用できるようにする。Divotトークナイザーを最適化する前段階では、デノイジングプロセスが表現を最適化するために時空間表現に完全に依存することを確実にするために、条件を削除しないことに注意されたい。

学習データ

Divotトークナイザーは、WebVid-10M[2]とPanda-70M[9]のサブセットの純粋な動画で学習され、32台のA100-40G GPUで合計1000万本の動画が使用される。 WebVid-10Mデータセットについては、LLaMA-3を使用して動的なコンテンツを含まないキャプションの動画をフィルタリングし、480万本の動画に精製されたデータセットを得た。Panda-70Mデータセットについては、合計530万本の動画をダウンロードし、そのすべてを学習目的で使用した。

A.2 Pre-training and Instruction Tuning.

事前学習

Divot-LLMは、事前学習中の動画理解と生成のために、動画-テキストデータに対する次単語予測とGMMモデリングを採用している。具体的には、Divotトークナイザーからの動画特徴、動画特徴の開始と終了を示す特殊トークン、およびキャプションのテキストトークンが、事前学習済みのMistral-7B [24] に入力され、クロスエントロピー損失で訓練される次トークン予測を行う。Divot特徴とLLMの次元を合わせるために、2つの全結合層が訓練される。GMMモデリングについては、キャプションのテキストトークンと $N$ 個の学習可能なクエリがLLMに入力され、学習可能なクエリの出力は2つの全結合層に送られ、動画トークンごとに $2kd+k$ 個のパラメータ（混合成分の $kd$ 個の平均と $kd$ 個の分散パラメータ、および $k$ 個の混合確率）を予測する。我々の実験では $k=16$ を採用している。LLM内の $N$ 個の学習可能なクエリに対して双方向注意を使用し、NLL損失を用いてモデルを最適化する。事前学習には32台のA100-40G GPUを使用し、WebVid-10Mの480万の動画-キャプションペアで行われる。

指示調整

我々は、Divot-LLMに対してマルチモーダル指示調整を行い、表2に記載された公開データセットを用いた教師あり微調整を通じて、人間の指示に合わせている。事前学習済みのDivot-LLMに対して、以下のテンプレートを用いてLoRAモジュールを微調整する。

[INST] <Instruction> [/INST] <Answer>

(2)

さらに、我々は動画ストーリーテリングを実現するために、「おさるのジョージ」というアニメシリーズを用いて事前学習済みのDivot-LLMを微調整する。これにより、ストーリーラインと対応する動画クリップを交互に生成する。具体的には、「おさるのジョージ」シリーズの動画をダウンロードした後、Panda-70Mの動画分割アルゴリズムを採用して、長い動画を意味的に一貫性のある複数のクリップに分割する。これには、ショット境界検出に基づく分割と、意味的類似性に基づく結合が含まれる。その後、各動画クリップから均等に8フレームをサンプリングし、GPT-4Vを使用して各クリップのキャプションを生成する。最後に、GPT-4を使用して、3つの連続する動画クリップのキャプションに基づいて指示と対応するストーリーラインを要約する。

指示調整後、動画生成の品質をさらに向上させるために、我々はデトークナイザー適応技術を採用する。これは、LLM出力から導出された予測GMM分布からサンプリングされた特徴に基づいてデトークナイザーを微調整する技術である。

Appendix B Qualitative Examples

動画の再構成。

図8に、動画再構成の追加の定性的な例を示す。ここでは、時空間表現がDivotトークナイザーから取得され、その後、ノイズから現実的な動画クリップをデノイズするために、デノイジングU-Netに供給される。学習された時空間表現から生成されたデコードされた動画クリップは、元の動画と意味的に一致し、時間的一貫性を維持している。アニメシリーズ「おさるのジョージ」への適応では、Divotトークナイザーを凍結したまま、デトークナイザーのみを微調整している。満足のいく再構成結果は、堅牢な動画表現を得る上での我々のDivotトークナイザーの汎用性を示している。

動画生成。

図9に、テキストから動画生成のさらなる定性的な例を示す。GMMを用いてDivot特徴の分布をモデル化し、LLMをGMMパラメータの予測のために訓練することで、我々のDivot-LLMは、テキストプロンプトと意味的に一致し、フレーム間で時間的に一貫性のある動画を生成することができる。これは、二重機能を持つデトークナイザーを使用し、訓練に480万の動画-キャプションペアのみを使用することで達成されている。

動画理解。

図10に示すように、Divot-LLMの動画理解能力を示す定性的な例を提供する。動画に描かれている一連の出来事を効果的に理解し、常識を用いて推論し、特定の行動や出来事の結果を追跡・要約し、動画の包括的で詳細な説明を提供することができる。動画表現学習に拡散過程を利用することで、我々のDivotトークナイザーは堅牢な時空間表現を効果的に捉え、Divot-LLMの理解能力を向上させている。