arXiv	https://arxiv.org/abs/2411.17991
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Yueqian Wang¹ Xiaojun Meng² Yuxuan Wang³ Jianxin Liang¹ Jiansheng Wei² Huishuai Zhang¹ Corresponding Author Dongyan Zhao^1,4^∗
¹Wangxuan Institute of Computer Technology, Peking University
²Huawei Noah’s Ark Lab
³Beijing Institute for General Artificial Intelligence
⁴National Key Laboratory of General Artificial Intelligence
{wangyueqian,liangjx,zhanghuishuai,zhaodongyan}@pku.edu.cn
{xiaojun.meng,weijiansheng}@huawei.com
[email protected]

Abstract

動画大規模言語モデル（VideoLLM）に関する最近の研究は、主にモデルアーキテクチャとトレーニングデータセットに焦点を当てており、ユーザーとモデル間の対話形式については十分に探究されていない。既存の研究では、ユーザーは通常、動画全体とクエリを入力として VideoLLM と対話し、その後モデルが応答を生成する。この対話形式は、動画が終了せず、リアルタイムでの応答が必要なライブストリーミング理解のようなシナリオでの VideoLLM の適用を制限し、また動画セグメントのローカライズを必要とする時間依存タスクにおいて不十分なパフォーマンスをもたらす。本稿では、動画-テキストデュエット対話形式に焦点を当てる。この対話形式は、動画の連続再生を特徴とし、ユーザーとモデルの両方が動画再生中の任意の位置にテキストメッセージを挿入できる。テキストメッセージが終了すると、動画は再生を続け、デュエットにおける2人の演奏者の交替に似ている。我々は、VideoLLM を動画-テキストデュエット対話形式に適応させるために設計された動画-テキストトレーニングデータセット MMDuetIT を構築する。また、VideoLLM のリアルタイム応答能力をベンチマークするために、複数回答根拠付き動画質問応答（MAGQA）タスクを導入する。 MMDuetIT でトレーニングされた MMDuet は、動画-テキストデュエット対話形式を採用することで、最小限のトレーニング努力で様々な時間依存タスク（YouCook2 密動画キャプション生成で76% CIDEr、QVHighlights ハイライト検出で90% mAP、Charades-STA 時間的動画グラウンディングで25% [email protected]）において大幅な改善を達成し、また VideoLLM が動画再生中にリアルタイムで応答できるようになることを実証する。コード、データ、およびデモは以下で利用可能である：https://github.com/yellow-binary-tree/MMDuet。

1 Introduction

Refer to caption — 図1: 一般的な全動画対話形式と我々の動画-テキスト二重奏対話形式の例。

動画は日常的に情報を取得するための重要な媒体としてますます重要になってきている。大規模言語モデル（LLM）[28, 11, 25, 2, 37]と視覚エンコーダー[22, 39, 26, 21, 30]の最近の進歩により、いくつかの動画大規模言語モデル（VideoLLM）[17, 18, 16, 15, 40, 32]がすでに動画に関する会話や質問応答において強力な能力を示している。これらのモデルの共通の特徴は、まず動画全体からサンプリングされたすべてのフレームを視覚エンコーダーでエンコードし、それらを入力埋め込みに連結するか、クロスアテンションを使用してテキスト入力に統合することである。

VideoLLMに関する最近の研究は、主にモデルアーキテクチャとトレーニングデータセットに集中しており、ユーザーとモデル間の対話形式の探求は限られている。本稿では、VideoLLMの「対話形式」は以下の2つの側面を含む：(1) 入力ソース（例：動画、ユーザーのテキストクエリ、モデルの応答）をトークンの列に変換するために使用されるチャットテンプレート、(2) 異なるソースの入力を組織化して対話形式を完成させるターンテイキングルール。例えば、既存のほとんどのVideoLLMでは、対話形式は以下の通りである：(1) チャットテンプレートについては、モデルは（サンプリングされた）全動画とテキストクエリを入力として使用し、応答を出力する；(2) ターンテイキングルールについては、通常、モデルは全動画コンテンツとユーザークエリの両方が終了した時点で応答を生成するターンを取ることが許可される（例：<eos>トークンが明示的に提供された時）。我々は本稿の残りの部分でこの従来の対話方法を「全動画」と呼ぶ。

しかしながら、これまで一貫して使用されてきた全動画による対話には以下の3つの欠点があり、これらがVideoLLMsの性能と実世界での使用シナリオを妨げている：第一に、タイムリーな対話を許容しない。動画は多くの場合全体として入力されるため、ライブ配信や監視カメラの映像など、特定の時間に終了しない動画におけるより多くのシナリオでの使用が制限される。動画を複数の固定長クリップに分割して入力することができたとしても、モデルは必要に応じてリアルタイムで応答を生成することができない。代わりに、クリップの終了を待ってから返答を開始しなければならず、これが対話のタイムリー性に悪影響を及ぼす。第二に、時間に敏感な動画理解タスクにおいて好ましくない性能を示す。本稿では、「時間に敏感なタスク」とは、モデルが動画内の特定の時間を含む応答を提供することが求められるタスクを指す。例えば、時間的動画グラウンディング[13, 3, 8]、動画ハイライト検出[14]、密な動画キャプション生成[41, 13]、グラウンド化された動画質問応答[34]などがある。既存のアプローチでは、「3.5〜7.1秒」のような秒数や「30%から50%」のようなタイムライン上のパーセンテージなど、時間情報を含むテキストを生成することで動画のタイムラインを参照している。しかし、これらのモデルの性能は一貫して不満足なものであり、おそらくLLMsの数値処理能力の限界が原因であると考えられる[24]。第三に、長時間の動画を説明する際に最適とは言えない性能を示す。長い動画の特定のセグメントに関連する応答を生成する際、モデルはまず、すでにコンテキストにエンコードされている全動画から、この関連セグメントを暗黙的に「検索」する必要があり、これは多くのVideoLLMsにとって困難な課題である[33]。

本稿では、前述の課題に対処し、VideoLLMを強化することを目的とした相互作用方法である、ビデオテキスト二重奏相互作用フォーマットを形式化する。全ビデオ相互作用フォーマットとビデオテキスト二重奏相互作用フォーマットの図解を図 1に示す。我々のビデオテキスト二重奏相互作用フォーマットでは、ビデオは連続的に再生され、フレームごとにモデルに入力される。ユーザーとモデルの両方が、ビデオ再生中の任意のフレームの直後にテキストメッセージを挿入できる。テキストメッセージが終了すると、ビデオは再生を続け、二重奏における二人の演奏者の様相を呈する。これは、「ビデオストリーム」も対話の参加者として定義し、そのメッセージがビデオフレームのみで構成されることで実装される。ユーザーまたはモデルのいずれかの対話ターンが終了すると、ビデオストリームが発言権を持ち、ユーザーまたはモデルのいずれかが次のターンを開始するまで、ビデオフレームをモデルに入力することができる。これにより、相互作用の即時性が向上し、ライブストリーミングや監視ビデオ理解などの実世界のアプリケーションにより適したものとなる。さらに、ビデオの最も関連性の高い箇所に応答を挿入することで、モデルはこの位置より前の小さいが細かい粒度のビデオの一部を参照して応答を生成することを学習できる。このようにして、長時間のビデオを説明するための情報検索を容易にし、また応答をビデオの目標位置に「根拠付け」することを可能にする。我々は、この設計が既存のVideoLLMの上述の3つの課題に対処することに貢献すると考えている。

ビデオテキスト二重奏相互作用フォーマットの有効性を証明するために、我々はMMDuetITを構築した。これは、ビデオテキスト二重奏相互作用フォーマットに従う多用途なVideoLLMの訓練を容易にするデータセットである。MMDuetITは、既存の密なビデオキャプション生成と時間的ビデオ根拠付けデータセットを再フォーマットし、各対話ターンをビデオ内の適切な位置に挿入することで構築される。我々はまた、マルチアンサービデオ根拠付きQA（MAGQA）を提案する。これは、モデルがビデオ内の適切な位置でリアルタイムに回答を生成することを要求する新規タスクであり、ライブストリーミングビデオ理解の潜在的なアプリケーションに合致するものである。我々はまた、提案するビデオテキスト二重奏相互作用フォーマットを実装するVideoLLMであるMMDuetを訓練した。LLaVA-OneVision [15]で初期化し、低コストでMMDuetITを用いて訓練されたMMDuetは、様々な時間敏感タスクで顕著な性能向上を達成し、ビデオ再生中にリアルタイムで応答を生成することができる。

2 Related Works

2.1 Video Large Language Models

大規模言語モデル（LLM）と視覚エンコーダーの進歩により、既存のLLMの強力な理解力と生成能力をビデオ関連タスクに活用することを目指して、両者の統合に関する数多くの取り組みがなされてきた[17, 18, 16, 15, 32, 36]。これらのモデルは、キャプション生成や要約などのビデオ理解において優れた能力を示している[36]。しかしながら、時間に敏感なタスクにおけるパフォーマンスは依然として不十分である。これは主に二つの理由による：第一に、多くのモデルが、ビデオコンテンツが比較的静的で、アノテーションが十分に密でないデータセットで訓練されているためである[40]。これにより、モデルがビデオの様々な部分における時間的な差異を識別する能力が制限されている。第二に、単語とパッチの対応関係を容易に捉えることができる画像モデル[5]とは異なり、ほとんどのVideoLLMは、同一ビデオ内の異なるクリップ間の差異を区別するように明示的に訓練されていない。

2.2 Localizing Video Segments with VideoLLMs

最近の研究では、VideoLLMsに動画内のセグメントをローカライズし表現する能力を付与し、時間的動画グラウンディングや密な動画キャプション生成などのタスクでより良いパフォーマンスを達成しようとしている。これらの研究は、タイムスタンプの秒数（TimeChat [23]）、タイムラインのパーセンテージ（VTimeLLM [10]）、特殊なテキストトークンの使用（VTG-LLM [6]、Grounded-VideoLLM [29]）など、動画クリップをテキストで容易に表現する新しい方法を探求している。しかし、その性能はまだ満足のいくものではない。これは、LLMsが各動画フレームをローカライズするために数字を正確にカウントし生成する能力が限られているためである可能性がある [24]。この問題を緩和するために、HawkEye [31] は動画のより大きな部分を参照する粗粒度の方法を使用しているが、セグメントを正確に特定するには複数回の再帰的グラウンディングが必要であり、複数のセグメントを一度に表現できない可能性がある。

我々の動機に最も近い研究はVideoLLM-Online [1] である。これは、VideoLLMsを動画ストリームに割り込んで応答を挿入するようにトレーニングするためのLIVEというフレームワークを提案している。しかし、彼らはEgo4D [4] とCOIN [27] でモデルをファインチューニングしてLIVEのトレーニングと推論を実証しただけであり、この新しいタイプのインタラクションによってモデルの能力がどのように変化するか、特に時間に敏感なタスクにおけるゼロショット性能については探求していない。

本稿はVideoLLM-Onlineと以下の点で異なる。第一に、応答を生成すべきかどうかを決定するためのより広範な基準を含む、動画-テキスト二重インタラクション形式のより一般的な記述を提供し、時間的動画グラウンディングやグラウンデッド質問応答などの新しいタスクへの適用を行っている。第二に、新しいデータセットMMDuetITとそのようなデータセットを構築する方法を導入している。第三に、新しいタスクMAGQAを提案している。最後に、様々な時間に敏感なタスクで最先端の性能とゼロショット汎化能力を持つ、より強力なモデルMMDuetを提案している。

3 The Video-Text Duet Interaction Format

第1節において、我々は「相互作用フォーマット」の概念を2つの側面（すなわち、チャットテンプレートと順番交代ルール）で定義し、一般的に使用されている全体ビデオ相互作用フォーマットの欠点についても述べた。ここで、我々のビデオ-テキスト二重奏相互作用フォーマットを再度強調し、形式化する。これは、VideoLLMsを実装する従来の方法とは全く異なるものである。

(1) チャットテンプレートについては、VideoLLM-Onlineを実装するために使用されるLIVEフレームワークに触発されつつも異なり[1]、我々はビデオストリームをユーザー/アシスタントの役割と同様に会話の参加者とみなし、入力シーケンスはこれら3つの役割間で交互に順番を取る。LLM Qwen2[37]を例にとると、モデルへの入力トークンシーケンスは以下のようになるべきである：

<im_start>system\n[system-prompt]<im_end> <im_start>stream\n<frame> $\cdots$ <frame><im_end> <im_start>user\n[user-message]<im_end> <im_start>stream\n<frame> $\cdots$ <frame><im_end> <im_start>assistant\n[assistant-message]<im_end> <im_start>stream\n<frame> $\cdots$

(2) 順番交代ルールについては、ユーザーまたはアシスタントの順番が終了すると、ビデオストリームが発言権を取り、ビデオフレームの入力を開始することができる。各フレームが消費されると、ユーザーとアシスタントの両方の役割が、いつでもビデオストリームを中断し、それぞれの順番を開始して質問や応答を生成することができる。これは完全にユーザーまたはアシスタントによって決定される。

4 MMDuet: Our Proposed VideoLLM

4.1 Model Structure

我々は、ビデオ-テキストの二重相互作用形式に従って訓練されたMMDuetを提案する。このモデルは、ビデオのどの位置でどのような応答を生成するかを自律的に決定できる。ほぼすべての既存のVideoLLMと同様に、MMDuetは3つの構成要素からなる：1) ビデオからサンプリングされたフレームを視覚的特徴にエンコードする視覚エンコーダ、2) エンコードされた視覚的特徴をLLMのテキスト埋め込み空間に整列された視覚トークンのリストに変換するプロジェクタ、3) テキストトークンと視覚トークンの両方を入力として受け取り、言語モデリングヘッドを使用して次のトークンを予測する、トランスフォーマーデコーダベースのLLM。ビデオ-テキストの二重相互作用形式では各フレームがLLM入力シーケンスに独立して追加されるため、我々はビデオレベルまたはスライディングウィンドウQformers [17, 23] の代わりに単純な線形層をプロジェクタとして使用することに注意されたい。

我々のMMDuetと既存のVideoLLMとのモデル構造における唯一の違いは、LLMの言語モデリングヘッド（LM Head）に加えて、各フレーム後に応答を開始するかどうかを決定するための情報ヘッドと関連性ヘッドという2つのヘッドを追加したことである。各ヘッドは線形層であり、形状が $h\times 2$ の重みを持つ。ここで、 $h$ は使用されるLLMの隠れ層のサイズである。各ヘッドは、各フレームの最後の視覚トークンの最終層の隠れ状態を入力として受け取り、二値分類を実行する。具体的には、1) 情報ヘッドは、現在のフレームを見ることでどれだけの新しい情報が得られるかを予測するように設計されている。モデルが新しいフレームを見ることで「相当量」の新しい情報を得られる場合（これについてはセクション 5.1でさらに議論する）、このフレームをTRUEカテゴリに分類すべきである。そうでない場合は、FALSEに分類すべきである。 2) 関連性ヘッドは、現在のフレームがユーザーのクエリに関連しているかどうかを予測するように設計されている。同様に、TRUEカテゴリは関連していることを意味し、FALSEは関連していないことを意味する。我々は、各サンプリングされたビデオフレームに対する情報ヘッドと関連性ヘッドのTRUEカテゴリの確率を、それぞれ情報スコアと関連性スコアと呼ぶ。これら2つのスコアは、モデル（すなわち、アシスタントの役割）がビデオを中断して自身のターンを開始すべきかどうかを決定するために使用される。LM Headを使用して特殊トークンを予測することでこの決定を行うVideoLLM-Online [1] と比較して、我々の2つの追加ヘッドを使用する設計には以下の利点がある：(1) 2つのスコアを組み合わせることで、特殊トークンのロジットのみに依存するのではなく、応答生成のための異なる基準を柔軟に設定できる；(2) 関連性ヘッドを使用して、時間的ビデオグラウンディングとハイライト検出タスクを正確に実行でき、MMDuetのアプリケーションシナリオを拡大できる。

4.2 Inference Procedure

推論プロセスのPythonスタイルの疑似コードをLABEL:alg:inferenceに示す。動画のサンプリングされた各フレームを処理する際、我々はまず、この時点でユーザークエリが発生しているかどうかを確認する。もしあれば、まずこのユーザーターンをモデルに入力する。次に、サンプリングされたフレームがモデルに入力され、その後、情報量スコアと関連性スコアが計算される。さらに、我々はneed_response関数を使用して、このフレームと前のフレームの情報量スコアと関連性スコアに基づいて、モデルがアシスタント応答を生成すべきかどうかを推定する。もしそうであれば、LLMのgenerate関数が応答を出力する。具体的なタスクに応じて、異なるneed_response関数を設計することができ、これは実験セクション（セクション6）で紹介される。このプロセスは、フレームまたはテキストが入力または生成されるたびにKVキャッシュを更新することで効率的に実装できる。

⬇

# Input:

# system_prompt

# video: list of frames

# fps: frames per second to sample from video

# user_turns: list of (time, text) sorted by time

# Output:

# model_turns: generated list of (time, text)

model_turns = []

v_inf_list, v_rel_list = [], []

kv_cache = model(system_prompt)

time = 0

for frame in video:

if len(user_turns) and time>=user_turns[0].time:

kv_cache = model(kv_cache, user_turns[0].text)

user_turns = user_turns[1:]

kv_cache, v_inf, v_rel = model(kv_cache, frame)

v_inf_list.append(v_inf) # informative score

v_rel_list.append(v_rel) # relevance score

if need_response(v_inf_list, v_rel_list):

kv_cache, response = model.generate(kv_cache)

model_turns.append((time, response))

time += 1 / fps

リスト1: MMDuetの推論プロセス

5 MMDuetIT: Dataset for Training MMDuet

我々は、MMDuetITを構築した。これは、MMDuetモデルを訓練し、情報量とレレバンスのスコアを計算し、ビデオの再生中に必要な時点で自律的に返答を出力することを学習させるためのデータセットである。MMDuetITは、我々のモデル訓練に有益な3種類の異なるタスクで構成されている：密な説明文生成、複数回答型の根拠付きビデオ質問応答、および時間的ビデオ位置特定である。各タスクの入力形式の例は付録に記載されている。

5.1 Dense Captioning

我々は、セグメントレベルのキャプションを持つビデオ-テキストデータセットであるShot2Story [7]を、密な説明文生成の訓練データとして使用する。具体的には、高品質で詳細なアノテーションを持つ43,000の人手によるアノテーションのサブセットを使用する。我々の目的に合わせてデータを前処理し、ビデオセグメントとキャプションのアノテーションをビデオ-テキストの二重対話形式に再フォーマットする例を図 2に示す。

Choices of insertion

我々は、対応するビデオセグメントの時間長の50%から75%の間でランダムに位置をサンプリングし、その位置にモデルの応答としてキャプションを挿入する。ここで、挿入位置にランダム性を導入することで、モデルが特定の位置でのみ応答を生成できるといったバイアスやショートカットを発展させるのを防ぐ。応答を挿入する最早と最遅の時間、すなわち、セグメント長の50%と75%の位置は、我々の予備研究でうまく機能したため、経験的に選択された。我々は、セグメントの前半のような非常に早い段階での応答の挿入を避ける。なぜなら、開始直後にこのビデオセグメントに関連する応答を生成することは不可能だからである。より包括的な理解を得るためには、さらなる観察が必要であることは合理的である。また、セグメントの最後の4分の1のような非常に遅い段階での応答の挿入も避ける。なぜなら、我々はモデルがセグメントが消えるまで待つのではなく、十分な理解を得たらすぐに応答を出力することを望むからである。これにより、ユーザーとビデオの間の対話全体のタイムリー性が向上する。特に、ユーザーがセグメントを視聴しながら、それについて語るモデルの応答の内容を知覚できる場合に効果的である。

Creating informative labels

我々は、密な説明文生成タスクにおいて情報量の多いヘッドのラベルも作成する。前段落によると、モデルはセグメントの十分な部分（この場合は50%）を視聴するまで、このビデオセグメントの包括的な理解を得ることができない。一方、キャプションがモデルの応答として生成された後は、このビデオセグメントの残りのフレームはキャプションでカバーされていない新しい情報を提供しないと仮定する。したがって、このセグメントの50%から応答の挿入点までのフレームに対して情報量の多いヘッドのラベルをTRUEに設定し、他のフレームに対してはラベルをFALSEに設定する。これを図2に示す。

長時間のビデオ入力に適応するため、COIN [27]から2〜4分の長さのビデオも選択し、MMDuetITの密な説明文生成タスクとして使用する。COINのアノテーションは、Shot2Storyと同じ方法で再フォーマットされる。

5.2 Multi-Answer Grounded Video QA

ビデオ-テキスト二重相互作用形式の重要な応用シナリオは、複数回答型根拠付きビデオ質問応答（MAGQA）である。バスケットボールの試合のライブ中継を見ていて、特定の選手の行動を追跡したい場合を考えてみよう。これはMAGQAタスクの一例である：質問は「この特定の選手はビデオの中で何をしているか？」となる。この選手が行動を起こすたびに、モデルはリアルタイムでその行動の説明（すなわち、複数の回答）を返すべきである。我々は、この新しく提案されたMAGQAタスクが、ユーザーがライブストリーミングビデオと対話する際の実世界のシナリオで広く使用できると考えている。

我々は、このタスクのトレーニングデータをGPT4o-2024-08-06 [20]を使用して構築する。ビデオのすべてのセグメントのキャプションを入力として与え、GPT4oに1つ以上のキャプションに関連する質問を生成するよう促す。各セグメントのキャプションについて、それが質問に関連している場合、GPT4oはそのキャプションから推論できる回答も生成すべきである。そうでない場合、GPT4oは「Not Mentioned.」と回答し、この回答はトレーニングデータに追加されない。我々は、セクション 5.1で説明した密キャプショニングタスクと同じ挿入方法を使用して、回答をビデオストリームに挿入し、情報量の多いヘッドラベルを構築する。質問は最初の回答の前のランダムな場所に挿入される。我々はまた、同じ挿入方法を使用して、人間が注釈付けしたShot2Storyテストセットを変換し、ランダムにサンプリングした2000の例をセクション 6.3のMAGQAベンチマークのテストセットとして使用する。したがって、このデータセットはトレーニングセットに36834の例、テストセットに2000の例を含む。我々はこれを「Shot2Story-MAGQA-39k」と名付け、その統計を表 1に示す。

Data Quality Assessment

我々は、テストセットから100の例（290の回答を含む）をサンプリングし、手動で品質評価を行った。サンプリングされた例の中で、ビデオから回答できない質問が1例、ビデオの内容と矛盾する回答が6個（2.1%）ある例が5例、質問に関連しない回答が7個（2.4%）ある例が5例あることがわかった。全体として、手動の品質評価では、テストセットのデータの95%以上が高品質であることが示され、Shot2Story-MAGQA-39kをモデルのベンチマークに使用する潜在的価値が確認された。高品質の理由は、ビデオキャプションが提供されている場合、これらのテキストキャプションに基づいて質問と回答を生成することが、GPT4oのような高度なLLMにとって非常に簡単なタスクであるためである。しかし、21の例では、ビデオに回答でカバーされていない追加情報が含まれていることも分かった。これは、「ビデオはどのようなシーンを表示しているか？」のような非常に一般的な質問があるためであり、ビデオのシーンを詳細に説明することは、ビデオデータセットに注釈を付ける上で長年の課題となっている。

5.3 Temporal Video Grounding

我々はまた、MMDuetITにDiDeMo [8]、 $\text{HiREST}_{grounding}$ [38]、およびQuerYD [19]という3つの時間的ビデオグラウンディングタスクを追加した。これらのデータは、時間的ビデオグラウンディングタスクを実行し、QAタスクにおける質問とビデオの関連性を判断するために設計された関連性ヘッドの訓練にのみ使用されることに注意されたい。クエリはまず入力シーケンスの先頭に追加される。クエリに関連していると注釈付けされたフレームについては、関連性ヘッドのラベルをTRUEに設定する。それ以外の場合はFALSEに設定する。

5.4 Dataset Statistics

MMDuetITのデータ分布を図3に示す。このデータセットには109,000の事例しか含まれておらず、[17, 15, 31]のような現代の事前学習データセットと比較すると比較的小規模である。その理由は、計算資源の制約により、我々は最先端のVideoLLMの微調整によって提案するビデオ-テキストの二重相互作用形式の実現可能性を実証する計画であるためである。我々は、使用するバックボーンモデルがすでに十分なビデオ理解能力を有していると仮定している。小規模なデータセットを使用することで、このモデルが既存の能力を大幅に忘却することなく、この新しい相互作用を効率的に採用するよう訓練することを目指している。

	num ex- amples	answers per video	words per ques./ans.	video seg. len (sec)
Train	36834	2.96	7.75/12.17	4.22
Test	2000	3.04	7.77/12.17	4.28

表1: Shot2story-MAGQA-39kのデータセット統計。

6 Experiments

Implementations

MMDuetはLLaVA-OneVision [15]で初期化される。我々はMMDuetIT上でモデルを1エポック訓練した。訓練には8台のTesla V100 GPUを搭載したノードで約1日かかり、推論は1台のTesla V100 GPU上で実行される。実装の詳細は付録に記載されている。

Baselines

MMDuetは主に時間に敏感な動画タスクに焦点を当てているため、我々は異なる表現形式で動画内の時間範囲を表現できる以下のベースラインを使用する：TimeChat [23]、VTimeLLM (7B) [10]、HawkEye [31]、VTG-LLM [6]。 MMDuetの初期化はベースラインよりも強力であるため、公平な比較のために、相互作用形式のみが異なる対照実験も実施する。具体的には、同じ初期化モデル（LLaVA-OneVision）、訓練データ（MMDuetIT）、訓練スケジュールを使用するが、データをTimeChatとVTimeLLMがそれぞれ使用する相互作用形式と動画セグメント表現形式に再フォーマットして、2つのベースラインモデルを訓練する。これらのモデルをLLaVA-OV-TCおよびLLaVA-OV-VTと呼ぶ。

6.1 Highlight Detection and Temporal Video Grounding

我々は、MMDuetの関連性ヘッドの性能を評価するために、ハイライト検出と時間的ビデオグラウンディングを使用する。ベースラインモデルは、QVHighlights [14]の各クリップの関連性スコアを表す浮動小数点数のリストを生成し、Charades-STAでは関連するビデオスパンの開始時間と終了時間を出力する必要がある。しかし、LLaVA-OV-TCとLLaVA-OV-VTについては、異なるプロンプトを入力として使用したにもかかわらず、[23]のようにスコアの連続を出力するようモデルに指示することができなかった。そのため、我々はCharades-STAの方法に従い、モデルに関連するスパンを出力するよう指示し、このスパン内のクリップにスコア1を、それ以外に0を割り当てた。MMDuetは、QVHighlightsでは $[0,1]$ に最小-最大正規化された関連性スコアを使用し、Charades-STAではこのフレームが関連しているかどうかを分類し、フレームレベルのIoUを計算する。

関連性ヘッドは各フレームの直後に関連性スコアを提供するため、その予測は後続のビデオフレームからのコンテキストを活用できない。この制限を緩和するために、我々は関連性スコアの連続を平滑化する。具体的には、各フレームの平滑化された関連性スコアを、元のスコア、前の $w$ フレームの関連性スコア、および後の $w$ フレームの関連性スコアの平均値として設定する。ここで、 $w$ はウィンドウサイズである。我々はQVHighlightsでは $w=2$ 、Charades-STAでは $w=6$ に設定した。結果は表 2に示されている。ベースラインと比較して、MMDuetはQVHighlightsでの性能が大幅に向上していることが観察される。これは、従来のVideoLLMがテキストベースの形式で長い関連性スコアの連続を生成したり、テキストベースの応答で複数の関連するビデオセグメントを識別したりすることに苦戦している一方で、MMDuetの各フレームに直接関連性スコアを割り当てるアプローチがこの問題を回避していることを示している。

Parameter sensitivity of $w$

表 2の結果では $w$ が経験的に設定されているが、図 4では、かなり広範囲の $w$ において、MMDuetが一貫してすべてのベースラインモデルを上回る性能を示していることを示している。これは、MMDuetがウィンドウサイズに関してこれらのタスクに対して堅牢であることを確認している。

6.2 Dense Video Captioning

我々は、YouCook2 [41]で密な動画キャプション生成の性能をテストする。これは、数分間の料理動画において約8つのステップのキャプション、開始点、終了点を出力することを要求する挑戦的なタスクである。ベースラインモデルは、各ステップの開始時間、終了時間、キャプションをテキストベースの形式で出力する。 MMDuetの場合、このタスクはモデルが動画から重要な行動を継続的に識別し、定期的に出力することを要求するため、我々は各フレーム後にモデルの応答を出力すべきかどうかを決定するヒューリスティックな方法を採用する（セクション 4.2のneed_response関数）。動画の再生に伴い、各フレームの情報量スコアを合計する。合計が閾値 $s$ （我々は $s=2$ に設定）に達すると、モデルはそのフレームの直後に応答を生成し、それをそのステップのキャプションとする。その後、合計を $0$ にリセットして新しい合計ラウンドを開始する。

しかし、MMDuetはこの動画-テキストの二重奏インタラクション形式だけでは、ステップがいつ始まりいつ終わるかを直接予測することはできない。モデルは、十分な後続のコンテンツを観察せずにフレームがステップの開始であるかどうかを判断することができないためである。このタスクで要求される各ステップの開始時間と終了時間を得るために、我々は簡単な回避策を採用する：前の応答の時間と現在の応答の時間を、ステップの開始時間と終了時間として使用する。隣接する2つのステップが同じキャプションを持つ場合、それらを1つのステップに統合する。

LLMが以前に生成されたコンテンツを繰り返す傾向があることは長年の問題であり [35]、我々はこの問題が密な動画キャプション生成において特に深刻であることを発見した。これは、VideoLLMが動画コンテンツではなくテキストのショートカットに依存してキャプションを生成している可能性を示している。我々は繰り返しペナルティ [12]などの一般的な解決策を試みたが、それでも最適ではない。 MMDuetからの応答は複数のターンにわたって分離されているため、単に以前に生成されたターンをKVキャッシュに注意キーと値を追加しないことでコンテキストから削除する（「rm. prev. resp.」と略記）だけで、この問題が軽減され、性能が大幅に向上することがわかった。

表 3に示すように、 MMDuetはF1メトリックで大きな改善を示していないが、これは応答に基づいて開始時間と終了時間を導出するために我々が使用する単純な解決策によるものと思われる。それでも、MMDuetのCIDErとCODA_cメトリック（不正確に予測された時間範囲はこれらのメトリックに悪影響を与える可能性がある）は依然としてすべてのベースラインよりも高く、MMDuetがテキストの質の面でベースラインを上回っていることを示している。これは、セクション 1で議論した情報検索の促進によるものかもしれない。

Parameter sensitivity of $s$

我々は閾値 $s$ を1から3まで変化させた場合の性能を図 5に報告する。結果は、幅広い $s$ の範囲にわたって性能がかなり堅牢であることを示しており、我々は表 3で単純に $s=2$ を選択している。このようなゼロショット設定では特に、様々な下流タスクに適合するように異なる $s$ を使用できることに注意されたい。

Model	Real- Time?	In-Span Score LLaMA/GPT	# turns (w/o. / w/. dedup)	time per example
Baselines
LLaVA-OV-TC	\usym2718	2.92/2.79	3.4/1.9	0.76
LLaVA-OV-VT	\usym2718	2.94/2.78	5.4/2.2	1.00
MMDuet (Ours)
$t=0.6$	\usym2714	2.46/2.33	13.7/4.0	1.80
$t=0.5$	\usym2714	2.77/2.61	18.4/5.3	2.23
$t=0.4$	\usym2714	3.00/2.81	23.0/6.6	2.59
$t=0.3$	\usym2714	3.13/2.93	27.0/7.6	2.73

表4: rm. ass. turns法を使用したShot2Story-MAGQA-39kのテストセットでの結果。「例あたりの時間」列では、「LLaVA-OV-VT」が使用した時間を1とし、他の行の時間は「LLaVA-OV-VT」が使用した時間の倍数として設定されている。

6.3 Multi-Answer Grounded Video QA

広く使用されているストリーミングビデオ理解シナリオに密接に合わせるため、我々はMAGQAを提案する。これは、モデルがビデオの複数の必要な位置で回答を生成することを要求する。従来のビデオQAでは1つの質問に1つの回答のみが対応するのとは異なり、MAGQAでは1つの質問に複数のターンの回答が対応し、これらのターンは異なるビデオセグメントから導出される。したがって、このタスクは正確かつタイムリーな応答を要求する。

我々は「インスパンスコア」指標を導入する。これは予測された回答のテキスト内容と応答時間の両方を考慮し、このタスクにおけるモデルのパフォーマンスを評価する。モデルの予測が $P$ 個の回答を持ち、各回答が予測時間 $time_{p}$ と予測テキスト $pred_{p}$ 、 $p=1,2,\dots,P$ を持つとする。正解は $Q$ 個の回答を持ち、各回答が正解開始時間 $start_{q}$ 、正解終了時間 $end_{q}$ 、および正解テキスト $gold_{q}$ 、 $q=1,2,\dots,Q$ を持つとする。まず、LLMを使用して予測 $pred_{p}$ と正解 $gold_{q}$ の各回答間の関連性スコアを1から5で計算する： $S=\{s_{p,q}\}\in\mathcal{R}^{P\times Q}$ 。各正解回答 $q$ に対して、正解の時間範囲内に予測時間がある予測回答を選択する： $\mathcal{P}_{q}=\{p\mid time_{p}\in[start_{q},end_{q}]\}$ 。そして、正解回答と選択された予測回答間の平均スコアをこの正解回答のスコアとして使用する： $score_{q}=\frac{1}{|\mathcal{P}_{q}|}\sum_{p\in\mathcal{P}_{q}}s_{p,q}\quad% \text{if }|\mathcal{P}_{q}|>0$ 。 $|\mathcal{P}_{q}|=0$ （この正解範囲に予測回答が入らない）の場合、 $score_{q}$ は $1$ に設定される。最後に、すべての正解回答の平均スコアをこの例の最終的なインスパンスコアとして計算する： $in\_span\_score=\frac{1}{|Q|}\sum_{q=1}^{|Q|}score_{q}$ 。 GPT-4o-2024-08-06[20]をインスパンスコアのスコアラーLLMとして使用する。OpenAI APIの潜在的な変更による再現性の問題を防ぐため、LLaMA 3.1 70B Instruct[2]を使用して得られたインスパンスコアも報告する。

MAGQAは回答が情報量が多く、かつ質問に関連していることを要求するため、我々はneed_responseを以下のように設定する：フレームの情報量スコアと関連性スコアの合計が閾値 $t$ より大きい場合、モデルはこのフレームの直後に応答を生成する必要がある。我々はまた、セクション 6.2で紹介した密ビデオキャプショニングタスクの「rm. prev. resp.」方法も使用する。ベースラインモデルはビデオの特定の位置で応答を生成する能力がないため、我々は密ビデオキャプショニングと同じ出力形式を採用する。すなわち、トレーニングとテストの両方で、ビデオ全体を視聴した後に各ターンの開始時間、終了時間、および予測テキストを出力し、開始時間と終了時間の平均を応答時間として使用する。ベースラインモデルが対応する時間なしで直接回答を返す場合、我々はこの予測回答をすべての正解回答とペアにする。これはMMDuetの要件よりも簡略化されたものであることに注意されたい。MAGQAタスクはストリーミングビデオ理解アプリケーションシナリオをシミュレートしており、モデルが質問に関連するセグメントを再生するとすぐに応答することを要求する。これにより、ユーザーはタイムリーに応答を見ることができ、ビデオ全体が終了するまで待って返答を生成する必要がない。

結果は表 4に示されている。我々は異なる $t$ の結果を提供する。これは推論時間とパフォーマンスのトレードオフを表している： $t$ が $0.6$ から $0.3$ に減少するにつれて、MMDuetのリアルタイム応答のパフォーマンスは継続的に向上し、ビデオ全体を視聴した後に非リアルタイムの応答を提供するという簡略化された設定のベースラインさえも上回る。しかし、これは約2.5 $\times$ の推論時間で多くの重複した応答を生成するコストで達成される。

Model	YouCook2
MMDuet	2.9/8.8/21.7
w/o rand. resp. pos.	2.1/7.3/19.0
w/o multi informative	2.9/8.0/16.5

表5: トレーニング方法に関するアブレーション研究。

6.4 Ablation Studies

我々は、YouCook2の密な動画キャプション生成においてアブレーション実験を行い、データ構築における情報提供ヘッドの効果的な訓練に関する2つの経験的かつ重要な発見を評価する：対応する動画セグメントの50%から75%の位置にランダムに応答を挿入すること（ランダム応答位置）、およびセグメントの50%から応答時間までのすべてのフレームに対して情報提供ヘッドのラベルをTRUEに設定すること（複数情報提供）。「ランダム応答位置」が無効化されている場合、応答は常に対応するセグメントの最後に挿入される。「複数情報提供」が無効化されている場合、応答の直前のフレームの情報提供ラベルのみがTRUEに設定される。表5に示されているように、いずれの方法を無効化してもMMDuetの性能に悪影響を及ぼすことが分かる。これは、応答時間と情報提供ラベルを慎重に扱うことの重要性を示している。

7 Limitations and Future Works

動画とテキストの二重奏的相互作用形式における初期的かつ先駆的な取り組みとして、本稿では今後の研究で取り組むべき多くの改善の余地があることを認識している： (1) 推論時にいくつかのハイパーパラメータ（例えば、need_response基準）が必要である。パラメータ感度テストでは、この基準が異なる閾値にわたってかなり堅牢であることが示されているが、MMDuetを新しいタスクに適用する際にはまだ未知の部分が存在する。 (2) 現在のフレームにリアルタイムで応答を生成する際、特に予測不可能な将来のフレームを持つライブストリーミング動画の場合、後続のフレームからの情報が組み込まれていない。これは、アクションの開始を判断するなど、一部のシナリオでは極めて重要となり得る。 (3) 推論速度が遅い。動画入力の並列性を向上させ、重複した応答の生成を避けるために、より優れた推論プロセスが必要である。 (4) 実世界のアプリケーションシナリオにより適合させるために、より長時間のライブストリーミング動画を含むリアルタイム応答データセットの収集が必要である。

8 Conclusion

本稿では、ビデオテキスト二重奏相互作用形式を形式化した。これは、時間に敏感なタスクのパフォーマンス、より多くのアプリケーションシナリオ、長時間ビデオのリアルタイム情報検索という点で、既存の相互作用形式の欠点に対処するものである。我々は、ビデオテキスト二重奏相互作用形式に従うモデルを訓練するためのデータセットMMDuetITを収集した。MMDuetITに基づいて、我々はMMDuetモデルを訓練した。このモデルは、様々な時間に敏感なタスクで大幅な改善を示し、リアルタイムで応答を生成することができる。我々は、このような改善が、強力で有用なビデオ理解システムを構築する上で実質的な一歩となると考えている。

References

Chen et al. [2024] Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, and Mike Zheng Shou. Videollm-online: Online video large language model for streaming video. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 18407–18418, 2024.
Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Rozière, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Cantón Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab A. AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriele Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Grégoire Mialon, Guanglong Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel M. Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Laurens Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Ju-Qing Jia, Kalyan Vasuden Alwala, K. Upasani, Kate Plawiak, Keqian Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline C. Muzzi, Mahesh Babu Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melissa Hall Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri S. Chatterji, Olivier Duchenne, Onur cCelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasić, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Chandra Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yiqian Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zhengxu Yan, Zhengxing Chen, Zoe Papakipos, Aaditya K. Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adi Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Ben Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Shang-Wen Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzm’an, Frank J. Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory G. Sizov, Guangyi Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Han Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kaixing(Kai) Wu, U KamHou, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, A Lavender, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollár, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sung-Bae Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Andrei Poenaru, Vlad T. Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xia Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, and Zhiwei Zhao. The llama 3 herd of models. ArXiv, abs/2407.21783, 2024.
Gao et al. [2017] J. Gao, Chen Sun, Zhenheng Yang, and Ramakant Nevatia. Tall: Temporal activity localization via language query. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5277–5285, 2017.
Grauman et al. [2021] Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis, Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu, Xingyu Liu, Miguel Martin, Tushar Nagarajan, Ilija Radosavovic, Santhosh K. Ramakrishnan, Fiona Ryan, Jayant Sharma, Michael Wray, Mengmeng Xu, Eric Z. Xu, Chen Zhao, Siddhant Bansal, Dhruv Batra, Vincent Cartillier, Sean Crane, Tien Do, Morrie Doulaty, Akshay Erapalli, Christoph Feichtenhofer, Adriano Fragomeni, Qichen Fu, Christian Fuegen, Abrham Kahsay Gebreselasie, Cristina González, James M. Hillis, Xuhua Huang, Yifei Huang, Wenqi Jia, Weslie Khoo, Jáchym Kolár, Satwik Kottur, Anurag Kumar, Federico Landini, Chao Li, Yanghao Li, Zhenqiang Li, Karttikeya Mangalam, Raghava Modhugu, Jonathan Munro, Tullie Murrell, Takumi Nishiyasu, Will Price, Paola Ruiz Puentes, Merey Ramazanova, Leda Sari, Kiran K. Somasundaram, Audrey Southerland, Yusuke Sugano, Ruijie Tao, Minh Vo, Yuchen Wang, Xindi Wu, Takuma Yagi, Yunyi Zhu, Pablo Arbeláez, David J. Crandall, Dima Damen, Giovanni Maria Farinella, Bernard Ghanem, Vamsi Krishna Ithapu, C. V. Jawahar, Hanbyul Joo, Kris Kitani, Haizhou Li, Richard A. Newcombe, Aude Oliva, Hyun Soo Park, James M. Rehg, Yoichi Sato, Jianbo Shi, Mike Zheng Shou, Antonio Torralba, Lorenzo Torresani, Mingfei Yan, and Jitendra Malik. Ego4d: Around the world in 3,000 hours of egocentric video. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 18973–18990, 2021.
Gu et al. [2022] Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Niu Minzhe, Xiaodan Liang, Lewei Yao, Runhui Huang, Wei Zhang, Xin Jiang, Chunjing XU, and Hang Xu. Wukong: A 100 million large-scale chinese cross-modal pre-training benchmark. In Advances in Neural Information Processing Systems, pages 26418–26431. Curran Associates, Inc., 2022.
Guo et al. [2024] Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Xi Chen, and Bo Zhao. Vtg-llm: Integrating timestamp knowledge into video llms for enhanced video temporal grounding. ArXiv, abs/2405.13382, 2024.
Han et al. [2023] Mingfei Han, Linjie Yang, Xiaojun Chang, and Heng Wang. Shot2story20k: A new benchmark for comprehensive understanding of multi-shot videos. ArXiv, abs/2312.10300, 2023.
Hendricks et al. [2017] Lisa Anne Hendricks, Oliver Wang, Eli Shechtman, Josef Sivic, Trevor Darrell, and Bryan C. Russell. Localizing moments in video with natural language. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5804–5813, 2017.
Hu et al. [2022] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. LoRA: Low-rank adaptation of large language models. In International Conference on Learning Representations, 2022.
Huang et al. [2023] Bin Huang, Xin Wang, Hong Chen, Zihan Song, and Wenwu Zhu. Vtimellm: Empower llm to grasp video moments. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 14271–14280, 2023.
Jiang et al. [2023] Albert Qiaochu Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de Las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, L’elio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, and William El Sayed. Mistral 7b. ArXiv, abs/2310.06825, 2023.
Keskar et al. [2019] Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher. Ctrl: A conditional transformer language model for controllable generation. ArXiv, abs/1909.05858, 2019.
Krishna et al. [2017] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles. Dense-captioning events in videos. 2017 IEEE International Conference on Computer Vision (ICCV), pages 706–715, 2017.
Lei et al. [2021] Jie Lei, Tamara L. Berg, and Mohit Bansal. Qvhighlights: Detecting moments and highlights in videos via natural language queries. ArXiv, abs/2107.09609, 2021.
Li et al. [2024a] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. Llava-onevision: Easy visual task transfer. ArXiv, abs/2408.03326, 2024a.
Li et al. [2024b] Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, and Chunyuan Li. Llava-next-interleave: Tackling multi-image, video, and 3d in large multimodal models. ArXiv, abs/2407.07895, 2024b.
Li et al. [2023] Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, and Yu Qiao. Mvbench: A comprehensive multi-modal video understanding benchmark. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 22195–22206, 2023.
Liu et al. [2024] Ruyang Liu, Chen Li, Haoran Tang, Yixiao Ge, Ying Shan, and Ge Li. St-llm: Large language models are effective temporal learners. ArXiv, abs/2404.00308, 2024.
Oncescu et al. [2021] Andreea-Maria Oncescu, João F. Henriques, Yang Liu, Andrew Zisserman, and Samuel Albanie. Queryd: A video dataset with high-quality text and audio narrations. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2265–2269, 2021.
OpenAI [2024] OpenAI. Hello gpt-4o. https://openai.com/index/hello-gpt-4o/, 2024. Accessed: 2024-11-13.
Oquab et al. [2023] Maxime Oquab, Timoth’ee Darcet, Théo Moutakanni, Huy Q. Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russ Howes, Po-Yao (Bernie) Huang, Shang-Wen Li, Ishan Misra, Michael G. Rabbat, Vasu Sharma, Gabriel Synnaeve, Huijiao Xu, Hervé Jégou, Julien Mairal, Patrick Labatut, Armand Joulin, and Piotr Bojanowski. Dinov2: Learning robust visual features without supervision. ArXiv, abs/2304.07193, 2023.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, 2021.
Ren et al. [2023] Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, and Lu Hou. Timechat: A time-sensitive multimodal large language model for long video understanding. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 14313–14323, 2023.
Schwartz et al. [2024] Eli Schwartz, Leshem Choshen, Joseph Shtok, Sivan Doveh, Leonid Karlinsky, and Assaf Arbelle. Numerologic: Number encoding for enhanced llms’ numerical reasoning. ArXiv, abs/2404.00459, 2024.
Shao et al. [2024] Zhihong Shao, Damai Dai, Daya Guo, Bo Liu (Benjamin Liu), Zihan Wang, and Huajian Xin. Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model. ArXiv, abs/2405.04434, 2024.
Sun et al. [2023] Quan Sun, Yuxin Fang, Ledell Yu Wu, Xinlong Wang, and Yue Cao. Eva-clip: Improved training techniques for clip at scale. ArXiv, abs/2303.15389, 2023.
Tang et al. [2019] Yansong Tang, Dajun Ding, Yongming Rao, Yu Zheng, Danyang Zhang, Lili Zhao, Jiwen Lu, and Jie Zhou. Coin: A large-scale dataset for comprehensive instructional video analysis. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
Touvron et al. [2023] Hugo Touvron, Louis Martin, Kevin R. Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Daniel M. Bikel, Lukas Blecher, Cristian Cantón Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony S. Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel M. Kloumann, A. V. Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, R. Subramanian, Xia Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zhengxu Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. Llama 2: Open foundation and fine-tuned chat models. ArXiv, abs/2307.09288, 2023.
Wang et al. [2024a] Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, and Lifu Huang. Grounded-videollm: Sharpening fine-grained temporal grounding in video large language models. 2024a.
Wang et al. [2024b] Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Guo Chen, Baoqi Pei, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, and Limin Wang. Internvideo2: Scaling video foundation models for multimodal video understanding. ArXiv, abs/2403.15377, 2024b.
Wang et al. [2024c] Yueqian Wang, Xiaojun Meng, Jianxin Liang, Yuxuan Wang, Qun Liu, and Dongyan Zhao. Hawkeye: Training video-text llms for grounding text in videos. ArXiv, abs/2403.10228, 2024c.
Wang et al. [2024d] Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao, and Zilong Zheng. Efficient temporal extrapolation of multimodal large language models with temporal grounding bridge. 2024d.
Wang et al. [2024e] Yuxuan Wang, Cihang Xie, Yang Liu, and Zilong Zheng. Videollamb: Long-context video understanding with recurrent memory bridges. ArXiv, abs/2409.01071, 2024e.
Xiao et al. [2023] Junbin Xiao, Angela Yao, Yicong Li, and Tat-Seng Chua. Can i trust your answer? visually grounded video question answering. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 13204–13214, 2023.
Xu et al. [2022] Jin Xu, Xiaojiang Liu, Jianhao Yan, Deng Cai, Huayang Li, and Jian Li. Learning to break the loop: Analyzing and mitigating repetitions for neural text generation. ArXiv, abs/2206.02369, 2022.
Xu et al. [2023] Zenan Xu, Xiaojun Meng, Yasheng Wang, Qinliang Su, Zexuan Qiu, Xin Jiang, and Qun Liu. Learning summary-worthy visual representation for abstractive summarization in video. In Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, IJCAI-23, pages 5242–5250. International Joint Conferences on Artificial Intelligence Organization, 2023. Main Track.
Yang et al. [2024] An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Ke-Yang Chen, Kexin Yang, Mei Li, Min Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yunyang Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, and Zhi-Wei Fan. Qwen2 technical report. ArXiv, abs/2407.10671, 2024.
Zala et al. [2023] Abhaysinh Zala, Jaemin Cho, Satwik Kottur, Xilun Chen, Barlas Ouguz, Yasher Mehdad, and Mohit Bansal. Hierarchical video-moment retrieval and step-captioning. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 23056–23065, 2023.
Zhai et al. [2023] Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. Sigmoid loss for language image pre-training. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), pages 11941–11952, 2023.
Zhang et al. [2024] Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, and Chunyuan Li. Video instruction tuning with synthetic data. 2024.
Zhou et al. [2017] Luowei Zhou, Chenliang Xu, and Jason J. Corso. Towards automatic learning of procedures from web instructional videos. In AAAI Conference on Artificial Intelligence, 2017.

Appendix A Details of Training MMDuet

A.1 Training Hyperparameters.

LLaVA-OneVisionはビジョンエンコーダーとしてSigLIP-Large [39]を使用し、画像を $384\times 384$ から $24\times 24=576$ トークンに変換する。 LLaVA-OneVisionの公式設定 [15]では、動画をエンコードする際、各フレームに対応する視覚トークンはサイズ2のプーリング操作を用いて空間的に $12\times 12=144$ トークンにダウンサンプリングされる。しかし、この数のトークンは長い動画の学習と推論時にも多すぎる。この問題に対処するため、我々はさらにプーリングサイズを4に変更し、フレームあたり $7\times 7=49$ トークンとした。

学習プロセスにおいて、各動画からサンプリングされる最大フレーム数を120に設定した。これは我々のGPUのメモリによって制約されている。サンプリングフレームレートは、大多数（ $\textgreater$ 90%）の動画において、動画の長さ（秒単位） $\div$ サンプリングされたフレーム毎秒（fps） $\leq 120$ となるように、異なる動画ソースに対して異なる数値に設定した。長すぎる動画については、最初の120フレーム（および最初の120フレーム内に挿入された会話ターン）のみを保持し、それ以降の内容は破棄した。具体的には、サンプリングされたフレーム毎秒（fps）は以下のように設定した：Shot2Story [7]とDiDeMo [8]の動画に対しては $0.5$ 、COIN [27]とQueryD [19]に対しては $\text{HiREST}_{grounding}$ 、そして [38]に対しては0.33とした。

プロジェクター、関連性ヘッド、情報性ヘッド、およびLLMのLoRA [9]重み（すべての注意proj.層とFFN層に追加）が学習され、モデルの他のパラメータは凍結された。その他の学習ハイパーパラメータは表 6に記載されている。

A.2 Inference Settings

異なるソースからの動画は、推論時に異なるfpsでサンプリングされる。具体的には、各動画からサンプリングされる最大フレーム数を400に設定し、Shot2Story [7]とCharades-STA [3]からの動画に対してはfpsを2に、QVHighlights [14]からの動画に対しては1に、YouCook2 [41]からの動画に対しては0.5に設定している。YouCook2の一部の動画で $400\text{(frames)}\div 0.5\text{(fps)}=800$ 秒よりも長いものについては、動画の後半部分の情報が切り捨てられないよう、均一に $400$ フレームをサンプリングしている。この推論設定は、MMDuet、LLaVA-OV-TC、およびLLaVA-OV-VT全てで一貫して使用されている。

Hyper-parameter	value
batch_size	1
gradient_acc_steps	8
learning_rate	2e-5
warmup_ratio	0.05
lora_r	16
lora_alpha	32
attn_implementation	sdpa

表6: MMDuetの訓練に使用されたハイパーパラメータ。

Appendix B Example Inputs for Each Task in MMDuetIT

各タスクのトレーニングと推論のための入力例を表 7に示す。密な動画キャプション生成のユーザー入力は、以下の文章のいずれかから選択される：

動画をリアルタイムで簡潔に説明してください。

私の見解を短く説明してください。

見えているものを簡単に説明してください。

観察したことを簡潔な文章で継続的に答えてください。

簡潔なリアルタイムナレーションを行ってください。

アシスタント、現在の動画の内容を知っていますか？簡潔に答えてください。

シーンを簡単に解釈してください。

何について教えてくれますか？簡潔にお願いします。

目の前に表示されているものを簡単な文章で説明してください。

今、どのような行動が行われていますか？短く答えてください。

時間的動画位置特定のユーザー入力は、以下の文章のいずれかから選択される（ここで「%s」は位置を特定するキャプションを表す）：

%s 動画のどのセグメントが「%s」というトピックに関連していますか？

動画のどのタイムスタンプで「%s」に関する情報を見つけることができますか？

「%s」に関連する動画のセクションをハイライトできますか？

動画のどの瞬間が「%s」について詳しく議論していますか？

「%s」に言及している部分を特定してください。

動画のどこで「%s」が実演または説明されていますか？

「%s」の概念に関連する部分はどこですか？

動画のどのクリップが「%s」というクエリに関連していますか？

「%s」をカバーしている動画セグメントを指摘できますか？

動画内のトピック「%s」に関する重要なタイムスタンプは何か？

Dense Video Captioning

<im_start>system A multimodal AI assistant is helping users with some activities. Below is their conversation, interleaved with the list of video frames received by the assistant. <im_end> <im_start>user (A Dense Video Captioning Query)<im_end> <im_start>stream <frame><frame><frame> …<im_end> <im_start>assistant A person pulls a knife from a black bag.<im_end> <im_start>stream <frame><frame><frame> …<im_end> <im_start>assistant A man in a hat and red clothes speaks with a dagger, and a tree behind him.<im_end> <im_start>stream <frame><frame><frame> …<im_end> …(More stream and assistant turns)

MAGQA

<im_start>system A multimodal AI assistant is helping users with some activities. Below is their conversation, interleaved with the list of video frames received by the assistant. <im_end> <im_start>stream <frame><frame><frame> …<im_end> <im_start>user What happens during the basketball game?<im_end> <im_start>stream <frame><frame><frame> …<im_end> <im_start>assistant Several players in white jerseys are celebrating by high-fiving each other.<im_end> <im_start>stream <frame><frame><frame> …<im_end> <im_start>assistant A player in a white jersey makes a successful shot.<im_end>

	QVHighlights	Charades-STA
	mAP/HIT@1	[email protected]/0.7
TimeChat	14.5/23.9	32.2/13.4
VTimeLLM	-	31.2/11.4
HawkEye	-	31.4/14.5
VTG-LLM	16.5/33.5	33.8/15.7
LLaVA-OV-TC	17.6/32.9	33.1/12.4
LLaVA-OV-VT	19.0/40.0	36.5/12.3
MMDuet (Ours)	31.3/49.6	42.4/18.0

	YouCook2
	SODAc/CIDEr/F1
TimeChat	1.2/3.4/12.6
VTG-LLM	1.5/5.0/17.5
LLaVA-OV-TC	1.9/3.3/21.8
LLaVA-OV-VT	2.5/6.7/14.0
MMDuet (Ours)	2.4/5.7/19.2
+ rm. prev. resp.	2.9/8.8/21.7