JaLMS
最新の AI 研究を日本語で解読

StreamChat: Chatting with Streaming Video

Jihao Liu1,2,∗  Zhiding Yu2  Shiyi Lan2  Shihao Wang2,5,∗  Rongyao Fang1
 Jan Kautz2  Hongsheng Li1,3,4   Jose M. Alvarez2
1CUHK MMLab  2NVIDIA
3Shanghai AI Laboratory  4CPII under InnoHK
5The Hong Kong Polytechnic University
Abstract

本稿では、ストリーミング動画コンテンツとの大規模マルチモーダルモデル(LMM)のインタラクション能力を向上させる新しいアプローチ、StreamChatを提案する。ストリーミングインタラクションシナリオにおいて、既存の手法は質問が提起された時点で利用可能な視覚情報のみに依存しており、その結果、モデルがストリーミング動画のその後の変化を認識できないため、大幅な遅延が生じる。StreamChatは、各デコーディングステップで視覚コンテキストを革新的に更新することでこの制限に対処し、デコーディングプロセス全体を通じてモデルが最新の動画コンテンツを利用できるようにする。さらに我々は、動的なストリーミング入力を処理しつつ、ストリーミングインタラクションの推論効率を維持するための柔軟かつ効率的なクロスアテンションベースのアーキテクチャを導入する。 加えて、我々はストリーミングインタラクションモデルのトレーニングを促進するための新しい密な指示データセットを構築し、視覚トークンとテキストトークンの相対的な時間情報をエンコードする並列3D-RoPEメカニズムで補完する。 実験結果は、StreamChatが確立された画像および動画ベンチマークで競争力のあるパフォーマンスを達成し、最先端の動画LMMと比較してストリーミングインタラクションシナリオで優れた能力を示すことを実証している。 我々のプロジェクトページはStreamChatにある。

1 Introduction

近年の大規模言語モデル(LLM)[21, 39, 35, 4, 48, 12]および大規模マルチモーダルモデル(LMM)[50, 24, 10, 46]の急速な発展により、視覚的指示への追従[30, 28, 29, 31]や長時間ビデオの理解[67, 58]を含む数多くのアプリケーションシナリオが開拓された。特に、GPT-4o[37]やGemini[44]などの最先端モデルは、ストリーミングビデオとの対話において顕著な能力を示し、この分野で大きな注目を集めている。最近のオープンアプローチ[7, 65, 53, 56]がストリーミングビデオ処理の向上を目指して登場しているが、対話の流暢さと知覚能力においてはまだ不十分である。

ストリーミングビデオと効果的に対話するために、LMMは各フレームの視覚的内容を正確に識別するだけでなく、ストリーミングビデオの動的な変化を追跡し、最新の視覚情報を活用して質問に答える必要がある。これは1に示されている通りである。 LMMのビデオ理解において顕著な進歩があったにもかかわらず[45, 68, 64, 11, 57]、既存のモデルは動的な変化を捉える重要な必要性を見落としがちであり、対話体験に悪影響を及ぼしている。 具体的には、現在の手法は通常、質問が行われた時点までのビデオ情報にのみ依存している。しかし、デコーディングプロセス中にストリーミングコンテンツが大きく変化する可能性があり、モデルはこれらの更新に気づかないままである。例えば、時刻t𝑡titalic_tで質問が行われ、モデルが質問に答えるのにtsuperscript𝑡t^{\prime}italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT秒かかると仮定する。既存の手法では、質問に答えるために00からt𝑡titalic_tまでの間のビデオコンテンツのみを利用し、t𝑡titalic_tからt+t𝑡superscript𝑡t+t^{\prime}italic_t + italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTの間に発生する変化に気づかないままである。 この遅延は、特に高度に動的なビデオ環境や質問への回答が長い場合に有害となり、最適とは言えないユーザー体験をもたらす。我々は2(上部)でこの問題を示している。

Refer to caption
図2: 既存モデルとのデコーディングプロセスにおけるコンテキストの比較。各テキストトークンに対して、黒と青の矢印はそれぞれ利用される視覚的コンテキストの開始と終了を示している。既存モデル(上部)がデコード時に固定の視覚的コンテキストを使用するのに対し、StreamChat(下部)はビデオとテキストのストリームを時間的に整列させ、ストリーミングビデオに基づいて視覚的コンテキストを動的に更新する。

これらの制限に対処するため、我々はStreamChatを提案する。これは、LLMがストリーミングビデオコンテンツと動的に対話することを可能にする新しいアプローチである。その核心的なアイデアは、各デコーディングステップで最新のビデオ情報をLLMに提供することであり、これによりLLMはビデオの動的な特性をより良く捉え、それに応じて応答を調整することができる。これは2(下部)に示されている。 機構的には、StreamChatはストリーミングビデオデータとの対話におけるモデルの能力を向上させ、1に示されているように、より時間的に整合性のある応答を確保する。 ストリーミングビデオの動的な視覚入力を効果的に処理するために、我々はクロスアテンション機構[49, 3, 12]に基づく柔軟かつ効率的なアーキテクチャを設計し、StreamChatにおいてLLMと視覚入力を橋渡しする。このクロスアテンション設計により、ストリーミングシナリオにおける可変長入力の処理が容易になり、多数の視覚トークンを扱う際にはより効率的である。

ストリーミング対話モデルの訓練を促進するために、我々はStreamChatを訓練するための密な指示データセットを導入する。既存のビデオ指示チューニングデータセット[68, 25, 43, 22, 17]は主にオフラインのビデオ理解、すなわち、モデルが質問に答える前に完全なビデオを認識できる状況に焦点を当てているが、これは応答プロセス中にビデオコンテンツが動的に変化するストリーミング対話シナリオとは異なる。この差を埋めるために、我々は既存の密なキャプションデータセットに基づいて新しい密な指示データセットを作成する。一つの密な指示データは、複数の(時間間隔、指示、回答)の三つ組から構成され、指示-回答ペアの各単語にはヒューリスティックな方法でタイムスタンプが付与されている。訓練中、我々はアテンションマスクを使用して、各テキストトークンがそれに対応するタイムスタンプ以前のビデオ情報にのみ注目できるようにする。 この方法により、訓練プロセス全体を通じてストリーミング対話の条件を効果的にシミュレートすることができる。

重要なことに、我々は各トークンの絶対的なタイムスタンプを直接モデルに入力することはしない。これらのタイムスタンプは推論時には利用できないためである。代わりに、我々は並列3D-RoPEメカニズムを提案し、これにより各トークンがビデオ内での相対的な時間位置を認識できるようにする。我々はRoPE [42] において、時間、高さ、幅をそれぞれ表現する3つの要素を使用する。既存のアプローチがビデオとテキストを交互に配置するのとは異なり [42, 50]、我々の手法では、同じタイムスタンプの視覚トークンとテキストトークンがRoPEにおいて同じ時間的文脈を共有するように並列に配置し、ストリーミング対話中の連続性を向上させている。

広範な実験を通じて、我々はStreamChatが確立された画像および動画ベンチマークで競争力のある性能を達成するだけでなく、ストリーミング対話シナリオにおける能力を大幅に向上させることを実証する。具体的には、我々はストリーミング対話シナリオにおけるLMMを評価するためのベンチマークを作成した。我々のStreamChat-7Bが最先端のLLaVA-Video-72Bモデルを凌駕することを実証する。

2 Methods

大規模マルチモーダルモデル(LMM)の最近の進歩[45, 68, 64, 11, 57]により、モデルの動画理解能力が大幅に向上した。しかし、ストリーミング対話シナリオでは、LMMはストリーミング動画コンテンツの動的な変化を正確に捉える必要があるが、これは既存のモデルでは見過ごされている。 この課題に対処するため、我々はStreamChatを提案する。これは、ストリーミング動画とスムーズに対話し、動画の最新の変化を追跡して回答を洗練させることができる新しいLMMである。本節では、StreamChatの基礎となる方法論について概説し、ストリーミング動画との動的な対話を可能にする建築上の革新と技術について詳述する。まず、セクション2.1でStreamChatのアーキテクチャ設計について説明し、次にセクション2.2で訓練データの生成と構築方法を紹介する。最後に、セクション2.3で訓練および推論パイプラインの開発について議論する。

Refer to caption
図3: StreamChatのアーキテクチャ。我々は、視覚トークンとテキストトークンを橋渡しするためにクロスアテンションブロックを使用し、LLMの順伝播プロセス全体で視覚トークンを更新するためにV-FFNブロックを使用する。これら2つのブロックの出力は、線形ゲート機構によってスケーリングされる。

2.1 StreamChat Architecture

ストリーミングビデオコンテンツをサポートするために、我々はクロスアテンション機構を通じて動的なビデオ入力を処理できる柔軟で効率的なアーキテクチャを設計する。さらに、大規模言語モデル(LLM)の順伝播プロセス全体で視覚表現を強化するために、視覚フィードフォワードネットワーク(V-FFN)エキスパートを導入する。また、ストリーミング対話シナリオにおける時間情報をより適切にエンコードするために、並列3D-RoPE機構を提案する。 このアーキテクチャを3に示す。

Cross attention.

我々は視覚トークンとテキストトークンを橋渡しするクロスアテンションベースのアーキテクチャを構築する。 入力されるストリーミングビデオに対して、事前学習済みの視覚モデルを利用して、サンプリングされた各フレームから個別に視覚トークンを抽出する。これらの視覚トークンをLLMと統合するために、LLMアーキテクチャに複数のクロスアテンションブロックを挿入し、テキストトークンをクエリとし、視覚トークンをキーと値として機能させる。視覚トークンは対話プロセス中に動的に更新され、クロスアテンション設計はこれらの動的入力の処理を容易にする。さらに、自己アテンションベースのアーキテクチャ(例えば、LLaVA [30])と比較して、クロスアテンションは視覚トークンがテキストトークンよりもはるかに多い場合、特に推論時に高フレームレート(FPS)を持つストリーミング対話において、著しく効率的である。実際には、訓練中の収束速度を向上させるために、我々のクロスアテンションブロックはLLMの自己アテンションブロックとパラメータを共有している。

さらに、我々はLLMの順伝播プロセス全体で視覚表現を強化するためにV-FFNエキスパートを利用する。 具体的には、各クロスアテンションブロックの後、V-FFNエキスパートで視覚トークンを更新し、更新されたトークンを後続のクロスアテンションブロックに供給する。 すべてのクロスアテンションブロックで同じ視覚表現を利用する以前のクロスアテンションベースのモデル[3, 8, 60, 12]とは対照的に、我々のV-FFNエキスパートは視覚表現がLLMの隠れ状態とより適切に整合し、最終的なパフォーマンスを向上させることを可能にする。 実際には、これらのV-FFNエキスパートはLLMの事前学習された知識を継承するために、ゼロから訓練するのではなく、LLMのFFNから初期化される。

以前のクロスアテンションベースのモデル[3, 12]は通常、言語モデルが初期段階で元のLLMと同じ結果を生成し、訓練を安定させるためにtanhゲート機構を採用している。しかし、tanh関数は勾配消失問題に悩まされ、最適でないパフォーマンスをもたらす。代わりに、我々はCaiT [47]に従って、訓練の初期段階でクロスアテンションとV-FFNブロックの出力を比較的小さな範囲にスケーリングする線形ゲートを導入する。 線形ゲート機構は勾配問題を緩和しつつ、訓練プロセスも安定させる。

Refer to caption
図4: 並列3D-RoPE。同じタイムスタンプの視覚トークンとテキストトークンは、同じ時間的位置を共有する。

Parallel 3D-RoPE.

ストリーミングビデオとテキストの位置情報をより適切にモデル化するために、我々は従来の1D-RoPE [42]を3D空間に拡張し、視覚トークンとテキストトークンを並列に配置する並列3D-RoPEを提案する。具体的には、RoPEの埋め込みを3つの成分に分割する。 テキストトークンの場合、これらの成分は各トークンの時間的位置を表すために同一である。視覚トークンの場合、これら3つの成分は各トークンの時間、高さ、幅の位置を表す。視覚トークンとテキストトークンを交互に配置する以前のアプローチ[50]とは異なり、我々はそれらを並列に配置する方法を使用し、4に示す。同じタイムスタンプのテキストトークンと視覚トークンに対して、我々は同じ時間インデックスを適用する。我々の直感は、ストリーミング設定において、特定のタイムスタンプのテキストと視覚トークンは同時に発生しているため、交互の位置ではなく同じ時間的位置を共有すべきだということである。並列配置は、従来の配置が隣接する2つのテキストトークン間に大きな時間的位置のギャップを持つ可能性がある一方で、我々のアプローチがそれらの連続性を確保するため、ストリーミング設定における高FPS推論にとって極めて重要である。

2.2 Dense Instruction Data

既存の動画教示チューニングデータセット [68, 25, 43, 22, 17] は、オフラインの動画理解において大きな進歩を遂げている。すなわち、モデルは質問に答える前に動画全体を見ることができる。しかしながら、これらのデータセットはストリーミング相互作用モデルの訓練には適していない。ストリーミング相互作用モデルでは、入力はストリーミング動画であり、各テキストトークンは動画の一部しか見ることができない。例えば、タイムスタンプ t𝑡titalic_t のテキストトークンは、タイムスタンプ t𝑡titalic_t 以前の動画フレームしか認識できない。この問題に取り組むため、我々は既存の密なキャプションデータセットから新しい動画教示チューニングデータセットを作成した。このデータセットのキャプションはタイムスタンプ間隔と対応付けられている。

密なキャプションを持つ動画が与えられた場合、我々はLLM(例えば、Gemini-1.5-Pro [44])に1つの動画セグメントの開始時間を選択させ、そのセグメントのキャプションに基づいて教示-回答ペアを生成させる。我々はLLMにストリーミング相互作用シナリオに焦点を当て、関連する教示を生成するよう指示する。教示データの多様性を高めるため、最初に5千ペアを生成し、クラスタリングを行って非常に類似した教示を除外する。残りの例を手動で確認し、それらを後続のデータ生成のための文脈内例として使用する。最終的に、我々は2つの密なキャプションデータセット、Ego4D [17] とVript [59] から合計51千の例を収集した。前者は自己中心的環境を、後者は自然環境を表している。

2.3 Training and Inference

Data arrangement.

粗い時間的注釈を持つ初期指示データ、すなわち、(時間間隔、指示、回答)の形式で与えられたデータに対して、我々は発見的アプローチを用いて指示データの各単語にタイムスタンプを割り当てる。 例えば、時間間隔が5-10秒、指示が「動画の人は今何をしていますか?」、回答が「その人は今料理をしています」というトリプレットを考える。細かい時間的注釈を生成するために、我々はこの粗い粒度のトリプレットを時間指標を含む単語の連続に変換する。変換の結果は以下の形式となる:

Instruction:<5>What is the person in the video doing now?Answer:<5>The <6>person <7>is <8>cooking <9>right <10>now.Instruction:<5>What is the person in the video doing now?Answer:<5>The <6>person <7>is <8>cooking <9>right <10>now.\displaystyle\begin{array}[]{l}\texttt{\scriptsize{Instruction:}<5>What is the% person in the video doing now?}\\ \texttt{\scriptsize{Answer:}<5>The <6>person <7>is <8>cooking <9>right <10>now% .}\end{array}start_ARRAY start_ROW start_CELL Instruction: typewriter_<5>What typewriter_is typewriter_the typewriter_person typewriter_in typewriter_the typewriter_video typewriter_doing typewriter_now? end_CELL end_ROW start_ROW start_CELL Answer: typewriter_<5>The typewriter_<6>person typewriter_<7>is typewriter_<8>cooking typewriter_<9>right typewriter_<10>now. end_CELL end_ROW end_ARRAY

ここで、<t>t𝑡titalic_t秒目を表す。この設計の背後にある直感は、指示はユーザーによって瞬時に入力されるが、回答はモデルによってトークンごとにデコードされるということである。この例では、モデルが1秒に1トークンをデコードすると仮定している。なお、<t>指標はモデルに直接入力されるのではなく、参照のためだけに使用されることに注意されたい。

Attention mask.

時刻<t>のトークンが<t>以降に発生するビデオフレームに注意を向けないようにするために、我々は注意マスクを使用してそのような注意をブロックする。このメカニズムは、ストリーミング対話の時間的整合性を維持するために重要であり、モデルが各デコーディングステップで利用可能な関連する視覚情報のみに焦点を当てることを可能にする。

Inference.

推論時、StreamChatはストリーミングビデオコンテンツを効率的に処理するために並列アプローチを採用する。具体的には、我々は別のスレッドを使用してビデオストリームを継続的に読み取り、抽出された視覚トークンをFirst-In-First-Out(FIFO)キューに格納する。LLMが応答を生成するためにデコーディングを必要とする場合、FIFOキューから最新のビデオトークンを取得する。 その後、モデルはこの現在の情報を組み込んで次のトークンをデコードし、その応答が最新のビデオストリームコンテキストに基づいていることを保証する。 この設計は、モデルの出力の関連性を高めるだけでなく、シームレスなストリーミング対話をサポートし、ユーザーが動的なビデオコンテンツと効果的に関わることを可能にする。

3 Experiment Setups

本節では、我々の研究で採用した実験設定の概要を述べる。我々は、SigLIP視覚エンコーダー[63]にPaliGemmaの重み[6]を用い、7B/14B Qwen 2.5 LLM[45]を使用してモデルを構築する。視覚と言語コンポーネントの隠れ次元を整合させるために、多層パーセプトロン(MLP)アダプター[30]を使用する。

Refer to caption
図5: ストリーミング評価におけるStreamChatと主要なビデオLLMとの比較。StreamChat-7B/-14Bを候補モデルの一つとして使用し、VILAまたはLLaVA-Videoモデルに対する勝利/引き分け/敗北率を報告する。我々のStreamChatモデルは、より強力なストリーミング対話能力を示し、はるかに大きなベースLLMを使用するLLaVA-Video-72Bさえも凌駕することができる。
Refer to caption
図6: ストリーミングビデオにおけるStreamChatの定性的評価。示された例では、質問はそれぞれ1秒目(上)と21秒目(下)に行われている。 我々のモデルは動的なビデオコンテンツを捉え、それに応じて回答を適応させることができる。対照的に、VILAとLLaVA-Videoはストリーミングビデオに追従できず、事実誤認(赤で強調表示)を示している。

3.1 Pretraining

我々は2段階の事前学習プロセスを実装し、より効果的な事前学習のために事前学習済みパラメータを段階的に解凍する。両段階において、LLaVA-Next [29]のReCaPデータ、InternVL事前学習データの一部 [10]、MMC4 [71]、および密なキャプションデータセット [17, 70, 22, 43, 59]の組み合わせを利用する。第1段階では、アライメントのためにMLPアダプターのみを訓練する。最大学習率5×1045superscript1045\times 10^{-4}5 × 10 start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT、バッチサイズ512で5000ステップMLPを訓練する。第2段階では、さらに深いアライメントを達成するために、ビジョンエンコーダーと視覚フィードフォワードネットワーク(V-FFN)エキスパートを解凍する。最大学習率2×1052superscript1052\times 10^{-5}2 × 10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT、バッチサイズ512で5000ステップ訓練する。密なキャプションデータセットについては、1秒あたり1フレーム(FPS)、訓練用に最大40フレームを使用する。他の動画データについては、訓練用に40フレームを均一にサンプリングする。合計で、事前学習に510万サンプルを使用する。

3.2 Instruction Tuning

我々は、主にEagle-1.8M [40]に基づいて包括的な指示調整データセットを構築する。 さらに、我々の密な指示データセットとLLaVA-Video [68]を指示調整に組み込む。 すべてのパラメータを解凍し、データセットの組み合わせで1エポック訓練する。最大学習率2×1052superscript1052\times 10^{-5}2 × 10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT、バッチサイズ768を使用する。密な指示データについては、訓練用に1 FPSと最大32フレームを使用する。他の動画指示データについては、訓練用に32フレームを均一にサンプリングする。合計で、指示調整に290万サンプルを使用する。

Method

# Vis Tok.

MMEPP{}^{\text{P}}start_FLOATSUPERSCRIPT P end_FLOATSUPERSCRIPT

MMB

MMMUVV{}^{\text{V}}start_FLOATSUPERSCRIPT V end_FLOATSUPERSCRIPT

MMStarVV{}^{\text{V}}start_FLOATSUPERSCRIPT V end_FLOATSUPERSCRIPT

SEEDII{}^{\text{I}}start_FLOATSUPERSCRIPT I end_FLOATSUPERSCRIPT

GQA

SQAII{}^{\text{I}}start_FLOATSUPERSCRIPT I end_FLOATSUPERSCRIPT

AI2D

TextVQA

RealworldQA

Private models
GPT-4V UNK. 1409 75.8 56.8 57.1 69.1 36.8 75.7 78.2 78.0 61.4
Gemini-1.0 Pro UNK. 1496 73.6 47.9 42.6 70.7 - 79.5 - - -
Gemini-1.5 Pro UNK. - - 58.5 - - - - 80.3 73.5 67.5
Grok-1.5 UNK. - - 53.6 - - - - 88.3 78.1 68.7
7B-Level Base LLM
Mini-Gemini-HD-8B 2880 1606 72.7 37.3 - 73.2 64.5 75.1 73.5 70.2 62.1
LLaVA-NeXT-8B 2880 1603 72.1 41.7 - 72.7 65.2 72.8 71.6 64.6 60.1
Cambrian-1-8B 576 1547 75.9 42.7 - 74.7 64.6 80.4 73.0 71.7 64.2
StreamChat-7B 256 1520 74.4 48.1 46.0 74.3 62.4 85.5 76.6 72.4 61.7
14B-Level Base LLM
Mini-Gemini-HD-13B 2880 1597 68.6 37.3 - 70.6 63.7 71.9 70.1 70.2 57.5
LLaVA-NeXT-13B 2880 1575 70.0 36.2 - 65.6 65.4 73.5 70.0 67.1 59.1
Cambrian-1-13B 576 1610 75.7 40.0 - 74.4 64.3 79.3 73.6 72.8 63.0
StreamChat-14B 256 1617 79.0 50.1 53.6 75.5 63.3 85.8 79.5 74.4 63.3
表1: 画像ベンチマークにおけるStreamChatと主要なLMMの比較。StreamChatは256の視覚トークンのみを使用しながら、これらのベンチマークで競争力のある性能を達成している。

4 Streaming Evaluation

大規模マルチモーダルモデル(LMM)のストリーミング対話能力を評価するために、我々は既存の密キャプションデータセットからストリーミング評価ベンチマークを構築する。動画の密キャプションに基づき、Gemini-1.5-Proに特定のタイムスタンプに対する指示-回答ペアを生成させる。ストリーミングシナリオに関連しないサンプルを除外し、残りの各サンプルを手動で確認・改良して、指示と回答が動画の内容とタイムスタンプに合致するようにする。最終的に、100の評価サンプルを収集し、そのうち80がVript [59]から、20がEgo4D [17]から得られたものである。

[31, 30]に従い、我々はGemini-1.5-Proを性能評価の審判として使用する。動画とそれに対応する指示が与えられた場合、2つの候補モデルを推論してそれぞれの回答を予測する。その後、正解の回答と2つのモデルからの出力を審判に入力する。審判は、2つの回答を遵守性、有用性、関連性、正確性の観点から評価することが求められる。我々は審判に、どちらのモデルの回答がより優れているか、あるいは両者が同等の品質であるかを判断するよう促し、さらに判断に基づいた詳細な理由付けを提供するよう要求する。我々はStreamChatモデルを候補モデルの1つとして使用し、他のモデルとの比較における全体的な勝率を計算する。

4.1 Quantitative Results

我々はStreamChatと他のビデオLLMとの比較を5に示す。フレームレート(FPS)は5に設定されている。StreamChatとLLaVA-Video [68]モデルには32フレームを使用し、VILA [26]には16フレームを使用している。これは32フレームを使用するとVILAのコンテキスト範囲を超えてしまうためである。我々の結果は、StreamChatモデルがLLaVA-VideoモデルやVILAモデルと比較して、優れたストリーミング対話能力を示していることを実証している。特筆すべきは、VILA-1.5-40Bと比較して、我々のStreamChat-7Bモデルが、はるかに小さなLLMを使用しているにもかかわらず、評価ケースの77%で同等かそれ以上の好ましい回答を生成していることである。LLaVA-Videoモデルはオフラインのビデオ理解に優れているが、StreamChat-7Bはストリーミング対話シナリオでそれらを上回っており、ストリーミング推論中のビデオダイナミクスの捕捉の重要性を強調している。さらに、我々のStreamChat-14BがStreamChat-7Bよりも全体的に優れたパフォーマンスを示していることを観察しており、これはベースLLMのスケーリングがストリーミング対話パフォーマンスも向上させることを示している。

Method

# Frames

ActNet-QA

EgoSchema

MLVU

MVBench

NExT-QA

PerceptionTest

LongVideoBench

VideoMME

Private models
GPT-4V UNK. 57.0 - 49.2 43.5 - - 61.3 59.9/63.3
GPT-4o UNK. - - 64.6 - - - 66.7 71.9/77.2
Gemini-1.5-Flash UNK. 55.3 65.7 - - - - 61.6 70.3/75.0
Gemini-1.5-Pro UNK. 57.5 72.2 - - - - 64.0 75.0/81.3
7B-Level Base LLM
LongVA-7B 128 50.0 - 56.3 - 68.3 - - 52.6/54.3
IXC-2.5-7B 64 52.8 - 37.3 69.1 71.0 34.4 - 55.8/58.8
PLLaVA-7B 16 56.3 - - 46.6 - - 40.2 -
VideoLLaMA2-7B 16 50.2 51.7 48.5 54.6 - - - 47.9/50.3
StreamChat-7B 40 54.9 48.4 63.9 53.3 78.5 63.0 54.2 58.6/62.8
14B+ Level Base LLM
VILA-40B UNK. 58.0 58.0 - - 67.9 54.0 - 60.1/61.1
PLLaVA-13B 16 56.3 - - 50.1 - - 45.6 -
PLLaVA-34B 16 60.9 - - 58.1 - - 53.2 -
VideoLLaMA2-72B 16 55.2 63.9 61.2 62.0 - - - 61.4/63.1
StreamChat-14B 40 55.9 57.2 66.6 55.2 79.4 63.7 57.1 63.1/66.3
表2: StreamChatと主要なLMMのビデオベンチマークにおける比較。StreamChatはこれらのベンチマークで競争力のあるパフォーマンスを達成し、さらにはるかに大きなベースLLMを持つモデルを上回っている。 StreamChatのクロスアテンションベースのアーキテクチャは、多数のビデオフレームを効率的に処理する。

4.2 Qualitative Results

我々は、6に示すように、ストリーミングビデオにおけるStreamChatの能力の定性的評価を提供する。例では、特定のタイムスタンプで質問を投げかけている。以前の手法では質問が行われた時点までの視覚的コンテキストのみを使用して回答するが、StreamChatはストリーミングビデオに沿って視覚的コンテキストを動的に更新し、それに応じて回答を適応させることができる。我々は、StreamChatが動的なビデオコンテンツをより良く捉え、より正確な回答を提供できることを示している。対照的に、VILA [26]とLLaVA-Video [68]は、ストリーミングビデオとの時間的整合性を維持するのに苦労し、事実誤認(赤で強調表示)を示している。

5 Benchmark Results

我々は、LMMs-Eval ライブラリ[66]を用いて、一般的な画像[13, 32, 62, 9, 23, 19, 33, 20, 41, 54]および動画ベンチマーク[61, 34, 69, 25, 55, 38, 52, 14]におけるStreamChatモデルの性能を評価する。ストリーミング対話におけるStreamChatの効率性を維持するため、我々は複数のビジョンエンコーダー[40, 46]や画像タイリング技術[29, 10]を採用していないことに留意されたい。これらの技術は、高解像度入力を必要とするベンチマークでのパフォーマンスを損なう可能性がある。

画像ベンチマークにおけるStreamChatの性能を 1に示す。StreamChatは、複数のビジョンエンコーダーを使用するCambrian-1や、画像タイリングを採用するLLaVA-NEXTと比較して、強力な結果を示している。特筆すべきは、我々のStreamChat-7BがMMUベンチマークで48.1のスコアを達成し、LLaVA-NeXT-8BとCambrian-1-8Bをそれぞれ6.4ポイントと5.4ポイント上回っていることである。さらに、StreamChatは、はるかに少ない視覚トークンを使用しているにもかかわらず、TextVQAにおいてLLaVA-NEXTとCambrian-1の両方を凌駕している。総じて、StreamChatは計算効率を確保しつつ、画像ベンチマークで競争力のある性能を達成している。

我々はStreamChatのビデオベンチマークにおけるパフォーマンスを2に示す。我々のモデルは、7Bレベルのベースとなる言語モデルを使用しながら、PLLaVA [57]およびVideoLLaMA2 [11]を大幅に上回るパフォーマンスを示している。具体的には、VideoMMEベンチマーク [14]において58.6/62.8のスコアを達成し、VideoLLaMA2-7Bを10.7/11.5ポイント上回っている。さらに、StreamChat-14Bは、はるかに大規模なベース言語モデルを使用しているVILA-40BおよびVideoLLaMA2-72Bと比較しても、優れたパフォーマンスを示している。重要な点として、我々のモデルは推論時により多くのフレームを処理する場合でも効率性を維持している。これは、我々のクロスアテンションベースのアーキテクチャが、フレーム間の自己アテンションに関連する重い計算を軽減しているためである。

V-FFN Linear Gate Param. Reuse Dense Instruction

MMMUVV{}^{\text{V}}start_FLOATSUPERSCRIPT V end_FLOATSUPERSCRIPT

AI2D

TextVQA

RealworldQA

MLVU

MVBench

PerceptionTest

VideoMME

StreamEval Win/Tie/Loss
46.7 75.7 62.7 57.8 58.2 47.3 49.3 51.1 18/46/36
45.1 74.8 60.7 58.3 60.0 49.4 51.8 52.4 25/45/30
44.4 72.4 46.9 46.3 53.5 43.4 46.6 47.1 20/33/47
46.0 76.5 62.5 59.4 57.0 49.0 52.8 51.3 25/34/41
45.2 76.1 63.3 58.0 59.7 49.5 51.1 52.6 -/-/-
表3: アブレーション研究の結果。StreamEvalは我々が提案するストリーミング評価を示しており、最終的なソリューション(最下行)を候補モデルの1つとして使用し、他のモデルのパフォーマンスを我々の最終ソリューションと比較して報告している。

6 Ablation Studies

我々は、アブレーション実験に比較的効率的な設定を使用する。総訓練ステップを2000に縮小し、他のハイパーパラメータは完全な訓練と同じに保つ。指示チューニングの段階では、特に指定がない限り、我々の密な指示データセットとEagle-1.8M [40]の組み合わせを使用し、その組み合わせで1エポック訓練する。訓練のハイパーパラメータは完全な訓練と同じである。

我々のアブレーション実験の結果を 3に示す。ここでは、我々のアーキテクチャ設計と提案した密な指示データセットについてアブレーションを行う。4つの画像ベンチマーク、4つの動画ベンチマーク、そして我々のストリーミング評価にわたってパフォーマンスを比較する。ストリーミング評価では、我々のStreamChatソリューション(最後の行)を候補モデルの1つとして採用し、他のモデルのパフォーマンスをStreamChatに対する相対的な値として報告する。

我々の実験結果は、導入したアーキテクチャの改良が全体的なパフォーマンスの向上につながることを示している。具体的には、StreamChatモデルは視覚フィードフォワードネットワーク(V-FFN)エキスパートなしのバージョンを9つのベンチマークのうち8つで上回っている。さらに、tanhゲートを使用すると訓練の初期段階での収束が速くなることを観察したが、最終的にはリニアゲートと比較して最終的なパフォーマンスが低下する結果となった。リニアゲートは、tanhゲートと比較して9つのベンチマークのうち6つでパフォーマンスを向上させる。また、LLMのパラメータを再利用しない場合、訓練の不安定性が顕著に観察され、最終的なパフォーマンスも低下する。我々の最終ソリューションは、パラメータ再利用なしのモデルを評価したすべてのベンチマークで大幅に上回っている。

密な指示データなしで訓練されたモデルと比較すると、我々の最終ソリューションは既存の画像および動画ベンチマークで同等のパフォーマンスを示す。しかし、ストリーミング評価では、我々の密な指示データセットで訓練することで相互作用能力が大幅に向上することを実証している。我々の最終ソリューションは、評価ケースの75%で同等またはより好ましい回答を生成しており、既存の画像または動画指示チューニングデータセットのみに依存することは、効果的なストリーミング相互作用には不十分であることを示している。

7 Related Works

大規模マルチモーダルモデル。 大規模マルチモーダルモデル(LMM)は、画像キャプション生成[27]や視覚的質問応答(VQA)[16, 36, 18]など、様々なタスクにおけるゼロショット能力の高さから、大きな注目を集めている。特に、Flamingo[2]は、大規模な画像-テキスト交互データセットで訓練することで、視覚的文脈内学習を実現している。GPT-4V[1]は、ユーザーの質問に対して一貫性のある応答を提供する、新たな画像理解能力を示している。オープンソースの分野では、LLaVAが生成された指示追従データでファインチューニングを行うことで、GPT-4Vの機能の一部を再現している。その後、LLaVA-1.5[28]、Qwen-VL[5]、CogVLM[51]などの研究が、アーキテクチャの改良、訓練方法の改善、より高品質な訓練データセットを通じて、モデルの能力向上を目指している。最近では、InternVL2[10]、LLaVA-OneVision[24]、Qwen2-VL[50]などのオープンモデルが、GPT-4o[37]やGemini-1.5-Pro[44]といった最先端のクローズドモデルよりも優れた性能を示しており、LMMの研究への道を切り開いている。

ストリーミングビデオモデル。 ストリーミングビデオモデルの出現は、OpenAIのGPT-4o [37]から始まった。これは、ストリーミングビデオとのリアルタイム対話において顕著な能力を示し、この分野で大きな注目を集めた。この画期的な開発に続いて、いくつかの後続の研究が、ストリーミングビデオコンテンツを処理するための大規模マルチモーダルモデルの強化を目指してきた。注目すべきアプローチには、VideoLLM-online [7]、Flash-VStream [65]、VITA [15]、VideoLLM-MoD [53]などの手法があり、これらはストリーミングビデオ処理中のモデルの流暢さや応答性の向上に焦点を当てている。しかし、質問が提起された時点までの固定されたビデオコンテンツに依存して質問に答えることが多い既存のモデルとは異なり、我々の研究はデコーディングプロセス中に視覚的コンテキストを動的に更新することを強調している。これにより、対話体験が大幅に向上し、高度に動的な環境に固有の有害な遅延が軽減される。

8 Conclusion

本稿では、StreamChatという新しいアプローチを提示している。これは、ストリーミングビデオコンテンツを用いて大規模マルチモーダルモデル(LMM)のリアルタイム相互作用能力を向上させるものである。StreamChatは、視覚的フィードフォワードネットワーク(V-FFN)エキスパートを備えた柔軟かつ効率的なクロスアテンションベースのアーキテクチャ上に構築されている。各デコーディングステップで視覚的コンテキストを継続的に更新することにより、StreamChatはストリーミングビデオコンテンツの動的な変化を効果的に捉え、時間的に整合性のある応答を生成する。我々はまた、ストリーミング相互作用モデルの訓練を促進するための密な指示データセットを導入し、さらにストリーミングビデオとテキストをより適切に配置するための並列3D-RoPEメカニズムを提案している。確立された画像および動画ベンチマークと、新たに開発したストリーミングベンチマークの両方における広範な評価により、StreamChatが既存のベンチマークで競争力のある性能を達成するだけでなく、ストリーミング相互作用シナリオにおいても優れた性能を発揮することが実証された。

9 Limitations

StreamChatは大規模マルチモーダルモデル(LMM)のストリーミング対話能力において大きな進歩を示しているが、いくつかの制限が残されている。一つの制限は、各テキストトークンのタイムスタンプが、手動で注釈付けされるのではなく、粗い粒度の時間的注釈から発見的に生成されていることである。この発見的手法への依存は、特に正確なタイミングが重要な複雑な動画シナリオにおいて、時間的整列の不正確さをもたらす可能性がある。

References

  • Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
  • Alayrac et al. [2022a] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in Neural Information Processing Systems, 35:23716–23736, 2022a.
  • Alayrac et al. [2022b] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in neural information processing systems, 35:23716–23736, 2022b.
  • Bai et al. [2023a] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023a.
  • Bai et al. [2023b] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023b.
  • Beyer et al. [2024] Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, et al. Paligemma: A versatile 3b vlm for transfer. arXiv preprint arXiv:2407.07726, 2024.
  • Chen et al. [2024a] Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, and Mike Zheng Shou. Videollm-online: Online video large language model for streaming video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18407–18418, 2024a.
  • Chen et al. [2024b] Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, et al. Evlm: An efficient vision-language model for visual understanding. arXiv preprint arXiv:2407.14177, 2024b.
  • Chen et al. [2024c] Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, et al. Are we on the right way for evaluating large vision-language models? arXiv preprint arXiv:2403.20330, 2024c.
  • Chen et al. [2024d] Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 24185–24198, 2024d.
  • Cheng et al. [2024] Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, et al. Videollama 2: Advancing spatial-temporal modeling and audio understanding in video-llms. arXiv preprint arXiv:2406.07476, 2024.
  • Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Fu et al. [2023] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.
  • Fu et al. [2024a] Chaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, et al. Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis. arXiv preprint arXiv:2405.21075, 2024a.
  • Fu et al. [2024b] Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, et al. Vita: Towards open-source interactive omni multimodal llm. arXiv preprint arXiv:2408.05211, 2024b.
  • Goyal et al. [2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6904–6913, 2017.
  • Grauman et al. [2022] Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis, Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu, Xingyu Liu, et al. Ego4d: Around the world in 3,000 hours of egocentric video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18995–19012, 2022.
  • Gurari et al. [2018] Danna Gurari, Qing Li, Abigale J Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, and Jeffrey P Bigham. Vizwiz grand challenge: Answering visual questions from blind people. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3608–3617, 2018.
  • Hudson and Manning [2019] Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In CVPR, 2019.
  • Kembhavi et al. [2016] Aniruddha Kembhavi, Mike Salvato, Eric Kolve, Minjoon Seo, Hannaneh Hajishirzi, and Ali Farhadi. A diagram is worth a dozen images. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14, pages 235–251. Springer, 2016.
  • Kenton and Toutanova [2019] Jacob Devlin Ming-Wei Chang Kenton and Lee Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT, page 2. Minneapolis, Minnesota, 2019.
  • Krishna et al. [2017] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles. Dense-captioning events in videos. In Proceedings of the IEEE international conference on computer vision, pages 706–715, 2017.
  • Li et al. [2023] Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, and Ying Shan. Seed-bench: Benchmarking multimodal llms with generative comprehension, 2023.
  • Li et al. [2024a] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326, 2024a.
  • Li et al. [2024b] Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, et al. Mvbench: A comprehensive multi-modal video understanding benchmark. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22195–22206, 2024b.
  • Lin et al. [2024] Ji Lin, Hongxu Yin, Wei Ping, Pavlo Molchanov, Mohammad Shoeybi, and Song Han. Vila: On pre-training for visual language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 26689–26699, 2024.
  • Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C. Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014.
  • Liu et al. [2023a] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744, 2023a.
  • Liu et al. [2024a] Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, and Yong Jae Lee. Llava-next: Improved reasoning, ocr, and world knowledge, 2024a.
  • Liu et al. [2024b] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. Advances in neural information processing systems, 36, 2024b.
  • Liu et al. [2024c] Jihao Liu, Xin Huang, Jinliang Zheng, Boxiao Liu, Jia Wang, Osamu Yoshie, Yu Liu, and Hongsheng Li. Mm-instruct: Generated visual instructions for large multimodal model alignment. arXiv preprint arXiv:2406.19736, 2024c.
  • Liu et al. [2023b] Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et al. Mmbench: Is your multi-modal model an all-around player? arXiv preprint arXiv:2307.06281, 2023b.
  • Lu et al. [2022] Pan Lu, Swaroop Mishra, Tony Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. In The 36th Conference on Neural Information Processing Systems (NeurIPS), 2022.
  • Mangalam et al. [2024] Karttikeya Mangalam, Raiymbek Akshulakov, and Jitendra Malik. Egoschema: A diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems, 36, 2024.
  • Mann et al. [2020] Ben Mann, N Ryder, M Subbiah, J Kaplan, P Dhariwal, A Neelakantan, P Shyam, G Sastry, A Askell, S Agarwal, et al. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 1, 2020.
  • Marino et al. [2019] Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-vqa: A visual question answering benchmark requiring external knowledge. In Proceedings of the IEEE/cvf conference on computer vision and pattern recognition, pages 3195–3204, 2019.
  • OpenAI [2024] OpenAI. Hello gpt-4o. https://openai.com/index/hello-gpt-4o/, 2024.
  • Pătrăucean et al. [2023] Viorica Pătrăucean, Lucas Smaira, Ankush Gupta, Adrià Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, and João Carreira. Perception test: A diagnostic benchmark for multimodal video models. In Advances in Neural Information Processing Systems, 2023.
  • Raffel et al. [2020] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140):1–67, 2020.
  • Shi et al. [2024] Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, et al. Eagle: Exploring the design space for multimodal llms with mixture of encoders. arXiv preprint arXiv:2408.15998, 2024.
  • Singh et al. [2019] Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, and Marcus Rohrbach. Towards vqa models that can read. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8317–8326, 2019.
  • Su [2024] Jianlin Su. Totary position embedding, 2024.
  • Tang et al. [2019] Yansong Tang, Dajun Ding, Yongming Rao, Yu Zheng, Danyang Zhang, Lili Zhao, Jiwen Lu, and Jie Zhou. Coin: A large-scale dataset for comprehensive instructional video analysis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1207–1216, 2019.
  • Team et al. [2023] Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023.
  • Team [2024] Qwen Team. Qwen2.5: A party of foundation models, 2024.
  • Tong et al. [2024] Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, et al. Cambrian-1: A fully open, vision-centric exploration of multimodal llms. arXiv preprint arXiv:2406.16860, 2024.
  • Touvron et al. [2021] Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, and Hervé Jégou. Going deeper with image transformers. In Proceedings of the IEEE/CVF international conference on computer vision, pages 32–42, 2021.
  • Touvron et al. [2023] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.
  • Vaswani [2017] A Vaswani. Attention is all you need. Advances in Neural Information Processing Systems, 2017.
  • Wang et al. [2024] Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, et al. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution. arXiv preprint arXiv:2409.12191, 2024.
  • Wang et al. [2023] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, et al. Cogvlm: Visual expert for pretrained language models. arXiv preprint arXiv:2311.03079, 2023.
  • Wu et al. [2024a] Haoning Wu, Dongxu Li, Bei Chen, and Junnan Li. Longvideobench: A benchmark for long-context interleaved video-language understanding, 2024a.
  • Wu et al. [2024b] Shiwei Wu, Joya Chen, Kevin Qinghong Lin, Qimeng Wang, Yan Gao, Qianli Xu, Tong Xu, Yao Hu, Enhong Chen, and Mike Zheng Shou. Videollm-mod: Efficient video-language streaming with mixture-of-depths vision computation. arXiv preprint arXiv:2408.16730, 2024b.
  • [54] x.ai. Grok-1.5 vision preview.
  • Xiao et al. [2021] Junbin Xiao, Xindi Shang, Angela Yao, and Tat-Seng Chua. Next-qa: Next phase of question-answering to explaining temporal actions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9777–9786, 2021.
  • Xie and Wu [2024] Zhifei Xie and Changqiao Wu. Mini-omni2: Towards open-source gpt-4o model with vision, speech and duplex. arXiv preprint arXiv:2410.11190, 2024.
  • Xu et al. [2024] Lin Xu, Yilin Zhao, Daquan Zhou, Zhijie Lin, See Kiong Ng, and Jiashi Feng. Pllava: Parameter-free llava extension from images to videos for video dense captioning. arXiv preprint arXiv:2404.16994, 2024.
  • Xue et al. [2024] Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, et al. Longvila: Scaling long-context visual language models for long videos. arXiv preprint arXiv:2408.10188, 2024.
  • Yang et al. [2024] Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, and Hai Zhao. Vript: A video is worth thousands of words. arXiv preprint arXiv:2406.06040, 2024.
  • Ye et al. [2024] Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, and Jingren Zhou. mplug-owl3: Towards long image-sequence understanding in multi-modal large language models. arXiv preprint arXiv:2408.04840, 2024.
  • Yu et al. [2019] Zhou Yu, Dejing Xu, Jun Yu, Ting Yu, Zhou Zhao, Yueting Zhuang, and Dacheng Tao. Activitynet-qa: A dataset for understanding complex web videos via question answering. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 9127–9134, 2019.
  • Yue et al. [2024] Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, and Yuxuan Sun. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. In CVPR, 2024.
  • Zhai et al. [2023] Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. Sigmoid loss for language image pre-training. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 11975–11986, 2023.
  • Zhang et al. [2023] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv preprint arXiv:2306.02858, 2023.
  • Zhang et al. [2024a] Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, and Xiaojie Jin. Flash-vstream: Memory-based real-time understanding for long video streams. arXiv preprint arXiv:2406.08085, 2024a.
  • Zhang et al. [2024b] Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, and Ziwei Liu. Lmms-eval: Reality check on the evaluation of large multimodal models, 2024b.
  • Zhang et al. [2024c] Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, and Ziwei Liu. Long context transfer from language to vision. arXiv preprint arXiv:2406.16852, 2024c.
  • Zhang et al. [2024d] Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, and Chunyuan Li. Video instruction tuning with synthetic data. arXiv preprint arXiv:2410.02713, 2024d.
  • Zhou et al. [2024] Junjie Zhou, Yan Shu, Bo Zhao, Boya Wu, Shitao Xiao, Xi Yang, Yongping Xiong, Bo Zhang, Tiejun Huang, and Zheng Liu. Mlvu: A comprehensive benchmark for multi-task long video understanding. arXiv preprint arXiv:2406.04264, 2024.
  • Zhou et al. [2018] Luowei Zhou, Nathan Louis, and Jason J Corso. Weakly-supervised video object grounding from text by loss weighting and object interaction. arXiv preprint arXiv:1805.02834, 2018.
  • Zhu et al. [2024] Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, and Yejin Choi. Multimodal c4: An open, billion-scale corpus of images interleaved with text. Advances in Neural Information Processing Systems, 36, 2024.