JaLMS
最新の AI 研究を日本語で解読

[Uncaptioned image] VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Songhao Han1, Wei Huang2, Hairong Shi1, Le Zhuo3, Xiu Su4, Shifeng Zhang5, Xu Zhou5,
Xiaojuan Qi2, Yue Liao6222Corresponding Author, Si Liu1222Corresponding Author
   1Beihang University 2The University of Hong Kong 3Shanghai AI Lab    4Central South University 5Sangfor Technologies Inc. 6CUHK    {hshjerry,liusi}@buaa.edu.cn, {aaron.weihuang, liaoyue.ai}@gmail.com
Abstract

大規模視覚言語モデル(LVLMs)の進歩によりマルチモーダル理解は大きく向上したが、高品質で大規模なデータセットの不足により、動画推論タスクにおいては依然として課題が残っている。既存の動画質問応答(VideoQA)データセットは、多くの場合、十分な粒度を持たない高コストの手動アノテーションや、冗長なフレームごとの分析を伴う自動構築手法に依存しており、複雑な推論に対するスケーラビリティと有効性が制限されている。これらの課題に対処するため、我々はVideoEspressoを導入する。これは、空間的詳細と時間的一貫性を保持したVideoQAペアと、中間推論ステップのマルチモーダルアノテーションを特徴とする新しいデータセットである。我々の構築パイプラインは、冗長性を減らすためのセマンティック認識手法を採用し、その後GPT-4oを使用してQAペアを生成する。さらに、我々は推論プロセスを豊かにするためにビデオChain-of-Thought(CoT)アノテーションを開発し、GPT-4oがQAペアとビデオコンテンツから論理的関係を抽出するガイドとしている。高品質のVideoQAペアの可能性を活用するため、我々はフレームセレクターと2段階の指示微調整推論LVLMを特徴とするハイブリッドLVLMs協調フレームワークを提案する。このフレームワークは、コアフレームを適応的に選択し、マルチモーダルな証拠を用いてCoT推論を実行する。14のタスクと9つの人気のあるLVLMsに対して我々が提案するベンチマークで評価した結果、我々の手法は大半のタスクで既存のベースラインを上回り、優れた動画推論能力を示した。我々のコードとデータセットは以下で公開される:https://github.com/hshjerry/VideoEspresso

1 Introduction

近年、大規模視覚言語モデル(LVLMs)の開発[3, 24, 18, 11]により、マルチモーダル理解タスクに大きな進展がもたらされた。視覚情報と言語情報を大規模なデータ訓練を通じて統合することで、より高度なLVLMsファミリー[31, 16]は、LLMsの豊富な知識を十分に活用しながら合理的な出力を生成することが可能となり、画像キャプション生成や視覚的質問応答などのタスクで優れた性能を示している。最近の研究では、LVLMsを動画コンテンツ理解の領域に拡張する試みが始まっている[19, 27, 22]。これらの取り組みは、特定の基本的な動画理解ベンチマーク[20, 47, 42, 28]において大きな可能性を示しているものの、複雑な動画推論タスクにおける性能は未だ満足のいくものではない。

動画質問応答(VideoQA)研究における主要な制約は、高品質で大規模なデータセットの不足である。現在のVideoQAデータセット[41, 15, 47]は、コストのかかる手動アノテーションに依存しており、詳細な理解に必要な粒度を欠いていることが多く、スケーラビリティが制限されている。しかし、LVLMsは効果的な訓練のために膨大な量のマルチモーダルQAペアを必要とする。最近、GPT-4[30]やGemini-Pro[12]のような大規模言語モデル(LLMs)の進歩により、慎重に設計されたプロンプトを通じてQAペアを自動生成することが可能になった。直接的なアプローチとしては、動画のメタデータ(通常は高レベルの説明)を使用し、LLMsを活用してこの粗い情報に基づいてQAペアを生成することが挙げられる。しかし、重要な動画の詳細が欠落しているため、細かい推論に対するQAペアの有効性が制限される。alternatively、より細かい理解のために動画フレームを分析することは可能であるが、動画コンテンツは冗長であることが多く、重要な情報が疎らに分散しているため、フレームごとの分析は計算コストが高く、情報過多に陥りやすい。

これらの課題に対処するため、我々は新しい自動VideoQA構築手法を提案し、新しいデータセットVideoEspressoを導入する。時間的一貫性を持つ重要な空間的詳細を保持することで、我々はより効果的なマルチモーダル理解を促進する、きめ細かい推論が可能なVideoQAデータセットを作成する。図1に示すように、我々はまず意味論的に認識された重要情報抽出手法を設計し、動画から重要情報を抽出する。画像表現に基づいてキーフレームを抽出する従来の手法とは異なり、我々はまずLVLMを使用して動画フレームを言語空間にマッピングする。次に、意味的類似性に基づいて類似フレームを除去し、動画データの冗長性を減らす。フレームレベルの詳細とフレーム間の相関を保持するために、動画フレームを順次グループ化し、GPT-4o [31]に入力する。慎重に設計されたプロンプトを用いて、モデルに初期のQAペアを生成させ、低品質のデータをフィルタリングする。さらに中間推論ステップを拡張するために、我々は動画のChain-of-Thought注釈を導入する。我々は、GPT-4oが回答に役立つQAペアと動画から論理的関係の証拠を抽出するよう導くプロンプトを設計する。これには、空間的および時間的流れにおける主要オブジェクトの相互作用が含まれる。これらの論理的プロセスに注釈を付けることで、我々は最終的にQAデータセットにおける推論証拠の連鎖を拡張することを目指す。

我々が提案するVideoEspressoの高品質なVideoQAペアの可能性を最大限に活用するために、我々はHybrid LVLMs Collaboration for VideoQAという新しいフレームワークを導入し、コスト効率が高く正確な動画LVLM推論を実現する。このフレームワークは、小規模なFrame Selectorと精密な推論LVLMで構成されている。Frame Selectorは、画像から言語へのマッピングに基づいて、質問に最も関連する核心的なフレームを適応的に選択する。これらの核心的なフレームは推論LVLMに送られ、モデルはまずフレーム情報に基づいてマルチモーダルな証拠を抽出し、最終的にこの証拠を活用してchain-of-thought推論を通じて質問に答える。 このデータセットは、テキストと境界ボックスの両方を通じて主要な推論ステップと画像領域の明示的な注釈を提供し、モデルが質問に答える際にテキストと画像の位置情報を効果的に使用できるようにする。

我々のデータセットに基づき、GPT-4oを基盤とするオープンエンド型評価指標のセットを含む評価ベンチマークを構築した。比較のベースラインとして、9999の人気のあるLVLMを評価した。様々な観点からビデオ推論能力を評価するため、評価を14141414のタスクに分類した。本稿の手法は、ほとんどのタスクにおいてベースライン手法に対して顕著な優位性を示している。

2 Related Work

Refer to caption
図2: VideoEspressoの自動生成パイプライン。(i) 質問-回答ペアの構築:我々は動画のフレームレベルのキャプションを使用して、動画のキーフレームを抽出し、これらのフレームの説明をグループ化する。その後、GPT-4を用いて各動画フレームグループに対する質問を設計する。(ii) マルチモーダル思考連鎖アノテーション:我々はGPT-4oを用いて、重要な証拠テキストを抽出し、質問に最も関連性の高いキャプションを生成する。さらに、重要なアイテムに対して空間的および時間的情報をアノテーションし、時間的および空間的次元の両方に基づいたマルチモーダル思考連鎖データペアを生成する。

動画QAデータセット。 従来の動画QAデータセット[15, 42, 47]は、アノテーターが動画を視聴し、内容を要約し、設定されたガイドラインに基づいてQAペアを生成する手動アノテーションに大きく依存している。この労働集約的なプロセスは拡張性を制限している。LLMの能力の進歩[29, 12, 1]により、最近のアプローチでは、アノテーションにLLMを活用するために調整されたプロンプトを使用し、しばしばメタデータや詳細なキャプション[6, 36]に依存してQAデータを構築している[20, 35, 33]。しかし、これらの手法は多くの場合、詳細な動画情報を欠いており、生の動画データに大きく依存している。対照的に、我々は手動入力なしで生データを処理およびアノテーションするQAペア生成の自動パイプラインを導入し、拡張性を向上させている。

ビデオLVLM。 近年、大規模ビジョン言語モデル(LVLM)がVideoQAタスクを大幅に進展させている。先行研究では、様々なアーキテクチャを試験的に導入することでモデルの性能を向上させてきた。一部の研究ではQ-Formerを通じて視覚的特徴と言語的特徴の整合を図り[48, 16, 5]、他の研究ではフレームレベルの特徴を直接連結している[19, 14]。フレーム数とトークン効率のバランスを取ることが重要な焦点となっており、一般的には均一サンプリング[49, 5]や追加モジュール[35, 22]によって対処されている。我々のアプローチでは、質問に関連するフレームを選択的に捉える小規模なモデルを採用し、コンテキスト長を最小限に抑えつつ、重要な時空間情報を保持している。

視覚的CoT。 Chain-of-Thought(CoT)技術は、LLMの推論能力を向上させるために、中間的な推論ステップを通じてより正確な回答を導き出すよう誘導する。先行研究[51, 45]ではCoTを視覚タスクに適用しているが、主にテキストレベルの推論に焦点を当てており、視覚的理解を見過ごすことが多い。最近の研究[39, 34]では、特定の画像領域を対象とすることで性能を向上させている。VideoQAにおいては、VideoCoT[38]がテキストレベルの推論に焦点を当てる一方、VoT[10]は空間的関係を重視している。我々のアプローチは、ビデオCoT推論において主要なオブジェクト領域と核となるフレームを統合し、空間的および時間的な詳細の両方を捉えることで、ビデオ理解を向上させている。

3 VideoEspresso

本節では、マクロスコピックな動画セマンティクスに対する高度な推論を促進するために設計された大規模なVideoQAデータセットであるVideoEspressoを紹介する。このデータセットは、抽出された動画コンテンツから高品質な推論VideoQAペアを生成する、スケーラブルで完全に自動化された生成パイプラインを通じて作成される。VideoEspressoの構築パイプラインは、以下の主要な段階で構成される:(1) 我々は生の動画データを収集し、冗長性を削減して本質的なコンテンツを含むビデオフレームを抽出する;(2) これらのフレームに基づいて、各動画の核心的なセマンティクスを捉えるQAペアを生成する;(3) さらに解釈可能性を高め、複雑な推論能力のベンチマークを強化するために、詳細な思考の連鎖(Chain-of-Thought、CoT)アノテーションを組み込む。これは、空間的および時間的な相互作用を通じて核心的な視覚要素を結びつけ、従来のVideoQAペアにおける推論のギャップを埋めるものである。

3.1 Video Data Curation

我々は、スケーラブルなデータセットを構築するために、インターネット上の膨大な量のアノテーションされていない動画を活用する。 複雑なセマンティック推論を伴うVideoQAデータセットを構築するためには、適切なデータソースとタイプの選択が不可欠である。図3に示すように、我々は豊かな時間的ダイナミクス、論理的順序、因果関係を含む7つのデータセット[35, 52, 37, 9, 44, 26, 40]から生の動画を収集する。これらの高レベルのセマンティクスは、複雑で一貫性のある質問応答データセットを構築するための強固な基盤を提供する。我々はこれらの動画の推論ポテンシャルを評価するために手動レビューを実施する。データセットには、ニュース、映画、ドキュメンタリー、アニメーション、教育コンテンツなどのジャンルをカバーする多様な動画タイプが含まれている。これらの特性に基づいて、我々は動画推論タスクの様々な次元にわたるモデルの能力を評価するために14141414タスクを事前に定義した。

3.2 Redundancy Removal in Video Frames

Refer to caption
図3: 我々のVideoEspressoデータセットの統計分析。

このモジュールの目的は、動画内の冗長な情報を排除し、簡潔なフレーム列を選択することで本質的なコンテンツを保持することである。動画によってコンテンツやシーンの変化率は異なる。まず、動画の種類に基づいて適切なサンプリング間隔を決定する。例えば、急速に変化する動的なシーンに対しては、FPSを2から4の間に設定し、静的なシーンに対しては、より長いサンプリング間隔を選択し、FPSを1に設定する。次に、QAペアを構築するための入力として動画の詳細な意味情報を捉えるために、InternVL2-8B [7]を使用して、サンプリングされたすべてのフレームに対してフレームレベルのキャプション生成を行う。動画内の冗長なフレームをフィルタリングするために、言語検索モデルBGE-M3 [4]を活用し、詳細な意味フィルタリングを通じて高度に類似したフレームを予備的に除去する。具体的には、サンプリングされたすべてのフレーム説明𝒞𝒞\mathcal{C}caligraphic_Cに対して、隣接するキャプションのテキスト特徴ϕT(c)subscriptitalic-ϕ𝑇𝑐\phi_{T}(c)italic_ϕ start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT ( italic_c )間のコサイン類似度が事前に設定された閾値τ𝜏\tauitalic_τを超える場合、後入れ先出し(LIFO)フィルタリングアプローチを適用する。このプロセスにより、簡潔なキャプション列𝒞superscript𝒞\mathcal{C}^{\prime}caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTと対応するフレームが得られる。 このプロセスは以下のように定式化される:

𝒮𝒮\displaystyle\mathcal{S}caligraphic_S =argmaxci,cj𝒞cos(ϕT(ci),ϕT(cj)),absentsubscriptargmaxsubscript𝑐𝑖subscript𝑐𝑗𝒞subscriptitalic-ϕ𝑇subscript𝑐𝑖subscriptitalic-ϕ𝑇subscript𝑐𝑗\displaystyle=\operatorname*{arg\,max}_{c_{i},c_{j}\in\mathcal{C}}\cos(\phi_{T% }(c_{i}),\phi_{T}(c_{j})),= start_OPERATOR roman_arg roman_max end_OPERATOR start_POSTSUBSCRIPT italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ∈ caligraphic_C end_POSTSUBSCRIPT roman_cos ( italic_ϕ start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT ( italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) , italic_ϕ start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT ( italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) ) , (1)
𝒞𝒞\displaystyle\mathcal{C}caligraphic_C 𝒞(c𝒞,if𝒮(c)<τ),absentsuperscript𝒞formulae-sequence𝑐superscript𝒞if𝒮𝑐𝜏\displaystyle\longrightarrow\mathcal{C}^{\prime}~{}(c\in\mathcal{C}^{\prime},% \text{if}~{}\mathcal{S}(c)<\tau),⟶ caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_c ∈ caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , if caligraphic_S ( italic_c ) < italic_τ ) , (2)

ここで、𝒮𝒮\mathcal{S}caligraphic_Sは類似度行列を表し、ϕT(c)subscriptitalic-ϕ𝑇𝑐\phi_{T}(c)italic_ϕ start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT ( italic_c )はキャプションc𝑐citalic_cの特徴計算を表す。

3.3 Question-Answer Pair Construction

このモジュールは、大規模言語モデル(LLM)の強力な言語推論能力を活用し、ビデオフレームの詳細な説明に基づいて高品質なビデオ推論QAペアを自動的に構築することを目的としている。グループ内の意味的連続性を維持し、過剰なトークン数によって引き起こされるモデルの幻覚や指示に従わない問題を回避するために、我々はフレームを効率化するための連続的なグループ化アプローチを採用する。具体的には、1つのビデオのすべてのキャプション𝒢isubscript𝒢𝑖\mathcal{G}_{i}caligraphic_G start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTについて、連続する15フレームのキャプションを1つのグループ𝒢isubscript𝒢𝑖\mathcal{G}_{i}caligraphic_G start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTにまとめ、フレームレベルの詳細とフレーム間の相関関係の両方を保持する。

Refer to caption
図4: 我々のVideoEspressoとMVbenchのデータセット属性の比較。

複雑な推論QAペアを得るために、我々はLLMがそれらを構築する際にルールに従うようにプロンプトを設計し、反復的に改良する。図2の右上に示すように、我々のプロンプトはGPT-4o [31]に複数フレームの説明に基づいて質問-回答ペアを生成するよう指示し、同時にGPT-4oが説明間の一貫性を維持して複雑なビデオ推論質問を構築することを確保する。 QAペアの品質を向上させるために、我々は追加のLLM [1]を設計し、質問と回答の両方の品質を検証する。これには、QAペアの幻覚の排除、回答の事実的正確性の確認、非常に主観的または評価が困難なオープンエンドの質問に対する回答のフィルタリングが含まれる。最終的に、我々はこれらのビデオに対する高品質な推論QAペアを得て、各QAペアに対応するフレーム順序のグループ化を記録する。

Refer to caption
図5: 2段階ビデオ思考の証拠トレーニング手順。フレームセレクターは小規模なLVLMと小規模なLLMで構成され、ビデオのキャプションを生成し、大規模推論モデルの中核的なビデオトークンとして最も関連性の高いフレームを選択する任務を担う。2段階の教師あり微調整技術が採用される。ステージ1では、モデルが証拠を生成するためのガイドとして一連のキュープロンプトが導入され、ステージ2では、ステージ1で生成された証拠が連結され、直接回答生成のガイドとして使用される。

3.4 Multimodal Chain-of-Thought Annotation

モデルの推論能力をさらに向上させるため、このモジュールは重要な時空間情報を含むマルチモーダルな証拠にアノテーションを付けることに焦点を当てている。まず、3.3節で得られたQ-Aペアを対応するフレームシーケンスと共に入力としてグループ化し、図2の左下に示すプロンプトを設計してGPT-4o [31]が重要な情報を抽出するよう誘導する。疎なコアフレームは質問に答えるのに十分な情報を捉えることができるため、質問に最も関連するコアフレームを取得する必要がある。したがって、我々が設計したプロンプトは主にGPT-4oに以下の重要な情報を抽出するよう誘導する:(1) キャプショングループから、質問に最も関連するキャプション、すなわちコアフレームのキャプションを選択する;(2) これらのキャプションから重要なオブジェクトを抽出する、すなわち重要項目;(3) これらの重要なオブジェクトを自然言語の記述として整理し、質問に答えるための証拠とする、すなわち証拠。推論の次元を拡張するため、我々はこれらの重要な要素に時間的および空間的情報でアノテーションを付ける。空間的アノテーションについては、GroundingDINO [25]を適用してすべての重要項目の周りにバウンディングボックスをマークし、CLIP-ViT-B/32 [32]を活用してバウンディングボックス内のラベルとオブジェクトの一貫性を検証する。時間的アノテーションについては、GPT-4oが生成したコアフレームのキャプション𝒢GPTsubscript𝒢𝐺𝑃𝑇\mathcal{G}_{GPT}caligraphic_G start_POSTSUBSCRIPT italic_G italic_P italic_T end_POSTSUBSCRIPT(1)は文字列レベルで元のキャプションと直接一致しないため、BGE-M3 [4]を使用して元のセット𝒢isubscript𝒢𝑖\mathcal{G}_{i}caligraphic_G start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT内のキャプションを検索し、時間的グラウンディング情報t𝑡titalic_tを取得する。 このプロセスは以下のように定式化される:

t=argmaxkcos(ϕT(cj),ϕT(ck)),𝑡subscript𝑘subscriptitalic-ϕ𝑇subscript𝑐𝑗subscriptitalic-ϕ𝑇subscript𝑐𝑘\displaystyle t=\arg\max_{k}\cos(\phi_{T}(c_{j}),\phi_{T}(c_{k})),italic_t = roman_arg roman_max start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT roman_cos ( italic_ϕ start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT ( italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) , italic_ϕ start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT ( italic_c start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) ) , (3)

ここで、cj𝒢GPTsubscript𝑐𝑗subscript𝒢𝐺𝑃𝑇c_{j}\in\mathcal{G}_{GPT}italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ∈ caligraphic_G start_POSTSUBSCRIPT italic_G italic_P italic_T end_POSTSUBSCRIPTck𝒢isubscript𝑐𝑘subscript𝒢𝑖c_{k}\in\mathcal{G}_{i}italic_c start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ∈ caligraphic_G start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTである。

最終的に、我々は時間的および空間的次元を含むテキストによる証拠とマルチモーダルな重要情報の両方を得る。これらは質問に答えるための中間的な推論ステップとして機能する。

3.5 Data Analysis

3 および図 4において、我々はデータ分析と比較の可視化を提供する。動画内の重要な情報の時間的分布を調査するため、我々はまず異なるタスク間での隣接するキーフレーム間の距離分布を検討する。図3.(a)に示されるように、キーフレーム間の距離分布はタスク間で大きく異なっており、これは動画フレームを均一にサンプリングする従来の戦略が最適ではなく、大きな冗長性をもたらすことを示している。図 3.(b)に示されるように、我々のデータセットのCoTにおけるキーアイテムの数は多様であり、少数から多数の重要な要素まで幅広く含まれており、視覚コンテンツの複雑さと多様性を反映している。 我々のデータセットの独自の特徴に加えて、人気のあるデータセットであるMVBench [20]のQAコンテンツとも比較を行った。 図 4.(a)に示されるように、我々はトークン長の観点からデータセット間の違いを示している。MVBench(右)のQAセットの長さは短く、一方で我々のVideoEspresso(左)の回答セットは平均してはるかに長く、分布においてより大きな多様性を示している。 図 4.(b)に示されるように、我々はさらにVideoEspressoとMVBenchのワードクラウドの比較を提示している。質問セットにおいて、我々のVideoEspressoは視覚的事実に基づく推論を強調しており、「considering」、「based」、「inferred」などのキーワードが見られる。対照的に、MVBenchは「object」、「person」、「action」などの基本的な問い合わせを強調している。回答セットにおいて、VideoEspressoは前述の推論関連のキーワードだけでなく、「Initially」や「Finally」など推論のステップに関連する用語も含んでいる。一方、MVBenchは「object」、「left」、「forward」などのキーワードで、動画内のオブジェクトの定義や空間的関係に焦点を当てている。

4 Hybrid LVLMs Collaboration for VideoQA

VideoEspressoが提供する高品質なビデオQAペアの可能性を最大限に引き出すために、我々は、コスト効率が高く正確なビデオLVLM推論を可能にするハイブリッドLVLM協調による効率的なビデオ推論フレームワークを提案する。図5に示すように、このフレームワークは2つの主要コンポーネントで構成される:入力質問に密接に関連する核心的なフレームを特定する軽量セレクターと、これらの選択された核心的フレームに基づいてコンテンツ理解と推論を行う強力なLVLMである。

4.1 Core Frames Selection via Tiny LVLM

我々は、入力動画から質問に密接に関連するコアフレームを抽出するための軽量セレクターを提案する。従来のキーフレーム抽出手法が主に意味的に類似したフレームをフィルタリングするのに対し、我々のアプローチは多様なタスク要件を満たすために質問駆動型のコアフレームを動的に選択する。これにより、フレームの意味的類似性のみに依存する従来の手法と比較して、大規模モデルに渡されるフレーム数を削減することができる。さらに、このセレクターはあらゆるLVLMの前に挿入可能なプラグアンドプレイモジュールとして機能する。

我々のアーキテクチャは、10億パラメータの軽量LVLMと5億パラメータのLLMを順次セットアップで構成している。LVLMの機能は動画フレームを言語記述に変換することであり、LLMはこれらの記述に基づいて質問に最も関連するフレームを選択する。具体的には、このプロセスは2つのステップで構成される。

(1) フレームキャプショニング:動画V𝑉Vitalic_Vと指定されたフレーム毎秒(FPS)サンプリングレートが与えられると、LVLMはフレームをサンプリングし、各フレームfisubscript𝑓𝑖f_{i}italic_f start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTに対してキャプションcisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを生成する。このプロセスは以下のように定式化できる:

{fi}i=1Nsuperscriptsubscriptsubscript𝑓𝑖𝑖1𝑁\displaystyle\{f_{i}\}_{i=1}^{N}{ italic_f start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT =SampleFrames(V,FPS)absentSampleFrames𝑉FPS\displaystyle=\texttt{SampleFrames}(V,\texttt{FPS})= SampleFrames ( italic_V , FPS ) (4)
{ci}i=1Nsuperscriptsubscriptsubscript𝑐𝑖𝑖1𝑁\displaystyle\{c_{i}\}_{i=1}^{N}{ italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT =LVLM({fi}i=1N)absentLVLMsuperscriptsubscriptsubscript𝑓𝑖𝑖1𝑁\displaystyle=\texttt{LVLM}(\{f_{i}\}_{i=1}^{N})= LVLM ( { italic_f start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT ) (5)

ここで、N𝑁Nitalic_Nはサンプリングされたフレームの総数であり、{ci}i=1Nsuperscriptsubscriptsubscript𝑐𝑖𝑖1𝑁\{c_{i}\}_{i=1}^{N}{ italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTはこれらのフレームのキャプションの集合を表す。

(2) コアフレーム選択:キャプションの集合{ci}i=1Nsuperscriptsubscriptsubscript𝑐𝑖𝑖1𝑁\{c_{i}\}_{i=1}^{N}{ italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTと質問q𝑞qitalic_qを用いて、LLMq𝑞qitalic_qに最も関連するキャプションのサブセットを特定し、コアフレームキャプションの集合{cj}j=1Msuperscriptsubscriptsuperscriptsubscript𝑐𝑗𝑗1𝑀\{c_{j}^{\prime}\}_{j=1}^{M}{ italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPTを生成する:

{cj}j=1M=LLM({ci}i=1N,q)superscriptsubscriptsuperscriptsubscript𝑐𝑗𝑗1𝑀LLMsuperscriptsubscriptsubscript𝑐𝑖𝑖1𝑁𝑞\displaystyle\{c_{j}^{\prime}\}_{j=1}^{M}=\texttt{LLM}(\{c_{i}\}_{i=1}^{N},q){ italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT = LLM ( { italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT , italic_q ) (6)

ここで、MN𝑀𝑁M\leq Nitalic_M ≤ italic_Nであり、{cj}j=1Msuperscriptsubscriptsuperscriptsubscript𝑐𝑗𝑗1𝑀\{c_{j}^{\prime}\}_{j=1}^{M}{ italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPTは質問に関連して選択された最終的なコアキャプションの集合を表す。 このステップではモデルに最小限の推論しか要求されないため、我々は大規模モデルで動画入力を扱う際に過剰なトークン長がもたらす課題に対処するためのコスト効率の高いソリューションを採用している。

4.2 Fine-Grained Reasoning via LVLM

第一段階で抽出されたキーフレームを基に、我々の目標は、複雑な推論タスクに対して効果的にマルチモーダルな時空間的証拠を活用できるようモデルを強化することである。我々は2段階の教師あり微調整パラダイムを設計した。第一段階では、質問に関連する動画データから重要な視覚的証拠を抽出するようモデルを導き、より深い推論の基礎を確立する。これは、「質問に答えるのに役立つ証拠を提供してください。」のような指示を用いた教師あり微調整によって達成される。 この証拠に基づく生成プロセスは、核心的な情報をフィルタリングするだけでなく、マルチモーダルな整合性を向上させ、後続の推論タスクのためにモデルを準備する。

第二段階では、抽出されたマルチモーダルな証拠に基づいて直接回答を生成するようモデルをさらに微調整する。 これは、「証拠を参考に質問に答えてください。」のような指示を用いた教師あり微調整によって達成される。従来の単一段階の質問応答手法とは異なり、この2段階構造は証拠生成と回答生成を分離し、推論の透明性を高め、応答の正確性を向上させる。さらに、複雑な時空間推論のためにモデルが段階的にマルチモーダル情報を統合することを保証し、より論理的に一貫性のある回答を生成することで、動画質問応答タスクにおけるパフォーマンスを大幅に向上させる。

4.3 Inference

推論段階では、まず軽量セレクターを使用して、質問に密接に関連する動画の核心的なフレームを抽出し、後続の推論の入力として使用する。次に、詳細な推論LVLMを活用し、思考連鎖プロセスを通じて最終的な回答生成を支援する証拠を生成する。このワークフローにより、フレーム選択から回答生成まで、効率的な質問応答が可能となる。

  Models #Frames Param TFLOPs Narra. Event Ingre. Causal Theme Conte. Influ. Role Inter. Behav. Emoti. Cook. Traff. Situa. Avg.
Closed-source LVLMs
GPT-4o [31] FPS=3 - - 32.3 16.7 25.5 22.8 32.8 27.5 37.5 28.6 24.2 19.3 30.8 30.2 20.0 22.0 26.4
Qwen-VL-Max [3] FPS=3 - - 33.9 22.4 23.5 21.4 26.2 30.3 41.7 30.2 27.4 26.3 20.0 20.8 16.7 24.0 26.0
Opened-source LVLMs
LLaVA-1.5 [23] 4 7B 14.50 32.3 21.3 19.4 17.1 26.2 20.2 36.1 33.3 21.0 21.1 20.0 35.8 16.7 18.0 24.2
InternVL2 [7] FPS=1 8B 73.23 33.9 24.1 27.6 24.4 42.6 33.0 45.8 28.6 19.4 22.8 21.5 34.0 20.0 24.0 28.7
LLaVA-N-Inter [17] FPS=1 7B 62.78 24.2 23.6 26.5 19.2 31.1 32.1 31.9 17.5 24.2 21.1 26.2 30.2 13.3 20.0 24.4
Qwen2-VL [3] FPS=1 7B 64.60 27.4 23.0 24.5 23.5 29.5 31.2 47.2 31.7 22.6 28.1 40.0 22.6 30.0 18.0 28.5
LongVA-DPO [49] 128 7B 465.4 35.5 14.9 16.3 19.0 34.4 22.0 37.5 23.8 29.0 22.8 20.0 37.7 16.7 12.0 24.4
mPLUG-Owl3 [46] FPS=1 7B 89.78 30.6 23.6 20.4 22.3 37.7 29.4 48.6 34.9 30.6 24.6 27.7 24.5 13.3 24.0 28.0
LLaVA-N-Video [50] FPS=1 7B 60.42 31.2 20.2 16.2 17.6 36.5 32.7 30.6 24.5 26.4 24.5 34.7 20.8 20.3 17.0 25.2
Ours 2.36 8.5B 9.26 45.2 27.0 33.7 26.1 39.3 36.7 55.6 41.3 30.6 29.8 30.8 35.8 20.0 26.0 34.1
表1: 我々の客観的ベンチマークにおける主要結果。 クローズドソースおよびオープンソースのLVLMと我々の結果を報告する。タスク評価の構築プロセスは補足資料に示されている。TFLOPsは、同じ16秒の動画入力で測定された推論の総計算コストを指す。

5 Experiments

Models Log. Fac. Acc. Con. Overall
Closed-source LVLMs
GPT-4o 73.15 63.11 61.66 70.02 66.13
Qwen-VL-Max 62.46 50.33 48.43 60.21 53.37
Open-source LVLMs
LLaVA 1.5 60.53 49.56 49.93 62.1 52.12
InternVL2 70.64 56.32 54.53 66.76 60.05
LLaVA-N-inter 63.27 52.34 48.45 66.78 55.16
Qwen2-VL-7B 66.31 53.67 50.84 68.88 57.66
LongVA-7B-DPO 67.98 54.72 52.78 58.38 57.19
mPLUG-Owl3 66.14 53.05 50.97 67.3 57.14
LLaVA-N-Video 63.42 54.11 49.55 63.31 56.43
Ours 72.25 61.28 59.68 75.73 65.84
表2: 主観的ベンチマークの結果。 我々は論理性(Log.)、事実性(Fac.)、記述の正確性(Acc.)、簡潔性(Con.)の指標を報告する。

5.1 Overview of the Evaluation Benchmark

我々のVideoEspressoは14の事前定義されたタスクを含み、各構築されたQAペアはGPT-4oを使用して対応するタスクに照合されます。適切なタスクの整合性が見つからない場合、そのペアは「その他」に分類されます。包括的なベンチマークを確立するために、定義されたタスクは時間、論理、場面、行動、状態など多様な視点を網羅しており、「イベントダイナミクス」、「因果分析」、「テーマ分析」などの例で示されています。さらに、このフレームワークは「調理プロセス」や「交通分析」などの実世界のアプリケーションタスクも組み込んでいます。このベンチマークは、客観的および主観的評価を通じてLVLMsの性能を評価し、その能力の多面的な分析を提供します。

実験設定。 VideoQAタスクにおけるLVLMsの能力を包括的に評価するために、我々は以下を選択しました:(1) GPT-4o [31]やQwen-VL-Max [3]などのクローズドソースの大規模モデル;(2) InternVL [7]やQwen2-VL [3]など、ビデオベンチマークで強力なビデオ能力を主張する汎用LVLMs;(3) LongVA [49]やmPLUG-Owl3 [46]などの人気のあるビデオLVLMs。報告される精度の公平性を確保するために、ビデオフレームのサンプリング方式、温度、その他のパラメータは元の論文の設定に従っています。さらに、出力の最大トークン長を512512512512に標準化しています。我々のモデルトレーニングの詳細として、学習率は2222e-5555に設定し、ウォームアップ率は0.030.030.030.03で、グローバルバッチサイズ16161616で1エポックトレーニングしています。トレーニングと評価プロセスは8台のNVIDIA-A100 GPUで実施されています。

評価。 LVLMsのオープンエンドな応答をより正確に評価するために、我々は細粒度の意味的類似性に基づく2段階評価方法を提案します。第1段階では、モデルの出力と参照回答との意味的類似性を評価します。類似性が80%percent8080\%80 %を超える場合、その出力は意味的観点から潜在的に正しいと見なされます。第2段階では、各参照回答に対して3つの高度に紛らわしい妨害要素を導入します。その後、モデルの出力と各妨害要素との類似性を計算します。いずれかの妨害要素との類似性がモデルの出力と参照回答との類似性を上回る場合、その応答は不正確とみなされます。両方の段階をパスした場合のみ、出力は正確と分類されます。

同時に、我々は論理性、事実性、記述の正確さ、簡潔さなど、複数の次元にわたって生成されたコンテンツを評価することで主観的評価を組み込んでいます。これを促進するために、我々はGPT-4o [31]に真実に基づいてモデルの出力を1から10101010のスケールで評価させ、総合スコアを提供する評価フレームワークを設計しました。さらに、評価中にオプションを直接モデルに入力しないことで、潜在的な情報漏洩を効果的に防いでいます。最後に、VideoEspressoデータセット全体にわたる各タスクの精度を報告します。

設定 精度 ベースライン 34.13 GT-CoT 72.95+38.82subscript72.9538.8272.95_{{\color[rgb]{0,0.88,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.88,0% }\pgfsys@color@cmyk@stroke{0.91}{0}{0.88}{0.12}\pgfsys@color@cmyk@fill{0.91}{0% }{0.88}{0.12}+38.82}}72.95 start_POSTSUBSCRIPT + 38.82 end_POSTSUBSCRIPT Bboxなし 33.140.99subscript33.140.9933.14_{{\color[rgb]{0.68359375,0.13671875,0.08984375}\definecolor[named]{% pgfstrokecolor}{rgb}{0.68359375,0.13671875,0.08984375}-0.99}}33.14 start_POSTSUBSCRIPT - 0.99 end_POSTSUBSCRIPT CoTなし 31.322.81subscript31.322.8131.32_{{\color[rgb]{0.68359375,0.13671875,0.08984375}\definecolor[named]{% pgfstrokecolor}{rgb}{0.68359375,0.13671875,0.08984375}-2.81}}31.32 start_POSTSUBSCRIPT - 2.81 end_POSTSUBSCRIPT

表3: 異なるCoT戦略に関するアブレーション研究。 GTは「ground truth(正解)」を意味する。

セレクタ フレーム数 追加 GPU時間 推論メモリ 精度 均一 8 - - 0G + 14G + 40G 33.7433.7433.7433.74 GT 2.98 - - 0G + 14G +15G 37.54+3.80subscript37.543.8037.54_{{\color[rgb]{0,0.88,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.88,0% }\pgfsys@color@cmyk@stroke{0.91}{0}{0.88}{0.12}\pgfsys@color@cmyk@fill{0.91}{0% }{0.88}{0.12}+3.80}}37.54 start_POSTSUBSCRIPT + 3.80 end_POSTSUBSCRIPT 1B/1.5B 2.77 2.5B 1.33 5G +14G +14G 34.76+1.02subscript34.761.0234.76_{{\color[rgb]{0,0.88,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.88,0% }\pgfsys@color@cmyk@stroke{0.91}{0}{0.88}{0.12}\pgfsys@color@cmyk@fill{0.91}{0% }{0.88}{0.12}+1.02}}34.76 start_POSTSUBSCRIPT + 1.02 end_POSTSUBSCRIPT 1B/0.5B 2.36 1.5B 0.37 3G +14G +12G 34.13+0.29subscript34.130.2934.13_{{\color[rgb]{0,0.88,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.88,0% }\pgfsys@color@cmyk@stroke{0.91}{0}{0.88}{0.12}\pgfsys@color@cmyk@fill{0.91}{0% }{0.88}{0.12}+0.29}}34.13 start_POSTSUBSCRIPT + 0.29 end_POSTSUBSCRIPT

表4: セレクタに関するアブレーション研究。 GTは核となるフレームアノテーションの正解時間を指す。「1B/1.5B」はセレクタがInternVL2-1BとQwenLM-1.5Bで構成されていることを表し、「1B/0.5B」も同様である。追加はパラメータの追加を意味する。

5.2 Results on Benchmark

客観的評価結果。 我々は7777のオープンソースと2222のクローズドソースLVLMを14141414の動画推論タスクで客観的に評価した。 表1に示すように、我々の手法は12121212のタスクにおいて最先端の性能を達成し、平均精度は34.1%percent34.134.1\%34.1 %である。この性能は、最高性能のオープンソースモデルであるInternVL2 [7]とクローズドソースのGPT-4o [31]をそれぞれ5.4%percent5.45.4\%5.4 %7.7%percent7.77.7\%7.7 %上回っている。我々が選択したバックボーンであるLLaVA-Next-interleaveと比較すると、推論指示でファインチューニングした後の性能は約10%percent1010\%10 %向上している。動画推論QAにおける優位性に加えて、我々の手法は効率性においても先導的である。具体的には、入力フレームの平均数はLongVA-DPO [49]が使用するものの1.8%percent1.81.8\%1.8 %に過ぎず、同じ動画入力で計算されるFLOPsはLLaVA-Next-interleaveの14.74%percent14.7414.74\%14.74 %に過ぎない。特筆すべきは、InternVL2とLongVA-DPOが「テーマ分析」と「調理プロセス」のタスクで優れているが、これは訓練過程で同種の大規模データに触れたことが原因である可能性が高い。

主観的評価結果。 我々は、論理的一貫性、事実性、正確性、簡潔性の4つの側面にわたって、主観的評価においてLVLMsの回答の質を評価した。表2に示すように、結果は客観的評価からの観察と密接に一致している。GPT-4oは、その堅固な言語推論能力と広範な事前知識により、論理的推論と事実の正確性の両方で強力な性能を示している。しかし、すべてのオープンソースLVLMsの中で、我々の手法は表に示されているアプローチを4つの次元すべてにおいて上回っている。特に、簡潔性の評価では、我々の手法はGPT-4oを5%percent55\%5 %上回っており、動画推論能力の向上における我々のVideoEspressoデータセットの重要な貢献をさらに実証している。

5.3 Ablation Study

CoTに関するアブレーション。4の我々の結果は、CoT証拠における視覚的接地の有効性をさらに証明している。さらに、CoTの真値とCoTプロセスのアブレーションを含む実験は、視覚タスクの性能向上におけるCoTの可能性をさらに示している。CoTの真値によって達成された性能向上は顕著であり、LVLMに推論QA能力を付与することの重要性を強調している。

セレクターに関するアブレーション。4に示すように、我々は異なるセレクターの組み合わせ設定下でアブレーション実験を行った。具体的には、InternVL2-1B [7] +++ QwenLM-1.5B [2]およびInternVL2-1B +++ QwenLM-0.5Bである。この一連の実験において、我々のコアフレーム選択は、均一サンプリング法と比較して、ビデオ理解能力を大幅に向上させた。異なるサイズのセレクターによってメモリ使用量が3GBまたは5GB増加する可能性があるが、冗長なキーフレームトークンの最適化により、メモリ使用量が26-28GB削減され、全体的なビデオ理解効率が大幅に向上した。我々はまた、LLaVA-Next-interleave-0.5B [17]やQwen-VL-1.5B [3]などのより軽量なLVLMもテストした。しかし、結果は期待に沿わなかった。これは、小規模なLVLMが処理する画像トークンが多すぎ、それらを効果的に処理する能力を超えていたためである可能性が高い。

5.4 Adapting Selector to other LVLMs

  Model Sample #Frame RatiotoksubscriptRatio𝑡𝑜𝑘\textbf{Ratio}_{tok}Ratio start_POSTSUBSCRIPT italic_t italic_o italic_k end_POSTSUBSCRIPT TFLOPs Acc.
  GPT-4o Uniform 16 1 - 26.86
GPT-4o 1B/0.5B 2.77 0.17 - 28.26
GPT-4o 1B/1.5B 2.36 0.15 - 29.45
InternVL2 Uniform 16 1 73.23 28.57
InternVL2 1B/0.5B 2.77 0.17 12.68 29.23
InternVL2 1B/1.5B 2.36 0.15 10.80 30.03
LongVA Uniform 128 1 465.44 24.41
LongVA 1B/0.5B 2.77 0.02 10.07 23.18
LongVA 1B/1.5B 2.36 0.02 8.58 23.85
LLaVA-N-i Uniform 16 1 62.78 24.37
LLaVA-N-i 1B/0.5B 2.77 0.17 10.86 24.20
LLaVA-N-i 1B/1.5B 2.36 0.15 9.26 24.26
 
表5: セレクター採用による評価結果。

我々はさらに、抽出されたコアフレームが他のモデルにゼロショットで効果的に一般化できるかを探るため、セレクターを他のLVLMに適用した。表5に示すように、GPT-4oおよび複数のオープンソースLVLMにおいてこの手法の性能を評価した。結果は性能の向上と入力フレーム数の削減を示しており、GPT-4oとInternVL2の両方でフレーム入力が約15%percent1515\%15 %減少した。他の2つのモデルについては、実験によりセレクターの導入が性能にわずかな損失をもたらすものの、フレーム入力に大幅な利得をもたらすことが示された。特筆すべきは、LongVAがフレーム入力を98%percent9898\%98 %削減したことであり、これは我々が提案するセレクターがプラグアンドプレイモジュールとして、LLMにおける推論の計算オーバーヘッドの削減に依然として寄与することを強調している。

6 Conclusion

本稿では、既存のデータセットの規模と粒度の面での限界に対処し、ビデオ推論を向上させるために設計された新しいデータセットVideoEspressoを提示した。我々のアプローチは、意味論的に認識されたキーフレーム抽出を採用し、GPT-4oを活用して思考の連鎖の証拠を伴う細粒度のVideoQAペアを生成する。ハイブリッドLVLMs協調フレームワークを統合することで、我々は費用対効果が高く正確なビデオ推論を実現し、提案したベンチマークの大半のタスクにおいてベースラインモデルを上回る性能を達成した。VideoEspressoは、高度なマルチモーダル理解を促進する豊富なアノテーションを提供し、ビデオ推論における新たな出発点を設定している。我々の貢献が、複雑なビデオ推論の課題に取り組むことができるより洗練されたモデルの将来の探求と開発を促進することを期待している。

References

  • Anthropic [2024] Anthropic. The claude 3 model family: Opus, sonnet, haiku. 2024.
  • Bai et al. [2023a] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023a.
  • Bai et al. [2023b] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. ArXiv preprint, 2023b.
  • Chen et al. [2024a] Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, and Zheng Liu. Bge m3-embedding: Multi-lingual, multi-functionality, multi-granularity text embeddings through self-knowledge distillation. arXiv preprint arXiv:2402.03216, 2024a.
  • Chen et al. [2024b] Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, et al. Sharegpt4video: Improving video understanding and generation with better captions. arXiv preprint arXiv:2406.04325, 2024b.
  • Chen et al. [2024c] Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, et al. Panda-70m: Captioning 70m videos with multiple cross-modality teachers. arXiv preprint arXiv:2402.19479, 2024c.
  • Chen et al. [2023] Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, and Jifeng Dai. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023.
  • Dao et al. [2022] Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. Flashattention: Fast and memory-efficient exact attention with io-awareness. Advances in Neural Information Processing Systems, 35:16344–16359, 2022.
  • Du et al. [2024] Hang Du, Sicheng Zhang, Binzhu Xie, Guoshun Nan, Jiayang Zhang, Junrui Xu, Hangyu Liu, Sicong Leng, Jiangming Liu, Hehe Fan, et al. Uncovering what why and how: A comprehensive benchmark for causation understanding of video anomaly. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18793–18803, 2024.
  • Fei et al. [2024] Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Meishan Zhang, Mong-Li Lee, and Wynne Hsu. Video-of-thought: Step-by-step video reasoning from perception to cognition. In Forty-first International Conference on Machine Learning, 2024.
  • Gao et al. [2023] Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, and Yu Qiao. Llama-adapter v2: Parameter-efficient visual instruction model. ArXiv preprint, 2023.
  • Gemini Team [2023] Gemini Team. Gemini: a family of highly capable multimodal models. ArXiv preprint, 2023.
  • Hu et al. [2022] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022, 2022.
  • Jin et al. [2023] Peng Jin, Ryuichi Takanobu, Caiwan Zhang, Xiaochun Cao, and Li Yuan. Chat-univi: Unified visual representation empowers large language models with image and video understanding. ArXiv preprint, 2023.
  • Lei et al. [2018] Jie Lei, Licheng Yu, Mohit Bansal, and Tamara Berg. TVQA: Localized, compositional video question answering. In EMNLP, 2018.
  • Li et al. [2024a] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326, 2024a.
  • Li et al. [2024b] Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, and Chunyuan Li. Llava-next-interleave: Tackling multi-image, video, and 3d in large multimodal models. arXiv preprint arXiv:2407.07895, 2024b.
  • Li et al. [2023a] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023a.
  • Li et al. [2023b] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. ArXiv preprint, 2023b.
  • Li et al. [2023c] Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, et al. Mvbench: A comprehensive multi-modal video understanding benchmark. ArXiv preprint, 2023c.
  • Li et al. [2021] Linjie Li, Jie Lei, Zhe Gan, Licheng Yu, Yen-Chun Chen, Rohit Pillai, Yu Cheng, Luowei Zhou, Xin Eric Wang, William Yang Wang, et al. Value: A multi-task benchmark for video-and-language understanding evaluation. In 35th Conference on Neural Information Processing Systems (NeurIPS 2021) Track on Datasets and Benchmarks, 2021.
  • Li et al. [2023d] Yanwei Li, Chengyao Wang, and Jiaya Jia. Llama-vid: An image is worth 2 tokens in large language models. ArXiv preprint, 2023d.
  • Liu et al. [2023a] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning, 2023a.
  • Liu et al. [2023b] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. ArXiv preprint, 2023b.
  • Liu et al. [2023c] Siyi Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chun yue Li, Jianwei Yang, Hang Su, Jun-Juan Zhu, and Lei Zhang. Grounding dino: Marrying dino with grounded pre-training for open-set object detection. ArXiv preprint, 2023c.
  • Ma et al. [2023] Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, and Siyuan Huang. Sqa3d: Situated question answering in 3d scenes. In International Conference on Learning Representations, 2023.
  • Maaz et al. [2024] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024), 2024.
  • Mangalam et al. [2024] Karttikeya Mangalam, Raiymbek Akshulakov, and Jitendra Malik. Egoschema: A diagnostic benchmark for very long-form video language understanding. In NeurIPS, 2024.
  • OpenAI [2022] OpenAI. Introducing chatgpt. 2022.
  • OpenAI [2023] OpenAI. Gpt-4 technical report, 2023.
  • OpenAI [2024] OpenAI. GPT-4o system card, 2024.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
  • Ren et al. [2023] Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, and Lu Hou. Timechat: A time-sensitive multimodal large language model for long video understanding. ArXiv preprint, 2023.
  • Shao et al. [2024] Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, and Hongsheng Li. Visual cot: Unleashing chain-of-thought reasoning in multi-modal language models. arXiv preprint arXiv:2403.16999, 2024.
  • Song et al. [2023] Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, et al. Moviechat: From dense token to sparse memory for long video understanding. arXiv preprint arXiv:2307.16449, 2023.
  • Song et al. [2015] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. Tvsum: Summarizing web videos using titles. In 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5179–5187, 2015.
  • Wang et al. [2019] Xin Wang, Jiawei Wu, Junkun Chen, Lei Li, Yuan-Fang Wang, and William Yang Wang. Vatex: A large-scale, high-quality multilingual dataset for video-and-language research. In Proceedings of the IEEE/CVF international conference on computer vision, pages 4581–4591, 2019.
  • Wang et al. [2024] Yan Wang, Yawen Zeng, Jingsheng Zheng, Xiaofen Xing, Jin Xu, and Xiangmin Xu. Videocot: A video chain-of-thought dataset with active annotation tool. arXiv preprint arXiv:2407.05355, 2024.
  • Wu and Xie [2024] Penghao Wu and Saining Xie. V?: Guided visual search as a core mechanism in multimodal llms. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13084–13094, 2024.
  • Wu et al. [2020] Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu, and Zhiwei Yang. Not only look, but also listen: Learning multimodal violence detection under weak supervision. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXX 16, pages 322–339. Springer, 2020.
  • Xiao et al. [2021] Junbin Xiao, Xindi Shang, Angela Yao, and Tat-Seng Chua. Next-qa: Next phase of question-answering to explaining temporal actions. In CVPR, pages 9777–9786, 2021.
  • Xiao et al. [2023] Junbin Xiao, Yao Angela, Yicong Li, and Tat-Seng Chua. Can i trust your answer? visually grounded video question answering. In arXiv, page preprint, 2023.
  • Xu et al. [2017] Dejing Xu, Zhou Zhao, Jun Xiao, Fei Wu, Hanwang Zhang, Xiangnan He, and Yueting Zhuang. Video question answering via gradually refined attention over appearance and motion. In ACM Multimedia, 2017.
  • Yang et al. [2024] Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, and Yingcong Chen. Seed-story: Multimodal long story generation with large language model. arXiv preprint arXiv:2407.08683, 2024.
  • Yang et al. [2023] Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, and Lijuan Wang. Mm-react: Prompting chatgpt for multimodal reasoning and action. arXiv preprint arXiv:2303.11381, 2023.
  • Ye et al. [2024] Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, and Jingren Zhou. mplug-owl3: Towards long image-sequence understanding in multi-modal large language models. arXiv preprint arXiv:2408.04840, 2024.
  • Yu et al. [2019] Zhou Yu, Dejing Xu, Jun Yu, Ting Yu, Zhou Zhao, Yueting Zhuang, and Dacheng Tao. Activitynet-qa: A dataset for understanding complex web videos via question answering. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 9127–9134, 2019.
  • Zhang et al. [2023a] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. ArXiv preprint, 2023a.
  • Zhang et al. [2024a] Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, and Ziwei Liu. Long context transfer from language to vision. arXiv preprint arXiv:2406.16852, 2024a.
  • Zhang et al. [2024b] Yuanhan Zhang, Bo Li, haotian Liu, Yong jae Lee, Liangke Gui, Di Fu, Jiashi Feng, Ziwei Liu, and Chunyuan Li. Llava-next: A strong zero-shot video understanding model, 2024b.
  • Zhang et al. [2023b] Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, and Alex Smola. Multimodal chain-of-thought reasoning in language models. arXiv preprint arXiv:2302.00923, 2023b.
  • Zhou et al. [2018] Luowei Zhou, Chenliang Xu, and Jason Corso. Towards automatic learning of procedures from web instructional videos. In Proceedings of the AAAI Conference on Artificial Intelligence, 2018.

Appendix A Details of VideoEspresso

Benchmark Core Frames CoT # Questions
How2QA [21] 2,852
ActivityNet-QA [47] 8,000
NExT-QA [41] 8,564
MovieChat [35] 13,000
TVQA [15] 15,253
MSRVTT-QA [43] 72,821
VideoCoT [38] T 11,182
VideoEspreeso T&V 203,546
表6: ビデオQAデータセットの比較TVは、それぞれCoTにおけるテキスト要素と視覚要素を表す。

データセットの比較。既存のVideoQAデータセット[21, 47, 41, 35, 15, 43, 38]は手動アノテーションによって制限されており、LVLMトレーニングの需要を満たすためにスケールアップすることが困難である。対照的に、我々が提案するデータセットであるVideoEspressoは、20万以上の質問-回答ペアを含んでおり(表6)、データセットの規模を大幅に拡大している。さらに、我々はビデオ内の高度に関連性のある核心的なフレームにアノテーションを付け、時間情報の細粒度な表現を提供している。VideoCoT [38]がテキストレベルの思考の連鎖(CoT)のみを導入しているのに対し、本稿では先行研究の欠点に対処し、CoTプロセスに視覚要素を組み込んでいる。

Task # Train Set # Test Set
Causal Inference 87,009 426
Contextual Interpretation 20,057 109
Event Process 29,227 174
Interaction Dynamics 7,322 62
Behavior Profiling 660 57
Emotional Recognition 3,505 65
Influence Tracing 5,749 72
Role Identification 9,134 63
Narrative Structuring 3,940 62
Thematic Insight 10,650 61
Situational Awareness 1,018 50
Cooking Steps 276 53
Ingredient Details 22,552 98
Traffic Analysis 1,065 30
Total 202,164 1,382
表7: VideoEspressoにおけるタスク分布とデータセット分割

データセットの詳細。7に示すように、VideoEspressoは14のタスクで構成されており、訓練セットとテストセットは特定の比率で分割されている。各タスクの詳細な質問設計は表9に示されている。 図6に示すように、従来のビデオQAデータセットは動画のすべてのフレームを等間隔でサンプリングしている。対照的に、VideoEspressoは質問に高い関連性を持つ動画の核心的なフレームのみに焦点を当てている。従来のビデオQAタスクが主に動画内の行動や参加者を問うことに重点を置いているのとは異なり、我々のデータセットは複雑な時間的・文脈的関係のより深い理解を必要とする、精緻な論理的推論を優先している。さらに、Chain-of-Thought推論プロセス内に統合されたマルチモーダルな証拠の分析は、生成される回答の正確性と堅牢性を向上させ、包括的な文脈理解に基づいた回答を保証している。

config Stage1 Stage2
  input resolution 224 224
max token length 6144 6144
LoRA True
weight ratio 0.02
learning rate schedule cosine decay
learning rate 2e-5 1e-5
batch size 16
warmup epochs 0.03 0.03
total epochs 1 1
表8: 異なるステージにおける訓練ハイパーパラメータ
Logical Reasoning
Causal Inference How did the actions of the robot and display on the screen contribute to the successful resolution in the control room?
Contextual Interpretation How does the presence of the small cat and George’s exploration relate to the chef’s activities?
Event Process What transition do the rabbits experience from the time the moon rose to when they drift off to sleep?
Social Understanding
Interaction Dynamics Considering the atmosphere and expressions depicted, what can be concluded about the progression of the interaction between the man and the woman?
Behavior Profiling Discuss how the actions of the baby triceratops with different dinosaurs reveal aspects of its behavior and the responses of the other dinosaurs.
Emotional Recognition How does the emotional journey of the small purple dinosaur from feeling lost to excitement tie into the group’s decision to explore the cave?
Influence Tracing How did the presence of the dolphin and the sea monster influence the dinosaurs’ experience at the waterbody?
Discourse Comprehension
Role Identification How does the woman’s role in coordinating town safety relate to the device’s activation with a green checkmark and an orange flame?
Narrative Structuring Considering the changes between the two frames, what can you infer about the narrative progression between the two depicted scenes?
Thematic Insight How do the changing production logos contribute to the thematic preparation for the viewer before the main storyline begins?
Situational Awareness Based on the sequence of events, how does the situation described contribute to the visual effect observed in the third frame?
Reality Application
Cooking Steps Considering the sequence of actions, what cooking technique is being employed, and how is it crucial for the fried chicken?
Ingredient Details If the person is preparing chili con carne, what is the purpose of the liquid being poured into the pan?
Traffic Analysis Analyze the potential destinations of the visible vehicles based on their types and cargo as inferred from the images.
表9: 我々が提案するタスクカテゴリーと質問プロトタイプ。
Refer to caption
図6: VideoEspressoと他のビデオQAデータセットとの比較。

Appendix B Training Implementation

異なる訓練段階で使用されたハイパーパラメータをTab. 8に示す。これはLLaVA-Nextアーキテクチャ[24, 17]に従っている。両段階において、我々は多様な指示データを活用し、ランク16、アルファ値32、ドロップアウト率0.1のLoRAモジュール[13]をLLMに統合している。訓練プロセスを加速するためにフラッシュアテンション[8]を適用している。

Appendix C Prompt Details

本節では、データ生成パイプラインで使用された完全なプロンプトセットと、主観的評価に用いられたプロンプトを提示する。具体的には、図7のQA構築用プロンプト、図8の低品質QAペアのフィルタリング用プロンプト、図9のCoT証拠構築用プロンプト、そして図10の主観的評価用プロンプトが含まれる。

Refer to caption
図7: QA構築プロンプト。
Refer to caption
図8: QAフィルタープロンプト。
Refer to caption
図9: CoT証拠構築プロンプト。
Refer to caption
図10: 主観的評価プロンプト。

Appendix D Evaluation Analysis

テストセットの構築。 すべての質問において、我々は正解と同様の文脈的関連性と類似した言語構造を維持しつつ、明確な事実の不正確さを提示する3つの錯乱選択肢を考案した。これにより、客観的プロセスの堅牢性を高めている。さらに、客観評価の第二段階における大きなトークン長の差異から生じる潜在的バイアスを軽減するため、我々はGPT-4o [31] を用いて長さを標準化し、各質問のすべての回答選択肢間で均衡のとれた分布を確保した(図 12 に示す)。

客観評価の詳細。 アルゴリズム 1 に示すように、我々の客観評価は2つの異なるステップに分かれている。第一ステップでは、モデルの出力 O𝑂Oitalic_O と参照回答 R𝑅Ritalic_R の間の意味的類似度が計算される。類似度スコア SRsubscript𝑆𝑅S_{R}italic_S start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT が事前に定められた閾値 tau=80%𝑡𝑎𝑢percent80tau=80\%italic_t italic_a italic_u = 80 % を下回る場合、出力は不正解とみなされる。第二ステップでは、各参照回答に対して慎重に選択された3つの錯乱選択肢 {D1,D2,D3}subscript𝐷1subscript𝐷2subscript𝐷3\{D_{1},D_{2},D_{3}\}{ italic_D start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT } が導入される。モデルの出力と各錯乱選択肢との間の意味的類似度 SDisubscript𝑆subscript𝐷𝑖S_{D_{i}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUBSCRIPT が計算される。いずれかの錯乱選択肢の類似度スコア SDisubscript𝑆subscript𝐷𝑖S_{D_{i}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUBSCRIPTSRsubscript𝑆𝑅S_{R}italic_S start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT を超える場合、出力は不正解に分類される。両方のステップの基準を満たす出力のみが最終的に正解として分類される。

テストセットの分析。11 に示すように、我々はテストセット内の参照回答と錯乱選択肢の例を提示している。図では、錯乱選択肢の事実の不正確さを赤色の注釈で強調し、正解を明確性と強調のために緑色で明確に示している。 図 12 に示すように、参照回答と最長の錯乱選択肢間のトークン長の差異は、主に [10,+10]1010[-10,+10][ - 10 , + 10 ] の区間に限定されており、正解と錯乱選択肢の長さの差異が比較的小さいことを示している。分布はy軸に沿ってほぼ対称であり、バランスの取れたパターンを示している:約半数のケースで参照回答が錯乱選択肢より長く、残りのケースでは錯乱選択肢の方が長い。

アルゴリズム1 オープンエンド型出力の客観的評価
1:モデル出力 O𝑂Oitalic_O、参照回答 R𝑅Ritalic_R、 閾値 τ=80%𝜏percent80\tau=80\%italic_τ = 80 %、ディストラクター {D1,D2,D3}subscript𝐷1subscript𝐷2subscript𝐷3\{D_{1},D_{2},D_{3}\}{ italic_D start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT }
2:評価結果: 正解または不正解
3: \triangleright ステップ1: 意味的類似度評価
4:意味的類似度 SR=Sim(O,R)subscript𝑆𝑅Sim𝑂𝑅S_{R}=\text{Sim}(O,R)italic_S start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT = Sim ( italic_O , italic_R ) を計算する
5:もし SR<τsubscript𝑆𝑅𝜏S_{R}<\tauitalic_S start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT < italic_τ ならば
6: 返却: 不正解
7:終了 もし
8: \triangleright ステップ2: 紛らわしいディストラクター分析
9:各ディストラクター Disubscript𝐷𝑖D_{i}italic_D start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT in {D1,D2,D3}subscript𝐷1subscript𝐷2subscript𝐷3\{D_{1},D_{2},D_{3}\}{ italic_D start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT } に対して
10: 意味的類似度 SDi=Sim(O,Di)subscript𝑆subscript𝐷𝑖Sim𝑂subscript𝐷𝑖S_{D_{i}}=\text{Sim}(O,D_{i})italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUBSCRIPT = Sim ( italic_O , italic_D start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) を計算する
11: もし SDi>SRsubscript𝑆subscript𝐷𝑖subscript𝑆𝑅S_{D_{i}}>S_{R}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUBSCRIPT > italic_S start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT ならば
12: 返却: 不正解
13: 終了 もし
14:終了
15:返却: 正解
Refer to caption
図11: テストセットの例。 R𝑅Ritalic_R は参照回答を表し、Disubscript𝐷𝑖D_{i}italic_D start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTi𝑖iitalic_i 番目のディストラクターを表す。
Refer to caption
図12: 分布:参照回答と最長の錯乱選択肢間のトークン長の差異。

Appendix E Case Study

VideoEspressoを活用することで、LVLMはビデオ理解における細粒度の推論タスクで優れた性能を示している。図13に示すように、GPT-4oは一見豊かで妥当な回答を生成し、象や猿の行動に関する詳細な分析を含んでいるが、「そして樹皮を剥いだり根を掘り起こしたりするためにその牙を使用する」や「社会的採餌」といった、ビデオと無関係な情報を大量に含んでいる。これにより、視覚的に根拠のある出力の割合が低下している。この問題は図14でより顕著であり、GPT-4oは細かなフレーム間の関係を考慮できていないために誤った推論に基づいて広範な分析を行っている。例えば、「ジャケットに煤や焼け跡、その他の損傷が目に見えて付いている場合、その人物が火に近づいていたことを示唆している。」といった具合である。これらの例から、我々はビデオ推論QAタスクにおける視覚情報の重要な役割を強調している。

Refer to caption
図13: GPT-4oによる過剰分析の例。
Refer to caption
図14: GPT-4oによる事実に基づかない応答の例。