arXiv	https://arxiv.org/abs/2412.04424
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

Jiuhai Chen¹, Jianwei Yang², Haiping Wu², Dianqi Li, Jianfeng Gao², Tianyi Zhou¹, Bin Xiao²
¹University of Maryland
²Microsoft Research

The work is done during Jiuhai Chen’s internship at Microsoft Research.

Abstract

我々は、生成的視覚基盤モデルであるFlorence-2 [45]によって生成された豊かな視覚表現を持つ、新しいマルチモーダル大規模言語モデル（MLLM）ファミリーであるFlorence-VLを提示する。対照学習によって訓練された広く使用されているCLIPスタイルのビジョントランスフォーマー [35]とは異なり、Florence-2は視覚特徴の異なるレベルと側面を捉えることができ、多様な下流タスクに適応するのにより汎用性がある。我々は、Florence-2の視覚特徴を事前訓練された言語モデル（LLM）（Phi 3.5やLLama 3など）に効果的に統合する、新しい特徴融合アーキテクチャと革新的な訓練レシピを提案する。特に、異なる深さと複数のプロンプトから抽出された視覚特徴を融合するために「深さ-幅融合（DBFusion）」を提案する。我々のモデル訓練は、モデル全体のエンドツーエンドの事前訓練に続いて、投影層とLLMの微調整で構成されており、高品質な画像キャプションと指示調整ペアを含む、慎重に設計された多様なオープンソースデータセットのレシピに基づいている。 Florence-VLの視覚特徴の定量的分析と可視化により、視覚-言語アラインメントにおいて、豊かな深さと幅が重要な役割を果たす点で、一般的なビジョンエンコーダーに対する利点が示されている。 Florence-VLは、一般的なVQA、知覚、幻覚、OCR、チャート、知識集約型理解などをカバーする様々なマルチモーダルおよびビジョン中心のベンチマークにおいて、既存の最先端MLLMを大きく上回る改善を達成している。将来の研究を促進するために、我々のモデルと完全な訓練レシピはオープンソース化されている。https://github.com/JiuhaiChen/Florence-VL

1 Introduction

Refer to caption — 図1: LLaVAスタイルのMLLMと我々のFlorence-VLの比較。LLaVAスタイルのモデルは、対照学習で事前学習されたCLIPを使用して単一の高レベル画像特徴を生成する。対照的に、Florence-VLは画像キャプション生成、OCR、グラウンディングなど様々なビジョンタスクで生成モデリングを用いて事前学習されたFlorence-2を活用する。これにより、Florence-VLはFlorence-2を画像エンコーダーとして使用し、複数のタスク固有の画像特徴を柔軟に抽出することが可能となる。

マルチモーダル大規模言語モデル（MLLM）の最近の進歩は、主に大規模言語モデルの進歩によって推進されている[26, 49]。しかし、視覚エンコーダーに関しては、CLIPやSigLIPのようなトランスフォーマーベースのモデルが依然として最も一般的に使用される選択肢である。 CLIPとSigLIPの有効性にもかかわらず、それらには制限がある。例えば、それらの最終層の特徴は通常、全体的な場面と文脈を捉えた画像レベルの意味表現を提供するが、しばしば様々な下流タスクに重要なピクセルレベルや領域レベルの詳細、および低レベルの特徴を見落としがちである。自己教師あり学習のDINOv2モデル[34]、拡散モデル[37]、セグメンテーション[20]、[41]など、より広範な視覚表現が存在し、これらの異なる視覚エンコーダーが特定のタスクにおいて有益であることが示されている。

複数のビジョンエンコーダーの特徴的な表現を活用するため、[41, 38]のような最近の研究では、異なる特徴の側面やスキルに特化した複数のビジョンエンコーダーの混合を採用している。しかし、複数のビジョンエンコーダーを統合すると、モデルの訓練と展開の両方で計算コストが増加する。単一のビジョンモデルで、入力画像の異なる知覚情報を強調する複数の異なる視覚特徴を生成することは可能だろうか？本稿では、生成的ビジョン基盤モデルであるFlorence-2 [45]をビジョンエンコーダーとして活用するFlorence-VLを提案する。Florence-2は、キャプション生成、物体検出、グラウンディング、OCRなど、様々なコンピュータビジョンタスクに対してプロンプトベースの表現を提供する。その多様な視覚表現は、異なるタイプのダウンストリームタスクに利益をもたらす可能性がある。例えば、OCRベースの表現は画像からテキスト情報を抽出する必要があるタスクに有利であり、グラウンディングベースの表現は物体とその空間的文脈の関係を必要とするタスクに有益である。しかし、より優れたMLLMを構築するために、これらの多様な特徴をどのように抽出し、事前学習済みLLMと整合させるかについては、まだ十分に探究されていない。

この課題に対処するため、我々は多様な視覚特徴を効果的に選択し活用する深さ-幅融合（DBFusion）を提案する。異なる層からの視覚特徴は様々なレベルの概念を捉え、最終層は通常より高レベルの概念を表現する。低レベルの特徴を統合することで、これらの高レベル表現を補完することができ、我々はこれを視覚特徴の「深さ」と呼ぶ。さらに、異なるダウンストリームタスクは画像内の異なる知覚情報を必要とするため、単一の画像特徴では関連するすべての情報を捉えるには不十分であることが多い。そこで、我々は複数の画像特徴を活用し、各特徴が異なる視覚表現を捉えるようにする。我々はこれを視覚特徴の「幅」と呼ぶ。これらの多様な視覚特徴を活用するために、我々は単純なチャネル連結が簡単かつ効果的な融合戦略として機能することを発見した。具体的には、複数の特徴をチャネル次元に沿って連結し、これらの組み合わされた特徴（様々な深さと幅にわたる）を、LLMへの入力埋め込みとして投影する。

我々はFlorence-VLを、オープンソースの訓練データの新しい組み合わせで訓練する。これは、大規模な詳細なキャプションデータセットと、全モデルの事前訓練および部分モデルの微調整のための指示チューニングデータセットの混合で構成されている。その結果、Florence-VLは、視覚中心、知識ベース、OCRおよびチャートタスクを網羅する25のベンチマークで顕著な優位性を達成し、Cambrianのような他の先進的なMLLMを凌駕している[41]。さらに、我々は定量的分析と可視化を提供し、Florence-VLの視覚表現が、CLIPやSigLIPなどの広く採用されている視覚エンコーダーよりもLLMとのより良い整合性を達成していることを実証する[26]。

2 Preliminary: Florence-2

Florence-2 [45] は、キャプション生成、物体検出、グラウンディング、セグメンテーションなどの様々な視覚タスクを単純な指示で処理するための統一された、プロンプトベースのアプローチを利用する視覚基盤モデルである。その構造は、視覚エンコーダーDaViT [9] と標準的なエンコーダー-デコーダーモデルから成る。入力画像 $\mathbf{I}\in\mathbb{R}^{H\times W\times 3}$ （ここで $H$ と $W$ はそれぞれ高さと幅を示す）を処理し、平坦化された視覚トークン埋め込みを生成する。モデルは次に、標準的なエンコーダー-デコーダートランスフォーマーアーキテクチャを適用して、視覚と言語の両方のトークン埋め込みを処理する。まず、言語トークナイザーと単語埋め込み層を使用してプロンプトテキスト埋め込み $\mathbf{T}\in\mathbb{R}^{N_{t}\times D}$ を生成する。ここで、 $N_{t}$ と $D$ はそれぞれプロンプトトークンの数と次元を表す。次に、視覚トークン埋め込みをプロンプト埋め込みと連結し、マルチモダリティエンコーダーモジュールの入力 $\mathbf{X}=[\mathbf{V},\mathbf{T}]$ を作成する。ここで、 $\mathbf{V}\in\mathbb{R}^{N_{v}\times D}$ は、DaViTからの視覚埋め込みに線形投影とLayerNorm層を適用して生成される。 $N_{v}$ と $D$ はそれぞれ視覚トークンの数と次元を表す。線形投影とLayerNorm層は、 $\mathbf{T}$ との次元の整合性を確保するために使用される。エンコーダー-デコーダーモデルは $\mathbf{X}$ を処理し、キャプション、物体検出、テキスト形式でのグラウンディングなどの望ましい結果を生成する。

3 Method

3.1 Using Florence-2 as Vision Backbone

MLLMsにおける既存のビジョンバックボーンの限界、特に最終層の特徴が通常、全体的な場面や文脈を捉えるイメージレベルの表現を生成するが、ピクセルレベルや領域レベルの詳細を見逃すことが多いという問題に対処するため、我々は視覚特徴を抽出するための視覚エンコーダーとしてビジョン基盤モデルFlorence-2を利用する。CLIPで事前学習されたビジョントランスフォーマーが単一の普遍的な画像特徴を提供するのとは異なり、Florence-2は異なるタスクプロンプトを使用することで、異なるスケールで空間的詳細を識別することができる。

MLLMsにおいて、効果的な画像理解には、グローバルな意味からローカルな詳細まで、複数の粒度レベルを捉え、意味的文脈内でのオブジェクトやエンティティ間の空間的関係を理解することが必要である。 Florence-2は、多様な粒度レベルを管理する能力を持つため、画像理解のこれらの核心的側面に対処するための理想的なビジョンエンコーダーである。以下のセクションでは、Florence-2の強みをMLLMsに統合する方法を探究する。

	# Vis tok	MMBench (EN)	POPE	MM-Vet	MME-P	Seed-image	HallusionBench	LLaVA-bench	AI2D	MathVista	MMMU	OCRBench	ChartQA	DocVQA	InfoVQA	Average
Token Integration	1728	66.6	88.7	34.1	1536.3	70.9	45.0	63.3	56.9	28.1	36.4	40.8	23.0	44.6	29.5	50.3
Average Pooling	576	65.7	88.8	32.3	1551.3	70.3	45.7	64.6	56.6	27.4	36.0	41.2	24.6	44.8	29.3	50.4
Channel Integration	576	66.1	89.4	35.2	1543.5	70.3	46.8	65.0	57.2	28.0	35.6	41.4	24.3	44.5	29.4	50.8

表1: 異なる融合戦略に関する実験。トークン統合のビジョントークン数は1728であり、これにより学習と推論の時間が長くなる。チャネル統合戦略は、他の2つの融合方法と比較して、より良いパフォーマンスと学習効率を示している。

3.2 Visual Features spanning Depth and Breadth

Breadth.

異なるダウンストリームタスクでは画像から様々な知覚情報が必要とされるため、我々は視覚表現の広さを拡張することを考える。入力画像 $\mathbf{I}\in\mathbb{R}^{H\times W\times 3}$ とタスク固有のプロンプト（例えば「画像に表示されているテキストを提供する」）が与えられると、Florence-2は画像特徴とプロンプト特徴を $\mathbf{X}=[\mathbf{V},\mathbf{T}]$ に処理し、エンコーダ-デコーダトランスフォーマーアーキテクチャに供給する。エンコーダは注意機構を用いて $\mathbf{X}$ を処理し、出力 $\mathbf{X}^{\prime}=[\mathbf{V}^{\prime},\mathbf{T}^{\prime}]$ を生成する。 $\mathbf{V}$ と $\mathbf{T}$ の間のクロスアテンションにより、更新された画像特徴 $\mathbf{V}^{\prime}$ は「画像に表示されているテキストを提供する」というプロンプトにより焦点を当て、画像からより多くのテキスト情報を抽出するようになる。

我々は画像理解に寄与する3つの異なるタスクに焦点を当て、それぞれのタスクに特化した3つの異なる画像埋め込み $[\mathbf{V}_{t_{1}}^{\prime},\mathbf{V}_{t_{2}}^{\prime},\mathbf{V}_{t_{3}}^{% \prime}]$ を生成する：

•

詳細な画像キャプション：画像に示されているものを段落で説明する。これにより、モデルは画像の全体的な文脈を提供することができる。
•

OCR：画像に表示されているテキストを提供する。これにより、画像からより多くのテキスト情報を抽出する。
•

密な領域キャプション：画像内のオブジェクトを、その説明とともに特定する。これにより、オブジェクト間の空間的関係を捉える。

我々は、異なるタスクプロンプトを用いた画像特徴を視覚化し、視覚埋め込みにPCAを適用し、視覚化のための閾値を設定する。図3に示すように、異なる画像埋め込みは画像内の異なる概念的情報を強調している。さらに、図3にOpenAI CLIPの最終層画像特徴も視覚化しているが、これは多くの場合、特定の領域レベルの詳細が欠けていることがある。

Depth.

我々はまた、DaViTからの $\mathbf{V}$ を用いてより低レベルの特徴を統合し、3つのプロンプトから導出されたより高レベルの特徴 $[\mathbf{V}_{t_{1}}^{\prime},\mathbf{V}_{t_{2}}^{\prime},\mathbf{V}_{t_{3}}^{% \prime}]$ と組み合わせることで、複数レベルの概念的詳細を捉えることができる。

3.3 Depth-Breadth Fusion

我々は異なる粒度レベルの画像特徴を持っているため、特徴融合が一般的に使用される。 $[\mathbf{V},\mathbf{V}_{t_{1}}^{\prime},\mathbf{V}_{t_{2}}^{\prime},\mathbf{V}% _{t_{3}}^{\prime}]$ のような複数の特徴埋め込みを扱う際、次の問題はこれらの特徴をどのように融合し、言語モデル空間と整合させるかである。これら4つの特徴すべてを活用するために、以下のようないくつかのアプローチが融合プロセスにおいて考えられる：

•

トークン統合：このアプローチはすべての特徴をトークン次元に沿って連結することを含む。しかし、これは視覚トークンを過度に長くし、モデルの訓練を複雑にする可能性がある。
•

平均プーリング：あるいは、すべての特徴に対して平均プーリングを使用することができるが、この方法は情報損失をもたらす可能性がある。
•

チャネル統合：より効果的な方法は、チャネル次元に沿って特徴を連結することであり、これはシーケンス長を増加させない。

どの特徴融合方法が全体的に最良のパフォーマンスを提供するかを迅速に評価するために、我々はLLaVA-1.5 [26]のデータセットを使用する。これには事前訓練用の558K画像キャプションと指示調整用の665Kエントリが含まれる。表1において、チャネル統合戦略は他の2つの融合方法と比較して、より良いパフォーマンスと訓練効率を示している。したがって、我々はシンプルかつ効果的な融合戦略としてチャネル統合を選択する。

3.4 Florence-VL

図2に示すように、Florence-VLはビジョン基盤モデルFlorence-2と大規模言語モデルで構成されている。複数の画像特徴を抽出した後、我々はMLPを使用してこれらの特徴を言語モデル空間に投影する。事前訓練段階では、詳細な画像キャプションデータを使用してFlorence-2を言語モデルと整合させる。指示調整段階では、多様で高品質な指示調整データセットを使用して、モデルを下流タスクに効果的に適応させる。

4 Analysis on Different Vision Encoders

Florence-2が他のビジョンエンコーダーと比較して優れていることを示すために、我々は様々なビジョンエンコーダーと言語モデル間のクロスモーダルアラインメントの品質を定量化し、後続の教師あり微調整やベンチマークでの評価を必要とせずに、異なるビジョンエンコーダーの影響を評価することができる[15, 43]。具体的には、 $\mathcal{M}=(\mathcal{V},\mathcal{L})$ を事前学習済みMLLMとし、 $\mathcal{V}$ をビジョンエンコーダー、 $\mathcal{L}$ を言語モデルとする。我々は画像-テキストペアのセット $(V,T)=(\{v_{n}\}_{n=1}^{N},\{t_{n}\}_{n=1}^{N})$ をモデルに入力する。 $n^{th}$ 番目の画像-テキストペアに対して、ビジョンエンコーダーはビジョン表現 $f^{v_{n}}\in\mathbb{R}^{r_{n}\times d^{\prime}}$ を生成し、言語デコーダーの最終層からテキスト表現 $f^{t_{n}}\in\mathbb{R}^{s_{n}\times d}$ を生成する。ここで、 $r_{n}$ と $s_{n}$ はそれぞれビジョンとテキスト表現のトークン数であり、 $d^{\prime}$ と $d$ はビジョンとテキストトークンの隠れ状態の次元である。我々は学習可能な射影 $\mathcal{P}$ を $f^{v_{n}}$ に適用して $f^{t_{n}}$ との次元の整合性を確保する。つまり、 $\mathcal{P}(f^{v_{n}})\in\mathbb{R}^{r_{n}\times d}$ である。また、 $\mathcal{P}(f^{v_{n}})$ と $f^{t_{n}}$ の両方に対して、トークン次元に沿って平均プーリングを適用し、隠れ次元に沿って正規化を行う。すべての画像-テキストペアに対して、我々はすべてのビジョン特徴を第一次元に沿って連結して行列 $F^{v_{n}}\in\mathbb{R}^{N\times d}$ を形成し、同様にすべてのテキスト特徴を連結して行列 $F^{t_{n}}\in\mathbb{R}^{N\times d}$ を形成する。ビジョントークンとテキストトークン間のモダリティギャップを測定する必要があるため、我々はこれら2つのトークン表現間の乖離を計算する。具体的には、学習可能な射影 $\mathcal{P}$ を最適化し、これを用いてクロスエントロピー損失関数を最小化することで、これら2つの表現をより近づける：

\mathcal{L}=-\sum_{i,j}\mathcal{I}_{n}^{(i,j)}\log\left(\text{softmax}(F^{v_{n% }}\times(F^{t_{n}})^{T})_{i,j}\right)

ここで、 $\mathcal{I}_{n}$ はターゲット（インジケータ）行列である。 $F^{v_{n}}$ と $F^{t_{n}}$ の転置の乗算は、ビジョンとテキストのトークン表現間の相関を計算する。要するに、この損失関数は各ビジョントークンが対応するテキストトークンと正しく整列する可能性を最大化することで、ビジョントークンとそれに対応するテキストトークン間の距離を最小化するように設計されている。

我々は、LLaVA 1.5の事前学習画像キャプションデータセットから画像-テキストペア $(V,T)=(\{v_{n}\}_{n=1}^{N},\{t_{n}\}_{n=1}^{N})$ のセットを使用し、様々なビジョンエンコーダーを選択して、ビジョンエンコーダーと言語モデル間の整合性をどの程度最適化できるかを評価する。評価対象のビジョンエンコーダーには、Stable Diffusion [36]、Dinov2 [34]（ViT-G/14、ViT-L/14、ViT-B/14）、SigLIP、OpenAI CLIP、および我々のFlorence-2モデルが含まれる。選択された言語モデルはLlama 3 8B Instructである。図4に整合性損失をプロットしているが、これは明らかにFlorence-2ビジョンエンコーダーが他のビジョンエンコーダーと比較して最低の整合性損失を達成し、テキスト埋め込みとの最良の整合性を示している。さらに、SigLIPは競争力のある結果を示しており、[41]で指摘されているように、他のビジョンエンコーダーと比較してSigLIPが強力なベンチマークパフォーマンスを示していることが、本研究の結果と一致している。

		General Benchmarks
	# Vis tok.	VQAv2	GQA	MMBench (EN)	MMBench (CN)	VizWiz	POPE	MM-Vet	MME-P	MME-C	Seed-image	HallusionBench	LLaVA-bench	MMStar
Vila 3B	-	80.4	61.5	63.4	52.7	53.5	86.9	35.4	1442.4	-	67.9	-	-	40.3
Phi 3.5-Vision	-	-	63.5	75.5	64.2	58.2	82.2	46.5	1473.4	412.1	69.9	53.3	68.8	49.0
Florence-VL 3B (ours)	576	82.1	61.8	71.6	60.8	59.1	88.3	51.0	1498.7	403.9	70.6	58.1	71.1	44.9
LLaVA next 8B	2880	-	65.4	72.2	-	57.7	86.6	41.7	1595.1	379.3	72.7	47.7	76.8	-
Vila 8B	-	80.9	61.7	72.3	66.2	58.7	84.4	38.3	1577.0	-	71.4	-	-	-
Mini-Gemini-HD 8B	2880	-	64.5	72.7	-	-	-	-	1606.0	-	73.2	-	-	-
Cambrain 8B	576	-	64.6	75.9	67.9	-	87.4	48.0	1547.1	-	74.7	48.7	71.0	50.0
Florence-VL 8B (ours)	576	84.7	64.4	76.2	69.5	59.1	89.9	56.3	1560.0	381.1	74.9	57.3	74.2	50.0

(a) 一般的なマルチモーダルベンチマークの結果。

		Vision centric			Knowledge based				OCR & Chart
	# Vis tok.	Realworldqa	CV-Bench*	MMVP	AI2D	MathVista	MMMU	SciQA-IMG	TextVQA	OCRBench	ChartQA	DocVQA	InfoVQA
Vila 3B	-	53.3	55.2	-	-	30.6	34.1	67.9	58.1	-	-	-	-
Phi 3.5 Vision	-	53.5	69.3	67.7	77.4	-	43.3	89.0	61.1	59.8	72.0	75.9	40.7
Florence-VL 3B (ours)	576	60.4	70.2	64.7	73.8	52.2	41.8	84.6	69.1	63.0	70.7	82.1	51.3
LLaVA next 8B	2880	59.6	63.8	38.7	71.6	37.4	40.1	73.3	65.4	55.2	69.3	78.2	-
Vila 8B	-	-	-	-	-	-	36.9	79.9	-	-	-	-	-
Mini-Gemini-HD 8B	2880	62.1	62.6	18.7	73.5	37.0	37.3	75.1	70.2	47.7	59.1	74.6	-
Cambrian 8B	576	64.2	72.2	51.3	73.0	49.0	42.7	80.4	71.7	62.4	73.3	77.8	-
Florence-VL 8B (ours)	576	64.2	73.4	73.3	74.2	55.5	43.7	85.9	74.2	63.4	74.7	84.9	51.7

(b) ビジョン中心、知識ベース、およびOCR＆チャートベンチマークの結果。

表2: 一般的なマルチモーダルベンチマーク、ビジョン中心、知識ベース、およびOCR＆チャートベンチマークの結果。

5 Experiments

Implementation Details.

最先端のMLLMを構築するために、我々は事前学習段階でCC12M [4]、Redcaps [8]、およびCommonpool [12]からの画像を使用し、詳細なキャプションはPixelProse [40]から取得した。指示調整段階では、Cambrian-7M [41]、Vision Flan [46]、ShareGPT4V [5]から収集した高品質な指示調整データセットも作成し、さらにDocmatix [17]からの追加データを用いてグラフと図表の理解を向上させた [3]。訓練データセットと実験の詳細は付録に記載されている。

Evaluation.

我々は、25のベンチマークにおける異なるMLLMモデルの性能を4つのカテゴリーで評価する：

•

一般的なマルチモーダルベンチマーク：VQAv2 [13]、GQA [16]、MMBench（英語および中国語） [27]、VisWiz [14]、POPE [22]、MM-Vet [47]、MME Perception [11]、MME Cognition [11]、SeedBench [21]、HallusionBench、LLaVA in the Wild [26]、およびMMStar [6]。
•

OCRおよびチャートベンチマーク：TextVQA [39]、OCRBench [28]、ChartQA [31]、DocVQA [32]、およびInforVQA [33]。
•

知識ベースのベンチマーク：AI2D [19]、MathVista [30]、MMMU [48]、およびScienceQA [29]。
•

ビジョン中心のベンチマーク：MMVP [42]、RealworldQA [44]、およびCV-Bench [41]。

Baselines.

我々は2つの言語バックボーンを選択した：Phi-3.5-mini-InstructとLLama-3-8B-Instructである。小規模モデル間のベースライン比較のために、Vila 1.5 3B [24]とPhi 3.5-Vision-Instruct [1]を選んだ。より大規模なモデルについては、以下のベースラインを選択した：LLaVA Next 8B [25]、Vila 8B [24]、Mini-Gemini-HD 8B [23]、およびCambrain 8B [41]であり、言語バックボーンとしてLLama 3 8B Instructを使用している。

	LLM	GQA	MMBench (EN)	MMBench (CN)	VizWiz	POPE	MM-Vet	MME-P	MME-C	HallusionBench	LLaVA-bench	MMStar
LLaVA 1.5 3B	Phi 3.5	61.4	69.4	60.6	38.4	86.2	35.4	1399.5	284.6	44.5	68.0	40.6
Florence-VL 3B	Phi 3.5	62.7	68.7	61.7	42.6	89.9	35.4	1448.5	299.6	45.5	64.9	40.8
LLaVA 1.5 7B	Vicuna 1.5	62.0	64.8	57.6	50.0	85.9	30.6	1510.7	294.0	44.8	64.2	30.3
Florence-VL 7B	Vicuna 1.5	62.7	66.1	55.8	54.5	89.4	35.2	1543.5	316.4	46.8	65.0	36.8
LLaVA 1.5 8B	Llama 3	62.8	71.4	65.5	49.3	84.8	34.2	1539.4	292.5	45.7	71.0	38.5
Florence-VL 8B	Llama 3	63.8	71.1	65.8	54.0	88.4	36.4	1584.1	346.8	46.8	66.2	39.1

(a) 一般的なマルチモーダルベンチマークの結果。

	LLM	Realworldqa	MMVP	AI2D	MathVista	MMMU	SciQA-IMG	TextVQA	OCRBench	ChartQA	DocVQA	InfoVQA
LLaVA 1.5 3B	Phi 3.5	54.4	2.0	63.3	30.6	40.7	72.0	43.7	30.4	16.4	28.1	26.4
Florence-VL 3B	Phi 3.5	58.4	6.0	64.9	30.6	39.6	68.7	61.6	40.3	21.8	46.1	29.6
LLaVA 1.5 7B	Vicuna 1.5	54.8	6.0	54.8	26.7	35.3	66.8	58.2	31.4	18.2	28.1	25.8
Florence-VL 7B	Vicuna 1.5	60.4	12.3	57.2	28.0	35.6	66.5	62.8	41.4	24.3	44.5	29.4
LLaVA 1.5 8B	Llama 3	55.7	7.3	60.2	29.3	39.4	76.5	45.4	34.6	15.4	28.6	26.4
Florence-VL 8B	Llama 3	59.9	8.3	62.4	31.8	39.9	73.6	68.0	41.1	23.4	44.4	29.0

(b) ビジョン中心、知識ベース、およびOCR＆チャートベンチマークの結果。

表3: 我々は、複数のマルチモーダルベンチマークにわたってLLaVA 1.5と我々のモデル（Florence-VL 3B/7B/8B）を比較している。両者の主な違いは使用されているビジョンエンコーダー（LLaVAではCLIP、我々のモデルではFlorence-2）にあり、一方で両者とも同じ訓練データとバックボーンLLMを維持している。結果は、我々のモデルが同じ訓練データを用いてLLaVA 1.5を大幅に上回る性能を示していることを示している。

Results.

表2において、我々は様々なベースラインと比較したFlorence-VLの結果を、使用された視覚トークン数とともに、一連のベンチマークにわたって示している。小規模モデルについては、我々のモデルはVila 3Bを上回り、24タスク中12タスクでPhi 3.5 Visionを凌駕している。特筆すべきは、Phi 3.5 Visionが5000億の視覚およびテキストトークンを使用している[1]点であり、その訓練データは独自のものであり、我々のものよりも著しく大規模である。それにもかかわらず、我々のFlorence-VL 3Bはこのモデルと競争力を維持している。大規模モデルについては、我々のモデルは大半のベンチマークにおいて他のベースラインを大きく上回る改善を示している。特筆すべきは、我々のモデルがCambrain-8Bを大幅に上回っている点である。Cambrain-8Bは複数の視覚エンコーダーを使用し、それらの画像特徴を組み合わせているのに対し、我々は単一の視覚エンコーダーのみを使用して優れた結果を達成している。

6 Discussion

Results using LLaVA 1.5 Data.

我々がMLLMを構築する際にトレーニングデータをキュレーションしているため、トレーニングデータとモデルアーキテクチャの効果を切り離し、我々の手法の有効性を明確に示すことができる。具体的には、モデルアーキテクチャの利点を強調するために、LLaVA 1.5 [26]と全く同じ事前学習およびインストラクションデータセットを使用する。我々は、Phi-3.5-mini-Instruct、Vicuna 1.5 7B、LLama-3-8B-Instructを含む異なる言語バックボーンをテストする。表3に示すように、我々のモデル設計は、同じデータセットで学習した場合、LLaVAアーキテクチャを大幅に上回る性能を示す。特に、OCRおよびチャートタスクにおいて、Florence-VLはLLaVA 1.5を大きく上回る性能を示し、効果的なテキストベースの画像理解にはOCR画像特徴が不可欠であることを実証している。

Study on Depth Features Impacts.

我々は、異なる深度からの画像特徴の影響を検証することを目的としている。特徴セット $[\mathbf{V},\mathbf{V}_{t_{1}}^{\prime},\mathbf{V}_{t_{2}}^{\prime},\mathbf{V}% _{t_{3}}^{\prime}]$ について、まず高次の特徴 $[\mathbf{V}_{t_{1}}^{\prime},\mathbf{V}_{t_{2}}^{\prime},\mathbf{V}_{t_{3}}^{% \prime}]$ をすべて除去し、低次の特徴 $[\mathbf{V}]$ のみを保持する。次に、異なるベンチマークにわたってパフォーマンスを評価する。表4に示すように、低次の特徴 $[\mathbf{V}]$ のみを使用すると、我々の完全な手法よりも性能が劣る。次に、低次の特徴 $[\mathbf{V}]$ を除去し、高次の特徴 $[\mathbf{V}_{t_{1}}^{\prime},\mathbf{V}_{t_{2}}^{\prime},\mathbf{V}_{t_{3}}^{% \prime}]$ のみを保持する。図5に示されるアライメント損失は、低次の特徴を除外すること（すなわち、DaViT特徴を除去すること）が我々の手法と比較してより高いアライメント損失をもたらすことを明確に示している。したがって、両方のアブレーション研究は、異なる深度からの特徴が最適なパフォーマンスを達成するために不可欠であることを確認している。

Features used	MMBench (EN)	POPE	MM-Vet	MME-P	Seed-image	HallusionBench	LLaVA-bench	AI2D	MathVista	MMMU	OCRBench	ChartQA	DocVQA	InfoVQA
$[\mathbf{V}]$	64.3	86.1	31.1	1510.7	66.0	44.8	64.2	54.7	26.7	35.2	31.2	18.3	27.9	25.7
$[\mathbf{V},\mathbf{V}_{t_{1}}^{\prime},\mathbf{V}_{t_{2}}^{\prime},\mathbf{V}% _{t_{3}}^{\prime}]$	66.1	89.4	35.2	1543.5	70.3	46.8	65.0	57.2	28.0	35.6	41.4	24.3	44.5	29.4

表4: 低次の特徴

[\mathbf{V}]

のみを保持する場合と、低次および高次の特徴の両方を含む我々の手法との比較は、両方のタイプの特徴を維持することでより良いパフォーマンスが達成されることを明確に示している。

	GQA	MMBench (EN)	MMBench (CN)	VizWiz	POPE	MM-Vet	MME-P	MME-C	Seed-image	HallusionBench	LLaVA-bench	MMStar	Average
Florence-VL 7B	62.7	66.1	55.8	54.5	89.4	35.2	1543.5	316.4	70.3	46.8	65.0	36.8	58.3
Remove Caption Feature $\mathbf{V}_{t_{1}}^{\prime}$	62.2	64.9	56.1	53.5	89.3	31.8	1477.8	354.3	69.0	44.9	65.2	36.0	57.6
Remove OCR Feature $\mathbf{V}_{t_{2}}^{\prime}$	62.0	65.6	55.4	56.0	88.8	30.2	1506.3	345.4	67.6	45.4	62.6	35.2	57.3
Remove Grounding Feature $\mathbf{V}_{t_{3}}^{\prime}$	63.0	66.6	56.8	56.5	88.8	32.9	1494.8	338.9	70.8	44.7	65.1	36.2	58.2

表5: 高次の画像特徴を一度に1つずつ除去することでアブレーション研究を実施し、すべての高次特徴が最適なパフォーマンスを維持するために不可欠であることを示している。

Study on Breadth Features Impacts.

表5では、 $[\mathbf{V}_{t_{1}}^{\prime},\mathbf{V}_{t_{2}}^{\prime},\mathbf{V}_{t_{3}}^{% \prime}]$ から一度に1つの特徴を個別に除去することで、異なる幅からの各特徴の影響を分析している。例えば、キャプション特徴の効果を評価するために、OCRと接地特徴のみを保持する。表5の結果は、3つの特徴をすべて組み合わせることで、平均ベンチマークパフォーマンスが最も高くなることを示している。さらに、図5に示すように、各特徴を個別に除去した場合のアライメント損失をプロットしている。これにより、異なる幅からの3つの特徴をすべて組み込むことが、視覚情報を効果的に抽出するために不可欠であることがさらに実証される。

7 Related Work

LLMは、LLaVA [26]、MiniGPT-4 [49]、Qwen-VL [2]、Vila [24]などのモデルを含むMLLMの開発を大きく進展させた。これらのモデルの多くは、CLIPやSigLIPなどの言語教師あり視覚エンコーダーを言語モデルのバックボーンと統合している。これらに加えて、自己教師ありモデル [34]、セグメンテーションモデル [20]、拡散モデル [37]など、より広範囲の視覚モデルが利用可能である。従来の視覚エンコーダー設計から離れ、我々の研究は生成的視覚基盤モデルであるFlorence-2を視覚エンコーダーとして使用する革新的なアプローチを導入している。

Cambrian [41]、Brave [18]、MouSi [10]などの他の研究が複数の視覚信号を組み合わせることの利点を探求している一方で、我々のアプローチは複数の視覚エンコーダーを使用することによる複雑さとコストの増加を回避している。代わりに、我々は単一の視覚モデルを使用して複数の視覚特徴を生成し、それぞれが入力画像の異なる知覚情報を強調している。このアプローチにより、我々は単一の視覚エンコーダーで優れたパフォーマンスを達成し、Cambrian [41]のような複数の視覚エンコーダーに依存するモデルを凌駕している。

高解像度適応は、MLLMの入力解像度を増加させるために一般的に適用される [25]。さらに、LLaVA-NeXT [25]やInternVL [7]などのモデルは、タイリングまたは適応的タイリングを使用して、高解像度入力を小さなパッチに分割して個別に処理することでこれを達成している。我々の手法はこれらの技術を組み込んでいないが、両アプローチは互換性があり、我々の手法と組み合わせることが可能である。

8 Conclusion

結論として、Florence-VLはFlorence-2を多目的なビジョンエンコーダーとして使用し、キャプション生成、OCR、グラウンディングなど、複数のコンピュータビジョンタスクにわたって多様で、タスク固有の視覚表現を提供している。Depth-Breadth Fusion (DBFusion)を活用することで、異なる層（「深さ」）とプロンプト（「幅」）からの多様な視覚特徴を組み込み、下流タスクの様々な知覚要求を満たす豊かな表現を作成している。我々の融合戦略は、チャネル連結に基づいており、これらの多様な特徴を効果的に組み合わせ、その後、言語モデルへの入力として投影される。

事前学習のための詳細なキャプションと多様な指示調整データを含む新規のデータレシピでの訓練を通じて、Florence-VLはビジョンエンコーダーとLLMの間の優れたアライメントを示し、視覚中心、知識ベース、OCRおよびチャートタスクをカバーする25のベンチマークにわたって他のモデルを上回る性能を示している。我々の分析は、Florence-2の生成能力がMLLMのアライメントと幅広いアプリケーションに対する多様性を向上させる上で効果的であることを強調している。

今後の研究では、Florence-VLの能力と効率をさらに向上させるいくつかの方向性がある。一つの方向性は、特定の下流タスクの要件に基づいて深さと幅のバランスを動的に調整できる、より洗練された融合技術を探索することによってDBFusion戦略を改善することである。さらに、Florence-2は多様な視覚表現を提供しているが、将来の研究では、性能を損なうことなく計算効率を最適化する、オンザフライで特徴を選択する適応型ビジョンエンコーダーを探索することができる。

\thetitle

補足資料

9 Training Details

我々は2つの言語バックボーンを選択した：Phi-3.5-mini-Instruct ¹¹1https://huggingface.co/microsoft/Phi-3.5-mini-instruct とLLama-3.1-8B-Instruct ²²2https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instructである。主要な結果については、16.9Mの画像キャプションデータセットと10Mの指示データセットを使用し、8ノードの64 Nvidia H100 GPUですべてのモデルを訓練した。訓練プロセスは、事前訓練と指示調整の2段階で構成される。事前訓練段階では、投影層のみを調整するLLaVA 1.5とは異なり、我々はビジョンバックボーンのFlorence-2、投影層、言語モデルを含むモデル全体を微調整する。モデル全体を調整することで、ビジョンモデルと言語モデルを固定するよりも優れた性能が得られることが分かった。微調整段階では、投影層と言語モデルのみを調整する。LLama-3.1-8B-Instructについては、事前訓練段階のグローバルバッチサイズは256で、最大値2e-5のコサイン減衰学習率を使用する。微調整段階では、グローバルバッチサイズ256と学習率1e-5を維持する。Phi-3.5-mini-Instructについては、事前訓練段階のグローバルバッチサイズは4096で、最大値1e-4のコサイン減衰学習率を使用する。微調整段階では、グローバルバッチサイズは2048で学習率は9e-5である。

10 Discussion

OCR feature is essential for text based image understanding.

表6(a)において、我々はテキストを含む画像の理解におけるOCRの役割を検討する。OCR機能の効果を評価するために、キャプションとグラウンディング機能のみを保持した。表6(a)の結果は、TextVQAベンチマークを除いて、他のベンチマークでは画像からテキスト情報を抽出する上でOCR機能が有益であることを示している。

Knowledge based benchmark reply more on the capability of language model.

表6(b)では、キャプションとグラウンディング機能を削除しても大きな差が生じないことが示されており、知識ベースのベンチマークが様々な視覚情報にほとんど依存していないことを示唆している。さらに、表2は、より強力な言語モデルを使用することで知識ベースのベンチマークのパフォーマンスが向上することを示している。

	OCRBench	ChartQA	DocVQA	InfoVQA	Average
Florence-VL 7B	41.4	24.3	44.5	29.4	34.9
OCR	40.9	22.9	44.4	29.0	34.2

(a) OCRおよびチャートベンチマークにおけるOCR機能のアブレーション研究。

	AI2D	MathVista	MMMU	SciQA-IMG	Average
Florence-VL 7B	57.2	28.0	35.6	66.5	46.8
Caption	56.8	27.5	36.9	65.5	46.7
OCR	55.7	27.0	35.8	65.6	46.0
Grounding	56.7	27.9	36.9	66.4	47.0

(b) 知識ベースのベンチマークに関するアブレーション研究。

表6: 様々なベンチマークにおける異なる機能に関するアブレーション研究。

References

Abdin et al. [2024] Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.
Bai et al. [2023a] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023a.
Bai et al. [2023b] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond, 2023b.
Changpinyo et al. [2021] Soravit Changpinyo, Piyush Sharma, Nan Ding, and Radu Soricut. Conceptual 12m: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 3558–3568, 2021.
Chen et al. [2023] Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao, and Dahua Lin. Sharegpt4v: Improving large multi-modal models with better captions, 2023.
Chen et al. [2024a] Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, et al. Are we on the right way for evaluating large vision-language models? arXiv preprint arXiv:2403.20330, 2024a.
Chen et al. [2024b] Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites. arXiv preprint arXiv:2404.16821, 2024b.
Desai et al. [2021] Karan Desai, Gaurav Kaul, Zubin Aysola, and Justin Johnson. Redcaps: Web-curated image-text data created by the people, for the people. arXiv preprint arXiv:2111.11431, 2021.
Ding et al. [2022] Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, and Lu Yuan. Davit: Dual attention vision transformers. In European conference on computer vision, pages 74–92. Springer, 2022.
Fan et al. [2024] Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, et al. Mousi: Poly-visual-expert vision-language models. arXiv preprint arXiv:2401.17221, 2024.
Fu et al. [2024] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Yunsheng Wu, and Rongrong Ji. Mme: A comprehensive evaluation benchmark for multimodal large language models, 2024.
Gadre et al. [2024] Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, et al. Datacomp: In search of the next generation of multimodal datasets. Advances in Neural Information Processing Systems, 36, 2024.
Goyal et al. [2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6904–6913, 2017.
Gurari et al. [2018] Danna Gurari, Qing Li, Abigale J Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, and Jeffrey P Bigham. Vizwiz grand challenge: Answering visual questions from blind people. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3608–3617, 2018.
Huang et al. [2024] Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, and Nenghai Yu. Deciphering cross-modal alignment in large vision-language models with modality integration rate. arXiv preprint arXiv:2410.07167, 2024.
Hudson and Manning [2019] Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 6700–6709, 2019.
HuggingFaceM4/Docmatix [2024] HuggingFaceM4/Docmatix. https://huggingface.co/datasets/huggingfacem4/docmatix. https://huggingface.co/datasets/HuggingFaceM4/Docmatix, 2024.
Kar et al. [2024] Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, and Federico Tombari. Brave: Broadening the visual encoding of vision-language models. arXiv preprint arXiv:2404.07204, 2024.
Kembhavi et al. [2016] Aniruddha Kembhavi, Mike Salvato, Eric Kolve, Minjoon Seo, Hannaneh Hajishirzi, and Ali Farhadi. A diagram is worth a dozen images. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14, pages 235–251. Springer, 2016.
Kirillov et al. [2023] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4015–4026, 2023.
Li et al. [2023a] Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, and Ying Shan. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125, 2023a.
Li et al. [2023b] Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. Evaluating object hallucination in large vision-language models. arXiv preprint arXiv:2305.10355, 2023b.
Li et al. [2024] Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, and Jiaya Jia. Mini-gemini: Mining the potential of multi-modality vision language models. arXiv preprint arXiv:2403.18814, 2024.
Lin et al. [2024] Ji Lin, Hongxu Yin, Wei Ping, Pavlo Molchanov, Mohammad Shoeybi, and Song Han. Vila: On pre-training for visual language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 26689–26699, 2024.
Liu et al. [2024a] Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, and Yong Jae Lee. Llava-next: Improved reasoning, ocr, and world knowledge, 2024a.
Liu et al. [2024b] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. Advances in neural information processing systems, 36, 2024b.
Liu et al. [2023] Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et al. Mmbench: Is your multi-modal model an all-around player? arXiv preprint arXiv:2307.06281, 2023.
Liu et al. [2024c] Yuliang Liu, Zhang Li, Biao Yang, Chunyuan Li, Xucheng Yin, Cheng lin Liu, Lianwen Jin, and Xiang Bai. On the hidden mystery of ocr in large multimodal models, 2024c.
Lu et al. [2022] Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. Advances in Neural Information Processing Systems, 35:2507–2521, 2022.
Lu et al. [2023] Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, and Jianfeng Gao. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. arXiv preprint arXiv:2310.02255, 2023.
Masry et al. [2022] Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, and Enamul Hoque. Chartqa: A benchmark for question answering about charts with visual and logical reasoning. arXiv preprint arXiv:2203.10244, 2022.
Mathew et al. [2021] Minesh Mathew, Dimosthenis Karatzas, and CV Jawahar. Docvqa: A dataset for vqa on document images. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2200–2209, 2021.
Mathew et al. [2022] Minesh Mathew, Viraj Bagal, Rubèn Tito, Dimosthenis Karatzas, Ernest Valveny, and CV Jawahar. Infographicvqa. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1697–1706, 2022.
Oquab et al. [2023] Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
Rombach et al. [2022a] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10684–10695, 2022a.
Rombach et al. [2022b] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022b.
Shi et al. [2024] Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, et al. Eagle: Exploring the design space for multimodal llms with mixture of encoders. arXiv preprint arXiv:2408.15998, 2024.
Singh et al. [2019] Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, and Marcus Rohrbach. Towards vqa models that can read. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8317–8326, 2019.
Singla et al. [2024] Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, and Tom Goldstein. From pixels to prose: A large dataset of dense image captions, 2024.
Tong et al. [2024a] Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, et al. Cambrian-1: A fully open, vision-centric exploration of multimodal llms. arXiv preprint arXiv:2406.16860, 2024a.
Tong et al. [2024b] Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. Eyes wide shut? exploring the visual shortcomings of multimodal llms. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9568–9578, 2024b.
Wei et al. [2024] Lai Wei, Zhiquan Tan, Chenghai Li, Jindong Wang, and Weiran Huang. Large language model evaluation via matrix entropy. arXiv preprint arXiv:2401.17139, 2024.
x.ai [2023] x.ai. Grok 1.5v: The next generation of ai. https://x.ai/blog/grok-1.5v, 2023. Accessed: 2024-07-26.
Xiao et al. [2024] Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, and Lu Yuan. Florence-2: Advancing a unified representation for a variety of vision tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4818–4829, 2024.
Xu et al. [2024] Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, and Lifu Huang. Vision-flan: Scaling human-labeled tasks in visual instruction tuning, 2024.
Yu et al. [2023] Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, and Lijuan Wang. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023.
Yue et al. [2024] Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9556–9567, 2024.
Zhu et al. [2023] Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592, 2023.