JaLMS
最新の AI 研究を日本語で解読

POINTS1.5: Building a Vision-Language Model towards Real World Applications

Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
Pattern Recognition Center, WeChat AI, Tencent Inc, China
{bensenliu}@tencent.com
\github\githublink
\hf\hflink
Abstract

視覚言語モデルは近年、著しい進歩を遂げ、光学文字認識や複雑な図表分析など、様々なタスクにおいて優れた性能を示している。この傾向を踏まえ、我々は新しい視覚言語モデルであるPOINTS1.5を導入する。これは様々な実世界アプリケーションで優れた性能を発揮するよう設計されている。POINTS1.5はPOINTS1.0の改良版であり、いくつかの重要な革新を取り入れている:i) 固定画像解像度を持つ元のCLIPビジョンエンコーダーを、ネイティブな動的高解像度をサポートするNaViTスタイルのビジョンエンコーダーに置き換えた。これによりPOINTS1.5は、画像をタイルに分割する必要なく、任意の解像度の画像を処理できるようになった。ii) POINTS1.5にバイリンガルサポートを追加し、中国語での能力を大幅に向上させた。視覚言語モデル用のオープンソース中国語データセットが不足しているため、我々はインターネットから多数の画像を収集し、手動と自動の方法を組み合わせてアノテーションを行った。iii) 視覚指示チューニングデータセットに対する一連の厳密なフィルタリング方法を提案した。我々はこれらのフィルタリング方法を包括的に評価し、最も効果的なものを選択して最終的な視覚指示チューニングセットを得た。 これらの革新により、POINTS1.5はPOINTS1.0を大きく上回る性能を示し、様々な実世界アプリケーションにおいて強力な性能を実証している。特筆すべきは、POINTS1.5-7Bが40億トークン未満で訓練され、OpenCompassリーダーボードにおいて100億パラメータ未満のモデルの中で1位にランクされていることである111結果は2024年12月8日に取得

1 Introduction

視覚言語モデル (Liu et al., 2024b; Li et al., 2024; Bai et al., 2023; Liu et al., 2024d; Dong et al., 2024a; Chen et al., 2024c) は近年、目覚ましい進歩を遂げており、幾何学的数学問題や光学文字認識(OCR)などの複雑なタスクに取り組む潜在能力を示している。これらの進歩にもかかわらず、オープンソースモデルは依然として、GPT-4o (OpenAI, 2023) やClaude-3.5-Sonnetなどの非公開の商用モデルに比べ、特定の現実世界の課題に対処する能力において遅れをとっている。この格差を埋めるため、オープンソースコミュニティは多大な努力を払っており、その一例がQwen2-VLシリーズ (Wang et al., 2024b) である。これらのモデルは、これらの商用モデルに匹敵する、あるいはそれを上回る性能を示している。この傾向に沿って、我々はPOINTS1.5を紹介する。これは、その前身であるPOINTS1.0 (Liu et al., 2024d) よりもさらに堅牢なモデルであり、現在、100億パラメータ未満のモデルの中でOpenCompassリーダーボードのトップに位置している。

Refer to caption
図2: POINTS1.5は、困難な現実世界の問題を解決する大きな可能性を示している。

視覚言語モデルの開発は、一般に2つの異なる経路に従っています:i) LLaVAスタイルのアーキテクチャ。これは、事前学習された視覚エンコーダー、ランダムに初期化されたプロジェクター、および事前学習された大規模言語モデルを統合します。ii) 大規模言語モデルがランダムに初期化され、視覚トークンとテキストトークンの両方が言語モデルの学習に共同で使用されるモデル。これはEmu3のような研究で見られます(Wang et al., 2024c)。LLaVAスタイルのアーキテクチャは、視覚理解タスクにおいて優れた性能を示しており、POINTS1.5もこのアプローチを継続しています。このアーキテクチャは、大規模言語モデルの継続的な事後学習を含み、視覚情報を解釈する能力を向上させます。事前学習段階は主に、投影層を視覚トークンとテキストトークンの空間に整合させるために機能します(Li et al., 2023b)。我々は、優れたLLaVAスタイルの視覚言語モデルを開発するための2つの重要な要因を特定しました:i) 画像を正確かつ一意に表現できる高性能な視覚エンコーダー、ii) モデルが画像内容を理解し、強力な指示追従能力を示すことを可能にする高品質な視覚指示チューニングデータセット。この分析に基づき、POINTS1.5は以下の革新を導入しています。

Native Dynamic High Resolution.

視覚言語モデルがダウンサンプリングなしに任意の解像度の画像を処理できるようにすることは、幻覚を減らし、テキスト集中型タスクのパフォーマンスを向上させるなど、多くの利点をもたらします。歴史的に、Vision Transformer (Dosovitskiy, 2020)やConvNext (Liu et al., 2022)などの多くの視覚エンコーダーは、固定解像度の画像しか扱えませんでした。以前の研究(Liu et al., 2024a; Dong et al., 2024b; Chen et al., 2024c; Liu et al., 2024d)では、視覚エンコーダーに対応するために大きな画像をタイルに分割することがよくありましたが、これは元の画像の空間構造を破壊していました。対照的に、POINTS1.5はNaViTスタイルのアーキテクチャを採用し、Qwen2-VL (Wang et al., 2024b)とIdefics2 (Laurençon et al., 2024)のアプローチに従って、任意の解像度の画像を分割せずに処理することができ、POINTS1.0で使用されていたデュアルCLIP視覚エンコーダーに比べて大幅な改善を実現しています。

Bilingual Support.

POINTS1.0では、英語コーパスが全データの95%以上を占めていた。本バージョンでは、事前学習および視覚的指示調整の両段階において、中国語データの量を増加させた。オープンソースの中国語データセットの入手可能性が限られているため、大量の中国語コーパスを収集することは困難である。事前学習段階では、POINTS1.0で100万件の事前学習データを取得した戦略に従い、LAION-5B-cn (Schuhmann et al., 2022) からCapFusion (Yu et al., 2024) とパープレキシティフィルタリング (Liu et al., 2024d) を用いて追加の100万件の中国語事前学習データを作成した。これを元の英語データと組み合わせ、最終的に200万件の事前学習用データセットを形成した。視覚的指示調整段階では、2つの戦略を採用した:(i) 大規模言語モデル(LLM)を使用して既存の会話データセットを中国語に翻訳する、(ii) 中国語OCRデータセットについては、インターネットから関連画像を収集し、Qwen2-VL-72Bなどの既存の視覚言語モデルを使用してこれらの画像からテキストを抽出する。人間のラベラーがこれらのアノテーションを検証し、軽微な誤りを修正するか、誤りが重大な場合は破棄した。

Visual Instruction Tuning Set Filtering.

我々はPOINTS1.0で使用された各データセットを手動で確認し、2つの重要な問題を特定した:i) 一部のデータセットに多数の文法エラーが存在すること、ii) 画像を参照せずに回答できる質問があること。最初の問題に対処するため、我々はQwen2.5-72B (Yang et al., 2024) などの大規模言語モデル(LLM)を使用して、既存のデータサンプルの文法エラーを検出した。その後、これらの誤りのあるサンプルを破棄するか、修正して元のデータセットに再統合した。2つ目の問題については、画像なしで質問に答えるためにLLMを使用した。LLMが正解を提供した場合、対応するデータサンプルにそのようにラベル付けした。

これらの革新を組み合わせることで、POINTS1.5はPOINTS1.0と比較して大幅な改善をもたらし、さまざまな実世界のアプリケーションで優れたパフォーマンスを発揮する。特筆すべきは、POINTS1.5-7BがOpenCompassリーダーボードにおいて、100億パラメータ未満のモデルの中で1位にランクされていることである。

2 Model Architecture

Refer to caption
図3: POINTS1.5は従来のLLaVA形式のアーキテクチャを使用しており、ビジョンエンコーダー、MLPプロジェクター、LLMで構成されている。

3はPOINTS1.5のアーキテクチャを示している。このモデルは従来のLLaVA形式のアーキテクチャ(Liu et al., 2023b)に従っており、ビジョンエンコーダー、MLPプロジェクター、言語モデル(LLM)で構成されている。

Vision Encoder

前節で述べたように、LLaVA形式のアーキテクチャを用いてビジョン言語モデルを訓練することは、LLMの継続的な事後訓練に似ており、画像モダリティからのトークンを処理できるようにする。したがって、高品質なビジョンエンコーダーから始めることは、LLMが画像を正確に解釈するために重要である。任意の解像度の画像をサポートするために、POINTS1.0はLLaVA-Next(Liu et al., 2024a)やInternVL(Chen et al., 2024c)などの最近の研究に倣い、大きな画像をビジョンエンコーダーが処理できる複数のタイルに分割している。しかし、この方法には画像内のパッチ間の空間的関係を乱すという本質的な欠点がある。ライン分割器の追加(Dong et al., 2024b)や分割されたパッチと共にグローバルビューを組み込む(Chen et al., 2024c)などの戦略でこの問題を軽減できるが、問題は依然として残る。そのため、POINTS1.5は最近の進展(Wang et al., 2024b; Laurençon et al., 2024)に従い、POINTS1.0で使用されていたCLIPビジョンエンコーダーをNaViT形式のビジョンエンコーダー(Dehghani et al., 2024)に置き換えている。CLIPビジョンエンコーダーとは異なり、NaViT形式のビジョンエンコーダーは分割の必要なく、任意の解像度の画像をネイティブに処理できる。

Batch Forwarding with NaViT

NaViTの導入により、バッチ転送において新たな課題が生じる。CLIP視覚エンコーダーでは画像をバッチサイズ次元に沿って連結できるのとは異なり、NaViTはパッチ化後にシーケンス長が変化する画像を処理する。この課題に対処するため、我々は大規模言語モデル(LLM)にヒントを得た戦略を採用する:複数の画像シーケンスを単一の長いシーケンスにパッキングする。その後、各画像シーケンスの開始インデックスと終了インデックスを記録し、自己注意が現在の画像シーケンスの境界内でのみ適用されるようにする(Dao, 2024)

Projector

POINTS1.0に従い、プロジェクターは2層のMLPで構成され、層間にGELU活性化関数(Hendrycks and Gimpel, 2016)を配置して非線形性を導入している。

Large Language Model

POINTS1.0に沿って、我々はQwen2.5-7B-Instructを選択した。本稿の公開後、我々はより大規模な言語モデルを用いたPOINTS1.5を導入する予定である。

3 Bilingual Support

本節では、POINTS1.5で使用された中国語データセットのキュレーションについて議論する。しかし、その議論の前に、POINTS1.0の事前学習で使用されたチャットテンプレートを改良する。

Chat Template

前節で議論したように、LLaVA形式のビジョン言語モデルを訓練するには、LLMの継続的な事後訓練が必要である。POINTS1.0に続き、POINTS1.5のLLMも指示調整版のQwen2.5-7B222https://huggingface.co/Qwen/Qwen2.5-7B-Instructから初期化される。しかし、POINTS1.0の事前学習段階では、LLMの事前学習プロセスで使用されたものと類似の継続テンプレートを使用してデータをパッキングしており、これは初期化されたLLMで使用されるテンプレートとは異なっている。本バージョンでは、Qwen2.5-7B-Instructで使用される会話テンプレートを採用し、継続テンプレートと比較して改善されたパフォーマンスを観察した。事前学習データは画像-キャプションのペアであるため、我々は各データサンプルにこの画像を説明してください。のようなプロンプトを追加する。プロンプトを多様化するために、候補プロンプトプール(図5)を作成し、各データサンプルに対してランダムにサンプリングする。さらに、視覚トークンをテキストトークンと区別するために、視覚トークンの前後に画像プレフィックスとサフィックストークンを追加する。図4は、POINTS1.0(Liu et al., 2024d)とPOINTS1.5の間の事前学習時のチャットテンプレートの違いを示している。

Refer to caption
図4: POINTS1.0(上)とPOINTS1.5(下)における事前学習時のチャットテンプレート

Chinese Pre-training Dataset

POINTS1.0に倣い、我々は事前学習データセットを作成するために2段階の手順を採用している:i) CapFusion (Yu et al., 2024) を使用して、視覚言語モデル(VLM)によって生成されたキャプションと画像の元のキャプションを融合し、最終的なキャプションを得る。ii) 生成されたキャプションをパープレキシティを用いてフィルタリングする。CapFusionのプロセスは以下の式で表される:

Caption=𝒢(c,(I))Caption𝒢𝑐𝐼\text{Caption}=\mathcal{G}(c,\mathcal{F}(I))Caption = caligraphic_G ( italic_c , caligraphic_F ( italic_I ) ) (1)

𝒢𝒢\mathcal{G}caligraphic_Gは大規模言語モデルを、\mathcal{F}caligraphic_Fは視覚言語モデルを、c𝑐citalic_cは元のキャプションを、I𝐼Iitalic_Iは対応する画像を表す。中国語のキャプションはPOINTS1.0の開発中に生成された。この目的のために、我々はInternLM2 (Cai et al., 2024)を大規模言語モデルとして、InternLM-XComposer2 (Dong et al., 2024a)を視覚言語モデルとして使用する。将来的には、POINTS1.5のようなより高度なモデルを使用してキャプションを生成する予定であり、これによってさらなる性能向上も期待される。その後、我々はこれらのデータをフィルタリングするためにパープレキシティを使用する:

Perplexity(s)Perplexity𝑠\displaystyle\mathrm{Perplexity}(s)roman_Perplexity ( italic_s ) =exp(1Ni=1NlogP(wi|w1,w2,,wi1))absentexp1𝑁superscriptsubscript𝑖1𝑁log𝑃conditionalsubscript𝑤𝑖subscript𝑤1subscript𝑤2subscript𝑤𝑖1\displaystyle=\mathrm{exp}(-\frac{1}{N}\sum_{i=1}^{N}\mathrm{log}P(w_{i}|w_{1}% ,w_{2},...,w_{i-1}))= roman_exp ( - divide start_ARG 1 end_ARG start_ARG italic_N end_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT roman_log italic_P ( italic_w start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT | italic_w start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_w start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_w start_POSTSUBSCRIPT italic_i - 1 end_POSTSUBSCRIPT ) ) (2)

{w1,,wN}subscript𝑤1subscript𝑤𝑁\{w_{1},\ldots,w_{N}\}{ italic_w start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_w start_POSTSUBSCRIPT italic_N end_POSTSUBSCRIPT }s𝑠sitalic_sのテキストトークンの配列とする。我々はこれらのトークンを昇順に並べ、最初の20%(約100万)を事前学習フェーズ用に選択する。この中国語データセットのサブセットは、元の100万の英語データセットと組み合わせてPOINTS1.5の事前学習に使用される。

Refer to caption
図5: 事前学習段階でチャットテンプレートで使用されるプロンプト。

Chinese Visual Instruction Tuning Dataset

我々は、本節で生成されたものを除き、POINTS1.0からすべての視覚指示チューニングデータセットを継承している。中国語の視覚指示チューニングデータセットを作成するために、我々はいくつかの戦略を採用した:i) 既存の英語データセット(質問と回答の両方)を中国語に翻訳する。ii) 既存のデータセットから画像と質問を使用し、Qwen2-VL-72Bなどの強力なVLMを用いて対応する回答を生成する。この戦略はキャプションデータセットにのみ適用される。iii) インターネットから画像を収集し、手動で質問を設計し(図6)、強力なVLMを使用して回答を生成し、人間のラベラーによって回答を検証する。この戦略は主に中国語のOCRデータセットに使用される。以下の表は、中国語データセットを構築するために使用されたデータセットと対応する戦略を示している。

Datasets Strategy
VQAv2(Goyal et al., 2017), GQA(Hudson and Manning, 2019) Translate English into Chinese
OKVQA(Marino et al., 2019)
LVIS-Instruct4V(Wang et al., 2023), LAION-GPT4V Question translation&VLM
Images collected from Internet VLM&Human Check
表1: 中国語データセットを生成するためのデータセットと対応する戦略。
Refer to caption
図6: 中国語OCRデータセットを作成するためのプロンプト。

中国語データセットの作成後、我々はPOINTS1.5で使用した最終的な視覚指示チューニングデータセットの9カテゴリーにわたる分布と英語・中国語の分布を得た。

Refer to caption
図7: POINTS1.5における視覚指示チューニングデータの分布。左図は異なるカテゴリー間の分布を示し、右図は英語と中国語の間の分布を示している。

我々は異なるカテゴリー間で著しい不均衡があることを観察した。しかし、これらのカテゴリー間でデータのバランスを取る効果的な方法をまだ特定できておらず、この課題は今後の研究に委ねることとする。

4 Visual Instruction Tuning Set Filtering

視覚的指示チューニングデータセットをフィルタリングする前に、我々はPOINTS1.0で使用された各データセットを手動でチェックし、2つの重要な問題を特定した:i) 画像を参照せずに回答できる質問がある(図9)。ii) 一部のデータセットに多数の文法エラーがある(図8)。

Refer to caption
図8: 文法エラーを含むサンプルをフィルタリングする手順(a)と文法的に正しいサンプルと文法エラーを含むサンプルの分布(b)。

Questions can be answered without images.

視覚言語モデルの訓練に使用されるデータは、モデルが画像に基づいて問題を解決できるようにするべきであることは常識である。画像なしで質問に回答できる場合、それらは純粋なテキストデータに退化してしまう(Liu et al., 2023c)。このようなデータをフィルタリングするために、我々はQwen2.5-72B-Instructなどの強力なオープンソースLLMを使用して、画像なしで質問に回答する。LLMが正解を提供した場合、対応するデータサンプルは破棄される。このフィルタリング戦略は、AI2D (Kembhavi et al., 2016)のような固定的で明確な回答を含むデータセットにのみ適用される。我々はその後、フィルタリングされたデータセットでモデルを訓練したが、わずかに性能が低下することを観察した。この現象は、純粋なテキストデータが事前訓練されたLLMの能力を維持するのに役立つことを示唆する以前の研究(Dai et al., 2024; Zhang et al., 2024; Yao et al., 2024)と一致している。

Filter out samples containing grammatical errors.

2番目のタイプの問題に対して、我々は2段階のフィルタリング戦略を設計している:(i) 大規模言語モデル(LLM)を使用して、現在のサンプルに文法エラーがあるかどうかを検出し、(ii) 文法エラーが存在する場合、サンプルを削除するか、LLMを使用してこれらのエラーを修正するかを選択できる。慎重な比較の結果、LLMを使用してエラーを修正するよりも、これらのサンプルを直接削除した方がモデルのパフォーマンスが向上することが分かった。図8(b)に示すように、フィルタリング後、元のデータの約85%を保持している。

Refer to caption
図9: 画像を参照せずに質問に答えることができる。
Refer to caption
図10: 視覚的指示調整セットにおける文法エラーを含むデータサンプル(でマークされている)。

5 Training and Model Strategy

Refer to caption
図11: 事前訓練中にビジョンエンコーダーをアンフリーズすると性能が低下する。

Training Strategy.

現在、LLaVA型の視覚言語モデルの各モジュールをどのように訓練するかについて、コミュニティ内でのコンセンサスは存在しない。表2に示すように、異なるモデルは事前訓練と視覚指示調整の段階で異なる訓練構成を採用している。これは、訓練構成の最適な戦略は何かという疑問を提起する。視覚言語モデルとは対照的に、大規模言語モデル(LLM)はより急速に発展し、様々な開発経路が統一されたアプローチに収束している。LLMの事前訓練の前に、WordPiece(Song et al., 2020)やBPE(Sennrich, 2015)などのアルゴリズムを用いて大規模コーパスでトークナイザーを訓練し、各文が一意かつ正確にインデックスの列にトークン化できるようにする必要がある。このトークナイザーは、インデックスの列を文に戻すデコードも可能である。事前訓練と事後訓練のプロセスでは、トークナイザーは固定されたまま、単語埋め込み層とすべてのトランスフォーマー層(Vaswani, 2017)がエンドツーエンドで訓練される。同様に、視覚言語モデルのアーキテクチャでは、視覚エンコーダーはテキストトークナイザーと同様の機能を果たし、プロジェクターは単語埋め込み層に相当する。したがって、視覚言語モデルの訓練前に、視覚エンコーダーを別個に訓練する必要がある(例えば、POINTS1.5で使用されているQwen2-VL視覚エンコーダー)。その後、視覚エンコーダーを固定し、プロジェクターとLLMをエンドツーエンドで訓練する。実際には、視覚投影層がランダムに初期化されるため、追加のステージ(いわゆる事前訓練ステージ)を加えて投影層をウォームアップすることで、より良いパフォーマンスが得られることを我々は発見した(このステージでは視覚エンコーダーを固定する。なぜなら、それを解凍するとパフォーマンスが低下することを発見したためである(図11))。我々の訓練構成を表3にまとめる。特筆すべきは、POINTS1.5がPOINTS1.0(Liu et al., 2024d)の経路に従い、計算資源をより手頃なものにしていることである。総トークン数は50億未満であり、これは以前の多くの研究(Chen et al., 2024c; Lu et al., 2024a; Wang et al., 2024b)と比較して大幅に少ない。

Model Pre-training Instruction Tuning
Vision Projector LLM Vision Projector LLM
LLaVA-Next(Liu et al., 2024a)
OneVision(Li et al., 2024)
POINTS(Liu et al., 2024d)
InternVL1.5(Chen et al., 2024c)
表2: 異なるモデルの訓練戦略
Refer to caption
図12: 我々は、LLaVA型アーキテクチャを用いて大規模言語モデルに追加のモダリティを拡張する場合、この図に示す3段階の手順に従うべきであると考える。左側の3つのアイコンは、3つの段階における各モジュールの状態を示している。左から右へ、それぞれステージ1、ステージ2、ステージ3を表す。
Settings Pre-training Stage Visual Instruction Tuning Stage
Datasets LAION-5B by CapFusion and Filtering POINTS1.0 + Chinese Datasets
Trainable MLP Projector MLP Projector + LLM
Batch Size 32 32
Context Length 4096 4096
Learning Rate 2e-4 2e-5
Weight Decay 0.0 0.1
Gradient Clip 1.0 1.0
lr Scheduler Cosine Cosine
Training Tokens similar-to\sim2.1B similar-to\sim2.3B
表3: POINTS1.5の訓練構成

Model Soup over Best Performing Model

POINTS1.0に従い、我々は単一モデルの性能を向上させるためにモデルスープ(Wortsman et al., 2022)を使用する。モデルスープは、我々の評価ベンチマークで最高の性能を示すモデルに対して実施され、主に異なる視覚的指示チューニングデータセットと異なる視覚的指示チューニングエポックで訓練されたモデルで構成される。最高性能の単一モデルのOpenCompassスコアは66.5であり、モデルスープを使用して得られた最終モデルは67.4のスコアを達成した。

Discussion

前節で議論したように、LLaVAスタイルのアーキテクチャの下で大規模言語モデル(LLM)をあらゆるモダリティに拡張することは、LLMの継続的な事後訓練に類似している。我々は、モデルの最終的な性能を決定する3つの重要な要因を特定した:i) 高品質のモダリティトークナイザーとデトークナイザー。トークナイザーは、あらゆるモダリティ信号を圧縮された特徴空間に一意かつ正確にエンコードし、デトークナイザーは圧縮された特徴を元のモダリティ信号に復元すべきである。ii) モダリティ埋め込み層、すなわち投影層。iii) LLMに異なるモダリティを理解する能力を付与するための高品質な指示チューニングデータセット。したがって、我々は将来のマルチモーダルモデルの開発が3段階の戦略に従うべきであると考える(図12):i) 豊富なデータを使用してモダリティトークナイザーとデトークナイザーを訓練する、例えば視覚エンコーダーとデコーダー。ii) モダリティ埋め込み層をウォームアップし、あらゆるモダリティ信号をLLMのテキスト空間に変換する。この段階では、我々の実験と以前の研究(Liu et al., 2024c)で見出されたように、データセットのサイズは必ずしも非常に大きくなる必要はない。iii) 高品質な指示チューニングデータセットを使用して、トークナイザーとデトークナイザーを固定したまま、モダリティ埋め込み層とLLMを訓練する。

6 Evaluation

我々の探究を開始する前に、モデルの様々な能力を包括的に評価するための堅牢な評価指標を求めた。当初、OpenCompassのランキングで使用されている8つのベンチマークを選択した。これらのベンチマークには、一般的な能力を診断するためのMMBench (Liu et al., 2023c)とMMStar (Chen et al., 2024b)、STEM関連の能力をテストするためのMMMU (Yue et al., 2024)、モデルの幻覚を評価するHallusionBench (Liu et al., 2023a)、数学関連の能力を測るMathVista (Lu et al., 2023)、グラフ関連の能力を評価するAI2D (Kembhavi et al., 2016)、OCR能力を測るOCRBench (Liu et al., 2023d)、主観的評価のためのMMVet (Yu et al., 2023)が含まれる。さらに、OpenCompassはワンクリック評価のための有用なツールであるVLMEvalKit (Duan et al., 2024)を提供している。評価結果をさらに補完するために、ChartQA (Masry et al., 2022)、MME (Yin et al., 2023)、LLaVA-wild (Kuang et al., 2023)、SEEDBench (Li et al., 2023a)、ScienceQA (Lu et al., 2022)、MATH-Vision(Wang et al., 2024a)、MathVerse(Zhang et al., 2025)、MEGEBench (Chen et al., 2024a)も含めた。表4および5は、POINTS1.5といくつかの代表的なオープンソースモデルとの比較を示している。POINTS1.5は有望な性能を示し、これらのベンチマークの大部分で最高スコアを獲得している。特に、MathVista、MATH-Vision、MathVerseの結果が示すように、POINTS1.5の数学的能力は非常に優れていることが分かる。

Methods MMB MV HB OCR AI2D MMVet MMStar MMMU
Proprietary models
GPT-4o-20241120 84.3 59.9 56.2 80.6 84.9 74.5 65.1 70.7
Gemini-1.5-Pro-002 82.8 67.8 55.9 77.0 83.3 74.6 67.1 68.6
Claude3.5-Sonnet-20241022 81.7 65.1 55.5 79.8 81.2 70.1 65.1 66.4
Open-source models
Ovis1.5-LLaMA3-8B 76.6 63.0 45.0 74.4 82.5 50.9 57.3 48.3
InternVL2-8B 79.4 58.3 45.0 79.4 83.6 54.3 61.5 51.2
OneVision-7B-SI 76.8 58.5 47.5 69.7 82.8 50.6 56.7 46.8
POINTS-7B 83.2 63.1 46.0 72.0 80.9 52.3 61.0 49.4
Qwen2-VL-7B 81.0 61.4 50.4 84.3 83.0 61.8 60.7 53.7
Ours
POINTS1.5-7B 80.7 66.4 50.0 83.2 81.4 62.2 61.1 53.8
表4: OpenCompassベンチマークにおける異なる手法の比較。 MMB: MMBench(Liu et al., 2023c)、MV: MathVista(Lu et al., 2023)、HB: HallusionBench(Liu et al., 2023a)、OCR: OCRBench(Liu et al., 2023d)、Ovis1.5-LLaMA3-8B: Ovis1.5(Lu et al., 2024b)、OneVision: LLaVA-OneVision(Li et al., 2024)。結果はOpenCompassのリーダーボードから取得したものである。
Methods ChartQAavgavg{}^{\text{avg}}start_FLOATSUPERSCRIPT avg end_FLOATSUPERSCRIPT MME Wild SEEDII{}^{\text{I}}start_FLOATSUPERSCRIPT I end_FLOATSUPERSCRIPT MEGA-SI SCI M-Vision M-Verse
Open-source models
Ovis1.5-LLaMA3-8B - 1948.5 79.9 75.4 - 88.8 - -
OneVision-7B-SI 80.0 2146.3 77.6 75.4 25.7 86.6 26.2 -
InternVL2-8B 83.3 2215.1 73.3 75.4 29.2 97.1 37.0 20.4/18.4
POINTS-7B - 2184.1 72.3 74.8 26.2 94.8 - -
Qwen2-VL-7B 83.0 2276.3 70.1 76.0 36.7 85.5 31.9 22.0/16.3
Ours
POINTS1.5-7B 84.3 2222.7 74.6 75.4 32.7 94.8 36.9 23.7/21.9
表5: 同程度のサイズのオープンソースモデルとのより多くのベンチマークにおける比較。 SEEDII{}^{\text{I}}start_FLOATSUPERSCRIPT I end_FLOATSUPERSCRIPT: SEEDBench(Li et al., 2023a)、MEGA-SI: MEGABench(Chen et al., 2024a)の少数ショットサンプルを用いない単一画像評価、SCI: ScienceQA(Lu et al., 2022)、Wild: LLaVA-Wild(Kuang et al., 2023)、M-Vision: MATH-Vision(Wang et al., 2024a)、M-Verse: MathVerse(Zhang et al., 2025)

7 Conclusion

我々はPOINTS1.0と比較して大幅に強化されたモデルであるPOINTS1.5を提示する。本バージョンでは3つの主要な革新を導入している:i) 元のCLIPビジョンエンコーダーをNaViTスタイルのビジョンエンコーダーに置き換え、分割の必要なく任意の解像度の画像をネイティブにサポートできるようにした。これにより、画像内のパッチ間の元の空間的関係を保持することが可能となった。ii) バイリンガルサポートを追加した。手動と自動の戦略を組み合わせて中国語コーパスを構築し、事前学習と視覚的指示調整の両段階で大量の中国語データを獲得した。iii) POINTS1.0の各データセットを手動で見直し、2つの重要な問題を特定した。そして、これらのデータセットをフィルタリングするための効果的な戦略を提案した。特筆すべきは、50億トークン未満のデータでモデルを訓練することで、OpenCompassリーダーボードで1位にランクインするモデルを達成したことである。

References

  • Bai et al. [2023] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
  • Cai et al. [2024] Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, et al. Internlm2 technical report. arXiv preprint arXiv:2403.17297, 2024.
  • Chen et al. [2024a] Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, et al. Mega-bench: Scaling multimodal evaluation to over 500 real-world tasks. arXiv preprint arXiv:2410.10563, 2024a.
  • Chen et al. [2024b] Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, et al. Are we on the right way for evaluating large vision-language models? arXiv preprint arXiv:2403.20330, 2024b.
  • Chen et al. [2024c] Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites. arXiv preprint arXiv:2404.16821, 2024c.
  • Contributors [2023] OpenCompass Contributors. Opencompass: A universal evaluation platform for foundation models. https://github.com/open-compass/opencompass, 2023.
  • Dai et al. [2024] Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuolin Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, and Wei Ping. Nvlm: Open frontier-class multimodal llms. arXiv preprint arXiv:2409.11402, 2024.
  • Dao [2024] Tri Dao. FlashAttention-2: Faster attention with better parallelism and work partitioning. In International Conference on Learning Representations (ICLR), 2024.
  • Dehghani et al. [2024] Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim M Alabdulmohsin, et al. Patch n’pack: Navit, a vision transformer for any aspect ratio and resolution. Advances in Neural Information Processing Systems, 36, 2024.
  • Dong et al. [2024a] Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, and Jiaqi Wang. Internlm-xcomposer2: Mastering free-form text-image composition and comprehension in vision-language large model. arXiv preprint arXiv:2401.16420, 2024a.
  • Dong et al. [2024b] Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, and Jiaqi Wang. Internlm-xcomposer2-4khd: A pioneering large vision-language model handling resolutions from 336 pixels to 4k hd. arXiv preprint arXiv:2404.06512, 2024b.
  • Dosovitskiy [2020] Alexey Dosovitskiy. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
  • Duan et al. [2024] Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, et al. Vlmevalkit: An open-source toolkit for evaluating large multi-modality models. arXiv preprint arXiv:2407.11691, 2024.
  • Goyal et al. [2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6904–6913, 2017.
  • Hendrycks and Gimpel [2016] Dan Hendrycks and Kevin Gimpel. Gaussian error linear units (gelus). arXiv preprint arXiv:1606.08415, 2016.
  • Hudson and Manning [2019] Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 6700–6709, 2019.
  • Kembhavi et al. [2016] Aniruddha Kembhavi, Michael Salvato, Eric Kolve, Minjoon Seo, Hannaneh Hajishirzi, and Ali Farhadi. A diagram is worth a dozen images. ArXiv, abs/1603.07396, 2016. URL https://api.semanticscholar.org/CorpusID:2682274.
  • Kuang et al. [2023] Jianfeng Kuang, Wei Hua, Dingkang Liang, Mingkun Yang, Deqiang Jiang, Bo Ren, and Xiang Bai. Visual information extraction in the wild: practical dataset and end-to-end solution. In International Conference on Document Analysis and Recognition, pages 36–53. Springer, 2023.
  • Laurençon et al. [2024] Hugo Laurençon, Léo Tronchon, Matthieu Cord, and Victor Sanh. What matters when building vision-language models? arXiv preprint arXiv:2405.02246, 2024.
  • Li et al. [2024] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326, 2024.
  • Li et al. [2023a] Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, and Ying Shan. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125, 2023a.
  • Li et al. [2023b] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023b.
  • Liu et al. [2023a] Fuxiao Liu, Tianrui Guan, Zongxia Li, Lichang Chen, Yaser Yacoob, Dinesh Manocha, and Tianyi Zhou. Hallusionbench: You see what you think? or you think what you see? an image-context reasoning benchmark challenging for gpt-4v (ision), llava-1.5, and other multi-modality models. arXiv preprint arXiv:2310.14566, 2023a.
  • Liu et al. [2023b] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning, 2023b.
  • Liu et al. [2024a] Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, and Yong Jae Lee. Llava-next: Improved reasoning, ocr, and world knowledge, January 2024a. URL https://llava-vl.github.io/blog/2024-01-30-llava-next/.
  • Liu et al. [2024b] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. Advances in neural information processing systems, 36, 2024b.
  • Liu et al. [2023c] Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et al. Mmbench: Is your multi-modal model an all-around player? arXiv preprint arXiv:2307.06281, 2023c.
  • Liu et al. [2024c] Yuan Liu, Le Tian, Xiao Zhou, and Jie Zhou. Rethinking overlooked aspects in vision-language models. arXiv preprint arXiv:2405.11850, 2024c.
  • Liu et al. [2024d] Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, and Jie Zhou. Points: Improving your vision-language model with affordable strategies. arXiv preprint arXiv:2409.04828, 2024d.
  • Liu et al. [2023d] Yuliang Liu, Zhang Li, Biao Yang, Chunyuan Li, Xucheng Yin, Cheng-lin Liu, Lianwen Jin, and Xiang Bai. On the hidden mystery of ocr in large multimodal models. arXiv preprint arXiv:2305.07895, 2023d.
  • Liu et al. [2022] Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. A convnet for the 2020s. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 11976–11986, 2022.
  • Lu et al. [2024a] Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, et al. Deepseek-vl: towards real-world vision-language understanding. arXiv preprint arXiv:2403.05525, 2024a.
  • Lu et al. [2022] Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. Advances in Neural Information Processing Systems, 35:2507–2521, 2022.
  • Lu et al. [2023] Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, and Jianfeng Gao. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. arXiv preprint arXiv:2310.02255, 2023.
  • Lu et al. [2024b] Shiyin Lu, Yang Li, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, and Han-Jia Ye. Ovis: Structural embedding alignment for multimodal large language model. arXiv preprint arXiv:2405.20797, 2024b.
  • Marino et al. [2019] Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-vqa: A visual question answering benchmark requiring external knowledge. In Proceedings of the IEEE/cvf conference on computer vision and pattern recognition, pages 3195–3204, 2019.
  • Masry et al. [2022] Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, and Enamul Hoque. Chartqa: A benchmark for question answering about charts with visual and logical reasoning. arXiv preprint arXiv:2203.10244, 2022.
  • OpenAI [2023] OpenAI. Gpt-4 technical report. Technical Report 1, 2, 9, 10, OpenAI, 2023. URL https://example.com/gpt4-technical-report.
  • Schuhmann et al. [2022] Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022.
  • Sennrich [2015] Rico Sennrich. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
  • Song et al. [2020] Xinying Song, Alex Salcianu, Yang Song, Dave Dopson, and Denny Zhou. Fast wordpiece tokenization. arXiv preprint arXiv:2012.15524, 2020.
  • Vaswani [2017] A Vaswani. Attention is all you need. Advances in Neural Information Processing Systems, 2017.
  • Wang et al. [2023] Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, and Yu-Gang Jiang. To see is to believe: Prompting gpt-4v for better visual instruction tuning. arXiv preprint arXiv:2311.07574, 2023.
  • Wang et al. [2024a] Ke Wang, Junting Pan, Weikang Shi, Zimu Lu, Mingjie Zhan, and Hongsheng Li. Measuring multimodal mathematical reasoning with math-vision dataset. arXiv preprint arXiv:2402.14804, 2024a.
  • Wang et al. [2024b] Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, et al. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution. arXiv preprint arXiv:2409.12191, 2024b.
  • Wang et al. [2024c] Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, et al. Emu3: Next-token prediction is all you need. arXiv preprint arXiv:2409.18869, 2024c.
  • Wortsman et al. [2022] Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, and Ludwig Schmidt. Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, 2022. URL https://arxiv.org/abs/2203.05482.
  • Yang et al. [2024] An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, et al. Qwen2 technical report. arXiv preprint arXiv:2407.10671, 2024.
  • Yao et al. [2024] Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, et al. Minicpm-v: A gpt-4v level mllm on your phone. arXiv preprint arXiv:2408.01800, 2024.
  • Yin et al. [2023] Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, and Enhong Chen. A survey on multimodal large language models. arXiv preprint arXiv:2306.13549, 2023.
  • Yu et al. [2024] Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Yue Cao, Xinlong Wang, and Jingjing Liu. Capsfusion: Rethinking image-text data at scale. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14022–14032, 2024.
  • Yu et al. [2023] Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, and Lijuan Wang. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023.
  • Yue et al. [2024] Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9556–9567, 2024.
  • Zhang et al. [2024] Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, et al. Mm1. 5: Methods, analysis & insights from multimodal llm fine-tuning. arXiv preprint arXiv:2409.20566, 2024.
  • Zhang et al. [2025] Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Yu Qiao, et al. Mathverse: Does your multi-modal llm truly see the diagrams in visual math problems? In European Conference on Computer Vision, pages 169–186. Springer, 2025.

Appendix A Appendix

我々は、POINTS1.5の性能を実証するためのいくつかの実世界の例を示す。

Refer to caption
図13: OCRと推論能力。
Refer to caption
図14: 複雑な中国語OCR
Refer to caption
図15: 複雑なOCR
Refer to caption
図16: 画像からの要点の要約。
Refer to caption
図17: Latex数式の抽出
Refer to caption
図18: 数学的問題解決
Refer to caption
図19: 画像翻訳
Refer to caption
図20: 物体識別。
Refer to caption
図21: 重要情報の抽出と推論。