JaLMS
最新の AI 研究を日本語で解読

Multi-Dimensional Insights:
Benchmarking Real-World Personalization in Large Multimodal Models

YiFan Zhang1∗, Shanglin Lei2∗, Runqi Qiao1 ,
Zhuoma GongQue1, Xiaoshuai Song1, Guanting Dong1, Qiuna Tan1, Zhe Wei1
Peiqing Yang1, Ye Tian1, Yadong Xue1, Xiaofei Wang1, Honggang Zhang1
1Beijing University of Posts and Telecommunications
2Huazhong University of Science and Technology
The first three authors contribute equally.Corresponding author
Abstract

急速に発展する大規模マルチモーダルモデル(LMM)の分野では、顕著な能力を持つ多様なモデルが登場している。しかし、既存のベンチマークは、LMMが実世界のシナリオにおける人間の多様なニーズに適合しているかどうかを包括的、客観的、かつ正確に評価することができていない。この隔たりを埋めるため、我々はMulti-Dimensional Insights(MDI)ベンチマークを提案する。これは、人間の生活における6つの一般的なシナリオをカバーする500以上の画像を含んでいる。特筆すべきは、MDI-Benchmarkが既存の評価に比べて2つの重要な利点を提供することである: (1) 各画像には2種類の質問が付随している:モデルの画像理解を評価するための単純な質問と、基本的な内容を超えて分析・推論する能力を評価するための複雑な質問。 (2) 同じシナリオに直面した際に、異なる年齢層の人々が様々なニーズと視点を持つことを認識し、本ベンチマークは質問を若年層、中年層、高齢層の3つの年齢カテゴリーに層別化している。この設計により、異なる年齢層の嗜好やニーズに対するLMMの能力を詳細に評価することが可能となる。MDI-Benchmarkを用いると、GPT-4oのような強力なモデルでも年齢関連タスクの正確性は79%にとどまり、既存のLMMが実世界のアプリケーションに対応する上でまだかなりの改善の余地があることを示している。今後、MDI-Benchmarkが、LMMにおける実世界のパーソナライゼーションの整合性に向けた新たな道を開くことを期待している。MDI-Benchmarkのデータと評価コードはhttps://mdi-benchmark.github.io/で入手可能である。

1 Introduction

異なるユーザーの多様なニーズに対応するパーソナライズされた人工知能(AI)アシスタントの開発は、長年人類にとって重要な追求課題であった(Kobsa & Schreck, 2003; Xiao et al., 2018; Kocaballi et al., 2019; Rafieian & Yoganarasimhan, 2023; Pesovski et al., 2024)。現実世界のシナリオにおいて、理想的なAIアシスタントは、様々な年齢層、文化的背景、専門分野にわたる個人の特定の要求を正確に満たす能力を持つべきである。

近年、人工知能の分野は重要なパラダイムシフトを経験し、特定の単純なタスクのために設計された専門的な小規模モデル(Rawat & Wang, 2017; Zhao et al., 2019; Minaee et al., 2021; Singh et al., 2017)から、複雑なタスクを処理できる統合された大規模マルチモーダルモデル(LMM)へと移行している(Zhang et al., 2024)。このパラダイムシフトは、人工汎用知能(AGI)の実現に向けた重要な一歩であり、LMMがパーソナライズされた人間のアシスタントになる可能性を強調している。

LMMの能力を包括的に評価するために、研究者らはLMMの一般的な画像-テキスト理解および対話能力を評価するいくつかの一般的な視覚的質問応答ベンチマークを構築してきた(Goyal et al., 2017; Chen et al., 2015; Marino et al., 2019; Mishra et al., 2019; Biten et al., 2019)。しかし、これらのベンチマークは単に標準的な解答と比較するだけであり、モデルの詳細な能力に関する洞察は限られている。この制限に対処するため、その後、より広範なタスクとより多くのテストサンプルをカバーするマルチモーダル理解ベンチマークが開発された(Yu et al., 2023b; Liu et al., 2023; Fu et al., 2024a; Ying et al., 2024)。この改良により、モデル能力のより正確な評価が可能となり、より堅牢なLMMの開発が促進された。しかしながら、現在のベンチマークは主に特定のタスクに対する技術的指標に焦点を当てており、以下の二つの重要な研究課題を看過している:

Q1: これらのLMMは実際に現実世界のシナリオにおいて人間の実際のニーズに適合できるのか?

Q2: これらのLMMは、その後、異なるグループの多様なニーズに対応できるか?

これらの課題に取り組むため、我々は新しい「Multi-Dimensional Insights」(MDI)ベンチマークを導入する。これは、様々な現実世界のシナリオ、異なる問題の複雑さ、そして多様な年齢層を包含している。具体的には、MDIベンチマークは500以上の実世界の画像と1.2kの人間が提起した質問で構成されている。図2に示すように、建築、教育、家事、社会サービス、スポーツ、交通という人間生活の6つの主要なシナリオをカバーしている。さらに、MDIベンチマークは以下の2つの次元からLMMを評価することに焦点を当てている:

質問の複雑さの次元。この次元は、人間が提起した問題を2つの複雑さのレベルに分類している。第一のレベルは、物体検出や光学文字認識(OCR)などのLMMの基本的な能力を評価する。第二のレベルは、論理的推論、数学的計算、知識の応用などのより複雑な能力を評価する。

年齢の次元。年齢は個人差を評価する基本的な基準である。なぜなら、異なる年齢の人々は多様なニーズを持っているからである。我々は個人を若年層、中年層、高齢層の3つの年齢グループに分類し、これらのグループ間で異なるニーズや嗜好に対するLMMの有効性を評価する。我々の目標は、LMMが実践的な状況において人間の多様なニーズを満たすことができるかどうかを包括的に評価することである。

要約すると、我々の主要な貢献は以下の通りである:

  • 大規模マルチモーダルモデルに対する人間の実際のニーズに合わせるため、我々は実践的かつ現実世界のシナリオにおけるLMMの能力を徹底的に評価するマルチモーダルベンチマークを初めて提案するものである。

  • MDI-Benchmarkは、500以上の実世界の画像と1.2kの人間が提起した質問を含み、6つの現実世界のマルチモーダルシナリオにわたっている。各シナリオは3つのサブドメインに分かれ、2段階の複雑さを持つ。さらに、LMMが異なる年齢層に対して応答をパーソナライズするよう導くため、評価に年齢要因を組み込んでいる。

  • MDI-Benchmarkを用いて、我々はいくつかの主流LMMの包括的な評価を実施した。具体的には、GPT-4oがすべての指標で最良の結果を達成したが、異なる年齢層のニーズに対応する点ではまだ大幅な改善の余地がある。ScenarioComplexityAgeなどの次元にわたる更なる分析により、信頼性の高いパーソナライズされた人間の助手を開発するための貴重な洞察が得られた。

本稿の研究が、現実世界のシナリオにおけるマルチモーダル大規模モデルの応用を促進し、多次元のパーソナライゼーションの発展への道を開くことを期待している。

2 Related Work

2.1 Multimodal Dataset and Benchmark

LMMの能力を評価するために、過去の研究から様々なベンチマークが適用されてきた。その中で、Flickr30k (Young et al., 2014)、COCO Captions (Chen et al., 2015)、Nocaps (Agrawal et al., 2019)は、LMMのテキスト生成と画像説明能力を評価するために利用されている。Vizwiz (Bigham et al., 2010)、VQA (Goyal et al., 2017)、GQA (Hudson & Manning, 2019)、OK-VQA (Marino et al., 2019)は、LMMの画像情報理解と質問応答能力を評価するために使用されている。OCR能力の評価には、ST-VQA (Biten et al., 2019)やOCR-VQA (Mishra et al., 2019)などのベンチマークが採用されている。DocVQA (Mathew et al., 2021)は、特にモデルの文書理解と識別能力を評価するために使用されている。

LMMの詳細な能力をさらに探求するために、最近のベンチマークは評価するタスクの種類を大幅に拡大している。そのようなベンチマークの例には、LVLM-eHub (Xu et al., 2023)、MM-Vet (Yu et al., 2023b)、MMBench (Liu et al., 2023)、SEED-Bench (Li et al., 2023)、MME (Fu et al., 2024a)、MMT-Bench (Ying et al., 2024)、Video-MME (Fu et al., 2024b)、MMMU (Yue et al., 2023)、MMMU-Pro (Yue et al., 2024a)、MathVista (Lu et al., 2024b)、Mathverse (Zhang et al., 2025)、We-Math(Qiao et al., 2024a)、MMEvol(Luo et al., 2024)がある。しかしながら、これらのベンチマークは、異なる個人の多様なニーズに対応するLMMの能力を十分に探求していないことに注意すべきである。したがって、我々はMDI-Benchmarkを通じてこの能力をより良く探求することを目指している。

2.2 Large Multimodal Models

多くの大規模言語モデル(LLM)の成功を基盤として(Brown et al., 2020; Touvron et al., 2023; Chiang et al., 2023)、最近の研究では大規模言語モデルと視覚エンコーダーを組み合わせ、強力な視覚理解と意味生成能力を持つLMMを形成している。多くの優れたオープンソース(Hong et al., 2023; Wang et al., 2023; Hu et al., 2024; Lu et al., 2024a; Liu et al., 2024b; Ye et al., 2023; Abdin et al., 2024)およびクローズドソース(Team et al., 2023; Bai et al., 2023; OpenAI, 2023; 2024)のプロジェクトが開発されている。この発展により、パーソナライズされたAIアシスタントの実現可能性がさらに高まっている。

2.3 Personalized research

パーソナライズされたAIアシスタントを実現するために、大規模言語モデル(LLM)は現在、ユーザーのパーソナライズされた出力と組み合わせることで、そのパーソナライゼーション能力を向上させ、ユーザーの嗜好に合致した出力を生成することを可能にしようとしている(Woźniak et al., 2024; Zhuang et al., 2024b; Baek et al., 2024; Tan et al., 2024)。同時に、異なるニーズに直面したLLMの理解能力をさらに拡大するために、パーソナライズされたデータ生成も重要である(Chan et al., 2024)。本稿では、MDI-Benchmarkを使用して、既存の大規模マルチモーダルモデルのパーソナライズされたニーズに対応する能力を評価し、将来のLMM研究に対する我々の洞察を提供する。

3 MDI-Benchmark

Refer to caption
図2: MDI Benchmarkの6つの現実世界のマルチモーダルシナリオの概要。各シナリオは3つのサブドメインで構成されている。

MDI-Benchmarkのサンプル設計は、情報の現実世界における複雑性、場面の多様性、および年齢差を重視している。人々の情報に関する関心は、しばしばシナリオによって異なる。図1に示されているように、新居を購入する家族は、キッチンのタイプ、ガレージの収容能力、寝室の設備など、彼らに密接に関連する実用的な問題に焦点を当てる可能性がある。スポーツイベントの観客は、試合の詳細、選手の成績、試合の進行状況などに関心を持つかもしれない。

3.1 Evaluation Dimension

既存の研究とは対照的に、MDI-Benchmarkは特定のタスクシナリオ内で様々な年齢層と複雑さにわたる実世界の問題に対するモデルの性能を重視している。これはシナリオ、年齢、問題の複雑さという3つの異なる次元に沿って構成されている。

シナリオの次元。 シナリオの観点から、MDI-Benchmarkは人間の生活の実際のニーズに密接に沿うことを目指している。以前のLMM評価ベンチマークの能力評価重視とは異なり、MDI-Benchmarkは実生活のシナリオに基づいて構築されている。

人間が実生活で直面する様々なシナリオに対応するため、我々は社会学文献(Tajfel, 1979; Birmingham et al., 2008; Spears, 2021)で提供されている定義を参考にし、それらを拡張して30のサブドメインシナリオを特定した。この基礎に基づき、我々は異なる年齢、性別、職業の人々を対象に1ヶ月間のアンケート調査を実施した。合計2,500件のアンケートを配布し、2,374件の有効回答を収集した。アンケートにおけるサブドメインの選択頻度に基づき、上位18のサブドメインを選択し、最終的に6つの主要シナリオ(建築、教育、家事、社会サービス、スポーツ、交通)にまとめた。我々はこれらのサブドメインから画像を収集し、このベンチマークがシナリオ情報に富んでいることを確保した。例は付録C.1に示されている。

問題の複雑さの次元。 日常的な人間の活動の領域では、複雑さのレベルは大きく異なり、難しさの定義はしばしば主観的である。この定義を簡素化するため、我々はモデルの基本的な能力を原子単位として、問題を階層的に定量化した。 この基準に基づき、我々は調査質問をフィルタリングし、以前の評価基準を洗練させた。さらに、MDI-Benchmarkは2つのレベルに分類される:(1) 第1レベルは比較的単純な問題タイプで、主にモデルのシナリオ情報抽出能力を評価する。これには検出、光学文字認識、位置認識、色認識、その他の基本的な能力などのタスクが含まれる。(2) 第2レベルは、モデルがシナリオ情報とユーザーの意味情報を論理的な洞察力を持って巧みに分析し、関連知識を統合してユーザーの要求を効果的に満たすことを要求する。例は付録C.2に示されている。

年齢の次元。 年齢はグループ分類のための普遍的かつ具体的な基準であり、文化や宗教的信念に基づく分類と比較してより客観的である。全ての人が持つ基本的な属性として、年齢は定量化と比較が容易である。年齢を分類次元として使用することで、我々は様々なグループのニーズをより良く理解し、これらの多様なニーズを満たすLMMの能力を評価することができる。評価と定量化の目的のため、我々は3つの異なる年齢グループを特定した:若年層(10-25歳)、中年層(35-50歳)、高齢層(60-75歳)。我々はこれらの年齢層の個人を実生活のシナリオに関与させ、彼らのニーズについて尋ねた。これらの調査結果は、MDI-Benchmarkの初期バージョンの作成に反映された。例は付録C.3に示されている。

3.2 Data Collection

データソース。 既存のLMM評価ベンチマークは、新しいモデルの評価と訓練に広く使用されてきた。評価結果の正確性を確保するため、我々は既存のデータセットに含まれていない500以上の新しい画像を収集し、3つの年齢グループから120人のボランティアを募集した。各グループから10人のボランティアを抽出し、30人のデータ構築チームを形成した。主なデータ収集プロセスは以下の通りである:まず、シナリオ次元情報を決定した後、データ構築チームは自身の興味に基づいて詳細なシナリオ情報を記述した。同時に、我々はシナリオ次元情報をオープンソースモデル(例:GPT-4o、Gemini 1.5 Pro)とクローズドソースモデル(例:LLaVA-Next、MiniCPM)に入力し、よりパーソナライズされた、多様で詳細なシナリオ記述を生成した。さらに、人間とモデルの両方が作成した記述をキーワードとして使用し、インターネット上で関連画像を検索した。また、我々はボランティアに十分な賃金(約7ドル/時間)を支払った。これらのボランティアは、画像を6つのシナリオ次元に分類する任務を与えられた。データのバランスを確保し、バイアスを最小限に抑えるため、我々は各年齢グループ内で性別、職業、その他の要因に関する多様性を確保した。分類の一貫性を確保するため、詳細な分類基準とガイドラインが提供された。我々はクロスバリデーションアプローチを採用し、各グループのボランティアが画像をスクリーニングし、3つのグループすべてが同一に分類した画像のみを保持した。さらに、複数回の検証が実施された。この包括的なプロセスにより、バランスの取れた信頼性の高いデータソースの構築に役立った。

質問と回答の生成。 収集した画像を取得した後、我々は発見的手法を用いて手動で質問と問題を生成した。具体的なプロセスは以下の通りである:(1) 知識ベースの構築。具体的には、まず複数のオープンソースおよびクローズドソースモデルを使用して画像内のシナリオ内容を記述し、人間の専門家によって要約された。その後、シナリオ内容に関連する追加情報をインターネット検索で見つけ、画像とこの情報を組み合わせて知識ベースを形成した。(2) 難しい多肢選択問題の生成。生成された質問が画像内容と一致することを確保するため、我々はデータ収集段階に参加した3つの異なる年齢グループのボランティアを招いて質問を提出してもらった。これらのボランティアは、画像シナリオと知識ベースの内容に基づいて様々な複雑さの質問を提起し、紛らわしい不正解の選択肢を作成した。(3) 質問フォーマット。ボランティアが提供した画像-質問ペアは、[レベル]-[年齢]-[シナリオ]のフォーマットに従う必要があった。ここで、レベルにはレベル1とレベル2が含まれ、年齢には高齢、中年、若年が含まれ、シナリオには建築、教育、家事、社会サービス、スポーツ、交通が含まれる。最後に、専門家チームがボランティアから提出された質問をスクリーニングし評価して、質問の構築を最終決定した。

データ統計。 MDI-Benchmarkは、シナリオ、年齢グループ、能力の3つの異なる次元から収集されている。合計514枚の画像と1298の質問が含まれており、すべて新たに収集されたものである。同時に、我々は異なるシナリオ、年齢、質問の複雑さにわたってデータのバランスを確保するよう努めた。詳細な情報は表1に示されている。図1に示されているように、このデータセットは6つの領域をカバーしており、各領域には3つのサブドメインがあり、様々な分野にわたる包括的で構造化されたデータ構築を提供している。

表1: MDI-Benchmarkの統計詳細。
Scenarios Number of images Number of L1 questions Number of L2 questions Number of old questions Number of mid questions Number of young questions
Architecture 85 121 112 77 74 82
Education 85 114 115 80 79 70
Housework 86 103 109 71 74 67
Social services 86 95 108 65 66 72
Sports 86 107 103 70 73 67
Transport 86 109 102 73 70 68
Total 86 649 649 436 436 426

4 Experiments

4.1 Experimental Settings

評価プロトコル。 モデルの出力を効果的に評価するために、我々はモデルに正解を回答に含めることを要求した。これに基づいて、回答の正確性が計算された。つまり、モデルが正しい概念を述べていても、正確な答えを出せなかった場合は不正解と分類される。このアプローチは、モデルの指示に従う能力を強調し、この能力の不足を浮き彫りにする。さらに、プロンプトの入力形式が異なるモデル間で異なるため、我々は各モデルの入力形式を調査した。その後、各モデルが提供する公式の入力形式に従って、プロンプトの一貫性を維持するよう努めた。このアプローチは、プロンプトの違いがモデルのパフォーマンスに与える影響を最小限に抑えることを目的としている。

表2: レベルとシナリオに関するMDI-BenchmarkにおけるLMMsのパフォーマンス。 縦方向では、表はモデルスコアと2つのレベルのサブテーブルで構成されており、モデルスコアは式1から得られる。各サブテーブルは、異なるシナリオにおけるLMMsの正確率を示す7つの列で構成されている。各サブテーブルの最初の列は、後続の6列の平均値を表し、異なるレベルでの全体的なパフォーマンスを反映している。レベルとシナリオの注釈は以下の通りである:レベル1:基本的な知覚能力のみに焦点を当てた評価問題;レベル2:論理的推論を含む評価問題。シナリオは以下のように略されている:Arc(建築)、Edu(教育)、Hou(家事)、Soc(社会サービス)、Spo(スポーツ)、Tra(交通)。横方向では、表は2つのブロックに分かれている。より良い統計と分析のために、ブロックはクローズドソースモデルの統計とオープンソースモデルの統計として表示される。各ブロックでの最高のパフォーマンスはで強調表示されている。
Model Final Score Level 1 Level 2
Avg Arc Edu Hou Soc Spo Tra Avg Arc Edu Hou Soc Spo Tra
Closed-source
GPT-4o 78.46 87.46 76.47 94.12 92.16 90.20 86.27 94.12 69.45 70.59 70.59 78.43 82.35 54.90 66.67
GPT-4V 74.92 87.46 86.27 92.16 86.27 90.20 88.24 90.20 62.38 72.55 70.59 74.51 60.78 45.10 56.86
Gemini 1.5 Pro 69.13 82.32 68.63 92.16 76.47 88.24 86.27 90.20 55.95 52.94 56.86 54.90 74.51 43.14 58.82
Qwen-VL-Plus 43.57 56.59 43.14 64.71 62.75 78.43 50.98 45.10 30.55 35.29 41.18 37.25 25.49 23.53 23.53
Open-source
LLaVA-NeXT-110B 65.59 79.10 60.78 92.16 78.43 84.31 78.43 88.24 52.09 66.67 56.86 54.90 64.71 31.37 43.14
LLaVA-NeXT-72B 63.67 76.21 68.63 88.24 80.39 82.35 70.59 74.51 51.13 66.67 54.90 52.94 60.78 33.33 43.14
MiniCPM-LLaMA3-V 2.5 55.95 72.67 52.94 86.27 70.59 82.35 70.59 80.39 39.23 45.10 49.02 49.02 31.37 27.45 37.25
mPLUG-Owl2-7B 52.57 64.63 49.02 70.59 74.51 70.59 58.82 70.59 40.51 41.18 41.18 47.06 39.22 29.41 49.02
DeepSeek-VL-7B 52.09 68.49 49.02 70.59 74.51 80.39 62.75 80.39 35.69 41.18 33.33 39.22 41.18 21.57 41.18
Phi3-Vision-4.2B 50.80 67.20 50.98 76.47 60.78 80.39 62.75 78.43 34.41 37.25 33.33 41.18 43.14 21.57 33.33
CogVLM-chat 49.84 60.77 49.02 72.55 62.75 56.86 68.63 60.78 38.91 49.02 33.33 43.14 41.18 27.45 43.14
DeepSeek-VL-1.3B 46.30 58.20 45.10 56.86 66.67 56.86 66.67 62.75 34.41 35.29 29.41 29.41 39.22 27.45 49.02
CogAgent-vqa 41.16 49.52 35.29 45.10 66.67 54.90 56.86 43.14 32.80 31.37 35.29 35.29 37.25 25.49 35.29
LLaVA-NeXT-7B 33.60 43.09 31.37 52.94 43.14 49.02 39.22 47.06 24.12 35.29 13.73 37.25 23.53 9.80 27.45

プロンプトテンプレート。4は、我々の実験で使用したプロンプトテンプレートを報告している。

評価モデル。 我々は、MDI-Benchmarkにおける2つの異なるカテゴリーのベースモデルのパフォーマンスを研究した。(a) クローズドソースモデル:GPT-4o(OpenAI, 2024)、GPT-4V(OpenAI, 2023)、Qwen-VL-Plus(Bai et al., 2023)、Gemini 1.5 Pro(Team et al., 2023) (b) オープンソースモデル:LLaVA-NeXT-110B(Liu et al., 2024a)、LLaVA-NeXT-70B(Liu et al., 2024a)、LLaVA-NeXT-7B(Liu et al., 2024b)、DeepSeek-VL-7B、DeepSeek-VL-1.3B(Lu et al., 2024a)、Phi3-Vision-4.2B(Abdin et al., 2024)、MiniCPM-LLaMA3-V 2.5(Hu et al., 2024)、CogVLM-chat(Wang et al., 2023)、CogAgent-vqa(Hong et al., 2023)、mPLUG-Owl2-7B(Ye et al., 2023)

スコアリング指標。2は、2つのレベルの問題複雑性と6つのシナリオにおける異なるLMMsの全体的なパフォーマンスを示している。モデルが示す能力をより良く評価するために、我々は以下のスコアリング指標を定義した:

Scorefinal=αScoreL1+(1α)ScoreL2subscriptScorefinal𝛼subscriptScoreL11𝛼subscriptScoreL2\text{Score}_{\text{final}}=\alpha\cdot\text{Score}_{\text{L1}}+(1-\alpha)% \cdot\text{Score}_{\text{L2}}Score start_POSTSUBSCRIPT final end_POSTSUBSCRIPT = italic_α ⋅ Score start_POSTSUBSCRIPT L1 end_POSTSUBSCRIPT + ( 1 - italic_α ) ⋅ Score start_POSTSUBSCRIPT L2 end_POSTSUBSCRIPT

(1)

ここで、ScoreL1subscriptScoreL1\text{Score}_{\text{L1}}Score start_POSTSUBSCRIPT L1 end_POSTSUBSCRIPTScoreL2subscriptScoreL2\text{Score}_{\text{L2}}Score start_POSTSUBSCRIPT L2 end_POSTSUBSCRIPTはそれぞれ第1層と第2層におけるLMMsの様々な分野での平均パフォーマンスを表し、α𝛼\alphaitalic_αのデフォルト値を0.5に設定した。

4.2 Main Results

2は、MDI-benchmarkにおける異なるLMMの全体的な性能を示している。我々は以下の洞察を得た:

GPTファミリーが絶対的な優位性を示す。 GPT-4oがすべてのモデルをリードし、最高の性能スコアを獲得している。また、一般的にクローズドソースモデルがオープンソースモデルを上回っていることが観察される。しかし、一部の強力なオープンソースモデルはクローズドソースモデルに追いつこうと奮闘している。例えば、LLaVA-NeXT-110BとLLaVA-NeXT-72BはGemini 1.5 Proよりわずかに劣るものの、Qwen-VL-Plusよりも優れた性能を示している。

モデル性能のスケーリング現象。 さらに、クローズドソースモデルのデータが限られているため、オープンソースモデル間で興味深い傾向が観察された。我々は、LLaVA-NeXT-110BとLLaVA-NeXT-72BからMiniCPM-LLaMA3-V 2.5、DeepSeek-VL-7B、Phi3-Vision-4.2B、DeepSeek-VL-1.3Bまで、様々なサイズの中で最も性能の高いオープンソースモデルを選択した。図4(異なるLMMのリーダーボード)に示されているように、これらのモデルの最終スコアは、モデルのパラメータが大きいほど、実際のシナリオでの問題解決能力が高いことを示している。これは人間の経験と一致している:言語モデルのパラメータが大きいほど、より多くのテキスト論理訓練サンプルが含まれ、モデルの蒸留が少なくなる。より複雑な論理的推論タスクに直面した場合、これらのモデルはより多くの基礎的な知識と基本的な能力を活用することができる。

4.3 Scenario Dimension Analysis

日常的なシナリオにおけるLMMsの性能には、依然として大きな改善の余地がある。 様々なシナリオにおける異なるモデルの具体的な性能を観察するために、図3に示すように、我々は異なる分野にわたる各モデルの精度を計算した。これら14のLMMsは、教育シナリオのレベル1において良好な性能を達成したことが分かった。 建築、家事、交通、社会サービスのシナリオでは、性能がより均衡している。 しかし、スポーツシナリオの性能にはいくつかの短所があり、これは現在のLMMsの訓練データと密接に関連していると我々は考えている。現在、LMMs研究グループは、既存のインターネットテキストデータや高品質な教科書データを使用してより良い訓練とテストレベルを達成することに重点を置いているが、日常生活分野におけるデータセットと能力の改善を軽視している。ここでMDI-Benchmarkが役立つのである。我々は、スポーツや交通分野における論理的推論に関連する問題の種類と必要な背景知識が、建築分野よりも豊富で広範であると考えており、これが問題の難易度を上げ、推論性能に大きな差をもたらしている。

Refer to caption
図3: MDI-Benchmarkの異なる難易度レベルにおける各LMMsの平均性能。

4.4 Complexity Dimension Analysis

Refer to caption
図4: 異なる難易度レベルにおけるモデルの性能と、スコア指標下でのモデルの全体的な性能結果。

複雑性の増加に伴う性能の低下。 問題の複雑性が増すにつれ、あらゆるシナリオにおけるモデルの性能が顕著に低下する。同じシナリオにおける質問への回答精度も、同じモデルでも大きく変化する可能性がある。例えば、GPT-4oの場合、最も性能の高い教育シナリオにおける精度が94.12から70.59に低下した。これは、問題の複雑性がモデルの性能に与える重大な影響を浮き彫りにしている。

質問の複雑性は、異なるシナリオにおける一般化に豊かな多様性をもたらす。 これらのLMMの複数のレベルにわたる詳細な性能を分析するために、我々はレーダーチャート(図4)を作成し、レベル1とレベル2における様々なシナリオでの14のLMMの性能を表示する。問題の複雑性の変化による巨視的な性能変化を示すために、我々は性能の分散と合計の統計も生成し、平均と分散のデータを異なる軸にプロットして巨視的傾向を強調する(図5)。一般に、平均が高く分散が低いモデルは、より優れた包括的な能力を示す。

レベル1での検討において、図4が示すように、大多数のモデルがバランスの取れた性能を示していることは明らかである。この傾向の顕著な例外は、CogAgent-vqaやLLaVA-NeXT-7Bなどのモデルで観察される。レベル2では、GPT-4oの分散が大幅に増加し、GPTシリーズとGemini 1.5 Proのみがバランスの取れた性能を維持している。図4に示されているように、GPTシリーズのみがわずかな性能低下を示す一方で、他のLMMはスポーツシナリオで急激な低下を示している。

先進的なクローズドソースLMMと比較して、オープンソースLMMは特定の日常生活能力や複雑な問題シナリオに関するさらなる研究が必要であり、大きな格差を埋める必要がある。特筆すべきは、図5に示されているように、LLaVA-NeXT-72Bがレベル2で最適モデルであるLLaVA-NeXT-110Bと同様の性能を示しているが、分散が減少していることである。これは、より小さなパラメータでより良い性能を達成するための効果的な蒸留が、さらなる調査に値する分野であることを示唆している。

我々は、研究コミュニティがこれらの分野でLMMのデータセットと能力を向上させることに焦点を当てていないこと、また論理的推論と必要な背景知識に関連する問題の種類が多様で広範であることが、より単純なタスクと比較してより顕著であると考える。この多様性により、問題の複雑性が増すにつれて、モデルの推論性能に大きな格差が生じる。したがって、これらの格差に対処し、複雑な問題シナリオにおけるLMMの性能を向上させるためには、さらなる研究が必要である。

Refer to caption
図5: レベル1とレベル2における6つの領域にわたるLLMの平均精度と分散

4.5 Age Dimension Analysis

より直接的かつマクロレベルの性能分析のため、我々は表3に示すように、主要な表には平均性能統計のみを提示した。これは主に3つの年齢層にわたるLMMsの性能を表している。さらに、我々は年齢グループとシナリオ次元に基づいてモデルの性能を詳細に分析した。その結果は付録Dに示されている。以下の観察結果が得られた。

表3: 異なる年齢グループにおける各種モデルの性能。
Model Avg old middle-aged young
Closed-source
GPT-4o 79.74 77.94 78.43 82.84
GPT-4V 76.14 75.49 75.49 77.45
Gemini 1.5 Pro 70.26 70.10 68.63 72.06
Qwen-VL-Plus 44.28 41.67 40.20 50.98
Open-source
LLaVA-NeXT-110B 66.67 69.12 63.24 67.65
LLaVA-NeXT-72B 64.71 66.67 63.73 63.73
MiniCPM-LLaMA3-V 2.5 56.86 55.88 54.90 59.80
mPLUG-Owl2-7B 53.43 55.39 50.98 53.92
DeepSeek-VL-7B 52.94 53.43 51.96 53.43
Phi3-Vision-4.2B 51.63 53.43 49.02 52.45
CogVLM-chat 50.65 52.94 51.96 47.06
DeepSeek-VL-1.3B 47.06 49.02 39.71 52.45
CogAgent-vqa 41.83 44.12 42.65 38.73
LLaVA-NeXT-7B 34.15 37.75 33.82 30.88

すべてのモデルは評価次元のレベルに従っているが、年齢によって性能に差がある。3に示すように、GPT-4oは年齢次元において最高性能のモデルであり続け、最高ランクのオープンソースモデルより13ポイント、最低ランクのクローズドソースモデルより35ポイント高い性能優位性を示している。この年齢層別評価における優れた性能は、GPT-4oの強力な汎化能力と日常利用シナリオにおけるリーダーシップを示している。しかし、年齢次元の観点からモデルの能力を評価する際、様々な実世界のシナリオにおける異なるグループに対するモデルの有効性に関する洞察が得られる。日常生活で個人が遭遇する状況の多様性を考えると、モデルの能力は多様な人間のニーズに対応するために包括的でなければならない。年齢グループ間で観察された精度の低下は、この次元におけるすべてのモデルの全体的な性能に大きな改善の余地があることを示している。この発見は、年齢関連の問題に焦点を当てたさらなる研究の必要性を強調し、本稿の必要性と革新性を浮き彫りにしている。

モデルは異なる年齢次元にわたる全体的な汎化が不十分である。6に示すように、我々は高齢者、中年、若年を含む異なる年齢グループにわたるモデルの性能をさらに可視化した。年齢次元にわたるモデルの結果を合計すると、高齢者グループが856.38、中年グループが764.72、若年グループが902.94となることがわかった。この分布は、年齢レベル間の実際の質問の難易度順序を浮き彫りにしている:中年>高齢者>若年。実世界のシナリオでは、中年の個人が提起する質問は、高齢者や若年者からの質問よりも多くの側面を含み、より大きな論理的推論と背景知識を必要とする傾向がある。したがって、マルチモーダルLMMsは、このような質問を効果的に処理するために、堅牢で包括的な能力を持つ必要がある。GPT-4oはこの点で強力な性能を示し、3つの年齢関連カテゴリーすべてにわたって小さな性能差を示している。興味深いことに、最大の視覚エンコーダーを持つCogシリーズモデルは、若年グループで顕著な性能低下を示しており、その大きな視覚エンコーダーがCLIP-ViT/L14ほど効果的に汎化していないことを示唆している。

Refer to caption
図6: 年齢次元にわたる異なるLMMsの性能。

年齢次元において、言語モデルのスケーリング性能は明らかであるが、モデル圧縮は大きな可能性を示している。我々は、各モデル層において、最大の言語モデルパラメータを持つモデルが最高の性能を達成したことを発見した。経験的に、我々は言語モデルがLMMsにおいて視覚エンコーダーよりも重要な役割を果たしていると考えている。さらに、驚くべきことに、Phi3-Vision-4.2Bは約4.2Bのパラメータのみを使用して、クローズドソースモデルであるQwen-VL-Plusのマクロ性能を上回ることがわかった。これは、LMMsがモデルパラメータ圧縮の観点からまだ大きな探索の余地があることを示している。

5 Conclusion

本稿では、多次元シナリオにおける実世界の人間の要求に対応する大規模マルチモーダルモデル(LMM)の能力を評価するためのツールであるMDI-Benchmarkを提案する。MDI-Benchmarkは、人間生活の主要な6つの側面を網羅する500以上の画像と1.2kの対応する要求で構成されている。さらに、我々は年齢層の概念を導入し、高齢者、中年、若年層のニーズに基づいてサンプリングした質問を用いることで、包括的な評価を確保している。MDI-Benchmarkを使用して、我々は14の既存のLMMを評価し、異なるシナリオにおけるそれらの性能の傾向を明らかにした。GPT-4oが様々な指標において最も優れた性能を示したものの、全ての年齢層とシナリオにおいて性能の差が見られた。したがって、我々は今後の研究において、人間のニーズへのLMMの適応性と、異なる領域や年齢層にわたる汎化能力の向上に焦点を当てるべきであると提案する。これにより、人間のニーズに効果的に応えることができる次世代のLMMへの道が開かれるであろう。

References

  • Abdin et al. (2024) Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.
  • Agrawal et al. (2019) Harsh Agrawal, Karan Desai, Yufei Wang, Xinlei Chen, Rishabh Jain, Mark Johnson, Dhruv Batra, Devi Parikh, Stefan Lee, and Peter Anderson. Nocaps: Novel object captioning at scale. In Proceedings of the IEEE/CVF international conference on computer vision, pp.  8948–8957, 2019.
  • Baek et al. (2024) Jinheon Baek, Nirupama Chandrasekaran, Silviu Cucerzan, Allen Herring, and Sujay Kumar Jauhar. Knowledge-augmented large language models for personalized contextual query suggestion. In Proceedings of the ACM on Web Conference 2024, pp.  3355–3366, 2024.
  • Bai et al. (2023) Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
  • Bigham et al. (2010) Jeffrey P Bigham, Chandrika Jayant, Hanjie Ji, Greg Little, Andrew Miller, Robert C Miller, Robin Miller, Aubrey Tatarowicz, Brandyn White, Samual White, et al. Vizwiz: nearly real-time answers to visual questions. In Proceedings of the 23nd annual ACM symposium on User interface software and technology, pp.  333–342, 2010.
  • Birmingham et al. (2008) Elina Birmingham, Walter F Bischof, and Alan Kingstone. Social attention and real-world scenes: The roles of action, competition and social content. Quarterly journal of experimental psychology, 61(7):986–998, 2008.
  • Biten et al. (2019) Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomez, Marçal Rusinol, Ernest Valveny, CV Jawahar, and Dimosthenis Karatzas. Scene text visual question answering. In Proceedings of the IEEE/CVF international conference on computer vision, pp.  4291–4301, 2019.
  • Brown et al. (2020) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
  • Chan et al. (2024) Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, and Dong Yu. Scaling synthetic data creation with 1,000,000,000 personas. arXiv preprint arXiv:2406.20094, 2024.
  • Chen et al. (2015) Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco captions: Data collection and evaluation server. arXiv preprint arXiv:1504.00325, 2015.
  • Chiang et al. (2023) Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez, et al. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. See https://vicuna. lmsys. org (accessed 14 April 2023), 2(3):6, 2023.
  • Dong et al. (2022) Guanting Dong, Daichi Guo, Liwen Wang, Xuefeng Li, Zechen Wang, Chen Zeng, Keqing He, Jinzheng Zhao, Hao Lei, Xinyue Cui, Yi Huang, Junlan Feng, and Weiran Xu. PSSAT: A perturbed semantic structure awareness transferring method for perturbation-robust slot filling. In Nicoletta Calzolari, Chu-Ren Huang, Hansaem Kim, James Pustejovsky, Leo Wanner, Key-Sun Choi, Pum-Mo Ryu, Hsin-Hsi Chen, Lucia Donatelli, Heng Ji, Sadao Kurohashi, Patrizia Paggio, Nianwen Xue, Seokhwan Kim, Younggyun Hahm, Zhong He, Tony Kyungil Lee, Enrico Santus, Francis Bond, and Seung-Hoon Na (eds.), Proceedings of the 29th International Conference on Computational Linguistics, COLING 2022, Gyeongju, Republic of Korea, October 12-17, 2022, pp.  5327–5334. International Committee on Computational Linguistics, 2022. URL https://aclanthology.org/2022.coling-1.473.
  • Dong et al. (2023) Guanting Dong, Rumei Li, Sirui Wang, Yupeng Zhang, Yunsen Xian, and Weiran Xu. Bridging the kb-text gap: Leveraging structured knowledge-aware pre-training for KBQA. In Ingo Frommholz, Frank Hopfgartner, Mark Lee, Michael Oakes, Mounia Lalmas, Min Zhang, and Rodrygo L. T. Santos (eds.), Proceedings of the 32nd ACM International Conference on Information and Knowledge Management, CIKM 2023, Birmingham, United Kingdom, October 21-25, 2023, pp.  3854–3859. ACM, 2023. doi: 10.1145/3583780.3615150. URL https://doi.org/10.1145/3583780.3615150.
  • Dong et al. (2024a) Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, and Jingren Zhou. Self-play with execution feedback: Improving instruction-following capabilities of large language models. CoRR, abs/2406.13542, 2024a. doi: 10.48550/ARXIV.2406.13542. URL https://doi.org/10.48550/arXiv.2406.13542.
  • Dong et al. (2024b) Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, and Ji-Rong Wen. Toward general instruction-following alignment for retrieval-augmented generation. arXiv preprint arXiv:2410.09584, 2024b.
  • Dong et al. (2024c) Guanting Dong, Hongyi Yuan, Keming Lu, Chengpeng Li, Mingfeng Xue, Dayiheng Liu, Wei Wang, Zheng Yuan, Chang Zhou, and Jingren Zhou. How abilities in large language models are affected by supervised fine-tuning data composition. In Lun-Wei Ku, Andre Martins, and Vivek Srikumar (eds.), Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2024, Bangkok, Thailand, August 11-16, 2024, pp.  177–198. Association for Computational Linguistics, 2024c. doi: 10.18653/V1/2024.ACL-LONG.12. URL https://doi.org/10.18653/v1/2024.acl-long.12.
  • Dong et al. (2024d) Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, and Ji-Rong Wen. Understand what LLM needs: Dual preference alignment for retrieval-augmented generation. CoRR, abs/2406.18676, 2024d. doi: 10.48550/ARXIV.2406.18676. URL https://doi.org/10.48550/arXiv.2406.18676.
  • Fu et al. (2024a) Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Yunsheng Wu, and Rongrong Ji. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2024a.
  • Fu et al. (2024b) Chaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, et al. Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis. arXiv preprint arXiv:2405.21075, 2024b.
  • Gao et al. (2023) Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, and Haofen Wang. Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997, 2023.
  • Gou et al. (2023) Zhibin Gou, Zhihong Shao, Yeyun Gong, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen, et al. Tora: A tool-integrated reasoning agent for mathematical problem solving. arXiv preprint arXiv:2309.17452, 2023.
  • Goyal et al. (2017) Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.  6904–6913, 2017.
  • Guu et al. (2020) Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. Retrieval augmented language model pre-training. In International conference on machine learning, pp.  3929–3938. PMLR, 2020.
  • Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding, 2021.
  • Hong et al. (2023) Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, et al. Cogagent: A visual language model for gui agents. arXiv preprint arXiv:2312.08914, 2023.
  • Hu et al. (2024) Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, et al. Minicpm: Unveiling the potential of small language models with scalable training strategies. arXiv preprint arXiv:2404.06395, 2024.
  • Hudson & Manning (2019) Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp.  6700–6709, 2019.
  • Kobsa & Schreck (2003) Alfred Kobsa and Jörg Schreck. Privacy through pseudonymity in user-adaptive systems. ACM Transactions on Internet Technology (TOIT), 3(2):149–183, 2003.
  • Kocaballi et al. (2019) Ahmet Baki Kocaballi, Shlomo Berkovsky, Juan C Quiroz, Liliana Laranjo, Huong Ly Tong, Dana Rezazadegan, Agustina Briatore, and Enrico Coiera. The personalization of conversational agents in health care: systematic review. Journal of medical Internet research, 21(11):e15360, 2019.
  • Lei et al. (2023) Shanglin Lei, Guanting Dong, Xiaoping Wang, Keheng Wang, and Sirui Wang. Instructerc: Reforming emotion recognition in conversation with a retrieval multi-task llms framework. arXiv preprint arXiv:2309.11911, 2023.
  • Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33:9459–9474, 2020.
  • Li et al. (2023) Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, and Ying Shan. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125, 2023.
  • Li et al. (2024) Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, and Jianfeng Gao. Llava-med: Training a large language-and-vision assistant for biomedicine in one day. Advances in Neural Information Processing Systems, 36, 2024.
  • Liu et al. (2024a) Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, and Yong Jae Lee. Llava-next: Improved reasoning, ocr, and world knowledge, 2024a.
  • Liu et al. (2024b) Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. Advances in neural information processing systems, 36, 2024b.
  • Liu et al. (2024c) Nelson F Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, and Percy Liang. Lost in the middle: How language models use long contexts. Transactions of the Association for Computational Linguistics, 12:157–173, 2024c.
  • Liu et al. (2023) Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et al. Mmbench: Is your multi-modal model an all-around player? arXiv preprint arXiv:2307.06281, 2023.
  • Lu et al. (2024a) Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, et al. Deepseek-vl: towards real-world vision-language understanding. arXiv preprint arXiv:2403.05525, 2024a.
  • Lu et al. (2024b) Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, and Jianfeng Gao. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. In International Conference on Learning Representations (ICLR), 2024b.
  • Luo et al. (2024) Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, et al. Mmevol: Empowering multimodal large language models with evol-instruct. arXiv preprint arXiv:2409.05840, 2024.
  • Marino et al. (2019) Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-vqa: A visual question answering benchmark requiring external knowledge. In Proceedings of the IEEE/cvf conference on computer vision and pattern recognition, pp.  3195–3204, 2019.
  • Mathew et al. (2021) Minesh Mathew, Dimosthenis Karatzas, and CV Jawahar. Docvqa: A dataset for vqa on document images. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pp.  2200–2209, 2021.
  • Minaee et al. (2021) Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos. Image segmentation using deep learning: A survey. IEEE transactions on pattern analysis and machine intelligence, 44(7):3523–3542, 2021.
  • Mishra et al. (2019) Anand Mishra, Shashank Shekhar, Ajeet Kumar Singh, and Anirban Chakraborty. Ocr-vqa: Visual question answering by reading text in images. In 2019 international conference on document analysis and recognition (ICDAR), pp.  947–952. IEEE, 2019.
  • OpenAI (2024) OpenAI. Hello gpt-4o, 2024. URL https://openai.com/index/hello-gpt-4o/.
  • OpenAI (2023) R OpenAI. Gpt-4v (ision) system card. Citekey: gptvision, 2023.
  • Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
  • Pesovski et al. (2024) Ivica Pesovski, Ricardo Santos, Roberto Henriques, and Vladimir Trajkovik. Generative ai for customizable learning experiences. Sustainability, 16(7):3034, 2024.
  • Qiao et al. (2024a) Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, et al. We-math: Does your large multimodal model achieve human-like mathematical reasoning? arXiv preprint arXiv:2407.01284, 2024a.
  • Qiao et al. (2024b) Runqi Qiao, Lan Yang, Kaiyue Pang, and Honggang Zhang. Making visual sense of oracle bones for you and me. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.  12656–12665, 2024b.
  • Rafieian & Yoganarasimhan (2023) Omid Rafieian and Hema Yoganarasimhan. Ai and personalization. Artificial Intelligence in Marketing, pp.  77–102, 2023.
  • Rawat & Wang (2017) Waseem Rawat and Zenghui Wang. Deep convolutional neural networks for image classification: A comprehensive review. Neural computation, 29(9):2352–2449, 2017.
  • Singh et al. (2017) Shashi Pal Singh, Ajai Kumar, Hemant Darbari, Lenali Singh, Anshika Rastogi, and Shikha Jain. Machine translation using deep learning: An overview. In 2017 international conference on computer, communications and electronics (comptelix), pp.  162–167. IEEE, 2017.
  • Song et al. (2024) Xiaoshuai Song, Muxi Diao, Guanting Dong, Zhengyang Wang, Yujia Fu, Runqi Qiao, Zhexu Wang, Dayuan Fu, Huangxuan Wu, Bin Liang, Weihao Zeng, Yejie Wang, Zhuoma Gongque, Jianing Yu, Qiuna Tan, and Weiran Xu. Cs-bench: A comprehensive benchmark for large language models towards computer science mastery. CoRR, abs/2406.08587, 2024. doi: 10.48550/ARXIV.2406.08587. URL https://doi.org/10.48550/arXiv.2406.08587.
  • Spears (2021) Russell Spears. Social influence and group identity. Annual review of psychology, 72(1):367–390, 2021.
  • Su et al. (2023) Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, and Deng Cai. Pandagpt: One model to instruction-follow them all. arXiv preprint arXiv:2305.16355, 2023.
  • Tajfel (1979) Henri Tajfel. Individuals and groups in social psychology. British Journal of social and clinical psychology, 18(2):183–190, 1979.
  • Tan et al. (2024) Zhaoxuan Tan, Qingkai Zeng, Yijun Tian, Zheyuan Liu, Bing Yin, and Meng Jiang. Democratizing large language models via personalized parameter-efficient fine-tuning. arXiv preprint arXiv:2402.04401, 2024.
  • Team et al. (2023) Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023.
  • Thoppilan et al. (2022) Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al. Lamda: Language models for dialog applications. arXiv preprint arXiv:2201.08239, 2022.
  • Touvron et al. (2023) Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
  • Wang et al. (2023) Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, et al. Cogvlm: Visual expert for pretrained language models. arXiv preprint arXiv:2311.03079, 2023.
  • Wei et al. (2024) Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, et al. General ocr theory: Towards ocr-2.0 via a unified end-to-end model. arXiv preprint arXiv:2409.01704, 2024.
  • Woźniak et al. (2024) Stanisław Woźniak, Bartłomiej Koptyra, Arkadiusz Janz, Przemysław Kazienko, and Jan Kocoń. Personalized large language models. arXiv preprint arXiv:2402.09269, 2024.
  • Wu et al. (2023) Yuxiang Wu, Guanting Dong, and Weiran Xu. Semantic parsing by large language models for intricate updating strategies of zero-shot dialogue state tracking. In Houda Bouamor, Juan Pino, and Kalika Bali (eds.), Findings of the Association for Computational Linguistics: EMNLP 2023, Singapore, December 6-10, 2023, pp.  11093–11099. Association for Computational Linguistics, 2023. doi: 10.18653/V1/2023.FINDINGS-EMNLP.741. URL https://doi.org/10.18653/v1/2023.findings-emnlp.741.
  • Xiao et al. (2018) Jun Xiao, Minjuan Wang, Bingqian Jiang, and Junli Li. A personalized recommendation system with combinational algorithm for online learning. Journal of ambient intelligence and humanized computing, 9:667–677, 2018.
  • Xu et al. (2023) Peng Xu, Wenqi Shao, Kaipeng Zhang, Peng Gao, Shuo Liu, Meng Lei, Fanqing Meng, Siyuan Huang, Yu Qiao, and Ping Luo. Lvlm-ehub: A comprehensive evaluation benchmark for large vision-language models. arXiv preprint arXiv:2306.09265, 2023.
  • Ye et al. (2023) Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, and Jingren Zhou. mplug-owl2: Revolutionizing multi-modal large language model with modality collaboration. arXiv preprint arXiv:2311.04257, 2023.
  • Ying et al. (2024) Kaining Ying, Fanqing Meng, Jin Wang, Zhiqian Li, Han Lin, Yue Yang, Hao Zhang, Wenbo Zhang, Yuqi Lin, Shuo Liu, et al. Mmt-bench: A comprehensive multimodal benchmark for evaluating large vision-language models towards multitask agi. arXiv preprint arXiv:2404.16006, 2024.
  • Young et al. (2014) Peter Young, Alice Lai, Micah Hodosh, and Julia Hockenmaier. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics, 2:67–78, 2014.
  • Yu et al. (2023a) Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023a.
  • Yu et al. (2023b) Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, and Lijuan Wang. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023b.
  • Yuan et al. (2023) Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan, and Chang Zhou. Scaling relationship on learning mathematical reasoning with large language models. CoRR, abs/2308.01825, 2023. doi: 10.48550/ARXIV.2308.01825. URL https://doi.org/10.48550/arXiv.2308.01825.
  • Yue et al. (2023) Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. arXiv preprint arXiv:2311.16502, 2023.
  • Yue et al. (2024a) Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, et al. Mmmu-pro: A more robust multi-discipline multimodal understanding benchmark. arXiv preprint arXiv:2409.02813, 2024a.
  • Yue et al. (2024b) Xiang Yue, Tuney Zheng, Ge Zhang, and Wenhu Chen. Mammoth2: Scaling instructions from the web, 2024b. URL https://arxiv.org/abs/2405.03548.
  • Zeng et al. (2023) Zhiyuan Zeng, Jiatong Yu, Tianyu Gao, Yu Meng, Tanya Goyal, and Danqi Chen. Evaluating large language models at evaluating instruction following. arXiv preprint arXiv:2310.07641, 2023.
  • Zhang et al. (2024) Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, and Dong Yu. Mm-llms: Recent advances in multimodal large language models. arXiv preprint arXiv:2401.13601, 2024.
  • Zhang et al. (2025) Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Yu Qiao, et al. Mathverse: Does your multi-modal llm truly see the diagrams in visual math problems? In European Conference on Computer Vision, pp.  169–186. Springer, 2025.
  • Zhao et al. (2023) Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, et al. A survey of large language models. arXiv preprint arXiv:2303.18223, 2023.
  • Zhao et al. (2019) Zhong-Qiu Zhao, Peng Zheng, Shou-tao Xu, and Xindong Wu. Object detection with deep learning: A review. IEEE transactions on neural networks and learning systems, 30(11):3212–3232, 2019.
  • Zheng et al. (2024) Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36, 2024.
  • Zhou et al. (2023) Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. Instruction-following evaluation for large language models. arXiv preprint arXiv:2311.07911, 2023.
  • Zhuang et al. (2024a) Wenwen Zhuang, Xin Huang, Xiantao Zhang, and Jin Zeng. Math-puma: Progressive upward multimodal alignment to enhance mathematical reasoning, 2024a. URL https://arxiv.org/abs/2408.08640.
  • Zhuang et al. (2024b) Yuchen Zhuang, Haotian Sun, Yue Yu, Qifan Wang, Chao Zhang, and Bo Dai. Hydra: Model factorization framework for black-box llm personalization. arXiv preprint arXiv:2406.02888, 2024b.

Appendix A More Details on Experiment Setup

A.1 Details of the prompt information

具体的なプロンプト情報は表4に示されている。

表4: 応答生成のためのプロンプトテンプレート
Type Prompt Template
Multiple
Choice
Now, we require you to solve a multiple-choice real-world question. Please briefly
describe your thought process and provide the final answer(option).
Question: <Question>
Option: <Option>
Regarding the format, please answer following the template below, and be
sure to include two <> symbols:
<Thought process>: <<your thought process>> <Answer>: <<your option>>

A.2 Details of the Evaluated Models

5は、我々がMDI-Benchmarkで評価したLMMのリリース時期とモデルソースを示している。

表5: MDI-Benchmarkで使用されたLMMのリリース時期とモデルソース
Model Release Time Source
GPT-4o (OpenAI, 2024) 2024-05 https://gpt4o.ai/
GPT-4V (OpenAI, 2023) 2024-04 https://openai.com/index/gpt-4v-system-card/
Gemini 1.5 Pro (Team et al., 2023) 2024-05 https://deepmind.google/technologies/gemini/pro/
Qwen-VL-Plus (Bai et al., 2023) 2024-01 https://huggingface.co/spaces/Qwen/Qwen-VL-Plus/
LLaVA-NeXT-110B (Liu et al., 2024a) 2024-05 https://huggingface.co/lmms-lab/llava-next-110b/
LLaVA-NeXT-72B (Liu et al., 2024a) 2024-05 https://huggingface.co/lmms-lab/llava-next-72b/
MiniCPM-LLaMA3-V 2.5 (Hu et al., 2024) 2024-05 https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5/
mPLUG-Owl2-7B (Ye et al., 2023) 2023-11 https://huggingface.co/MAGAer13/mplug-owl2-llama2-7b
DeepSeek-VL-7B (Lu et al., 2024a) 2024-03 https://huggingface.co/deepseek-ai/deepseek-vl-7b-chat/
Phi3-Vision-4.2B (Abdin et al., 2024) 2024-05 https://huggingface.co/microsoft/Phi-3-vision-128k-instruct/
CogVLM-chat (Wang et al., 2023) 2023-12 https://huggingface.co/THUDM/cogvlm-chat-hf/
DeepSeek-VL-1.3B (Lu et al., 2024a) 2024-03 https://huggingface.co/deepseek-ai/deepseek-vl-1.3b-chat/
CogAgent-vqa (Hong et al., 2023) 2023-12 https://huggingface.co/THUDM/cogagent-vqa-hf/
LLaVA-NeXT-7B (Liu et al., 2024a) 2024-03 https://huggingface.co/llava-hf/llava-v1.6-vicuna-7b-hf/

Appendix B More related works of MDI-Benchmark

大規模言語モデル(LLM)の出現により、自然言語処理(NLP)において大きな進歩がもたらされたZhao et al. (2023)。例えば、指示に従う能力(Ouyang et al., 2022; Zhou et al., 2023; Su et al., 2023; Zeng et al., 2023; Dong et al., 2024a)、RAG(Lewis et al., 2020; Guu et al., 2020; Liu et al., 2024c; Dong et al., 2023; 2024d; 2024b; Gao et al., 2023)、推論(Yuan et al., 2023; Yu et al., 2023a; Yue et al., 2024b; Gou et al., 2023)、情報抽出および対話システム(Thoppilan et al., 2022; Dong et al., 2022; Wu et al., 2023; Lei et al., 2023)などの分野で進展が見られる。さらに、LLMの様々な能力とロバスト性を包括的に評価する方法に焦点を当てた研究もいくつか存在する(Hendrycks et al., 2021; Zheng et al., 2024; Song et al., 2024; Dong et al., 2024c)。 この成功を基盤として、最近の研究ではLLMと視覚エンコーダーを組み合わせ、強力な視覚理解と意味生成能力を持つ大規模マルチモーダルモデル(LMM)を形成している。オープンソース(Hong et al., 2023; Wang et al., 2023; Hu et al., 2024; Lu et al., 2024a; Liu et al., 2024b; Ye et al., 2023; Abdin et al., 2024)とクローズドソース(Team et al., 2023; Bai et al., 2023; OpenAI, 2023; 2024)の両方の研究が、多様なアプリケーションにわたってAIシステムの能力を大幅に拡張している。さらに、(Li et al., 2024; Zhuang et al., 2024a; Wei et al., 2024; Qiao et al., 2024b)などの研究は、医用画像、数学的推論、汎用的理解などの分野におけるマルチモーダルモデルの有効性と、いくつかの興味深いアプリケーションを実証している。

Appendix C More Detail On MDI-Benchmark

C.1 Example of Scenario Dimension

本節では、視覚的なデモンストレーション目的で、MDI-Benchmarkから選択した画像を提示する。

  1. 1.

    建築:住宅設計、作業現場、測定などを含む。図7に示すとおりである。

  2. 2.

    教育:キャンパス施設、学習活動、教育などを含む。図8に示すとおりである。

  3. 3.

    家事:家庭の整理、家事活動、家電製品などを含む。図9に示すとおりである。

  4. 4.

    社会サービス:旅行、買い物、公共施設などを含む。図10に示すとおりである。

  5. 5.

    スポーツ:球技、レーシングスポーツ、パワーリフティングなどを含む。図11に示すとおりである。

  6. 6.

    交通:道路標識、鉄道交通、空港などを含む。図12に示すとおりである。

Refer to caption
図7: 建築シナリオの例。
Refer to caption
図8: 教育シナリオの例。
Refer to caption
図9: 家事シナリオの例。
Refer to caption
図10: 社会サービスの例。
Refer to caption
図11: スポーツシナリオの例。
Refer to caption
図12: 交通シナリオの例。

C.2 Example of Problem Complexity Dimension

本節では、図13から図18に示すように、6つのシナリオ次元にわたる様々な難易度の質問を提示する。レベル1の質問は比較的単純であるのに対し、レベル2の質問はLMMがより高度な能力を使用して回答する必要があることは明らかである。

Refer to caption
図13: 建築シナリオの質問例。
Refer to caption
図14: 教育シナリオの質問例。
Refer to caption
図15: 家事シナリオの質問例。
Refer to caption
図16: 社会サービスシナリオの質問例。
Refer to caption
図17: スポーツシナリオの質問例。
Refer to caption
図18: 交通シナリオの質問例。

C.3 Example of Age Dimention

本節では、6つの主要シナリオにおいて、3つの異なる年齢層の人々から様々な懸念事項や問題点をサンプリングした。これらの懸念事項はシナリオ別に分類され、図19から24に視覚的に示されている。

Refer to caption
図19: 建築シナリオの年齢別質問の例。
Refer to caption
図20: 教育シナリオの年齢別質問の例。
Refer to caption
図21: 家事シナリオの年齢別質問の例。
Refer to caption
図22: 社会サービスシナリオの年齢別質問の例。
Refer to caption
図23: スポーツシナリオの年齢別質問の例。
Refer to caption
図24: 交通シナリオの年齢別質問の例。

Appendix D More Details on Experiment Results

我々は表6に、異なる年齢層におけるモデルの性能を示す。

表6: 異なる年齢層におけるモデルの性能。各ブロックで最高の性能はで強調されている。
Model Avg Arc Edu Hou Soc Spo Tra
Old Mid Young Old Mid Young Old Mid Young Old Mid Young Old Mid Young Old Mid Young Old Mid Young
Closed-source
GPT-4o 77.94 78.43 82.84 79.41 67.65 73.53 85.29 79.41 82.35 82.35 82.35 91.18 88.24 79.41 91.18 64.71 76.47 70.59 67.65 85.29 88.24
GPT-4V 75.49 75.49 77.45 79.41 76.47 82.35 82.35 76.47 85.29 76.47 85.29 79.41 76.47 73.53 76.47 67.65 61.76 70.59 70.59 79.41 70.59
Gemini 1.5 Pro 70.10 68.63 72.06 58.82 47.06 76.47 73.53 79.41 70.59 67.65 64.71 64.71 85.29 70.59 88.24 55.88 67.65 70.59 79.41 82.35 61.76
Qwen-VL-Plus 41.67 40.20 50.98 38.24 32.35 47.06 44.12 52.94 61.76 50.00 38.24 61.76 50.00 47.06 58.82 32.35 38.24 41.18 35.29 32.35 35.29
Open-source
LLaVA-NeXT-110B 69.12 63.24 67.65 73.53 52.94 64.71 76.47 76.47 70.59 70.59 67.65 61.76 76.47 64.71 82.35 50.00 55.88 58.82 67.65 61.76 67.65
LLaVA-NeXT-72B 66.67 63.73 63.73 73.53 58.82 70.59 73.53 73.53 67.65 67.65 67.65 64.71 73.53 61.76 79.41 52.94 55.88 47.06 58.82 64.71 52.94
MiniCPM-LLaMA3-V 2.5 55.88 54.90 59.80 50.00 44.12 52.94 64.71 67.65 70.59 58.82 52.94 67.65 55.88 50.00 64.71 47.06 50.00 50.00 58.82 64.71 52.94
mPLUG-Owl2-7B 55.39 50.98 53.92 47.06 38.24 50.00 73.53 44.12 50.00 58.82 64.71 58.82 58.82 52.94 52.94 38.24 47.06 47.06 55.88 58.82 64.71
DeepSeek-VL-7B 53.43 51.96 53.43 41.18 41.18 52.94 61.76 50.00 44.12 55.88 55.88 58.82 61.76 44.12 76.47 41.18 52.94 32.35 58.82 67.65 55.88
Phi3-Vision-4.2B 53.43 49.02 52.45 44.12 41.18 47.06 58.82 52.94 52.94 52.94 44.12 55.88 64.71 58.82 61.76 50.00 38.24 38.24 50.00 58.82 58.82
CogVLM-chat 52.94 51.96 47.06 44.12 58.82 44.12 61.76 50.00 47.06 52.94 55.88 50.00 50.00 50.00 47.06 41.18 52.94 50.00 67.65 44.12 44.12
DeepSeek-VL-1.3B 49.02 39.71 52.45 41.18 29.41 50.00 50.00 32.35 47.06 50.00 47.06 47.06 58.82 35.29 50.00 29.41 52.94 58.82 64.71 41.18 61.76
CogAgent-vqa 44.12 42.65 38.73 32.35 41.18 26.47 38.24 47.06 35.29 50.00 52.94 50.00 52.94 35.29 50.00 41.18 47.06 35.29 50.00 32.35 35.29
LLaVA-NeXT-7B 37.75 33.82 30.88 32.35 32.35 35.29 35.29 38.24 26.47 44.12 47.06 29.41 41.18 26.47 41.18 32.35 26.47 14.71 41.18 32.35 38.24

Appendix E Correct responds from GPT-4o

GPT-4oが各シーンと年齢次元において首位を占めていることを踏まえ、我々は各シナリオの正解とその推論過程を選択して表示することとした。結果は図25から30に示されている。

Refer to caption
図25: GPT-4oの建築シナリオ正解回答の例。
Refer to caption
図26: GPT-4oの教育シナリオ正解回答の例。
Refer to caption
図27: GPT-4oの家事シナリオ正解回答の例。
Refer to caption
図28: GPT-4oの社会サービスシナリオ正解回答の例。
Refer to caption
図29: GPT-4oのスポーツシナリオ正解回答の例。
Refer to caption
図30: GPT-4oの交通シナリオ正解回答の例。

Appendix F Bad Case

本節では、MDI-Benchmarkの各次元において、異なるモデルが犯す誤りの種類についてケーススタディを行う。我々は誤りを、情報抽出エラー、知識不足エラー、推論エラーの3つのカテゴリーに分類する。エラーは赤色で強調表示されている。

情報抽出エラー。31に示すとおりである。これが最も頻繁に発生する。これは、LMMの視覚エンコーダーが画像内のコンテンツ情報を正しく捉えることができず、不正確な回答につながるためである。

Refer to caption
図31: 情報抽出エラーの例。

知識不足エラー。32に示すとおりである。LMMが特定の文脈内で関連知識を関連付けたり検索したりする能力が不足しているためである。例えば、過去のスポーツイベントの画像が提示された場合、モデルは最終スコアを提供できない。

Refer to caption
図32: 知識不足エラーの例。

推論エラー。33に示すとおりである。LMMは画像から関連する視覚情報を正しく抽出するが、推論プロセスの中で誤りを犯し、不正確な回答につながる。

Refer to caption
図33: 推論エラーの例。