JaLMS
最新の AI 研究を日本語で解読

VisDoM: Multi-Document QA with Visually Rich Elements
Using Multimodal Retrieval-Augmented Generation

Manan Suri [Uncaptioned image][Uncaptioned image]{}^{\includegraphics[width=9.95863pt]{figures/university-of-maryland-logo-1.% png}}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPT, Puneet Mathur [Uncaptioned image][Uncaptioned image]{}^{{\includegraphics[width=5.69046pt]{figures/722666.png}}}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPT, Franck Dernoncourt[Uncaptioned image][Uncaptioned image]{}^{{\includegraphics[width=5.69046pt]{figures/722666.png}}}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPT,
Kanika Gowswami [Uncaptioned image][Uncaptioned image]{}^{\includegraphics[width=8.5359pt]{figures/log.jpg}}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPT,   Ryan A. Rossi [Uncaptioned image][Uncaptioned image]{}^{{\includegraphics[width=5.69046pt]{figures/722666.png}}}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPT,  Dinesh Manocha [Uncaptioned image][Uncaptioned image]{}^{\includegraphics[width=9.95863pt]{figures/university-of-maryland-logo-1.% png}}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPT
[Uncaptioned image][Uncaptioned image]{}^{\includegraphics[width=9.95863pt]{figures/university-of-maryland-logo-1.% png}}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPT University of Maryland, College Park     Adobe Research[Uncaptioned image]superscriptAdobe Research[Uncaptioned image]{}^{\includegraphics[width=5.69046pt]{figures/722666.png}}\text{Adobe Research}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPT Adobe Research    [Uncaptioned image][Uncaptioned image]{}^{\includegraphics[width=8.5359pt]{figures/log.jpg}}start_FLOATSUPERSCRIPT end_FLOATSUPERSCRIPTIGDTUW
[email protected], [email protected]
Abstract

視覚的に豊かな要素を含む複数の文書からの情報を理解することは、文書に基づく質問応答において重要である。本稿では、表、グラフ、プレゼンテーションスライドを含む豊かなマルチモーダルコンテンツを持つ複数文書設定でQAシステムを評価するために設計された最初の包括的ベンチマーク、VisDoMBenchを紹介する。我々は、視覚的および言語的RAGを同時に活用する新しいマルチモーダル検索拡張生成(RAG)アプローチであるVisDoMRAGを提案する。これにより、堅牢な視覚的検索能力と洗練された言語的推論を組み合わせている。VisDoMRAGは、テキストおよび視覚的RAGパイプラインの同時処理のための証拠キュレーションと思考連鎖推論を含む多段階推論プロセスを採用している。VisDoMRAGの主要な新規性は、推論時にモダリティ間の推論プロセスを整合させ、一貫性のある最終回答を生成する一貫性制約付きモダリティ融合メカニズムにある。これにより、重要な情報がモダリティ間に分散している場合の精度が向上し、暗黙的なコンテキスト帰属を通じて回答の検証可能性が向上する。オープンソースおよび独自の大規模言語モデルを含む広範な実験を通じて、我々はVisDoMBench上で最先端の文書QA手法のベンチマークを行った。広範な結果は、VisDoMRAGがエンドツーエンドのマルチモーダル文書QAにおいて、単一モダリティおよび長文脈LLMベースラインを12-20%上回ることを示している。

1 Introduction

今日の情報豊富な環境において、PDF文書は金融、法律、科学研究など様々な分野で情報を保存し普及させる上で重要な役割を果たしている。これらの文書はしばしばテキスト、視覚、表形式のデータが豊富に混在しており、情報検索システムにとってユニークな課題となっている。データベースのような構造化されたフォーマットとは異なり、PDFは本質的に非構造化であり、段落、画像、チャート、表を組み合わせた多様なレイアウトを持つ。この複雑さは、テキストと視覚的内容の両方を解釈できる高度なマルチモーダル処理技術を必要とする。PDFからのマルチモーダルコンテンツを効果的に扱うことは、質問応答Ding et al. (2022); Mathew et al. (2021)、要約Pang et al. (2023)、知識抽出Pal et al. (2023)などの下流タスクにとって不可欠である。これらのタスクでは、正確で文脈を考慮したデータ抽出が意思決定プロセスを大幅に向上させる可能性がある。その結果、PDF文書のマルチモーダルな性質を十分に活用できる高度な手法の開発が重要な研究課題となっている。

Refer to caption
図1: 複数文書QAシステムは、大量の非構造化データから関連する文脈を推論する必要があり、本質的に単一文書QAよりも困難なタスクとなる。

実世界の文書QAシステムでは、クエリは単一のソースではなく、ソース文書のコレクションに対して向けられることが多く、システムは関連する回答を含む文書を特定する必要がある。これは、金融、科学、政策分析などの分野で、ユーザーが特定の情報を見つけるために大規模で多様な文書セットと対話する一般的なシナリオを反映している。これらの場合、課題は複数の文書に分散した大量の情報から、クエリに関連する文脈を効果的に特定することにある(「干し草の中から針を見つける」のようなものWang et al. (2024b))。

マルチドキュメントQAデータセットは稀少であり、既存のマルチドキュメントベンチマークBai et al. (2023); Wang et al. (2024c)は、主にテキスト情報に焦点を当てており、実世界の文書に見られる表、チャート、視覚的要素などの多様なコンテンツ形式を見過ごしがちである。表、チャート、スライドなどの視覚的に豊かな要素は、特定の種類の質問に答えるために重要な構造化データと視覚的要約を提供する。表は多くの場合、平文では捉えきれない密度の高い、整理された情報を提示する。同時に、チャートやスライドは、テキストによる説明を超えた解釈を必要とする傾向、関係性、または分布を視覚的に描写することができる。これらのモダリティを含むデータセットの不在は、現在のQAモデルが複雑なマルチモーダルな質問に対処する能力を制限している。例えば、財務や科学的な質問に答えるには、周囲のテキストと共に、表の数値データやグラフの傾向を解釈する必要がある場合がある。

視覚的に豊かなコンテンツベースの文書の文脈において、既存のRAGシステムは、検索に単一のモダリティ(テキストまたは視覚のいずれか)に依存しているため、重大な制限に直面している。テキストベースのシステムは言語的推論に長けているが、重要な情報を含む可能性のある表や図などの重要な視覚要素を見落としがちである。一方、視覚ベースの検索を活用するマルチモーダルRAGChen et al. (2022)システムは視覚データを効果的に抽出できるが、エンドツーエンドのパフォーマンスがLLMの視覚的推論能力によって制限されることが多い。これは、同じコンテキストが与えられた場合、テキストが視覚入力よりも優れたパフォーマンスを示すことが多いためであるDeng et al. (2024)。この現象は、視覚LLMにおける言語バイアスNiu et al. (2021); Wang et al. (2024a)や視覚的ハルシネーションGhosh et al. (2024)に起因する可能性がある。

主な結果:我々はVisDoMBenchを紹介する。これは、表、チャート、スライドを含む豊かな視覚コンテンツに対応するために特別に設計された、最初のマルチドキュメント、マルチモーダルQAデータセットである。VisDoMBenchは、複雑なコンテンツと質問タイプの多様な範囲を網羅し、注釈付きの証拠も含んでおり、マルチモーダルQAシステムの包括的な評価を可能にする。本稿では、VisDoMBenchにおける様々な視覚的およびテキスト的検索手法のパフォーマンスをベンチマークし、視覚的に豊かなマルチドキュメントクエリの処理における有効性に関する洞察を提供する。

さらに、我々はVisDoMRAGを提案する。これは、テキストと視覚的RAGパイプラインにわたってモダリティ融合を効果的に実行する新規のマルチモーダルRAGアプローチであり、テキストのみまたは視覚のみに基づく検索を行う現代的なアプローチとは異なり、両方のアプローチの本質的な強みを活用する。VisDoMRAGは、テキストと視覚要素に対して並列RAGパイプラインを採用し、各パイプラインは証拠の収集、思考連鎖推論、回答生成を含む多段階の推論プロセスを行う。その後、システムはモダリティ融合を用いて両パイプラインからの出力を統合し、推論連鎖に一貫性制約を課すことで、モダリティ間の推論プロセスの推論時の整合性を確保し、最終的な回答を生成する。VisDoMRAGは、従来の単一モーダルまたはより単純なマルチモーダルシステムに比べていくつかの重要な利点を提供する。第一に、テキストと視覚的手がかりの両方を十分に活用することで包括的な情報利用を確保し、特に重要な情報が異なるモダリティに分散している場合に、より正確で完全な回答につながる。さらに、証拠収集のステップは、我々のアプローチに文脈帰属が組み込まれているため、回答の検証可能性という追加の利点を提供する。我々は、様々なオープンソースおよびクローズドソースのLLMを利用して実験を行い、長文脈処理、テキストRAG、視覚RAGなどの複数の戦略を我々の提案システムと比較した。我々のVisDoMRAGが我々のベンチマークにおけるエンドツーエンドのQAパフォーマンスを向上させ、12%〜20%の範囲でパフォーマンスが向上することを見出した。本稿の主な貢献は以下の通りである:

  • VisDoMBench、表、チャート、スライドなどの視覚的に豊かな文書コンテンツにわたるQAタスクに対応するよう設計された新規の複数文書マルチモーダルQAベンチマークであり、マルチモーダル文書QAシステムの包括的な評価を可能にする。

  • VisDoMRAG、証拠収集と思考連鎖推論を通じてテキストと視覚のRAGを効果的に並列に実行する新規のマルチモーダルRAGアプローチ。両モダリティからの出力推論連鎖は一貫性分析を用いて整合され、結果として得られる回答はLLMベースのモダリティ融合を通じてアンサンブルされ、視覚的に豊かな文書QAを強化する。

  • VisDoMRAGは、長文脈処理、テキストRAG、視覚RAGなどの強力なベースラインを大幅に上回る性能を示しVisDoMBenchコーパスにおいて、様々なオープンソースおよびクローズドソースのLLM設定で12〜20%の性能向上を達成した

Benchmark Content Type Multi Document Domain
L-Eval An et al. (2023) Text Multi-domain
LongBench Bai et al. (2023) Text Wikipedia
Marathon Zhang et al. (2023) Text Multi-domain
LooGLE Li et al. (2023) Text Multi-domain
MPDocVQA Tito et al. (2023) Text, Tables, Charts Multi-domain
\inftyBench Zhang et al. (2024) Text Multi-domain
Ruler Hsieh et al. (2024) Text Wikipedia
Loong Wang et al. (2024c) Text Multi-domain
UDA Hui et al. (2024) Text, Tables Multi-domain
NarrativeQA Kočiskỳ et al. (2018) Text Movies and Shows
MMLONGBENCH-DOC Ma et al. (2024) Text, Tables, Charts, Slides Multi-domain
VisDoMBench (Ours) Text, Tables, Charts, Slides Multi-domain
表1: 長文コンテキスト文書QAベンチマークとVisDoMBenchの比較。

2 Related Work

検索拡張生成 大規模言語モデル(LLM)は大きな進歩を遂げているが、外部知識の統合や新しい未見のデータへの適応にはまだ課題がある。検索拡張生成(RAG)は、外部情報を取り込むことでこれらのギャップに対処し、LLMの応答の精度と信頼性を向上させるLewis et al. (2020)。RAGは、機械翻訳Gu et al. (2018); He et al. (2021)、対話生成Cai et al. (2018)、抽象的要約Peng et al. (2019)、知識集約型生成Izacard and Grave (2020); Lewis et al. (2020)など、様々な下流の単一モーダルNLPタスクで活用されている。視覚的質問応答(VQA)では、Lin and Byrne (2022)が物体検出、画像キャプション生成、光学文字認識(OCR)を用いて対象画像をテキストデータに変換することで、オープンドメインの課題に取り組んでいる。テキストのみのコンテキストを超えて、MuRAGはテキストと画像の両方のデータを検索し、画像を視覚的トークンとして組み込んでいるChen et al. (2022)。RAMMは、類似の生物医学画像とそのキャプションを個別のネットワークを通じて検索・エンコードすることでパフォーマンスを向上させているYuan et al. (2023)

長文コンテキスト文書ベンチマーク 長文コンテキスト文書の質問応答ベンチマークの比較(表1)は、コンテンツタイプ、複数文書の扱い能力、ドメインの多様性を浮き彫りにしている。L-Eval An et al. (2023)、Marathon Zhang et al. (2023)、LooGLE Li et al. (2023)などの既存のベンチマークは、主にマルチドメインソースからのテキストベースのコンテンツに焦点を当てているが、複数文書の入力をサポートしていない。LongBench Bai et al. (2023)とLoong Wang et al. (2024c)は評価を複数文書の設定にまで拡張しているが、依然としてテキスト中心である。

既存のデータセットとの比較: MPDocVQA Tito et al. (2023)、UDA Hui et al. (2024)、MMLONGBENCH-DOC Ma et al. (2024)のような特定のベンチマークは、表、グラフ、スライドを含めることでコンテンツの範囲を拡大しているが、単一文書の質問応答に限定されている。対照的に、VisDoMBenchは、テキスト、表、グラフ、スライドを含む様々なコンテンツタイプにわたる複数文書の質問応答をサポートしており、より包括的なマルチドメイン評価フレームワークを提供している。

Dataset Domain Content Type Queries Docs Avg. Question Length Avg. Doc Length (Pages) Avg. Docs per Query Avg. Pages per Query
PaperTab Wikipedia Tables, Text 377 297 29.44 ±6.3plus-or-minus6.3\pm 6.3± 6.3 10.55 ±6.3plus-or-minus6.3\pm 6.3± 6.3 10.82 ±4.4plus-or-minus4.4\pm 4.4± 4.4 113.10 ±50.4plus-or-minus50.4\pm 50.4± 50.4
FetaTab Scientific Papers Tables 350 300 12.96 ±4.1plus-or-minus4.1\pm 4.1± 4.1 15.77 ±23.9plus-or-minus23.9\pm 23.9± 23.9 7.77 ±3.1plus-or-minus3.1\pm 3.1± 3.1 124.33 ±83.0plus-or-minus83.0\pm 83.0± 83.0
SciGraphQA Scientific Papers Charts 407 319 18.05 ±1.9plus-or-minus1.9\pm 1.9± 1.9 22.75 ±29.1plus-or-minus29.1\pm 29.1± 29.1 5.91 ±2.0plus-or-minus2.0\pm 2.0± 2.0 129.71 ±81.7plus-or-minus81.7\pm 81.7± 81.7
SPIQA Scientific Papers Tables, Charts 586 117 16.06 ±6.6plus-or-minus6.6\pm 6.6± 6.6 14.03 ±7.9plus-or-minus7.9\pm 7.9± 7.9 9.51 ±3.5plus-or-minus3.5\pm 3.5± 3.5 135.58 ±55.2plus-or-minus55.2\pm 55.2± 55.2
SlideVQA Presentation Decks Slides 551 244 22.39 ±7.8plus-or-minus7.8\pm 7.8± 7.8 20.00 ±0.0plus-or-minus0.0\pm 0.0± 0.0 6.99 ±2.0plus-or-minus2.0\pm 2.0± 2.0 139.71 ±40.6plus-or-minus40.6\pm 40.6± 40.6
VisDoMBench Combined Tables, Charts, Slides, Text 2271 1277 19.11 ±5.4plus-or-minus5.4\pm 5.4± 5.4 16.43 ±14.5plus-or-minus14.5\pm 14.5± 14.5 8.36 ±3.0plus-or-minus3.0\pm 3.0± 3.0 128.69 ±62.7plus-or-minus62.7\pm 62.7± 62.7
表2: VisDoMBenchに含まれるデータ分割の概要。

3 Problem Formulation

クエリ q𝑞qitalic_q が与えられた場合、我々は M𝑀Mitalic_M 個の文書 𝒟={d1,d2,,dM}𝒟subscript𝑑1subscript𝑑2subscript𝑑𝑀\mathcal{D}=\{d_{1},d_{2},\dots,d_{M}\}caligraphic_D = { italic_d start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_d start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_d start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT } のコレクションを持っており、各文書 disubscript𝑑𝑖d_{i}italic_d start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTNisubscript𝑁𝑖N_{i}italic_N start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ページの集合で構成され、Pi={p1i,p2i,,pNii}superscript𝑃𝑖subscriptsuperscript𝑝𝑖1subscriptsuperscript𝑝𝑖2subscriptsuperscript𝑝𝑖subscript𝑁𝑖P^{i}=\{p^{i}_{1},p^{i}_{2},\dots,p^{i}_{N_{i}}\}italic_P start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT = { italic_p start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_p start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_p start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_N start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUBSCRIPT } で表される。我々の目的は、各クエリ q𝑞qitalic_q に対して、ユーザーのクエリに正確に答えるテキスト a^^𝑎\hat{a}over^ start_ARG italic_a end_ARG を生成することである。回答の生成は、1つ以上の文書から関連する証拠コンテキストを取得することに依存している。各クエリ q𝑞qitalic_q は、D𝐷Ditalic_D 内の関連文書の1つ以上から、異なるページにわたって散在する情報を必要とする場合がある。

我々は、システムがまず個々のページ、段落、またはテキストチャンクのレベルで関連する証拠を取得し、その後、取得したコンテキストを使用して回答テキストを生成する、複数ページの文書コレクションに対する質問に正確に答えることができるフレームワークを提案することを目指している。

4 VisDoMBench

VisDoMBenchの各データポイントは、三つ組 (q,D,a^)𝑞𝐷^𝑎(q,D,\hat{a})( italic_q , italic_D , over^ start_ARG italic_a end_ARG ) として表現できる。ここで、質問 q𝑞qitalic_q が文書集合 D𝐷Ditalic_D に対して提示され、正解 a^^𝑎\hat{a}over^ start_ARG italic_a end_ARG が与えられる。我々は、既存の5つの文書QAデータセットを再利用して本ベンチマークを構成した。表2は、VisDoMBenchに含まれる異なるデータ分割の概要を示しており、要約統計、QAタイプ、およびコンテンツタイプが含まれている。

4.1 VisDoMBench

データソーシング: 文書質問応答データセットの収集において、我々は以下の基準に従った: (1) 表、グラフ、プレゼンテーションスライドを含む視覚的に豊かなコンテンツの包含; (2) 公開されているソース文書の利用; (3) 根拠となる証拠の存在。これらのパラメータは、データセットがマルチモーダル情報検索に関連し、実世界の質問応答タスクに適用可能であることを確保するために設定された。我々のコーパスは、複数の確立されたデータセットからのテスト/評価セットで構成されている。UDAベンチマークHui et al. (2024)からPaperTabとFeTaTabの分割を取り入れた。これらはそれぞれQASPERDasigi et al. (2021)とFeTaQANan et al. (2022)から取得されたものである。グラフベースの質問応答サンプルについては、科学論文のグラフに関するマルチターンQAデータセットであるSciGraphQA Li and Tajbakhsh (2023)と、Dasigi et al. (2021)から取得されたグラフと表のQAデータセットシステムであるSPIQAPramanick et al. (2024)から抽出した。さらに、プレゼンテーションスライドデッキに焦点を当てたマルチイメージ、マルチホップQAデータセットであるSlideVQA Tanaka et al. (2023)も含めた。

Refer to caption
図2: VisDoMRAG: 一連の文書が与えられると、VisDoMRAGは証拠駆動型の ビジュアルRAGと テキストRAGを並行して実行し、それぞれ取得されたコンテキストに基づいてクエリに回答するようLLMに促す。これは証拠の収集と思考連鎖推論を通じて行われる。テキストとビジュアルパイプラインからの推論連鎖と回答は、 モダリティ融合を通じてアンサンブルされる。ここで、両モダリティの出力は、それらの推論連鎖の一貫性分析を用いて調整され、最終的な回答に到達する。

データサンプリング: 収集されたQAペアは、高品質なサンプルを保持するためにサンプリングされる必要がある。我々のベンチマークの完全性と独自性を維持するために、PaperTabとSPIQA間の重複サンプルを慎重に除去し、含まれるすべてのデータセット間でQAペアの厳密な重複排除を実施した。さらに、異なる文書コレクション間で類似の質問が繰り返されないよう、質問レベルの重複排除も行った。これにより、QAシステムが特定の質問タイプをより適切に処理することで不当に報酬を得ることがないようにしている。SciGraphQAについては、レイアウトや文書メタデータに関する些細な質問を除外した。残りの質問から、長さで上位50%に入る質問からランダムに500問をサンプリングした。回答の長さによるフィルタリングの根拠は、より長い質問はより具体的である傾向があり、特異性が重要なマルチドキュメントQAタスクにより適しているという経験則に基づいている。SlideVQAについては、一般的に非特異的で文書コレクションから複数の正解が存在する可能性があるため、シングルホップの質問を除外した。我々は経験的に、このデータセットのマルチホップ質問は特定の文書からのコンテンツを参照する可能性が高いため、マルチドキュメント設定により適していると観察した。SciGraphQAとSPIQAには、科学論文から抽出されたグラフや表に特化した質問が含まれている。我々はArXiv API111https://info.arxiv.org/help/api/index.htmlを使用して完全な文書PDFを抽出した。

文書拡張: 現実的なマルチドキュメント設定をシミュレートするために、我々はすべてのデータ分割において、各質問に対して様々な数の妨害文書(|𝒟i=M||\mathcal{D}_{i}=M|| caligraphic_D start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = italic_M |)を追加した。クエリあたりの予想される総ページ数を50から200の間に保つことを意図している。これにより、十分な妨害コンテンツを確保しつつ、現代の長文脈モデルの実用的な実現可能性を維持することができる。したがって、文書あたりの平均ページ数Pavgsubscript𝑃𝑎𝑣𝑔P_{avg}italic_P start_POSTSUBSCRIPT italic_a italic_v italic_g end_POSTSUBSCRIPTに基づいて、妨害文書の数l𝑙litalic_l[50Pavg,200Pavg]50subscript𝑃𝑎𝑣𝑔200subscript𝑃𝑎𝑣𝑔[\lfloor\frac{50}{P_{avg}}\rfloor,\lfloor\frac{200}{P_{avg}}\rfloor][ ⌊ divide start_ARG 50 end_ARG start_ARG italic_P start_POSTSUBSCRIPT italic_a italic_v italic_g end_POSTSUBSCRIPT end_ARG ⌋ , ⌊ divide start_ARG 200 end_ARG start_ARG italic_P start_POSTSUBSCRIPT italic_a italic_v italic_g end_POSTSUBSCRIPT end_ARG ⌋ ]の範囲内でランダムにサンプリングする。l𝑙litalic_lをランダムにサンプリングすることで、各ベンチマークインスタンスに多様な程度のマルチドキュメント証拠が含まれ、QAモデルの検索および推論能力のより徹底的な評価が可能になる。

クエリ拡張: SciGraphQAPaperTabなどのデータセットにおける曖昧な質問の課題に対処するために、我々はクエリ拡張手順を実装した。これにより、与えられた質問と、それに排他的に回答する文書との間に一対一のマッピングを作成する。元の質問と回答を含む文書が与えられた場合、我々はGPT-4oを利用して、より具体的な質問のバリエーションを生成する。生成された質問は、対応する文書によってのみ回答できるようにする。一貫性を維持するために、生成された質問の回答が提供された回答と一致するようLLMに制約を課す。拡張されたクエリが生成された後、人間のアノテーターが事前に定義されたルーブリックを使用してそれらをレビューする。ルーブリックは、アノテーターが5つの生成された質問のうち1つを選択するか、元の質問を保持するか、またはすべての質問(合成および実際の)を曖昧としてマークするかを指示する。後者の場合、そのデータポイントは破棄される。アノテーターは、局所化された証拠を参照しながら、質問が十分に具体的であることを確認する任務を負う。さらに、アノテーターは質問が他の文書によって曖昧に回答されることがないことを確認するために、文書コレクション全体で簡単な検索を実行する。クエリとソース文書の一対一マッピングの実験的検証は付録に記載されている。

5 VisDoMRAG

VisDoMRAG(図2)は、視覚的に豊かな文書に対するQAのためのマルチモーダルRAGアプローチであり、以下の2つのステップから構成される:(i) 並列の証拠駆動型ユニモーダル(視覚および文章)RAGパイプライン、および (ii) モダリティ融合。モダリティ融合は、ユニモーダルの推論チェーンを組み合わせて最終的な回答に到達するために一貫性制約を課すものである。

5.1 Evidence-driven Parallel Unimodal RAG

Textual Retrieval Pipeline

テキストRAGパイプラインは、光学文字認識(OCR)を用いて文書セットからテキストを抽出することから始まり、抽出されたテキストを小さな索引可能なチャンクに分割する。ソース文書とページ番号を示すメタデータは、追跡可能性を確保するために保持される。これらのチャンクは、テキスト埋め込みモデルを使用して索引付けされ、効率的な検索を可能にする。関連するチャンクは、その後、テキスト検索モデルによって指定されたクエリに関連して取得され、クエリとともにLLMに文脈入力として提供され、テキストによる回答を生成する。

Visual Retrieval Pipeline

同時に、視覚RAGパイプラインは、画像、チャート、図表などのグラフィック要素の抽出と分析に専念している。与えられたPDFセットに対して、視覚埋め込みモデルがすべての文書のページレベルの粒度でインデックスを生成する。関連するページは、指定されたクエリに基づいて視覚検索モデルによって取得され、これらのページはマルチモーダルLLMに視覚的文脈として提供される。このアプローチにより、モデルは重要な視覚情報にアクセスでき、文書レイアウトやチャート、図表、インフォグラフィックなどのグラフィック構造からの視覚的手がかりを利用するマルチモーダル機能を活用する。

プロンプト戦略 テキストと視覚の両パイプラインは、洗練された3段階のプロンプト戦略を採用している。文脈アーティファクト(ページ画像またはテキストチャンク)のセットとクエリが与えられた場合、LLMは以下の手順でプロンプトされる:

1. エビデンスの選別:最初のステップとして、我々はLLMに取得された文脈から関連するエビデンスを抽出するようプロンプトする。LLMは、クエリに最も関連する可能性が高い段落、表、図の詳細などの主要セクションを分離し、構造化された形で言語化しなければならない。この選別は、不均一なソースが無関係、注意を逸らす、または敵対的なコンテンツを導入する可能性がある複数文書のセットアップにおいて重要である。関連情報を正確に特定することで、ノイズをフィルタリングしてモデルの推論能力を向上させ、LLMの幻覚を軽減するのに役立つ。

2. 思考連鎖推論:複数文書のアーティファクトから推論チェーンを抽出することは、最終的な回答生成のために選別されたエビデンスを文脈化するのに役立つ。我々は思考連鎖(CoT)Wei et al. (2022)推論を利用して、一貫性のある段階的な説明を形成する個々のエビデンスを結びつけ、回答が正確であるだけでなく、エビデンスから論理的に導き出されることを確保し、より堅牢で信頼性の高い応答につながる。

3. 回答生成:選別された文脈的に関連するエビデンスからの洞察を活用し、CoT推論プロセスを適用することで、回答生成ステップは正確かつ十分に正当化された応答を生成する。さらに、我々は質問タイプに応じて適切な回答生成フォーマットについてLLMを導くための的を絞ったプロンプトを使用する。

Refer to caption
(a) PaperTab
Refer to caption
(b) FetaTab
Refer to caption
(c) SciGraphQA
Refer to caption
(d) SPIQA
図3: ベンチマーク化された検索器(BM25MiniLMMPNetBGE1.5ColPaliColQwen)の、異なる文脈ウィンドウ長での、k[1,5,10,20]𝑘151020k\in[1,5,10,20]italic_k ∈ [ 1 , 5 , 10 , 20 ]を変化させたデータセット間の検索性能の比較。

5.2 Modality Fusion

モダリティ融合段階は、VisDoMRAGにおける主要な貢献であり、これによりより単純なマルチモーダルアプローチとは異なるものとなっている。この段階では、テキストおよび視覚パイプラインの両方からの出力、すなわち厳選された証拠、推論チェーン、生成された回答を入力として受け取る。融合プロセスは、テキストパイプラインと視覚パイプラインによって生成された推論チェーン間の一貫性を評価するようLLMにプロンプトを与えることによって調整される。この考えは、CoTにおける自己一貫性Wang et al. (2023)に触発されたものであり、複数の思考チェーンを活用し、個々のチェーンの結果の一貫性に基づいて回答を導き出している。一貫性制約プロンプティングは、異なるモダリティの個別処理から生じる可能性のある不一致、矛盾、推論の隙間を特定し解決するために極めて重要である。不一致が検出された場合、LLMは証拠を再評価したり推論ステップを調整したりすることで、その差異を調整する任務を負う。このプロセスにより、最終的な回答が両方のモダリティからの情報を首尾一貫した論理的に整合性のある方法で統合することを保証する。

Baseline LLM PaperTab FetaTab SciGraphQA SPIQA SlideVQA Average
Qwen2-VL 8.23 23.1 16.74 9.93 2.46 12.09
Gemini 27.62 62.02 22.1 38.82 13.47 32.81
Long Context GPT4o 28.37 60.03 24.12 36.3 15.06 32.78
Qwen2-VL 25.33 57.56 26.75 39.77 8.82 31.65
Gemini 33.6 63.86 26.48 42.33 10.3 35.31
Text RAG ChatGPT4o 37.34 60.82 29.74 42.8 15.97 37.33
Qwen2-VL 27.37 58.57 28.13 42.81 38.42 39.06
Gemini 29.23 52.82 23.56 41.43 51.96 39.80
Visual RAG ChatGPT4o 42.01 61.89 31.12 43.28 66.82 49.02
Qwen2-VL 29.89 59.24 27.98 42.8 39.77 39.94
Gemini 39.66 60.89 25.82 41.03 52.74 44.03
VisDoMRAG ChatGPT4o 44.11 63.28 31.36 44.09 67.22 50.01
表3: 我々のアプローチであるVisDoMRAGのパフォーマンスを、VisDoMBenchにおけるベースラインアプローチと比較したもの。VisDoMRAGは、長文脈LLM、視覚および文章のみのRAGベースラインを上回るパフォーマンスを示している。

6 Experiments

我々の実験では、まず異なる検索およびインデックス作成モデルをベンチマークで評価し、その後、特定された最適な検索モデルと異なるLLMを使用してエンドツーエンドのQA評価を行う。実験、ベースライン、および評価について以下に述べる:

6.1 Retrieval

ベースライン:我々は一般的なテキストベースの検索モデルを使用する:統計的ベースラインであるBM25 Robertson et al. (1995)、および最先端の密な検索ベースラインを代表するMPNet Song et al. (2020)、MiniLM Wang et al. (2020)、BGE-1.5 Xiao et al. (2023)である。PDFドキュメントからのテキスト抽出はPyTesseractを使用して行われる。抽出されたテキストは、情報損失を軽減するために10%のオーバーラップを持つ再帰的分割法 Sarmah et al. (2023)を用いて3000文字のチャンクに分割される。

視覚的検索については、LLMの上に構築された最近の後期相互作用ベースのマルチベクトル検索モデル Faysse et al. (2024)、すなわちColPaliとColQwen2を利用する。これらはそれぞれPaliGemma Beyer et al. (2024)とQwen2 Yang et al. (2024)をベースLLMとしている。これらのモデルの詳細については、付録を参照されたい。

評価:証拠抽出は、正解の証拠と検索されたチャンク/ページの間のANLCSを用いて評価される。文書識別は、複数文書設定において正しいソース文書を選択する検索器の能力を評価する。我々は、検索されたコンテキストの大部分が正解文書から得られたインスタンスの割合を報告する。

Retriever PaperTab FetaTab SciGraphQA SPIQA SlideVQA Average
BM25 65.51 84.00 72.73 88.23 98.55 81.80
MiniLM 65.51 88.85 91.65 61.06 0.73 61.56
MPNet 90.18 89.71 91.40 95.84 0.73 73.57
BGE1.5 96.81 94.00 90.91 98.43 81.85 92.40
ColPali 9.81 97.71 95.28 11.43 97.64 54.15
ColQwen2 97.61 96.86 95.58 96.85 97.82 96.94
表4: k=5𝑘5k=5italic_k = 5におけるソース文書識別の性能比較。

6.2 End-to-End QA

我々は、検索実験から得られた最良のテキストおよび視覚検索モデルをエンドツーエンドQA評価に使用する。

ベースライン:我々の手法のベンチマークとして、複数の画像入力と長文コンテキストを扱うことができるLLMを使用する。この目的のため、既製のモデルであるGemini-1.5-Flash Reid et al. (2024)とChatGPT-4o OpenAI (2024)、さらに視覚および長文コンテキスト機能を持つオープンソースLLMであるQwen2-VL-7B-Instruct Yang et al. (2024)を含める。これらのLLMを4つのアプローチで評価する:1. 長文コンテキスト:サンプルに対するすべての文書クエリのテキスト内容をコンテキストとして渡す、2. TextualRAG、3. VisualRAG、そして4. VisDoMRAGを第5節で説明したとおりに実施する。

評価:PaperTabについては、Hui et al. (2024)から修正されたWord Overlap F1の実装を借用する。これは異なる回答タイプ(二値、短文テキスト)を考慮に入れている。他のすべてのデータセットについては、Word Overlap F1を報告する。これは異なる回答タイプを評価するための柔軟な指標として機能する。

7 Results

7.1 Retrieval Evaluation on VisDoMBench

3は、様々な検索モデルの文書からの証拠抽出性能を示しており、異なるコンテキストウィンドウ長(k=[1,5,10,20]𝑘151020k=[1,5,10,20]italic_k = [ 1 , 5 , 10 , 20 ])に対して、検索された証拠と真の証拠間の平均正規化最長共通部分列(ANLCS)を用いて評価している。ANLCS = 0.7の閾値に基づき、我々はVisual RAGとTextual RAGにそれぞれk=5𝑘5k=5italic_k = 5k=7𝑘7k=7italic_k = 7のコンテキストウィンドウを使用し、ColQwen2とBGE-1.5を視覚的および文章的検索器として採用している。ColQwen2は、強力なLLMバックボーン(Qwen2)の存在により、異なるデータセットにわたって他の検索ベースラインを上回る性能を示している。

4は、正しいソース文書を特定する検索器の性能を評価しており、k=5𝑘5k=5italic_k = 5に対して正確な文書検索を行ったクエリの割合を示している。検索された文書の少なくともk/2𝑘2\left\lceil k/2\right\rceil⌈ italic_k / 2 ⌉が真のソース文書に対応する場合、その文書は正しく検索されたとみなされる。我々は、ColQwen2が次に近いBGE1.5モデルよりも4.5%優れていることを観察した。特筆すべきは、SlideVQAにおいてこの指標で大きな性能差が見られ、視覚モデルがテキストのみのモデルを大幅に上回っていることである。BM25は、このケースではテキストのみのモデルよりも優れた性能を示している。これは、スライドが通常スパースなテキストを含んでおり、しばしばクエリとコンテキスト間で直接一致するキーワードで構成されているためである。対照的に、ニューラルモデルは意味情報を効果的に捉えるのに苦労している。これは、テキスト内容が完全な文を欠いているため、文脈的な意味を利用する能力が制限されているためである。

7.2 End-to-End Evaluation

3は、Qwen2VL (7B)、Gemini Flash、GPT-4を含む複数のLLMにおいて、VisDoMRAGとVisual RAG、Textual RAG、Long Context手法の性能を比較したものである。結果は、VisDoMRAGがデータセット全体で一貫してベースライン手法を上回る性能を達成していることを示しており、性能向上は以下の範囲である:PaperTab (2.1-21.6%)、FetaTab (0.67-36.14%)、SciGraphQA (0.24-11.24%)、SPIQA (0.81-32.87%)、SlideVQA (0.40-52.16%)。さらに、ほとんどのデータセットにおいて、各ベースライン手法内でモデルサイズと性能の間に正の相関が観察され、これはLLMのスケーリング挙動に関する既存の期待と一致しているHestness et al. (2017)

Refer to caption
(a) Long Context
Refer to caption
(b) VisDoMRAG
図4: Long ContextとVisDoMRAG(LLM全体で平均化)の性能比較。ページ数p¯=d𝒟|d|¯𝑝subscript𝑑𝒟𝑑\bar{p}=\sum_{d\in\mathcal{D}}|d|over¯ start_ARG italic_p end_ARG = ∑ start_POSTSUBSCRIPT italic_d ∈ caligraphic_D end_POSTSUBSCRIPT | italic_d |の異なる範囲で評価され、p¯100¯𝑝100\bar{p}\leq 100over¯ start_ARG italic_p end_ARG ≤ 100)、100<p¯150100¯𝑝150100<\bar{p}\leq 150100 < over¯ start_ARG italic_p end_ARG ≤ 150)、150p¯150¯𝑝150\leq\bar{p}150 ≤ over¯ start_ARG italic_p end_ARG)の量で示されている。

テキストRAGと視覚RAGの比較:テキストRAGと視覚RAGの性能を比較すると、視覚RAGが一貫してテキストRAGを上回っていることが観察される。この挙動は、我々のデータセットの構成が主に視覚的に豊かなコンテンツで構成されており、視覚RAGが視覚情報を直接活用できることに基づいて説明できる。しかし、SciGraphQAやSPIQAなどの科学的図表のデータセットでは、その性能差はあまり顕著ではない。これは、科学論文のテキストが豊富な性質によるものであり、図表がしばしば本文や説明文中で詳細に説明されており、特に主要な結果や構造的詳細が強調されているためである。対照的に、SlideVQAではテキストRAGと視覚RAGの間に大きな性能差が見られる。これは、スライドが通常、視覚化の広範なテキスト説明を欠いており、質問に答えるための主要な情報源として視覚モダリティに依存せざるを得ないためである。さらに、我々はGeminiが多くのデータセットにおいて、視覚モダリティよりもテキストモダリティでより良い性能を示すことを発見した。この不一致は、言語バイアスNiu et al. (2021); Wang et al. (2024a)や視覚的幻覚Ghosh et al. (2024)などの要因に起因する可能性があり、モデルの視覚認識が言語能力よりも信頼性が低い可能性がある。

長文脈LLMの効果:我々は、VisDoMRAGがQwen2VLのような小規模モデルの性能を大幅に向上させる能力を持つことを観察した。この改善は、視覚的およびテキスト的推論を統合する能力に起因し、長文脈理解と視覚認識の弱点を補完している。長文脈LLMベースラインは、高いトークン数と、特定の局所的な証拠の検索を必要とするタスクの性質(本質的に干し草の山から針を見つける問題)により、我々のセットアップでは効果が低いことが証明された。VisDoMRAGにおけるモダリティの組み合わせはこれらの課題を軽減し、結果に反映されているように、より堅牢な回答生成をもたらす。

ページ数増加の影響:図4は、各クエリに関連するページの量によってセグメント化された、LLM全体で平均化された異なるアプローチの性能を評価している。予想通り、長文脈モデルはコレクション内のページ数が増加するにつれて著しい性能低下を示す。対照的に、我々のマルチモーダルRAGアプローチは、高いページ数でも一貫したQA性能を示している。これは、質問に効果的に答えるためにLLMが処理する必要のあるコンテキストの量を制限できるためである。

定性的例:図5は、PaperTabデータセットからの定性的例を示しており、VisDoMRAGが推論チェーンとユニモーダルRAG出力からの回答を効果的に使用して正しい回答を合成している。より多くの定性的結果は付録に示されている。

Refer to caption
図5: PaperTabデータセットからの定性的例。VisDoMRAGとユニモーダルRAG戦略を比較している。

7.3 Ablations

我々はChatGPT4oを用いて、提案するVisDoMRAGフレームワークの様々なコンポーネントの有効性を評価するためのアブレーション実験を行った。また、モダリティ統合のための早期融合戦略と後期融合戦略の比較も行った。結果は表5にまとめられている。

早期融合 vs. 後期融合: 我々の実験では、視覚的検索器によって取得された文書ページから抽出されたテキストを直接視覚的RAGコンテキストに追加してLLMへの入力として使用する早期融合は、VisDoMRAGで採用された後期融合戦略と比較して最適とは言えない性能を示した。具体的には、早期融合は視覚的および文章的証拠を効果的に統合することに苦戦し、特にクロスモーダル推論において、データセット全体で平均43.63のスコアとなった。この制限は、各モダリティの独立した処理が欠如していることに起因し、文脈理解と推論の弱さにつながったと考えられる。対照的に、各モダリティを独立して処理してから集約する後期融合がより効果的であることが証明された。この性能差は、特に推論が微妙なクロスモーダルの証拠統合を必要とする場合、モダリティ固有の表現を統合前に保持することの重要性を浮き彫りにしている。

プロンプトのアブレーション: 我々が提案するプロンプト戦略のアブレーションも、証拠キュレーション、思考連鎖(CoT)プロンプティング、推論一貫性の重要性を明らかにした。これらのコンポーネントを、モデルが質問と取得されたコンテキストに基づいて直接回答を生成する基本的な構造を持つ簡略化されたプロンプトに置き換え、証拠キュレーション、思考連鎖(CoT)プロンプティング、推論一貫性メカニズムを活用しない場合を検討した。例えば、これらのプロンプト戦略を削除すると、テキストのみの設定では平均スコアが37.33から34.68に、視覚のみの設定では49.02から43.93に低下し、構造化されたプロンプトの重要性が浮き彫りとなった。

VisDoMRAGの設定では、プロンプトのアブレーションにより平均性能が50.01から45.98に低下し、特にSPIQAやSlideVQAなど複雑な推論を必要とするデータセットで顕著な低下が観察された。簡略化されたプロンプトは、クロスモーダルの証拠の整合と集約の複雑さを扱うには不十分であり、これらのシナリオでの性能低下につながった。

Baseline Experiment PaperTab FetaTab SciGraphQA SPIQA SlideVQA Average
Text Ours 37.34 60.82 29.74 42.80 15.97 37.33
Prompt Ablation 33.29 58.81 30.16 37.81 13.32 34.68
Vision Ours 42.01 61.89 31.12 43.28 66.82 49.02
Prompt Ablation 34.52 59.85 31.31 32.55 61.44 43.93
VisDoMRAG Ours 44.11 63.28 31.36 44.09 67.22 50.01
Prompt Ablation 38.34 62.65 27.85 36.75 64.33 45.98
Early Fusion 37.37 61.29 27.94 33.45 58.12 43.63
表5: VisDoMBenchにおけるベースラインアプローチとアブレーションの性能比較。

8 Conclusion and Future Work

本稿では、表、グラフ、スライドなどの視覚的に豊かな要素を含む複数文書システムを評価するために設計された最初のQAデータセットであるVisDoMBenchを紹介した。テキストと視覚の両方の理解を必要とする文書を対象とすることで、VisDoMBenchはマルチモーダル検索システムの能力を評価するための新しいベンチマークを提供している。また、一貫性制約のあるモダリティ融合を用いて視覚的およびテキスト的パイプラインを融合するマルチモーダル検索拡張生成アプローチであるVisDoMRAGも提示した。この手法は、従来の長文脈、テキスト、および視覚的RAGと比較して12-20%の大幅な改善を示した。現在の研究はマルチモーダルな複数文書設定におけるRAGに焦点を当てているが、今後の研究では、特に低リソース設定において、エンドツーエンドで学習されたモデルを通じた推論を含めるようにこのアプローチを拡張する予定である。

9 Ethics Statement

本研究では公開されているデータセットを使用している。人間の評価者の身元は機密として扱われ、我々の実験のいかなる段階においても個人を特定できる情報(PII)は使用されていない。本稿は文書QAアプリケーションのみを目的としている。LLMの安全性に関する潜在的リスクと緩和戦略についてより深く理解するために、我々はユーザーに(Kumar et al., 2024; Cui et al., 2024; Luu et al., 2024)による関連研究を参照するよう促す。

10 Limitations

本研究で提示された進歩にもかかわらず、いくつかの制限事項が考慮に値する:

(1) テキスト抽出と文書解析:視覚的検索手法の有効性の主要な論拠は、テキスト抽出と文書解析パイプラインの排除であるFaysse et al. (2024)。しかし、我々のアプローチはこのオーバーヘッドを保持しており、これにより追加の複雑性と処理時間が生じる可能性がある。

(2) 複数のLLM呼び出し:我々の方法論は複数のLLM呼び出しを必要とする。具体的には、クエリごとに3回のLLM呼び出しを行う。このアプローチは最適ではない可能性があるが、長文脈モデルを使用するよりもコスト効率が高い。

(3) ハルシネーション:大規模言語モデル(LLM)を含むすべての研究と同様に、我々のアプローチもAIの安全性とハルシネーションのリスクに関連する固有の制限を受ける。これらの問題は生成される出力の信頼性と正確性に影響を与え、安全性のリスクを浮き彫りにし、これらの課題を軽減するためのAI分野における継続的な研究と改良の必要性を強調している。

さらに、通常モデルが視覚データのみに基づいて質問に答えることを要求した以前の視覚的QA研究とは異なり、我々のフレームワークは文書コンテキストを組み込んでいる。この組み込みにより、論文の他のセクションからの関連するテキスト情報がクエリ応答に寄与することが可能となる。しかし、この文書コンテキストへの依存は、視覚的パフォーマンステストの分離に挑戦するため、すべての視覚的に豊かな文書QAデータセットに共通する制限を表している。それにもかかわらず、この特性は必ずしも完全に不利ではない。実際、マルチモーダル情報が相互依存することが多い現実世界のシステムの複雑さをより正確に反映している。

References

  • An et al. (2023) Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, and Xipeng Qiu. 2023. L-eval: Instituting standardized evaluation for long context language models. arXiv preprint arXiv:2307.11088.
  • Bai et al. (2023) Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, et al. 2023. Longbench: A bilingual, multitask benchmark for long context understanding. arXiv preprint arXiv:2308.14508.
  • Beyer et al. (2024) Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, and Xiaohua Zhai. 2024. Paligemma: A versatile 3b vlm for transfer. Preprint, arXiv:2407.07726.
  • Cai et al. (2018) Deng Cai, Yan Wang, Victoria Bi, Zhaopeng Tu, Xiaojiang Liu, Wai Lam, and Shuming Shi. 2018. Skeleton-to-response: Dialogue generation guided by retrieval memory. arXiv preprint arXiv:1809.05296.
  • Chen et al. (2022) Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, and William W Cohen. 2022. Murag: Multimodal retrieval-augmented generator for open question answering over images and text. arXiv preprint arXiv:2210.02928.
  • Cui et al. (2024) Tianyu Cui, Yanling Wang, Chuanpu Fu, Yong Xiao, Sijia Li, Xinhao Deng, Yunpeng Liu, Qinglin Zhang, Ziyi Qiu, Peiyang Li, Zhixing Tan, Junwu Xiong, Xinyu Kong, Zujie Wen, Ke Xu, and Qi Li. 2024. Risk taxonomy, mitigation, and assessment benchmarks of large language model systems. Preprint, arXiv:2401.05778.
  • Dasigi et al. (2021) Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A Smith, and Matt Gardner. 2021. A dataset of information-seeking questions and answers anchored in research papers. arXiv preprint arXiv:2105.03011.
  • Deng et al. (2024) Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, and Rada Mihalcea. 2024. Tables as images? exploring the strengths and limitations of llms on multimodal representations of tabular data. arXiv preprint arXiv:2402.12424.
  • Ding et al. (2022) Yihao Ding, Zhe Huang, Runlin Wang, YanHang Zhang, Xianru Chen, Yuzhong Ma, Hyunsuk Chung, and Soyeon Caren Han. 2022. V-doc: Visual questions answers with documents. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 21492–21498.
  • Faysse et al. (2024) Manuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, and Pierre Colombo. 2024. Colpali: Efficient document retrieval with vision language models. arXiv preprint arXiv:2407.01449.
  • Ghosh et al. (2024) Sreyan Ghosh, Chandra Evuru, Sonal Kumar, Utkarsh Tyagi, Oriol Nieto, Zeyu Jin, and Dinesh Manocha. 2024. Vdgd: Mitigating lvlm hallucinations in cognitive prompts by bridging the visual perception gap.
  • Gu et al. (2018) Jiatao Gu, Yong Wang, Kyunghyun Cho, and Victor OK Li. 2018. Search engine guided neural machine translation. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 32.
  • He et al. (2021) Qiuxiang He, Guoping Huang, Qu Cui, Li Li, and Lemao Liu. 2021. Fast and accurate neural machine translation with translation memory. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 3170–3180.
  • Hestness et al. (2017) Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Frederick Diamos, Heewoo Jun, Hassan Kianinejad, Md. Mostofa Ali Patwary, Yang Yang, and Yanqi Zhou. 2017. Deep learning scaling is predictable, empirically. ArXiv, abs/1712.00409.
  • Hsieh et al. (2024) Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, and Boris Ginsburg. 2024. Ruler: What’s the real context size of your long-context language models? arXiv preprint arXiv:2404.06654.
  • Hui et al. (2024) Yulong Hui, Yao Lu, and Huanchen Zhang. 2024. Uda: A benchmark suite for retrieval augmented generation in real-world document analysis. arXiv preprint arXiv:2406.15187.
  • Izacard and Grave (2020) Gautier Izacard and Edouard Grave. 2020. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282.
  • Kočiskỳ et al. (2018) Tomáš Kočiskỳ, Jonathan Schwarz, Phil Blunsom, Chris Dyer, Karl Moritz Hermann, Gábor Melis, and Edward Grefenstette. 2018. The narrativeqa reading comprehension challenge. Transactions of the Association for Computational Linguistics, 6:317–328.
  • Kumar et al. (2024) Ashutosh Kumar, Sagarika Singh, Shiv Vignesh Murty, and Swathy Ragupathy. 2024. The ethics of interaction: Mitigating security threats in llms. Preprint, arXiv:2401.12273.
  • Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. 2020. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33:9459–9474.
  • Li et al. (2023) Jiaqi Li, Mengmeng Wang, Zilong Zheng, and Muhan Zhang. 2023. Loogle: Can long-context language models understand long contexts? arXiv preprint arXiv:2311.04939.
  • Li and Tajbakhsh (2023) Shengzhi Li and Nima Tajbakhsh. 2023. Scigraphqa: A large-scale synthetic multi-turn question-answering dataset for scientific graphs. arXiv preprint arXiv:2308.03349.
  • Lin and Byrne (2022) Weizhe Lin and Bill Byrne. 2022. Retrieval augmented visual question answering with outside knowledge. arXiv preprint arXiv:2210.03809.
  • Luu et al. (2024) Quan Khanh Luu, Xiyu Deng, Anh Van Ho, and Yorie Nakahira. 2024. Context-aware llm-based safe control against latent risks. Preprint, arXiv:2403.11863.
  • Ma et al. (2024) Yubo Ma, Yuhang Zang, Liangyu Chen, Meiqi Chen, Yizhu Jiao, Xinze Li, Xinyuan Lu, Ziyu Liu, Yan Ma, Xiaoyi Dong, et al. 2024. Mmlongbench-doc: Benchmarking long-context document understanding with visualizations. arXiv preprint arXiv:2407.01523.
  • Mathew et al. (2021) Minesh Mathew, Dimosthenis Karatzas, and CV Jawahar. 2021. Docvqa: A dataset for vqa on document images. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2200–2209.
  • Nan et al. (2022) Linyong Nan, Chiachun Hsieh, Ziming Mao, Xi Victoria Lin, Neha Verma, Rui Zhang, Wojciech Kryściński, Hailey Schoelkopf, Riley Kong, Xiangru Tang, et al. 2022. Fetaqa: Free-form table question answering. Transactions of the Association for Computational Linguistics, 10:35–49.
  • Niu et al. (2021) Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, and Ji-Rong Wen. 2021. Counterfactual vqa: A cause-effect look at language bias. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 12700–12710.
  • OpenAI (2024) OpenAI. 2024. Hello, gpt-4o! https://openai.com/index/hello-gpt-4o/.
  • Pal et al. (2023) Vaishali Pal, Andrew Yates, Evangelos Kanoulas, and Maarten de Rijke. 2023. MultiTabQA: Generating tabular answers for multi-table question answering. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 6322–6334, Toronto, Canada. Association for Computational Linguistics.
  • Pang et al. (2023) Bo Pang, Erik Nijkamp, Wojciech Kryscinski, Silvio Savarese, Yingbo Zhou, and Caiming Xiong. 2023. Long document summarization with top-down and bottom-up inference. In Findings of the Association for Computational Linguistics: EACL 2023, pages 1267–1284, Dubrovnik, Croatia. Association for Computational Linguistics.
  • Peng et al. (2023) Bowen Peng, Jeffrey Quesnelle, Honglu Fan, and Enrico Shippole. 2023. Yarn: Efficient context window extension of large language models. Preprint, arXiv:2309.00071.
  • Peng et al. (2019) Hao Peng, Ankur P Parikh, Manaal Faruqui, Bhuwan Dhingra, and Dipanjan Das. 2019. Text generation with exemplar-based adaptive decoding. arXiv preprint arXiv:1904.04428.
  • Pramanick et al. (2024) Shraman Pramanick, Rama Chellappa, and Subhashini Venugopalan. 2024. Spiqa: A dataset for multimodal question answering on scientific papers. arXiv preprint arXiv:2407.09413.
  • Reid et al. (2024) Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. 2024. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530.
  • Robertson et al. (1995) Stephen E Robertson, Steve Walker, Susan Jones, Micheline M Hancock-Beaulieu, Mike Gatford, et al. 1995. Okapi at trec-3. Nist Special Publication Sp, 109:109.
  • Sarmah et al. (2023) Bhaskarjit Sarmah, Tianjie Zhu, Dhagash Mehta, and Stefano Pasquali. 2023. Towards reducing hallucination in extracting information from financial reports using large language models. Preprint, arXiv:2310.10760.
  • Song et al. (2020) Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and Tie-Yan Liu. 2020. Mpnet: Masked and permuted pre-training for language understanding. CoRR, abs/2004.09297.
  • Tanaka et al. (2023) Ryota Tanaka, Kyosuke Nishida, Kosuke Nishida, Taku Hasegawa, Itsumi Saito, and Kuniko Saito. 2023. Slidevqa: A dataset for document visual question answering on multiple images. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 37, pages 13636–13645.
  • Tito et al. (2023) Rubèn Tito, Dimosthenis Karatzas, and Ernest Valveny. 2023. Hierarchical multimodal transformers for multipage docvqa. Pattern Recognition, 144:109834.
  • Wang et al. (2024a) Fei Wang, Wenxuan Zhou, James Y Huang, Nan Xu, Sheng Zhang, Hoifung Poon, and Muhao Chen. 2024a. mdpo: Conditional preference optimization for multimodal large language models. arXiv preprint arXiv:2406.11839.
  • Wang et al. (2024b) Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, and Hao Wang. 2024b. Multimodal needle in a haystack: Benchmarking long-context capability of multimodal large language models. arXiv preprint arXiv:2406.11230.
  • Wang et al. (2024c) Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, and Yongbin Li. 2024c. Leave no document behind: Benchmarking long-context llms with extended multi-doc qa. Preprint, arXiv:2406.17419.
  • Wang et al. (2020) Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, and Ming Zhou. 2020. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers. Preprint, arXiv:2002.10957.
  • Wang et al. (2023) Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. 2023. Self-consistency improves chain of thought reasoning in language models. Preprint, arXiv:2203.11171.
  • Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837.
  • Xiao et al. (2023) Shitao Xiao, Zheng Liu, Peitian Zhang, and Niklas Muennighoff. 2023. C-pack: Packaged resources to advance general chinese embedding. Preprint, arXiv:2309.07597.
  • Yang et al. (2024) An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhifang Guo, and Zhihao Fan. 2024. Qwen2 technical report. Preprint, arXiv:2407.10671.
  • Yuan et al. (2023) Zheng Yuan, Qiao Jin, Chuanqi Tan, Zhengyun Zhao, Hongyi Yuan, Fei Huang, and Songfang Huang. 2023. Ramm: Retrieval-augmented biomedical visual question answering with multi-modal pre-training. In Proceedings of the 31st ACM International Conference on Multimedia, pages 547–556.
  • Zhang et al. (2023) Lei Zhang, Yunshui Li, Ziqiang Liu, Junhao Liu, Min Yang, et al. 2023. Marathon: A race through the realm of long context with large language models. arXiv preprint arXiv:2312.09542.
  • Zhang et al. (2024) Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen, Moo Khai Hao, Xu Han, Zhen Leng Thai, Shuo Wang, Zhiyuan Liu, et al. 2024.
    infty bench: Extending long context evaluation beyond 100k tokens.
    arXiv preprint arXiv:2402.13718.

Appendix A Appendix

A.1 Baselines

A.1.1 Retrieval Models

BM25

BM25 Robertson et al. (1995)は、確率的情報検索モデルに基づく広く採用されている用語ベースのランキング関数である。与えられたクエリに対する文書の関連性を、用語頻度、逆文書頻度、文書長正規化を考慮して計算する。BM25は疎なテキスト検索タスクに効果的であり、情報検索評価における標準的なベースラインとなっている。我々は実験にPythonのrank_bm25実装を使用する。

MiniLM

MiniLM Wang et al. (2020)は、効率的な知識蒸留のために設計された軽量のトランスフォーマーベースのモデルである。より大規模な事前学習モデルの知識を、自然言語理解タスクにおいて競争力のある性能を維持しつつ、より小さなアーキテクチャに圧縮する。MiniLMは、計算効率と精度のバランスを取る能力により、検索タスクで使用される。我々は実験にsentence-transformers/all-MiniLM-L6-v2実装を使用する。

MPNet

MPNet Song et al. (2020)は、事前学習に置換言語モデリングを活用するトランスフォーマーベースのモデルであり、従来のマスク言語モデルよりも効果的に文脈情報を捉えることができる。堅牢な文脈埋め込みと表現学習能力により、テキスト検索を含む様々な自然言語処理タスクで優れた性能を発揮する。我々は実験にsentence-transformers/all-mpnet-base-v2実装を使用する。

BGE-1.5

BGEモデルファミリーは、BERT類似のアーキテクチャと3段階の訓練プロセスに基づいており、これらが総合的にその適応性と汎化能力を向上させている。大規模な平文コーパスを用いて、カスタマイズされたMAE形式のアプローチによる事前学習が行われ、汚染されたテキストを効果的にエンコードし、クリーンなバージョンを再構築する。その後、モデルはバッチ内負例サンプリングを用いた対照学習を行い、大規模バッチサイズを活用して埋め込みの識別性を向上させる。最後に、ラベル付きデータセットを使用したタスク固有の微調整が行われ、指示ベースのプロンプトと高度な負例サンプリング技術を適用して、多様なタスクタイプにより適応させる。我々は実験にBAAI/bge-base-en-v1.5モデルを使用する。これは彼らの大規模英語モデルのバージョン1.5である。

ColPali, ColQwen2

ColPali Faysse et al. (2024)は、視覚言語モデル(VLM)を使用して文書ページ画像から直接生成された文書埋め込みに対して後期相互作用検索を実行する。PaliGemma Beyer et al. (2024)を通じて文書画像を処理することで、ColPaliは投影されたトークン埋め込みを使用して文書ページをインデックス化し、OCRや文書解析の必要性を排除する。VLMが学習したマルチモーダルアラインメントにより、テキストクエリと文書画像埋め込みの両方が共有された意味ベクトル空間に存在することが可能となり、より正確で効率的な検索が可能になる。ColQwen2は、Qwen2 Yang et al. (2024)をベースVLMとする類似のモデルである。我々は実験にvidore/colpali-v1.2vidore/colqwen2-v0.1の実装を使用した。

A.1.2 LLMs

我々は実験にQwen/Qwen2-VL-7B-Instructchatgpt-4o-latestgemini-1.5-flashを使用した。 ChatGPT4oとGeminiについては、温度を0.5に設定し、デフォルトのハイパーパラメータを使用した。 Qwen2-VLについては、ピクセル範囲を[256×28×28,640×28×28]25628286402828[256\times 28\times 28,640\times 28\times 28][ 256 × 28 × 28 , 640 × 28 × 28 ]に設定した。長文脈評価には、YaRN Peng et al. (2023)を使用した長文脈推論の実装可用性のため、Qwen/Qwen2-7B-Instructを使用した。実験は1回の実行結果を報告している。

A.2 Datasets

我々のベンチマークで使用されるデータセットについて以下に説明する。 図6-10は、全てのデータ分割におけるクエリごとのページ分布を表している。

FetaTab

FetaTabはUDA Hui et al. (2024)から派生したもので、そのデータはFetaQA Nan et al. (2022)から取得されている。多くのソースデータセットは分割された部分的な内容のみを提供し、完全な文書が欠けている。この問題を解決するため、UDAは徹底的なソース文書の特定プロセスを実施し、メタデータまたはコンテンツの断片に基づいて完全な原文書ファイルを検証し収集した。その後、厳密なマッチングと再編成を行い、文書-質問-回答からなる完全な三つ組データペアを形成した。さらに、UDAは事実的証拠の出所に基づいてクエリを分類し、利用可能な回答のないQ&Aをフィルタリングし、トークンベースのデータパターンを自然言語に変換し、データセット間でデータ形式と構造を統一し、実験的試行の後に各データセットに特化したLLMプロンプトを設計している。FetaTabはCC-BY-SA-4.0ライセンスの下で公開されている。

Refer to caption
図6: FetaTabのクエリごとのページ分布。
PaperTab

PaperTabもUDA Hui et al. (2024)から取得されており、そのデータはQASPER Dasigi et al. (2021)データセットから得られている。FetaTabで説明したプロセスと同様に、UDAは効果的な文書分析のために原文書の完全性を確保する必要性を強調している。これには、完全な原文書ファイルの特定、検証、収集の包括的なプロセスが含まれ、その後、文書-質問-回答の三つ組を作成するためのマッチングと再編成が行われる。UDAはまた、クエリを分類し、回答のないQ&Aをフィルタリングし、データパターンを自然言語に変換し、データ形式を統一し、実験的評価に基づいて各データセットに特化したLLMプロンプトを設計している。PaperTabはCC-BY-SA-4.0ライセンスの下で公開されている。

Refer to caption
図7: PaperTabのクエリごとのページ分布。
SPIQA

SPIQA Pramanick et al. (2024)は、様々なコンピュータサイエンス分野の科学研究論文から抽出された図、表、テキスト段落に焦点を当てた大規模で挑戦的な質問応答データセットである。このデータセットは、プロット、チャート、概略図、結果の可視化を含む多様な視覚要素を網羅している。SPIQAは270Kの質問で構成され、トレーニング、検証、3つの異なる評価分割に分かれている。最高品質と信頼性を確保するため、SPIQAは自動および手動の両方のキュレーション方法を採用している。このデータセットはCC-BY-SA-4.0ライセンスの下で公開されており、適切な帰属を確保しつつ幅広い使用を可能にしている。

Refer to caption
図8: SPIQAのクエリごとのページ分布。
SciGraphQA

SciGraphQA Li and Tajbakhsh (2023)は、学術グラフに焦点を当てた合成マルチターン質問応答データセットであり、視覚的質問応答の分野における重要な進歩を表している。以前の最大のデータセットであるChartVQAの13倍の規模を持ち、非合成チャートを含む最大のオープンソースチャートVQAデータセットとなっている。このデータセットは、2010年から2020年の間にArXivで公開された290,000件のコンピュータサイエンスと機械学習の論文から構築され、Palm-2の助けを借りて、グラフに関する295,000サンプルのオープン語彙マルチターン質問応答対話を生成している。各対話は、論文のタイトル、要約、関連段落、およびグラフからの豊富な文脈データで文脈化され、グラフごとに平均2.23の質問応答ターンを達成している。SciGraphQAはMITライセンスの下で公開されている。

Refer to caption
図9: SciGraphQAのクエリごとのページ分布。
SlideVQA

SlideVQA Tanaka et al. (2023)は、2,600以上のスライドデッキを含む複数画像文書VQAデータセットで、52,000以上のスライド画像と14,500の質問がスライドの内容に関して含まれている。このデータセットは、単一ホップ、マルチホップ、数値推論を含む複雑な推論スキルを必要とする。また、数値回答のための注釈付き算術式を提供し、数値推論能力を向上させている。データセットの詳細については、このリンクのライセンスの下で確認できる。

Refer to caption
図10: SlideVQAのクエリごとのページ分布。

A.2.1 Distracting Documents

ディストラクティング文書は、検索セット内に追加の無関係な文書として導入され、複数の文書の中から最も関連性の高い文脈を見つけるという現実世界のシナリオをシミュレートする。これらのディストラクティング文書は、特定のデータセットのドメイン内文書からランダムに選択され、文脈的に類似しているがクエリに直接関連しないことを確保している。

一対一のマッピングの有効性を検証し、ディストラクティング文書の存在下での検索システムの堅牢性を評価するため、我々は検索セットからオラクル文書(すなわち、正解の文書)を除去する実験を行った。この設定では、GPT-4に対し、提供された文脈がクエリに回答するのに不十分だと判断した場合に回答を拒否するオプションを与えた。拒否率は、デフォルト設定(オラクル文書を含む)とオラクル文書なしの両方の場合で測定された。

6に示された結果は、オラクル文書が除去された場合の拒否率の大幅な増加を示している。デフォルト設定では、データセット全体で拒否率は比較的低く、PaperTabとFetaTabではそれぞれ26%と4%の拒否率を示し、GPT-4がクエリに回答するのに十分な文脈を見つけられたことを示している。しかし、オラクル文書が除外されると、拒否率は劇的に上昇し、全てのデータセットで94%から98%の間の拒否率を示している。この増加は、検索セット内に正しい文書を持つことの重要性を強調しており、モデルが関連する文脈にアクセスできない場合に回答生成に苦労することを示している。

この実験は、検索システムがクエリに効果的に回答できることを確保する上でのオラクル文書の重要な役割を強調し、ディストラクティング文書が無関係または不十分な文脈を導入することで検索性能を妨げる可能性があることを示している。結果は、クエリと文書の一対一のマッピングをテストするという我々のアプローチを検証し、ディストラクティング文書の存在下でも検索システムが性能を維持できることを確保することの重要性を強調している。

Method PaperTab FetaTab SciGraphQA SPIQA SlideVQA
Default 26% 4% 18% 15% 40%
Without Oracle 97% 98% 94% 97% 98%
表6: デフォルト設定およびオラクル文書なしの場合のGPT4oの拒否率。

A.3 Examples

Refer to caption
図11: PaperTabデータセットからの定性的な例。VisDoMRAGと単一モーダルRAG戦略を比較し、基本LLMとしてQwen2VLを使用している。
Refer to caption
図12: FetaTabデータセットからの定性的な例。VisDoMRAGと単一モーダルRAG戦略を比較し、基本LLMとしてGeminiを使用している。
Refer to caption
図13: ScigraphQAデータセットからの定性的な例。VisDoMRAGと単一モーダルRAG戦略を比較し、基本LLMとしてQwen2VLを使用している。
Refer to caption
図14: SPIQAデータセットからの定性的な例。VisDoMRAGと単一モーダルRAG戦略を比較し、基本LLMとしてChatGPT4oを使用している。
Refer to caption
図15: SlideVQAデータセットからの定性的な例。VisDoMRAGと単一モーダルRAG戦略を比較し、基本LLMとしてChatGPT4oを使用している。

A.3.1 Query Augmentation

7および8は、PaperTabとSciGraphQAのデータセット構築時におけるクエリ拡張の例を示している。

Original Query Augmented Query
What baselines did they consider? What baseline approaches using state-of-the-art PDTB taggers were employed for the evaluation of causality prediction in the automatic causal explanation analysis pipeline?
What is the average length of the claims? What is the average token count of claims as reported in Table 2 of the PERSPECTRUM dataset?
What was the performance on the self-collected corpus? What F1 scores did the CM-Net achieve for intent detection and slot filling on the CAIS dataset as detailed in Table 6?
Do they test their framework performance on commonly used language pairs, such as English-to-German? Does the paper report results for English-to-German translation in a simulated under-resourced scenario using their proposed multilingual NMT framework?
表7: PaperTabデータセットからのクエリ拡張の例。
Original Query Augmented Query
What is the main difference between the two scheduling algorithms compared in this graph? In this paper, what scheduling algorithms are analyzed in Figure 8 for WCRT comparison?
What does the phase diagram indicate about the stability of the different phases? What does Figure 4.18 reveal about the phase boundaries for different choices of Jt and k?
What does the graph show about the impact of the load-changing attack on the frequency of the system? What does the figure show about frequency limits during the 2019 and 2020 load-changing attacks?
What are some of the implications of the graph for the design of fuzzing tools? What relationship does Fig. 3 suggest between performance and resources in fuzzing tools?
表8: SciGraphQAデータセットからのクエリ拡張の例。

A.3.2 End-to-End QA Examples

11から15は、5つのデータセットにわたるエンドツーエンドQAの例を示しており、異なるLLMのパフォーマンスを実証している。

11では、Qwen2VLを使用してPaperTabデータセットからの例を分析している。VisualRAGは、推論中に誤った列を選択することでこの例で失敗している。一方、TextualRAGは正しい列を特定しているが、テストセットと検証セットのサンプルを見落としている。VisDoMRAGは両方の出力を評価し、正しい回答を生成しており、モダリティ間で応答を洗練する能力を示している。

12は、基本LLMとしてGeminiを使用したFetaTabデータセットからの例を示している。ここでは、TextualRAGが証拠検索中にOCR処理されたテーブルを正確に言語化することで、正しい回答を生成することに成功している。VisualRAGはこの場合パフォーマンスが低いが、VisDoMRAGは証拠を効果的に統合し、全体として正しい回答を提供している。

13では、SciGraphQAからの例で、VisualRAGとTextualRAGの両方が正しい応答を生成している。結果として、VisDoMRAGは正しい回答を裏付け、両モダリティ間の一致を確認している。

14は、SPIQAデータセットからのシナリオを描いており、VisDoMRAGが正しい回答を提供できていない。この誤りは、VisualRAGによって生成されたより長い応答(それ自体が不正確である)に偏ったことから生じている。

最後に、図15はSlideVQAデータセットからの例を示している。この場合、TextualRAGは必要な証拠を捉えることができていないが、VisualRAGは2つのスライドにまたがるマルチホップ推論を成功裏に用いて正しい回答を導き出している。VisDoMRAGはVisualRAGの応答の精度を認識し、質問の文脈との一貫性を優先している。

A.4 LLM Prompts

16 - 18 は、クエリ拡張、ベースライン、およびVisDoMRAGに関する我々の実験で使用したプロンプトテンプレートを示している。

Refer to caption
図16: クエリ拡張に使用されたプロンプトテンプレート。
Refer to caption
図17: 単一モーダルRAGおよび長文脈実験に使用されたプロンプトテンプレート。
Refer to caption
図18: VisDoMRAGに使用されたプロンプトテンプレート。

A.5 Human Review Process

我々は、一部のデータセットにおける些細な、または不十分に指定されたクエリの課題に対処するため、ChatGPT4oと関連する文脈(研究論文のタイトルと要約、関連する図のキャプション、その他の利用可能なメタデータを含む)を用いてクエリを拡張した。我々は、生成されたクエリの品質を評価し、クエリの1つを選択するか、すべてのクエリを却下するために、人間のレビュアーを採用している。レビュアーは、所属する大学の大学院生アシスタントの時給で報酬を受ける大学院生である。図 19 は、レビュアーに与えられた指示と評価基準の概要を示している。

Refer to caption
図19: 評価基準を含むレビュアー指示の概要。

A.6 Computational Resources

9 は、本稿の実験を実行するために使用された計算リソースについて説明している。

Metric Details
GPU Hours 100
GPU Specification RTXA600
Number of GPU(S) 1
Max Model Parameters 7B
表9: VisDoM RAG実験のための計算リソース。