3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark
Abstract
3D空間推論は、3D空間内の物体の位置、方向、および空間的関係を分析し解釈する能力である。これにより、モデルは3D場面の包括的な理解を発展させ、自律航法、ロボット工学、AR/VRなどのより広範な分野への適用を可能にする。大規模マルチモーダルモデル(LMM)は、画像および動画理解タスクの広範囲にわたって顕著な進歩を遂げているが、多様な自然画像に対する3D空間推論を行う能力についてはあまり研究されていない。本稿では、12種類の質問タイプにわたる2,772の手動で注釈付けされた視覚的質問回答ペアを含む、最初の包括的な3D空間推論ベンチマーク、3DSRBenchを提示する。我々は、データ分布のバランスを取り、新しいFlipEval戦略を採用することで、3D空間推論能力の堅牢かつ徹底的な評価を行う。さらに、カメラの3D視点に関する3D空間推論の堅牢性を研究するために、我々の3DSRBenchには、一般的および珍しい視点を持つペアの画像に対する3D空間推論質問を含む2つのサブセットが含まれている。我々は、オープンソースおよび独自のLMMの広範囲をベンチマークし、高さ、方向、位置、および複数オブジェクトの推論など、3D認識のさまざまな側面における制限、および珍しいカメラ視点を持つ画像に対するパフォーマンスの低下を明らかにした。我々の3DSRBenchは、強力な3D推論能力を持つLMMの将来の開発に関する貴重な発見と洞察を提供する。我々のプロジェクトページとデータセットはこちらで入手可能である。
1 Introduction
近年の大規模マルチモーダルモデル(LMM)[1, 43, 3]は、画像キャプション生成[2, 28]、視覚的質問応答[24, 20, 31, 10, 44]、視覚的グラウンディング[49]、意思決定[34, 26, 7]、行動認識[48, 35]など、幅広い画像および動画理解タスクにおいて著しい進歩を遂げている。 しかしながら、最近の研究によると、最先端のLMMであっても3D認識能力[17, 36]や空間関係の理解[46, 47]に限界があることが示されている。これらの能力は、LMMが3Dシーンを包括的に把握し、高度な推論や相互作用を可能にし、最終的に人間レベルの知能を達成するために不可欠である。
LMMの3D空間推論能力を研究するため、先行研究では合成環境を利用し、3Dの真値を持つ画像を生成した[46, 47]。 視覚的な質問-回答ペアは、既知の3Dシーングラフや他のオブジェクト属性に事前定義されたルールを適用することで自動的に合成された。合成画像は自然画像との顕著なドメインギャップを示し、実世界のコンテンツの多様性と豊かさに欠けていた。より最近の研究[13]では、Omni3D[6]などの3Dアノテーションを持つ実際のデータセットが探索された。しかし、これらのデータセットの画像は、室内や自動運転シーンなど、特定のドメインに限定されている。一般に、3Dアノテーションからルールベースの方法で生成された視覚的質問-回答ペアは、(i) データセットの範囲を非常に限られた剛体オブジェクトのセットに制限し、(ii) 人間によってアノテーションされたデータセットでのみ達成可能な3D空間関係の細かく堅牢な評価を可能にすることができない(セクション 3.1参照)。
本稿では、初めての包括的な3D空間推論ベンチマーク「3DSRBench」を提示する。これは、剛体、人間、動物、そして車のロゴや看板の矢印といった暗黙の概念を含む、多様かつオープンな語彙の実体に関する幅広い3D空間推論質問を特徴としている。我々は、MS-COCOデータセット[29]の自然画像に対して2,100の視覚的質問回答ペアを手動で注釈付けし、4つの主要カテゴリー(すなわち、高さ、位置、方向、および複数オブジェクトの推論)から12のサブタイプの質問をカバーしている。各質問カテゴリーは、オブジェクトの3D位置、3D地面平面、カメラの外部キャリブレーション、および/またはオブジェクトの3Dポーズなど、異なる3Dプロパティの組み合わせに焦点を当てている。各質問カテゴリーの例を図2(a)に示す。
3D空間推論のもう一つの課題は、カメラの6D視点、すなわち、3Dシーンを見ている3D位置と3D方向から生じる。図 4に示すように、3D空間推論の質問は、「一般的な」6D視点、例えば、自然な視角で目線の高さに位置する視点では容易であるが、他の「一般的でない」視点ではより困難になる可能性がある。一般的でない視点は、ほとんどの画像データセットでは少ないが、具現化AIやロボティクスにおけるカメラはしばしばこれらの一般的でない視点に配置される。したがって、LMMが一般的および一般的でない視点の両方で優れた3D空間推論性能を維持することは極めて重要である。異なるカメラ視点に関するLMMの3D空間推論能力を公平に比較するために、我々はHSSDデータセット[25]からレンダリングされたマルチビューの合成画像に対して、さらに672の視覚的質問回答ペアに注釈を付けた。
我々の3DSRBenchは、多様なオープンソースおよび独自のLMMをベンチマークするだけでなく、3D空間的知能を持つLMMを開発するための重要な診断ベンチマークとしても機能する。視覚基盤モデルの3D認識に関する先行研究[17, 36]に触発され、我々の3DSRBenchはさらに一歩進んで、LMMを基本的な3D空間推論問題で評価する。これにより、視覚エンコーダーの3D認識[39, 11, 21, 38, 27]と言語モデルの3D推論能力[14, 50, 45, 16]に関する貴重な洞察が得られる。このような結果は、自動ナビゲーションやロボット操作など、3D空間推論に基づくダウンストリームタスクに光を当てるものである。
3D空間推論能力の包括的かつ堅牢な評価を可能にするため、我々の3DSRBenchはいくつかの重要な設計を採用している:(1) はい/いいえの回答がほぼ同数であることや、同じ質問に対して反対の回答をもたらす補完的な画像ペアなど、複数の側面でバランスの取れたデータ分布(図 2(b)参照);(2) 自明な回答を持つ質問の回避;(3) 3D空間推論問題の堅牢な評価のために設計された新規のFlipEval戦略。
要約すると、我々の3DSRBenchは、MS-COCOの自然画像に対して2,100の視覚的質問回答ペアを[29]、そして多視点合成画像に対して672ペアを手動で注釈付けすることで、3D空間推論能力の評価を大きく前進させた。我々は多様かつオープンな語彙の実体に注釈を付け、既存のデータセットでは不可能な堅牢かつ徹底的な評価を可能にする重要な設計を採用した。我々は、オープンソースおよび独自のLMMの幅広い種類をベンチマークし、異なるタイプの3D認識に関するそれらの3D空間推論能力を研究した。 さらに、一般的および珍しいカメラの6自由度視点に関する3D空間推論能力の堅牢性を分析し、異なる視覚エンコーダー設計を持つ一連のLMMを研究した。我々の3DSRBenchの異なる分割に対する実験結果は、3D空間的に知的なLMMの将来の研究に有益な発見と洞察をもたらす。
2 Related Works
3D awareness of visual foundation models.
大規模マルチモーダルモデルの最近の進歩[31, 30, 32]により、これらのLMMをより広範なタスクに適用することへの関心が高まっている。例えば、人間のポーズについてのチャット[18]、実体化された質問応答[37]、ロボット操作[23, 22]などである。特筆すべきは、これらのタスクが3Dシーンとの推論や相互作用を含んでおり、これは主に視覚エンコーダーの3D認識能力に基づいている。先行研究では、パーツ対応[17]やポーズ推定[36]などの代理タスクを採用し、線形プロービングによって定量的に3D認識能力を評価することで、視覚基盤モデルの3D認識能力を研究した。 我々の研究は、さらに一歩進んだものと考えることができる。すなわち、基本的な3D空間関係の質問に対するLMMの性能をベンチマークすることで、LMMの3D認識および推論能力を研究している。自動ナビゲーションやロボット操作などの下流タスクに関する今後の研究は、我々の3DSRBenchの知見を参照し、より優れた3D空間推論能力を持つLMMを採用することができるであろう。
3D spatial reasoning.
視覚言語モデルの3D空間推論能力に関する従来の研究では、しばしば合成環境(例えば、Blender)を採用し、制御可能なシミュレーションと3Dの真値を用いて自動的に質問と回答を生成している[12, 46, 47]。しかし、これらのデータセットの合成画像は自然画像との大きなドメインギャップを示しており、これらのデータセットから得られた洞察や発見が実際の画像ドメインに一般化されるかは不明確である。SpatialRGPT[13]やCambrian-1[44]などのより最近の研究は、3Dアノテーションを持つ既存のデータセット[6, 42, 5, 19, 41, 8]を基に、事前に定義されたルールで視覚的な質問と回答のペアを生成している。画像品質は向上したものの、本質的にはOmni3D[6]の少数の剛体オブジェクトカテゴリに限定されている。3D空間推論能力の包括的で有意義な評価を可能にするため、我々は視覚的な質問と回答のペアを手動でアノテーションした。これには、車のロゴや看板の矢印など、多様でオープンな語彙の実体や、高さ、位置、方向、複数オブジェクトの推論という4つの主要カテゴリからなる包括的な3D空間関係に関する質問が含まれる。
3 3DSRBench
本節では、大規模マルチモーダルモデル(LMM)の3D空間推論能力を包括的に分析するための3DSRBenchを紹介する。まず第3.1節で3DSRBenchの設計上の考慮事項を紹介し、特にこれらの設計選択がいかに3D空間推論能力の堅牢で価値ある評価につながるかを説明する。次に第3.2節で4つの主要な質問タイプと、各タイプの質問における課題を提示する。続いて第3.3節で我々の3DSRBenchの3つの分割とそれらの範囲について議論する。第3.4節では、CircularEvalとFlipEvalを含む我々の評価戦略を提示する。最後に第3.5節でデータ収集手順の概要と要約統計を提供する。
3.1 Design of 3DSRBench
3DSRBenchの開発において、我々は3D空間推論能力の堅牢で価値ある評価を可能にするために、以下の4つの主要な設計を取り入れた。 第一に、我々の3D空間推論の質問はオープンボキャブラリーのエンティティに基づいている。以前の空間推論ベンチマーク[9, 44]は、主に3Dアノテーションを持つ既存のデータセット[6]に依存しており、その範囲は少数の剛体オブジェクトカテゴリーに限定されていた。我々の3DSRBenchでは、幅広いオープンボキャブラリーのエンティティにわたって3D空間推論の質問にアノテーションを付けており(図 2参照)、多様で一般的に遭遇する実世界のオブジェクトに対するLMMsの3D認識能力と3D推論能力の徹底的な分析を可能にしている。 次に、我々は自明な答えを持つ質問を避けている。例えば、2つのオブジェクトのうちどちらが第3のアンカーオブジェクトに対して3D距離が小さいかを比較する際、2つの距離に大きな差がある場合を避けている。我々は、2つの距離が近いが、アノテーターの合意によって正解が導き出せるサンプルに焦点を当てている(セクション 3.5参照)。 さらに、我々は様々な側面でバランスの取れたデータ分布を実装している。例えば、はい/いいえの回答がほぼ同数であることや、同じ3D空間推論の質問に対して反対の回答をもたらす補完的な画像ペア[20]などである(図 2(b)参照)。これにより、回答分布における事前知識を効果的に排除している。例えば、歩行者は街灯よりも低い位置にいることが多いことや、3D空間でより高い位置にあるオブジェクトは2D画像平面でも高い位置にあるという事実などである。この設計により、モデルがバイアスやショートカットを利用してベンチマークのパフォーマンスを向上させることができないようにしている。 最後に、我々は堅牢な評価のために特別な評価戦略を採用している。これには、以前のCircularEval[33]と我々の新しいFlipEval(セクション 3.4参照)が含まれる。
3.2 Question Types
本稿では、3DSRBenchにおける4種類の3D空間推論質問を紹介する。これらがLMMにとって挑戦的である理由と、各タイプの質問に成功するために必要な3D認識と3D空間推論の種類について議論する。4つの質問タイプの概要を表 1に示す。
Height questions.
高さに関する質問では、与えられた2つのオブジェクトのうちどちらが3D世界空間でより高い位置にあるかをモデルが判断できるかを調査する。質問に正しく答えるためには、モデルは (i) ロールやピッチ回転などのカメラの外部パラメータを較正し、(ii) 3D世界空間におけるオブジェクトの3D位置を検出する必要がある。この課題は、標準的なマルチモーダル事前学習における弱い言語教師信号からこれらの細かな3D知識を導き出すことが困難であるため、大規模マルチモーダルモデルにとって大きな挑戦となる。図3(a)に高さに関する質問の2つの例を示す。左図の上からの視点と右図の上向きの視点など、カメラのピッチ回転の違いが最終的な答えを決定する上で重要な役割を果たすことに注目されたい。両方の例において、画像平面内の2D位置やカメラ座標系における3D位置のみに依存すると、誤った答えにつながる。
Location questions.
位置に関する質問には3つのサブタイプがある。すなわち、(i) 2つのオブジェクトが隣接しているか離れているか、(ii) 2つのオブジェクトのうちどちらがカメラに近いか、(iii) あるオブジェクトが別のオブジェクトの真上または真下にあるかを判断する。モデルはオブジェクトの2D位置を特定するだけでなく、画像に示された奥行きも理解する必要がある。図 2(a)の位置に関する質問を考えてみよう。男性と消火栓の2D位置は近いが、実際には3D空間では離れている。人間は2つのオブジェクトのおおよその深度を推定したり、歩道が消失点に向かって伸びているなどの他の視覚的手がかりから答えを判断できる。他の例として、図 2(b)の上2つの質問も奥行きの理解を必要とする。
Orientation questions.
方向に関する質問は、オブジェクトの3D方向を推定することを含む3D空間推論を研究する。これらの質問は3つのサブタイプに分かれる:オブジェクトのどの「側面」がカメラに向いているか、あるオブジェクトが別のオブジェクトの前にあるか後ろにあるか、あるオブジェクトが別のオブジェクトの左側にあるか右側にあるかを判断する。視聴者の視点からの空間関係に焦点を当てた従来の2D空間推論質問[9]とは異なり、我々の方向に関する質問はオブジェクトの視点からの空間関係を強調する。図 3(b)に示すように、2D空間推論質問はオブジェクトの2D位置と深度を分析することで対処できる。一方、我々の方向に関する質問はオブジェクトの3D方向を推定し、3D情報の様々な次元にわたって3D空間推論を行う必要がある。
Multi-object reasoning questions.
複数オブジェクト推論質問は、複数のオブジェクト間の3D空間関係を考慮する。例えば、あるオブジェクトのどの側面が別のオブジェクトに向いているか、または3つのオブジェクトがある場合、与えられたオブジェクトのうちどれが3番目のオブジェクトに向いているか、あるいは近いかを尋ねる。一般に、これらの質問は「(カメラに)より近い」や「より高い」などのより単純な3D概念よりも高度な3D認識を必要とし、複数のオブジェクトの3D位置と方向に関するより複雑な推論を必要とする。
Type | # Subtypes | Camera | Loc. | Orient. | Reasoning |
---|---|---|---|---|---|
Height | 1 | ✓ | ✓ | ++ | |
Location | 3 | ✓ | ++ | ||
Orientation | 3 | ✓ | ✓ | ++ | |
Multi-Object | 5 | ✓ | ✓ | ++ |
3.3 Benchmark Splits
我々の3DSRBenchは3つの分割で構成されており、MS-COCO画像に対する2,100の3D空間推論質問を含む実画像分割[29]と、HSSEの3Dシーンでレンダリングされた合成画像に対する672の質問を含む2つの合成画像分割[25]がある。 我々は、実画像分割からの視覚的質問ペアに対するLMMsの標準的な3D空間推論能力を評価し、合成画像分割を用いて、合成画像-一般的分割と合成画像-一般的でない分割の間のギャップを分析することにより、一般的および一般的でないカメラの6D視点に関する3D空間能力の堅牢性を研究する。
HSSEの3Dシーンと制御可能な写実的レンダリングを用いて、我々は同じ3Dシーンの多視点画像を取得し、それぞれ一般的な視点と一般的でない視点でレンダリングする。我々は2つの画像に関して同じ3D空間推論質問をし、モデルが一般的および一般的でないカメラの6D視点で正しい回答を得ることができるかどうかを研究する。 我々は「一般的な」視点を、ロール回転がゼロで、ピッチ回転が小さく、人間の身長から撮影された6Dカメラポーズと定義し、人々が写真を撮る際の典型的な視点をシミュレートする。逆に、「一般的でない」視点には、顕著なロール回転、大きなピッチ回転、または地面に近い位置や高い位置から撮影された視点を含む6Dポーズが含まれる。 2つの合成画像分割は合成画像-一般的および合成画像-一般的でないと表記され、2つの分割からの例が図 4に示されている。一般的なカメラの6D視点から画像を示された場合のGPT-4oの回答が正しく、一般的でない視点から問われた場合に間違っていることに注目されたい。両方の画像が3Dシーンの明確な視点を提示しており、人間は何の困難もなく正しい回答を導き出せるにもかかわらずである。
3.4 Evaluation
3DSRBenchのすべての3D空間推論問題は2つまたは4つの選択肢を持つため、我々はこれらの問題を2つまたは4つの選択肢を持つ多肢選択問題として定式化する。事前学習されたLMMによって予測される自由形式の回答に対応するため、[33]に従い、LLMを用いた選択肢抽出を採用して予測ラベルを取得する。様々な3D空間推論能力の堅牢な評価を可能にするため、我々はテスト時に以下の2つの設計を採用する:
CircularEval [33].
多肢選択問題における選択肢の順序のバイアスとランダムな推測の影響を避けるため、我々はより堅牢なベンチマーク性能のためにCircularEval [33]を採用する。具体的には、各問題をLMMに2回または4回入力し、それぞれ異なる選択肢の順序で提示する。LMMがすべてのパスで正しい答えを予測した場合にのみ、この問題に正解したとみなされる。
FlipEval.
我々はさらに、ペアになった視覚的質問-回答ペアを用いて3Dにおける左右のバイアスを除去するためにFlipEvalを提案する。画像を水平方向に反転させることで、新しい視覚的質問を得る。位置や高さに関する質問などでは一般的に答えは同じままであるが、「左」や「右」などの3D空間関係を含む場合、答えは変化する。この考え方を図 2(b)で説明する。ここでは、象のロゴがトラックの左側にあるが、水平反転後には右側に変わる。FlipEvalは、運転手が車の左側に座っていることや、ほとんどの人が右手で道具を持つことなど、3D空間関係における左右のバイアスを効果的に除去する。最後に、FlipEvalはランダムな推測の影響を避けるのにも役立ち、我々の3DSRBenchにおける画像分布を豊かにする。
3.5 Data Collection
我々は3名の注釈者を雇用し、12種類の質問タイプにわたって合計2,772の固有の視覚的質問-回答ペアに注釈を付けた。3.1節で議論された注釈原則に従い、様々な基準を満たすために2段階のパイプラインを採用した。具体的には、第1段階で注釈が収集された後、収集されたデータの品質を確認し、品質の低いサンプルやデータ分布の不均衡を引き起こすサンプルを却下した。さらに、必要に応じて新たな注釈を収集した。加えて、すべての視覚的質問-回答ペアに対して人間の回答を収集し、人間の注釈者間で合意に達しないサンプルは除外した。
4 Experiments
本節では、まず4.1節で実験設定について紹介する。次に4.2節で、様々なオープンソースおよび独自の大規模マルチモーダル言語モデル(LMM)の3D空間推論能力を我々の3DSRBenchでベンチマークする。続いて4.3節では、異なる視覚エンコーダーを持つLMMの変種を検討し、視覚エンコーダーの3D認識能力が最終的な3D空間推論能力にどのように寄与するかを研究する。4.4節では、様々なLMMを我々の3DSRBench-syntheticで評価し、一般的でないカメラ視点に対するLMMの頑健性を分析する。最後に4.5節でGPT-4oの失敗例をいくつか提示し、LMMの3D空間推論に関する興味深い発見を明らかにする。
4.1 Experimental Settings
Testing data augmentation.
我々は、ユニークにアノテーションされた視覚的質問-回答ペアを拡張し、バランスの取れた豊富な3D空間関係を持つより多くのテストデータを得るためのルールベースの手法を開発した。例えば、3D世界空間でどのオブジェクトがより高いかを尋ねる質問が与えられた場合、3D世界空間でどのオブジェクトがより低いかを尋ねる新しい質問を生成する。結果として、MS-COCOの画像に対して2,625の質問[29]、すなわち3DSRBench-real、および合成画像に対して846の質問、すなわち3DSRBench-syntheticを得た。
4.2 Results on 3D Spatial Reasoning Capabilities
Model | 3DSRBench-real | ||||
---|---|---|---|---|---|
Overall | Height | Loc. | Orient. | Multi. | |
Baselines | |||||
Random | 20.9 | 25.0 | 25.0 | 16.8 | 20.1 |
Random++ | 45.8 | 50.0 | 50.0 | 41.7 | 45.0 |
Human | 95.7 | 92.9 | 96.4 | 97.7 | 94.9 |
Open-sourced | |||||
LLaVA-v1.5-7B [30] | 36.8 | 38.5 | 46.4 | 27.7 | 31.8 |
Cambrian-1-8B [44] | 44.1 | 25.6 | 57.0 | 36.5 | 43.1 |
LLaVA-NeXT-8B [32] | 49.6 | 50.6 | 62.7 | 36.8 | 43.6 |
Proprietary | |||||
Claude-Sonnet [43] | 46.9 | 49.6 | 60.0 | 32.8 | 41.2 |
Gemini-1.5-Flash [43] | 39.2 | 39.8 | 59.9 | 13.2 | 33.6 |
Gemini-1.5-Pro [40] | 49.1 | 50.8 | 62.9 | 37.5 | 41.3 |
GPT-4o-mini [1] | 39.1 | 42.1 | 51.8 | 23.4 | 34.6 |
GPT-4o [1] | 45.3 | 49.4 | 62.3 | 23.0 | 40.1 |
3DSRBench | ||||||||
LLM | Vision Encoder | Connector | Mean | Height | Loc. | Orient. | Multi. | |
Baseline | ||||||||
Vicuna-v1.5-7B [50, 30] | CLIP-L14-336 [39] | 2xMLP | 36.8 | 38.5 | 46.4 | 27.7 | 31.8 | |
Mixed Encoders | ||||||||
Vicuna-v1.5-7B [50, 30] | CLIP-L14-336 [39] + DINOv2-L14-224 [38] | 2xMLP | 37.2 | 45.9 | 42.2 | 28.7 | 33.6 | |
Vicuna-v1.5-7B [50, 30] | CLIP-L14-336 [39] + MAE-H14 [21] | 2xMLP | 33.1 | 42.7 | 39.2 | 26.1 | 27.5 | |
Vicuna-v1.5-7B [50, 30] | CLIP-L14-336 [39] + SAM-L [27] | 2xMLP | 27.9 | 44.6 | 34.4 | 16.5 | 21.5 | |
Connectors | ||||||||
Vicuna-v1.5-7B [50, 30] | CLIP-L14-336 [39] + DINOv2-L14-224 [38] | SVA [44] | 37.8 | 46.0 | 43.1 | 26.5 | 35.9 | |
Vicuna-v1.5-7B [50, 30] | CLIP-L14-336 [39] + MAE-H14 [21] | SVA [44] | 34.1 | 45.3 | 38.6 | 25.3 | 30.2 |
Model | 3DSRBench-synthetic-common | 3DSRBench-synthetic-uncommon | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Overall | Height | Loc. | Orient. | Multi. | Overall | Height | Loc. | Orient. | Multi. | ||
Random | 20.9 | 25.0 | 25.0 | 16.8 | 20.1 | 20.9 | 25.0 | 25.0 | 16.8 | 20.1 | |
Random++ | 45.8 | 50.0 | 50.0 | 41.7 | 45.0 | 45.8 | 50.0 | 50.0 | 41.7 | 45.0 | |
Open-sourced | |||||||||||
LLaVA-v1.5-7B [31] | 42.0 | 40.0 | 50.6 | 20.8 | 47.6 | 38.0 | 41.0 | 43.6 | 17.9 | 45.2 | |
Cambrian-1-8B [44] | 48.1 | 37.5 | 56.1 | 39.6 | 47.6 | 39.9 | 35.0 | 45.7 | 29.2 | 41.9 | |
LLaVA-NeXT-8B [32] | 45.5 | 65.0 | 57.9 | 10.4 | 50.0 | 36.8 | 47.5 | 44.5 | 7.3 | 46.0 | |
Proprietary | |||||||||||
Qwen-VL-Plus [4] | 30.7 | 35.0 | 37.8 | 30.2 | 20.2 | 21.0 | 15.0 | 25.0 | 22.9 | 16.1 | |
Qwen-VL-Max [4] | 55.2 | 62.5 | 69.5 | 31.2 | 52.4 | 48.6 | 52.5 | 59.8 | 24.0 | 51.6 | |
Claude-Sonnet [3] | 47.4 | 47.5 | 58.5 | 26.0 | 49.2 | 39.4 | 60.0 | 48.2 | 16.7 | 38.7 | |
Gemini-1.5-Flash [40] | 44.6 | 57.5 | 59.8 | 13.5 | 44.4 | 37.7 | 42.5 | 45.7 | 11.5 | 46.0 | |
Gemini-1.5-Pro [40] | 59.9 | 65.0 | 69.5 | 50.0 | 53.2 | 49.5 | 42.5 | 52.4 | 40.6 | 54.8 | |
GPT-4o-mini [1] | 46.5 | 47.5 | 53.7 | 36.5 | 44.4 | 40.3 | 42.5 | 43.9 | 33.3 | 40.3 | |
GPT-4o [1] | 51.2 | 70.0 | 70.1 | 17.7 | 46.0 | 44.3 | 60.0 | 58.5 | 15.6 | 42.7 |
我々は、我々の3DSRBench realにおいて、幅広いオープンソースおよび独自のLMMをベンチマークし、異なるカテゴリーの質問に対する3D空間推論能力を分析している。我々は2つのベースライン結果を考慮している: (i) random:すべての視覚的質問にランダムな回答を予測する単純なベースライン。 (ii) random++:CircularEvalにおいて、同じ視覚的質問の異なる選択肢の順序に対して一貫した回答を予測するより強力なランダムベースライン。完全な結果は表2に報告している。 (iii) human:データ注釈プロセスに参加しなかった人間の評価者によって確立された人間レベルのパフォーマンス。 完全な結果は表2に報告している。
我々は以下の観察を行った:(i) 最先端のLMMは限定的な3D空間推論能力を持っている。これは、最先端のオープンソースおよび独自のLMMが達成した低いパフォーマンスによって示されており、人間レベルのパフォーマンスをはるかに下回っている。(ii) LMMのスケーリング則は3D空間推論に対して効果的ではない。 結果は、独自のLMMに大幅に多くの訓練データと計算が費やされているにもかかわらず、効率的な訓練設定を備えた高品質のデータを特徴とするオープンソースの対応物に対して明確な優位性を示していないことを示している。標準的なスケーリング則は3D空間推論能力に対して収穫逓減を示しており、我々は3D空間推論を大幅に進歩させるためには、例えば、3Dを意識したデータ、アーキテクチャ、訓練設計などのより効果的なアプローチが必要であると考えている。
4.3 3D Awareness of Vision Encoders
我々は、LLaVA-v1.5-7B [31]の変種を我々の3DSRBenchでベンチマークすることにより、ビジョンエンコーダーの3D認識能力をさらに研究する。具体的には、事前学習済みの視覚基盤モデルの範囲、すなわち、CLIP [39]、MAE [21]、DINOv2 [38]、およびSAM [27]を考慮し、混合エンコーダーでベースラインモデルを強化する。これにより、意味的特徴を持つ標準ベンチマークでのパフォーマンスを維持しつつ、3D推論に有用な特徴を潜在的に含めることができる。次に、複数のビジョンエンコーダーからの特徴をさらに融合するために、空間ビジョンアグリゲーター(SVA)[44]を考慮する。
我々は、これらのLMM変種を我々の3DSRBenchで定量的に評価し、結果を表 3に報告する。結果は、混合エンコーダーを用いることで、DINOv2がLMMの全体的な3D空間推論能力を向上させることができることを示している。しかし、MAEとSAMをビジョンエンコーダーとして採用した場合、高さに関する質問で顕著な改善が見られ、より豊かな視覚特徴が物体のより良い位置特定に役立つことを示唆している。SVA [44]を用いることで、混合エンコーダーを持つLMMをさらに37.2%から37.8%に改善することができ、DINOv2からの意味的特徴と3D認識特徴を融合することが後続の推論に有益であることを示している。
4.4 Robustness to Uncommon Camera Viewpoints
我々は、一般的な視点と一般的でない視点に関する3D空間推論能力のロバスト性を研究する。我々は、3DSRBench-synthetic-commonと3DSRBench-synthetic-uncommonの分割において、様々なオープンソースおよび独自のLMMを評価する。表 4の結果が示すように、すべてのLMMが「一般的な」視点から「一般的でない」視点への一般化において、性能が著しく低下していることがわかる。例えば、GPT-4oでは精度が6.9%低下し、Gemini-Proでは10.4%低下、LLaVA-NeXT-8Bでは8.7%低下している[32]。図 4では、GPT-4oの2つの失敗例を視覚化しており、一般的な視点からの画像でプロンプトを与えた場合には正しい答えを予測できるが、同じシーンの全く同じ質問でも、一般的でない視点からレンダリングされた画像では失敗することを示している。
我々は、「一般的でない」視点におけるこのような性能低下を2つの要因に帰属させる:(i) 訓練データと我々の3DSRBench-synthetic-uncommonの画像間のカメラ6D視点分布のシフト、および (ii) 最先端のLMMが3Dシーンの暗黙的な表現を採用していること。 現在のLMMは、データ駆動型アプローチのスケーリング則に大きく依存して構築されている。事前訓練、アライメント、指示調整のための大規模データを活用することで、モデルは暗黙的な3D認識を発展させ、その後の3D空間推論能力を可能にする。幅広い学術的および経験的ベンチマークでの成功にもかかわらず、我々の結果は、オープンソースか独自かを問わず、最先端のLMMが、あまり表現されていないデータへの一般化に深刻な課題に直面していることを示している。本稿の場合、それは一般的でないカメラ6D視点からの画像である。特筆すべきは、これらの「一般的でない」視点からの画像は現在のデータセットでは稀であるが、実際には特定のダウンストリームタスク、例えば自律航法やロボット操作などでは非常に一般的であり、そこではカメラは人間が手に持つのではなくロボットに配置されることが多い。現在のLMMの性能低下は、これらの分野での潜在的可能性を大きく制限するであろう。
4.5 Failure Cases
GPT-4oの失敗事例を図5に示す。我々は以下の2つの観察を行った:(1) GPT-4oは厳密な3D空間推論を行うことができず、推論のために様々な視覚的手がかりに頼っている。上部の図では、GPT-4oは2つの物体のおおよその距離を推定することができず、カメラに近い物体がより詳細な外観を示すという経験的事実に依存している。2番目の図では、GPT-4oは方向を「接近する交通に向かって」と表現しているが、これは曖昧で効果的でない方向表現であり、誤った予測回答につながっている。(2) GPT-4oは特定の複雑な3D空間推論を行うことができない。複雑な3D空間推論に関する質問、例えば、3D位置と方向に関する3D空間推論を必要とする質問をされた場合、GPT-4oは複雑な推論を行わずに短く簡潔な回答を与える。これはさらに、GPT-4oの意思決定を研究するための基準として役立つ可能性がある。例えば、GPT-4oが推論をスキップして直接回答を予測する場合や、その弱点を分析する場合などである。
5 Conclusions
本稿では、大規模言語視覚モデル(LMM)の3D空間推論能力について研究を行った。我々は、MS-COCOの画像に対して2,100の視覚的質問回答ペアを手動で注釈付けした新しいベンチマーク、3DSRBenchを提示する。このベンチマークは、車のロゴや看板の矢印など、多様でオープンな語彙の実体を特徴とし、堅牢な評価のためにバランスの取れたデータ分布を持つ。 カメラの6自由度視点に対する3D空間推論能力の堅牢性を研究するために、我々はさらに、合成マルチビュー画像に対して672の視覚的質問回答ペアに注釈を付けた。各ペアは、一般的なカメラ視点と珍しいカメラ視点を持つ。 我々のベンチマークは、3D空間的に知的なLMMを開発するための重要な診断ベンチマークとしても機能し、3D空間推論を必要とするダウンストリームタスクに光を当てる。 3DSRBenchの異なる分割に対する実験結果は、3D空間的に知的なLMMに関する将来の研究に有益な知見と洞察をもたらす。
References
- Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
- Alayrac et al. [2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. NeurIPS, 2022.
- [3] Anthropic. Claude 3.5 Sonnet. https://www.anthropic.com/news/claude-3-5-sonnet.
- Bai et al. [2023] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
- Baruch et al. [2021] Gilad Baruch, Zhuoyuan Chen, Afshin Dehghan, Tal Dimry, Yuri Feigin, Peter Fu, Thomas Gebauer, Brandon Joffe, Daniel Kurz, Arik Schwartz, et al. Arkitscenes: A diverse real-world dataset for 3d indoor scene understanding using mobile rgb-d data. arXiv preprint arXiv:2111.08897, 2021.
- Brazil et al. [2023] Garrick Brazil, Abhinav Kumar, Julian Straub, Nikhila Ravi, Justin Johnson, and Georgia Gkioxari. Omni3D: A large benchmark and model for 3D object detection in the wild. In CVPR, 2023.
- Brohan et al. [2023] Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, et al. Rt-2: Vision-language-action models transfer web knowledge to robotic control. In CoRL, 2023.
- Caesar et al. [2020] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom. nuscenes: A multimodal dataset for autonomous driving. In CVPR, 2020.
- Chen et al. [2024a] Boyuan Chen, Zhuo Xu, Sean Kirmani, Brain Ichter, Dorsa Sadigh, Leonidas Guibas, and Fei Xia. Spatialvlm: Endowing vision-language models with spatial reasoning capabilities. In CVPR, 2024a.
- Chen et al. [2024b] Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi, and Alan Yuille. Efficient large multi-modal models via visual context compression. In NeurIPS, 2024b.
- Chen et al. [2024c] Jieneng Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, and Liang-Chieh Chen. Vitamin: Designing scalable vision models in the vision-language era. In CVPR, 2024c.
- Chen et al. [2022] Zhenfang Chen, Kexin Yi, Yunzhu Li, Mingyu Ding, Antonio Torralba, Joshua B Tenenbaum, and Chuang Gan. Comphy: Compositional physical reasoning of objects and events from videos. arXiv preprint arXiv:2205.01089, 2022.
- Cheng et al. [2024] An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, and Sifei Liu. Spatialrgpt: Grounded spatial reasoning in vision-language models. In NeurIPS, 2024.
- Chiang et al. [2023] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez, et al. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. See https://vicuna. lmsys. org (accessed 14 April 2023), 2023.
- Duan et al. [2024] Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, and Kai Chen. Vlmevalkit: An open-source toolkit for evaluating large multi-modality models, 2024.
- Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
- El Banani et al. [2024] Mohamed El Banani, Amit Raj, Kevis-Kokitsi Maninis, Abhishek Kar, Yuanzhen Li, Michael Rubinstein, Deqing Sun, Leonidas Guibas, Justin Johnson, and Varun Jampani. Probing the 3d awareness of visual foundation models. In CVPR, 2024.
- Feng et al. [2024] Yao Feng, Jing Lin, Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, and Michael J. Black. Chatpose: Chatting about 3d human pose. In CVPR, 2024.
- Geiger et al. [2012] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In CVPR, 2012.
- Goyal et al. [2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In CVPR, 2017.
- He et al. [2022] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. Masked autoencoders are scalable vision learners. In CVPR, 2022.
- Huang et al. [2023] Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, and Li Fei-Fei. Voxposer: Composable 3d value maps for robotic manipulation with language models. arXiv preprint arXiv:2307.05973, 2023.
- Huang et al. [2024] Wenlong Huang, Chen Wang, Yunzhu Li, Ruohan Zhang, and Li Fei-Fei. Rekep: Spatio-temporal reasoning of relational keypoint constraints for robotic manipulation. arXiv preprint arXiv:2409.01652, 2024.
- Hudson and Manning [2019] Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In CVPR, 2019.
- Khanna et al. [2024] Mukul Khanna, Yongsen Mao, Hanxiao Jiang, Sanjay Haresh, Brennan Shacklett, Dhruv Batra, Alexander Clegg, Eric Undersander, Angel X Chang, and Manolis Savva. Habitat synthetic scenes dataset (hssd-200): An analysis of 3d scene scale and realism tradeoffs for objectgoal navigation. In CVPR, 2024.
- Kim et al. [2024] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. In CoRL, 2024.
- Kirillov et al. [2023] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In ICCV, 2023.
- Li et al. [2023] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023.
- Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014.
- Liu et al. [2023a] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning, 2023a.
- Liu et al. [2023b] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. In NeurIPS, 2023b.
- Liu et al. [2024] Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, and Yong Jae Lee. Llava-next: Improved reasoning, ocr, and world knowledge, 2024.
- Liu et al. [2025] Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et al. Mmbench: Is your multi-modal model an all-around player? In ECCV, 2025.
- Lu et al. [2024] Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, and Jieneng Chen. Generative world explorer. arXiv preprint arXiv:2411.11844, 2024.
- Ma et al. [2024a] Wufei Ma, Kai Li, Zhongshi Jiang, Moustafa Meshry, Qihao Liu, Huiyu Wang, Christian Häne, and Alan Yuille. Rethinking video-text understanding: Retrieval from counterfactually augmented data. In ECCV, 2024a.
- Ma et al. [2024b] Wufei Ma, Guanning Zeng, Guofeng Zhang, Qihao Liu, Letian Zhang, Adam Kortylewski, Yaoyao Liu, and Alan Yuille. Imagenet3d: Towards general-purpose object-level 3d understanding. arXiv preprint arXiv:2406.09613, 2024b.
- Majumdar et al. [2024] Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, and Aravind Rajeswaran. Openeqa: Embodied question answering in the era of foundation models. In Conference on Computer Vision and Pattern Recognition (CVPR), 2024.
- Oquab et al. [2023] Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.
- Reid et al. [2024] Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.
- Roberts et al. [2021] Mike Roberts, Jason Ramapuram, Anurag Ranjan, Atulit Kumar, Miguel Angel Bautista, Nathan Paczan, Russ Webb, and Joshua M Susskind. Hypersim: A photorealistic synthetic dataset for holistic indoor scene understanding. In ICCV, 2021.
- Song et al. [2015] Shuran Song, Samuel P Lichtenberg, and Jianxiong Xiao. Sun rgb-d: A rgb-d scene understanding benchmark suite. In CVPR, 2015.
- Team et al. [2023] Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023.
- Tong et al. [2024] Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, et al. Cambrian-1: A fully open, vision-centric exploration of multimodal llms. In NeurIPS, 2024.
- Touvron et al. [2023] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.
- Wang et al. [2024a] Xingrui Wang, Wufei Ma, Zhuowan Li, Adam Kortylewski, and Alan L Yuille. 3d-aware visual question answering about parts, poses and occlusions. NeurIPS, 2024a.
- Wang et al. [2024b] Xingrui Wang, Wufei Ma, Angtian Wang, Shuo Chen, Adam Kortylewski, and Alan Yuille. Compositional 4d dynamic scenes understanding with physics priors for video question answering. arXiv preprint arXiv:2406.00622, 2024b.
- Wang et al. [2022] Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao, Hongjie Zhang, Jilan Xu, Yi Liu, Zun Wang, et al. Internvideo: General video foundation models via generative and discriminative learning. arXiv preprint arXiv:2212.03191, 2022.
- Zhang et al. [2023] Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, et al. Recognize anything: A strong image tagging model. arXiv preprint arXiv:2306.03514, 2023.
- Zheng et al. [2023] Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et al. Judging llm-as-a-judge with mt-bench and chatbot arena. NeurIPS, 2023.
A Baseline LMMs
Proprietary LMMs.
最先端LMMの3D空間推論能力を分析するために、我々は様々なプロプライエタリLMMを探索する。例えば、Qwen-VL、Claude、Gemini、GPTなどである。我々はDuan らの [15] 手法に従い、すべての質問を循環評価を可能にする多肢選択式の質問として定式化する。
LLaVA-v1.5 [30].
LLaVA-v1.5-7Bは、Vicuna-v1.5 LLMとCLIP-ViT-Lビジョンエンコーダーを基に構築された強力なオープンソースLMMベースラインである。これは視覚的指示調整フレームワーク [31] をMLPコネクタと拡大された画像解像度で拡張したものである。
Cambrian-1 [44].
Cambrian-1は、ビジョン中心の設計を特徴とする強力なLMMである。高度なコネクタ設計、空間ビジョンアグリゲータ(SVA)、高品質の視覚指示調整データを特徴としている。
LMMs with various vision encoder designs.
B Data Statistics
3節で述べたように、我々の3DSRBenchは3つの分割から構成されている。1つは実データ分割で、COCOデータセット[29]から多様かつオープンな語彙の物体に対して手動で注釈付けされた2,100の視覚的質問回答ペアを含む。そして2つの合成分割、合成-一般的と合成-珍しいがあり、各分割に336の視覚的質問回答ペアが含まれ、3Dシーンを一般的な視点と珍しい視点からレンダリングした同じ質問が特徴となっている。
我々の3DSRBenchは、図1に示すように、4つの主要カテゴリーから12の質問タイプで構成されている。すべての質問タイプは均等に分布しており、例えば、3DSRBench-実データでは各質問タイプに175の質問がある。
我々の3DSRBenchが回答においてバランスが取れていることを示すために、図 6で閉形式の回答の分布を可視化している。すなわち、4つの方向(前、左、など)またはyes/no回答であり、2つの与えられたオープンな語彙の実体から選択するのではない。
C Example Questions in 3DSRBench
我々は、12種類の質問タイプそれぞれについて2つの例題を提示する。これらは図 7(高さと位置に関する質問)、図 8(方向に関する質問)、および図 9(複数オブジェクトの推論に関する質問)に示されている。