JaLMS
最新の AI 研究を日本語で解読

     Generative World Explorer

Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen

Johns Hopkins University

[email protected]

Abstract

部分的な観測下での計画立案は、身体性AIにおける中心的な課題である。 これまでの研究の大半は、環境を物理的に探索して世界の状態に関する信念を更新するエージェントを開発することでこの課題に取り組んできた。 対照的に、人間は世界の見えない部分を心的探索によって想像し、想像した観測によって信念を修正することができる。 このように更新された信念により、常に世界を物理的に探索する必要なく、より情報に基づいた決定を下すことが可能となる。この人間のような能力を実現するために、我々はGenerative World Explorer (Genex)を導入する。これは、エージェントが大規模な3D世界(例:都市景観)を心的に探索し、想像した観測を獲得して信念を更新することを可能にする自己中心的な世界探索フレームワークである。この更新された信念は、エージェントが現在のステップでより情報に基づいた決定を下すのに役立つ。Genexを訓練するために、我々は合成都市景観データセットGenex-DBを作成した。我々の実験結果は、(1) Genexが大規模な仮想物理世界の長期的な探索中に高品質で一貫性のある観測を生成できること、そして (2) 生成された観測によって更新された信念が、既存の意思決定モデル(例:LLMエージェント)により良い計画を立てさせることができることを示している。

[Uncaptioned image] Website https://generative-world-explorer.github.io/
[Uncaptioned image] Code https://github.com/Beckschen/genex

1 Introduction

人間は、周囲を知覚し、行動を起こし、他者と関わることで、三次元の世界を移動し、相互作用する。これらの相互作用を通じて、人間は世界をシミュレートするためのメンタルモデルを形成する(Johnson-Laird, 1983)。 これらのモデルは、現実の内部表現を可能にし、言語や画像を通じて推論、問題解決、予測を支援する。

並行して、この自然知能の理解は、メンタルモデルの計算機アナログを作成する人工知能システムの開発を促してきた(Ha & Schmidhuber, 2018; LeCun, 2022; Diester et al., 2024)。これらのワールドモデル(WMs) (Ha & Schmidhuber, 2018; LeCun, 2022)は、エージェントが情報に基づいた決定を行うのを助けるために、将来の世界の状態(例えば、シーン内の物体の存在、特性、位置)を予測することで、人間の理解と相互作用を模倣することを目指している。 最近、生成視覚モデル(Ho et al., 2020; OpenAI, 2024; Bai et al., 2024)により、世界の予測的シミュレーションのためのワールドモデルの開発への関心が高まっている(Du et al., 2024a; Yang et al., 2024b; c; Wang et al., 2024a)。しかし、これらの研究は、エージェントの観察と信念を明示的にモデル化せずに、状態遷移確率のみに焦点を当てている。観察と信念を明示的にモデル化することは、我々が真の世界の状態が未知である部分的に観測可能な環境を扱うことが多いため、極めて重要である。 具現化されたエージェントは本質的にPOMDPエージェントである(Kaelbling et al., 1998):完全な観察ではなく、エージェントは環境の部分的な観察しか持たない。合理的な決定を行うために、エージェントは信念、つまり現在いる環境の推定を形成しなければならない。この信念は不完全または偏っている可能性があるが、環境を物理的に探索することで得られる入ってくる観察を通じて修正することができる。

通常、未知の環境において、実体を持つエージェントは周囲を理解するために物理的な探索を通じて新たな観察を獲得しなければならないが、これは必然的にコストがかかり、安全性に欠け、時間を要する。しかし、エージェントが探索を精神的にシミュレーションすることで隠れた視点を想像できれば、物理的な労力なしに自身の信念を更新することができる。これにより、エージェントはより情報に基づいた行動を取り、より堅固な決定を下すことが可能となる。 図1のシナリオを考えてみよう。交差点に近づいているとする。前方の信号は青だが、突然、前を走る黄色いタクシーが予期せぬ急停止をしたことに気づく。混乱と不安が押し寄せ、その停止の理由がわからない。その瞬間、物理的に状況を調査することは危険であり、不可能でさえある。しかし、自身の想像の中でタクシーの位置に立ち、その視点から周囲を思い描くことで、タクシーの不可解な行動の背後にある可能性のある動機を感じ取ることができる: おそらく救急車が接近しているのだろう。結果として、想像力のおかげで、緊急車両のために道を空けるという適時で決定的な選択をすることができる。

物理的世界で想像的探索が可能なエージェントを構築するために、我々はGenerative World Explorer (Genex)を提案する。これは、エージェントの現在の自己中心的(一人称)視点を条件とし、意図した移動方向を行動入力として組み込み、将来の自己中心的観察を生成する動画生成モデルである。先行研究(Tewari et al., 2023)では3Dモデルに基づいてシーンの新しい視点をレンダリングすることができる(Yu et al., 2021)が、限られたレンダリング距離と視野角(FOV)が生成される動画の範囲と一貫性を制限している。幸いなことに、動画生成は探索範囲を拡張する可能性を提供する。FOVの制約に対処するために、我々は球面一貫性学習を用いてパノラマ表現を利用し、動画拡散モデルを訓練する。その結果、提案するGenexモデルは、長距離探索全体を通じて一貫性と3D整合性を維持しながら、印象的な生成品質を達成している。

さらに、提案されたGenexは、具現化された意思決定にも適用できる。Genexにより、エージェントは想像的探索を通じて隠れたビューを想像し、その信念を修正することが可能となる。修正された信念により、エージェントはより情報に基づいた行動を取ることができる。技術的には、我々はエージェントの行動を、想像力駆動型信念修正を伴うPOMDPの拡張として定義する。特筆すべきは、提案されたGenexが自然にマルチエージェントシナリオに拡張できることである。そこでは、一つのエージェントが他のエージェントの位置に精神的に移動し、他のエージェントの想像された信念に基づいて自身の信念を更新することができる。

要約すると、我々の主要な貢献は以下の3点である:

  • 我々はGenexを導入する。これは、高い生成品質と探索の一貫性を持って、エージェントが想像的に世界を探索することを可能にする新しいフレームワークである。

  • 我々は、想像力駆動型信念修正を導入することで、生成ビデオを部分観測可能な意思決定プロセスに統合する最初のアプローチの一つを提示する。

  • 我々は、マルチエージェント意思決定を含む、Genexの魅力的な応用を強調する。

2 Related Works

Generative video modeling.

拡散モデル(DMs)(Sohl-Dickstein et al., 2015; Ho et al., 2020)は画像生成において効果的であることが証明されている。 高解像度の画像を生成するために、潜在拡散モデル(LDMs)(Rombach et al., 2022)が潜在空間でのノイズ除去を提案している。同様に、ビデオ拡散モデル(Blattmann et al., 2023b; Wang et al., 2023a; Blattmann et al., 2023a)はVAEモデルを使用してビデオフレームをエンコードし、潜在空間でノイズを除去する。制御可能な合成のために、条件付きノイズ除去オートエンコーダーがテキスト(Rombach et al., 2022; OpenAI, 2024)や様々な条件制御(Zhang et al., 2023; Sudhakar et al., 2024)と共に実装されている。我々は、エージェントの自己中心的パノラマビューを条件とするビデオ生成に焦点を当てている。パノラマ(Li & Bansal, 2023; 2024)は生成された世界の一貫性を保証し、自己中心的視覚の使用は多くの身体化タスク(Das et al., 2018; Sermanet et al., 2024)において事実上の選択肢となっている。

身体化された意思決定のための生成的視覚 物理的世界における意思決定(Das et al., 2018; Sermanet et al., 2024)は、AIの根本的な課題である。 LLMは意思決定を支援する言語的推論(Hao et al., 2023; Min et al., 2024)と視覚-言語計画(Cen et al., 2024)を提供する。 世界モデルは、決定を知らせるための将来の状態の予測表現を提供するが、初期の試み(Ha & Schmidhuber, 2018; LeCun, 2022)は単純なゲームエージェントに焦点を当てており、しばしば物理的世界に関する常識的推論が欠けている。 生成的視覚(OpenAI, 2024; Kondratyuk et al., 2024)と文脈内学習(Bai et al., 2024; Zhang et al., 2024)は、ビデオ生成を使用して実世界の意思決定を導く新しい道を提供する(Yang et al., 2024c)。 いくつかの研究は、自動運転(Hu et al., 2023; Wang et al., 2023b; 2024c)などの特定のアプリケーションドメインに焦点を当てているが、これらは一般性を制限している。 ビデオ文脈内学習(Zhang et al., 2024)のような他の手法は、既知のデモンストレーションビデオを必要とし、意思決定には非効率的である。行動条件付きビデオ生成モデル(Du et al., 2024a; Yang et al., 2024b; c; Wang et al., 2024a; Bu et al., 2024; Souček et al., 2024; Du et al., 2024b)は、意思決定のための視覚的計画を直接合成することができる。 しかし、これらのモデルは、部分的に観測可能な環境における他の物体/エージェントについて推論する上で重要なエージェントの信念を明示的にモデル化せずに、状態遷移確率に焦点を当てている。

3 Generative World Exploration

家庭用ロボットなどの機械探索者は、その環境内を移動し、未訪問の場所を探索するように設計されている。 生成モデルを統合することで、我々は生成的世界探索者(Genex)の概念を提示し、人間の心的探索に類似した想像上の領域内での空間探索を可能にする。 § 3.1ではGenexのマクロ設計を紹介し、続いて§ 3.2では入力表現、拡散バックボーン、損失目的関数を含むミクロ設計について説明します。

Refer to caption
図2: Genexは、RGB観測、探索方向、距離を入力として、想像された動画出力を生成することで、想像上の世界を探索することができる(a)。 物理的環境に基づいたGenexは、GPT支援の想像的探索(b)と目標駆動型の想像的ナビゲーション(c)を実行できる。

3.1 Macro-Design of Genex

(a) 概要図2に示すように、Genexフレームワークは、現在のRGB観測と与えられた探索設定に基づいて、ビデオ生成をストリーミングすることにより、エージェントが想像の世界内を探索することを可能にする。 RGB観測は、世界のあらゆる場所からサンプリングされたパノラマ画像として表現される。 大規模マルチモーダルモデル(LMM)がパイロットとして機能し、360superscript360360^{\circ}360 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPTナビゲーション方向と距離を含む探索設定を設定する。 Genexは入力を2つのステップで処理する。まず、探索方向を取り入れてパノラマの前方視界を更新する。次に、内蔵のディフューザーが前方ナビゲーションビデオを生成する。視界の更新とディフューザーの詳細については§ 3.2で説明する。

Genexは、物理的環境に基づいており、 GPT支援の目標不問の想像的探索と目標駆動の想像的探索を実行することができる。

(b) 目標不問の想像的探索Genexは、図2 (b)に示すように、無制限の方向で自由に探索でき、エージェントが周囲の環境を理解するのに役立つ。

(c) 目標駆動の想像的探索。エージェントは、「青い車の位置と向きに移動する」などの目標指示を受け取る。 GPTは指示と初期画像に基づいて高レベルの計画を実行し、反復的に低レベルの探索設定を生成する。その後、Genexはこれらの設定を段階的に処理し、図2 (c)のように想像的探索全体を通じて画像を段階的に更新する。これにより、より大きな制御と目標を絞った探索が可能となる。

3.2 Micro-Design of Genex

(a) 拡散器のバックボーン。 図2に示されるような探索をサポートするために、我々は世界探索者として円滑に適応できるビデオ拡散器を提案する。 初期パノラマ画像x0superscript𝑥0x^{0}italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPTとカメラ位置p0superscript𝑝0p^{0}italic_p start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPTが与えられた場合、我々の目的は一連のカメラ位置{p1,,pn}superscript𝑝1superscript𝑝𝑛\{p^{1},\dots,p^{n}\}{ italic_p start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , … , italic_p start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT }に対応する一連の画像{x1,,xn}superscript𝑥1superscript𝑥𝑛\{x^{1},\dots,x^{n}\}{ italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , … , italic_x start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT }を生成することである。 カメラ位置は着実に前進し、世界内のナビゲーションを表現する。パノラマ画像は360度の視野を表現するため、生成は前のフレームに格納された情報を持続させ、シーケンス全体を通して世界の一貫性を維持する必要がある。 我々のモデルは、事前学習された安定ビデオ拡散(SVD)(Blattmann et al., 2023a)を使用する。Transformer UNet (Ronneberger et al., 2015; Chen et al., 2021)アーキテクチャはBlattmann et al. (2023b)で説明されているように、時間的畳み込みと注意層が各空間的畳み込みと注意層の後に挿入される。 我々のモデルのパイプラインを図3 (a)に示す。 画像条件c𝑐citalic_c(CLIP画像Transformer (Radford et al., 2021)を使用して画像x0superscript𝑥0x^{0}italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPTからエンコードされる)が与えられると、ビデオ拡散アルゴリズムはノイズの多い画像潜在ztsubscript𝑧𝑡z_{t}italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTに追加されたノイズを予測するネットワークϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTを学習する(noise=ϵθ(zt,c)ϵt2subscriptnoisesuperscriptnormsubscriptitalic-ϵ𝜃subscript𝑧𝑡𝑐subscriptitalic-ϵ𝑡2\mathcal{L}_{\text{noise}}=\|\epsilon_{\theta}(z_{t},c)-\epsilon_{t}\|^{2}caligraphic_L start_POSTSUBSCRIPT noise end_POSTSUBSCRIPT = ∥ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_c ) - italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT)。

(b) 入力画像表現。 パノラマ画像は、自己中心的視点からすべての視点を2D画像に捉えるため、生成的探索に最適である。本質的に、図3 (b)に示すように、球面極座標系𝒮𝒮\mathcal{S}caligraphic_Sをデカルト座標系𝒫𝒫\mathcal{P}caligraphic_Pの2Dグリッド上に表現する。 パノラマ画像は、単一の位置からの世界のあらゆる視点を効果的に格納し、空間ナビゲーション中にグローバルコンテキストを保持する。これにより、条件付き画像からの世界情報の一貫性を維持し、生成されたコンテンツが周囲の環境と首尾一貫して整合することを保証する。パノラマ画像はまた、回転変換を可能にし、これにより元の情報を保持しながら画像を異なる角度に向けて回転させることで世界ナビゲーションを容易にする。回転は式1を用いて実行できる:

𝒯(u,v,Δϕ,Δθ)=f𝒮𝒫((f𝒫𝒮(u,v),Δϕ,Δθ)),𝒯𝑢𝑣Δitalic-ϕΔ𝜃subscript𝑓𝒮𝒫subscript𝑓𝒫𝒮𝑢𝑣Δitalic-ϕΔ𝜃\mathcal{T}(u,v,\Delta\phi,\Delta\theta)=f_{\mathcal{S}\to\mathcal{P}}\left(% \mathcal{R}\left(f_{\mathcal{P}\to\mathcal{S}}(u,v),\Delta\phi,\Delta\theta% \right)\right),caligraphic_T ( italic_u , italic_v , roman_Δ italic_ϕ , roman_Δ italic_θ ) = italic_f start_POSTSUBSCRIPT caligraphic_S → caligraphic_P end_POSTSUBSCRIPT ( caligraphic_R ( italic_f start_POSTSUBSCRIPT caligraphic_P → caligraphic_S end_POSTSUBSCRIPT ( italic_u , italic_v ) , roman_Δ italic_ϕ , roman_Δ italic_θ ) ) , (1)

ここで、u𝑢uitalic_uv𝑣vitalic_vは2D画像平面上の位置であり、ϕitalic-ϕ\phiitalic_ϕθ𝜃\thetaitalic_θは極座標における経度と緯度を表す。 回転関数\mathcal{R}caligraphic_Rは、ナビゲーション中の回転をシミュレートするために、球面表現にあらゆる方向の回転を適用する。さらに、パノラマ画像は6つの別個の通常画像からなるキューブマップに変換でき、各画像は立方体の面(前面、背面、左面、右面、上面、下面)を表す。このパノラマからキューブへの変換は、マルチモーダルLLMエージェントによる視覚的理解を向上させる。等距円筒図法の完全な数学的詳細は§ A.1に記載されている。

Refer to caption
図3: (a) Genexにおける拡散器、球面一貫性のあるパノラマビデオ生成モデル。 訓練中、ビデオx0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTは潜在z0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTにエンコードされ、ztsubscript𝑧𝑡z_{t}italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTにノイズが加えられる。条件付きUNet ϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTがノイズを予測し除去し、結果としてz0subscriptsuperscript𝑧0z^{\prime}_{0}italic_z start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTが得られ、x0subscriptsuperscript𝑥0x^{\prime}_{0}italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTにデコードされる。 (c)の損失sclsubscript𝑠𝑐𝑙\mathcal{L}_{scl}caligraphic_L start_POSTSUBSCRIPT italic_s italic_c italic_l end_POSTSUBSCRIPTは元のノイズ予測損失と組み合わされる。推論時には、ランダムノイズが反復的にデノイズされ、画像パノラマ条件からビデオx0subscriptsuperscript𝑥0x^{\prime}_{0}italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTが生成される。(b) 左:極座標とデカルト座標の変換。右:回転された球面パノラマは2Dパノラマまたは6面画像に変換できる。 (c) 球面一貫性学習:エッジの一貫性のためにカメラの向きをランダムにサンプリングする。

(c) 拡散器の訓練目的:球面一貫性学習(SCL)。 我々は、球面空間で連続的なピクセルを持つ画像を生成することを目指している。しかし、直接的な訓練では、等距円筒画像の最左端と最右端で生成されたピクセルが球面空間で連続的であるという制約がないため、深刻なエッジの不一致が生じる。 この問題に対処するために、我々は明示的な正則化として球面一貫性学習を導入する。パノラマビデオを生成した後、式1に示す球面回転変換関数を適用し、図3 (a)に示すように、生成されたビデオと真のビデオの両方でカメラをランダムに異なる位置に回転させる。 デノイズされた拡散ビデオxtϵθ(xt,c)subscript𝑥𝑡subscriptitalic-ϵ𝜃subscript𝑥𝑡𝑐x_{t}-\epsilon_{\theta}(x_{t},c)italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_c )と真のビデオx0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTは変換され、その後事前学習された時間的VAEエンコーダ\mathcal{E}caligraphic_Eに渡され、変換された拡散ビデオの潜在(𝒯(xtϵθ(xt,c)))𝒯subscript𝑥𝑡subscriptitalic-ϵ𝜃subscript𝑥𝑡𝑐\mathcal{E}(\mathcal{T}(x_{t}-\epsilon_{\theta}(x_{t},c)))caligraphic_E ( caligraphic_T ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_c ) ) )と変換された真のビデオの潜在(𝒯(x0))𝒯subscript𝑥0\mathcal{E}(\mathcal{T}(x_{0}))caligraphic_E ( caligraphic_T ( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) )が得られる。 このプロセスでは、すべての視点で一貫した表現を確保するために、各カメラビューに等しい重みが与えられる。我々は、360度出力の均一性と一貫性を維持するために、潜在空間上の平均二乗誤差を最小化する目的sclsubscript𝑠𝑐𝑙\mathcal{L}_{scl}caligraphic_L start_POSTSUBSCRIPT italic_s italic_c italic_l end_POSTSUBSCRIPTで訓練する。 訓練中、全体的な訓練目的は以下の損失を最小化することである:

=λ(𝒯(𝒟(ztϵθ(zt,c))))(𝒯(x0))2scl+(1λ)ϵθ(zt,c)ϵt2noise,𝜆subscriptsuperscriptnorm𝒯𝒟subscript𝑧𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑐𝒯subscript𝑥02subscript𝑠𝑐𝑙subscript1𝜆superscriptnormsubscriptitalic-ϵ𝜃subscript𝑧𝑡𝑐subscriptitalic-ϵ𝑡2subscriptnoise\mathcal{L}=\lambda\underbrace{||\mathcal{E}(\mathcal{T}(\mathcal{D}(z_{t}-% \epsilon_{\theta}(z_{t},c))))-\mathcal{E}(\mathcal{T}(x_{0}))||^{2}}_{\mathcal% {L}_{scl}}+\underbrace{(1-\lambda)||\epsilon_{\theta}(z_{t},c)-\epsilon_{t}||^% {2}}_{\mathcal{L}_{\text{noise}}},caligraphic_L = italic_λ under⏟ start_ARG | | caligraphic_E ( caligraphic_T ( caligraphic_D ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_c ) ) ) ) - caligraphic_E ( caligraphic_T ( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) ) | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_s italic_c italic_l end_POSTSUBSCRIPT end_POSTSUBSCRIPT + under⏟ start_ARG ( 1 - italic_λ ) | | italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_c ) - italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT noise end_POSTSUBSCRIPT end_POSTSUBSCRIPT , (2)

ここで、𝒟𝒟\mathcal{D}caligraphic_Dは時間的VAE (Kingma, 2013)デコーダ、λ𝜆\lambdaitalic_λは重み定数、𝒯𝒯\mathcal{T}caligraphic_T式1に示す球面回転変換である。

推論時には、Ztmax𝒩(0,𝐈)similar-tosubscript𝑍subscript𝑡max𝒩0𝐈Z_{t_{\text{max}}}\sim\mathcal{N}(0,\mathbf{I})italic_Z start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT max end_POSTSUBSCRIPT end_POSTSUBSCRIPT ∼ caligraphic_N ( 0 , bold_I )を初期化し、再パラメータ化トリックを使用してZt1pθ(Zt1|zt,c)similar-tosubscript𝑍𝑡1subscript𝑝𝜃conditionalsubscript𝑍𝑡1subscript𝑧𝑡𝑐Z_{t-1}\sim p_{\theta}(Z_{t-1}|z_{t},c)italic_Z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT ∼ italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_Z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT | italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_c )を反復的にサンプリングし、潜在z0superscriptsubscript𝑧0z_{0}^{\prime}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTを生成し、これがパノラマビデオx0superscriptsubscript𝑥0x_{0}^{\prime}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTにデコードされる。

4 Genex-based Embodied Decision Making

4.1 Imagination-driven Belief Revision

具現化されたエージェントはPOMDP(部分観測可能マルコフ決定過程)フレームワークの下で動作する(Puterman, 1994; Kaelbling et al., 1998; Nayak et al., 2024)。各時間ステップt𝑡titalic_tにおいて、エージェントの世界状態(この特定の瞬間における完全な環境を表す)stSsuperscript𝑠𝑡𝑆s^{t}\in Sitalic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ∈ italic_Sと行動atAsuperscript𝑎𝑡𝐴a^{t}\in Aitalic_a start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ∈ italic_Aが、遷移確率T(st+1|st,at)𝑇conditionalsuperscript𝑠𝑡1superscript𝑠𝑡superscript𝑎𝑡{T}(s^{t+1}|s^{t},a^{t})italic_T ( italic_s start_POSTSUPERSCRIPT italic_t + 1 end_POSTSUPERSCRIPT | italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_a start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT )を通じて次の世界状態を決定する。エージェントに与えられた目標gG𝑔𝐺g\in Gitalic_g ∈ italic_G(例えば、道路を横断すること)は報酬rt=R(st,at,g)superscript𝑟𝑡𝑅superscript𝑠𝑡superscript𝑎𝑡𝑔r^{t}=R(s^{t},a^{t},g)italic_r start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT = italic_R ( italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_a start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_g )に影響を与え、これがエージェントを目的達成へと駆り立てる。 エージェントは観測モデルO(o|st)𝑂conditional𝑜superscript𝑠𝑡O(o|s^{t})italic_O ( italic_o | italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT )に基づいて観測otΩsuperscript𝑜𝑡Ωo^{t}\in\Omegaitalic_o start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ∈ roman_Ωを受け取り、分布b(s)𝑏𝑠b(s)italic_b ( italic_s )で表される信念を維持する。これはエージェントの世界の真の状態に対する内部推定である。 その信念は新しい観測によって更新され、式3のPOMDPフレームワークに従う:

bt+M(st+M)=tM(O(ot+1|st+1,at)stT(st+1|st,at)Physical Exploration)bt(st)superscript𝑏𝑡𝑀superscript𝑠𝑡𝑀superscriptsubscriptproduct𝑡𝑀subscript𝑂conditionalsuperscript𝑜𝑡1superscript𝑠𝑡1superscript𝑎𝑡subscriptsuperscript𝑠𝑡𝑇conditionalsuperscript𝑠𝑡1superscript𝑠𝑡superscript𝑎𝑡Physical Explorationsuperscript𝑏𝑡superscript𝑠𝑡b^{t+M}(s^{t+M})=\prod_{t}^{M}\bigg{(}\underbrace{O(o^{t+1}|s^{t+1},a^{t})\sum% _{s^{t}}T(s^{t+1}|s^{t},a^{t})}_{\text{Physical Exploration}}\bigg{)}b^{t}(s^{% t})italic_b start_POSTSUPERSCRIPT italic_t + italic_M end_POSTSUPERSCRIPT ( italic_s start_POSTSUPERSCRIPT italic_t + italic_M end_POSTSUPERSCRIPT ) = ∏ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ( under⏟ start_ARG italic_O ( italic_o start_POSTSUPERSCRIPT italic_t + 1 end_POSTSUPERSCRIPT | italic_s start_POSTSUPERSCRIPT italic_t + 1 end_POSTSUPERSCRIPT , italic_a start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ) ∑ start_POSTSUBSCRIPT italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT end_POSTSUBSCRIPT italic_T ( italic_s start_POSTSUPERSCRIPT italic_t + 1 end_POSTSUPERSCRIPT | italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_a start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ) end_ARG start_POSTSUBSCRIPT Physical Exploration end_POSTSUBSCRIPT ) italic_b start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ( italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ) (3)

任意の時間t𝑡titalic_tに行われる決定atsuperscript𝑎𝑡a^{t}italic_a start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPTは、エージェントが周囲をより明確に理解するにつれて、より情報に基づいたものとなる。物理的空間を移動することで、エージェントは環境に関する追加情報を収集し、より正確な評価と将来のより良い選択を可能にする。しかし、物理的に空間を移動することは非効率的で、コストがかかり、危険なシナリオでは不可能でさえある。このプロセスを効率化するために、我々は想像力を媒体として使用し、エージェントが物理的に移動せずに結果をシミュレートすることができる。 鍵となる問題は以下のようになる:

エージェントはどのようにして想像的探索を通じて信念を修正し、より情報に基づいた決定を行うことができるか?

想像力駆動型信念修正。我々は、想像的探索を用いてPOMDPエージェントを強化し、時間ステップ間で即座に信念を修正する想像力駆動型信念修正を提案する。 想像の中で、我々は時間を凍結し、想像上の世界を作り出す。そのため、時間変数t𝑡titalic_tを落とし、変数上にハット^^absent\hat{}over^ start_ARG end_ARGを付けた想像空間を定義する。物理的な移動と同様に、エージェントは想像の時間ステップI={1,i,,n}𝐼1𝑖𝑛I=\{1,...i,...,n\}italic_I = { 1 , … italic_i , … , italic_n }にわたって一連の想像的行動𝐚^={a^iA^}^𝐚subscript^𝑎𝑖^𝐴\hat{\mathbf{a}}=\{\hat{a}_{i}\in\hat{A}\}over^ start_ARG bold_a end_ARG = { over^ start_ARG italic_a end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∈ over^ start_ARG italic_A end_ARG }を行うことができる。初期信念と最終目標に基づいて、未観測の世界に対する連続的な推測を促す類似の報酬R^^𝑅\hat{R}over^ start_ARG italic_R end_ARGにより、エージェントはpθ^(o^i+1|o^i,a^i)subscript𝑝^𝜃conditionalsuperscript^𝑜𝑖1superscript^𝑜𝑖superscript^𝑎𝑖p_{\hat{\theta}}(\hat{o}^{i+1}|\hat{o}^{i},{\hat{a}^{i}})italic_p start_POSTSUBSCRIPT over^ start_ARG italic_θ end_ARG end_POSTSUBSCRIPT ( over^ start_ARG italic_o end_ARG start_POSTSUPERSCRIPT italic_i + 1 end_POSTSUPERSCRIPT | over^ start_ARG italic_o end_ARG start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT , over^ start_ARG italic_a end_ARG start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT )を用いて以前に観測されていない世界で新しい観測を想像することができる。結果として、式4を用いて信念を更新できる:

b^t(st)=iI(pθ(o^i+1|oi,a^i)Imaginative Exploration)bt(st)superscript^𝑏𝑡superscript𝑠𝑡superscriptsubscriptproduct𝑖𝐼subscriptsubscript𝑝𝜃conditionalsuperscript^𝑜𝑖1superscript𝑜𝑖superscript^𝑎𝑖Imaginative Explorationsuperscript𝑏𝑡superscript𝑠𝑡\hat{b}^{t}(s^{t})=\prod_{i}^{I}\bigg{(}\underbrace{p_{\theta}(\hat{o}^{i+1}|o% ^{i},\hat{a}^{i})}_{\text{Imaginative Exploration}}\bigg{)}b^{t}(s^{t})over^ start_ARG italic_b end_ARG start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ( italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ) = ∏ start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_I end_POSTSUPERSCRIPT ( under⏟ start_ARG italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( over^ start_ARG italic_o end_ARG start_POSTSUPERSCRIPT italic_i + 1 end_POSTSUPERSCRIPT | italic_o start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT , over^ start_ARG italic_a end_ARG start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ) end_ARG start_POSTSUBSCRIPT Imaginative Exploration end_POSTSUBSCRIPT ) italic_b start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ( italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ) (4)
Refer to caption
図4: 想像的探索は物理的探索と同じ信念更新を達成できる。

式3とは異なり、我々は物理的探索を想像的探索に置き換える(図4)。適切な想像のためには、bt+T(st+T)b^t(st)superscript𝑏𝑡𝑇superscript𝑠𝑡𝑇superscript^𝑏𝑡superscript𝑠𝑡b^{t+T}(s^{t+T})\equiv\hat{b}^{t}(s^{t})italic_b start_POSTSUPERSCRIPT italic_t + italic_T end_POSTSUPERSCRIPT ( italic_s start_POSTSUPERSCRIPT italic_t + italic_T end_POSTSUPERSCRIPT ) ≡ over^ start_ARG italic_b end_ARG start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ( italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT )を期待すべきである。ここで、想像的信念は物理的信念に近似する。想像の連続I𝐼Iitalic_Iが拡大するにつれて、より多くの観測oisubscript𝑜𝑖o_{i}italic_o start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTが生成され、エージェントの信念は接近し、bsuperscript𝑏b^{*}italic_b start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPTとなる。これは、エージェントが完全な観測下で得られる信念である。

エージェントは、その信念目標に基づいて、方策モデルπ(at|bt(st),g)𝜋conditionalsuperscript𝑎𝑡superscript𝑏𝑡superscript𝑠𝑡𝑔\pi(a^{t}|b^{t}(s^{t}),g)italic_π ( italic_a start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT | italic_b start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ( italic_s start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ) , italic_g )を用いて行動を決定する。修正された信念を通じて、エージェントは周囲環境の真の状態についてより多くの情報を持つbsuperscript𝑏b^{*}italic_b start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPTに向けてより洗練された信念を持ち、asuperscript𝑎a^{*}italic_a start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPTに向けてより情報に基づいた決定を行うことが可能となる。

本稿では、想像的探索にGenexを適用し、方策モデルπ𝜋\piitalic_πと信念更新器b(s)𝑏𝑠b(s)italic_b ( italic_s )にLMMを使用する。これらは観測から信念へのマッピングを行い、図5に例を示し、システムのパイプラインを§ B.0.3に示す。

4.2 Generalized to Multi-agent

想像力ベースのPOMDPはマルチエージェントシナリオに一般化することができる。1111番目のエージェントは、k𝑘kitalic_k番目のエージェントの位置を想像的に探索し、エージェントk𝑘kitalic_kの観測o^ksubscript^𝑜𝑘\hat{o}_{k}over^ start_ARG italic_o end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTを予測し、エージェントk𝑘kitalic_kの信念b^ksubscript^𝑏𝑘\hat{b}_{k}over^ start_ARG italic_b end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTを推論することができる。これは式4に従う。

したがって、我々は他のK1𝐾1K-1italic_K - 1エージェントに対する想像された信念の対応物を集約することにより、エージェント1111の信念を調整することができる。

a1t=π(𝐛𝐊={b1,bK},g)superscriptsubscript𝑎1𝑡𝜋superscript𝐛𝐊subscript𝑏1subscript𝑏𝐾𝑔a_{1}^{t}=\pi(\mathbf{b^{K}}=\{b_{1},...b_{K}\},g)italic_a start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT = italic_π ( bold_b start_POSTSUPERSCRIPT bold_K end_POSTSUPERSCRIPT = { italic_b start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … italic_b start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT } , italic_g ) (5)

他のエージェントの思考を探索する際、我々はそのエージェントが何を見て、理解し、次に何をするかを予測することができる。これにより、より完全な情報を持って自身の行動を調整することができる。

Refer to caption
図5: 想像力を用いた単一エージェントの推論と、想像力を用いたマルチエージェントの推論および計画。(a) 単一エージェントは、以前に観測されていなかった視点を想像して環境をより良く理解することができる。(b) マルチエージェントシナリオでは、エージェントは他者の視点を推論し、状況のより完全な理解に基づいて決定を行う。入力および生成された画像はパノラマである;可視化のためにキューブが抽出されている。

本稿では、§4.1で具現化されたエージェントを定義し、想像力駆動の信念修正を導入する。続いて§4.2でマルチエージェント意思決定を、§4.3で具現化されたQAの実装を行う。

4.3 Instantiation in Embodied QA.

従来の身体化QAベンチマーク(Das et al., 2018)はナビゲーションなどの明確に定義されたタスクを特徴としているが、心的イメージがどのように計画立案を助けるかに焦点を当てておらず、マルチエージェントシナリオの欠如が更なる進展を制限している(以下の条件(3)および(4)を満たしていない)。我々の知る限り、我々が提案する解決策を評価するために使用できる既存のベンチマークは存在しない。

この隔たりを埋めるため、我々は以下の4つの条件を満たす新しい身体化QAベンチマークの収集を目指す:(1)エージェントが部分的な観察に基づいて計画を立てること。(2)質問が言語的常識のみでは解決できず、エージェントが物理的に環境内を移動するか、精神的に環境を探索して回答する必要があること。(3)人間が質問を理解し回答するために環境を精神的にシミュレーションできるが、機械が同様のことができるかは不明確であること。(4)マルチエージェントの意思決定を含むシナリオに拡張可能であること。 これに従い、我々は§ 5.1で新しいデータセットGenex-EQAを提案する。

5 Experiments

5.1 Dataset construction

Refer to caption
図6: 6つの異なる実世界および仮想シーンの例。

Genex-DB。 我々は、Unity、Blender、およびUnreal Engineを使用して生成された大規模なデータセットを合成する。詳細は§ A.3に記載されている。我々は、それぞれ異なる視覚スタイル(リアリスティックアニメーション低テクスチャ、およびジオメトリ)を表す4つの異なるシーンを作成し、図6に示している: 我々は各データセットでモデルを訓練し、結果として得られる4つのナビゲーション用ビデオディフューザーについて、すべてのシーンにわたってクロスバリデーションを実施し、それらの汎化能力を評価する(詳細は§ B.2に記載)。

我々は、Google マップ ストリートビュー表2の「Street」ヘッダー)およびBehavior Vision Suite (Ge et al., 2024)表2の「Indoor」ヘッダー)からパノラマ画像の追加テストセットを収集し、これは実世界の街路および合成屋内探索のベンチマークとして機能する111訓練には、画質の一貫性がなく予測不可能なカメラの動きのためGoogle マップ ストリートビューを、また制限された屋内ナビゲーション範囲のためBehavior Vision Suiteを除外している。

Genex-EQA。提案されたGenexモデルを通じて、エージェントは自律的に探索を行い、単一エージェントのシーン理解や複数エージェントの交差的推論などの具現化されたタスクに取り組むことができる。§ 4.3の4つの条件に従い、我々は様々なマルチモーダルLLMエージェントの具現化された意思決定をテストするために、仮想物理エンジンで200以上のシナリオを設計した。詳細は§ A.4.1に記載している。 このデータセットは一般的に2つのシナリオを表している:

  • 単一エージェント:エージェントは視界内のどの位置からでも自己中心的な視点を推論できる。エージェントはGenexを使用して欠けている視点を想像できる(例:木に隠れた救急車一時停止標識の裏側)。この追加情報により、エージェントはより情報に基づいた決定を下すことができる。

  • 複数エージェント:最初のエージェントは、他のエージェントの位置を想像的に探索し、これらの想像された観察を使用して自身の信念を更新できる。

5.2 Evaluation on Generation Quality

我々は、動画生成の品質を評価するために4つの指標を採用している。これらには、FVD (Unterthiner et al., 2019)、SSIM (Wang et al., 2004)、LPIPS (Zhang et al., 2018)、およびPSNR (Horé & Ziou, 2010)が含まれる。評価の詳細は付録Bに記載されている。

Model Input FVD \downarrow MSE \downarrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow
\rightarrow direct test
CogVideoX six-view 4451 0.30 0.94 8.89 0.07
CogVideoX panorama 4307 0.32 0.94 8.69 0.07
SVD six-view 5453 0.31 0.74 7.86 0.14
SVD panorama 759.9 0.15 0.32 17.6 0.68
\rightarrowtuned on Genex-DB
Baseline six-view 196.7 0.10 0.09 26.1 0.88
Genex w/o SCL panorama 81.9 0.05 0.05 29.4 0.91
Genex panorama 69.5 0.04 0.03 30.2 0.94
表1: 異なる拡散モデルの動画生成品質。

強力なベースラインとして、我々は6面ビューナビゲーターを開発した。これは、立方体の各面に対して6つの独立した拡散モデルを訓練し、依然として360ビューを表現するものである(図3 (b) 6面ビューを参照)。実装の詳細は§ B.1に示されている。このベースラインは2D拡散モデルとよく適合するかもしれないが、一貫した環境コンテキストの維持に特に効果的なパノラマアプローチとは対照的である。Genexとの動画品質評価における公平な比較を可能にするため、6面ビューベースラインの予測はパノラマに再投影される。結果として、1は、我々の手法が高い生成品質を達成し、すべての指標において6面ビューベースラインを上回っていることを示している。

Refer to caption
図7: サイクル一貫性のためにランダムにサンプリングされた軌道の例。シーン内で閉ループを形成し、9回の回転と15メートルの距離を含む。

5.3 Evaluation on Imaginative Exploration Quality

ループクロージャー(Newman & Ho, 2005)にインスパイアされ、我々は長距離の水平方向の想像的探索の一貫性と忠実性を評価するための新しい指標、想像的探索サイクル一貫性(IECC)を提案する。定義:シーン内でランダムにサンプリングされた閉ループを形成する任意の経路に対して、初期の実画像と最終的に生成された画像の間の潜在的MSEを計算する。両画像はInception-v4 (Szegedy et al., 2017)によってエンコードされる。最終的な潜在的MSEは、1000のランダムにサンプリングされた閉ループ経路の平均を取る。各ループは回転数移動総距離が異なる(図7参照)。障害物によってブロックされた経路は除外する。

我々の結果では、すべての探索経路において強い周期的一貫性が観察された(図9参照)。長距離の想像的探索(distance=20mdistance20𝑚\text{distance}=20mdistance = 20 italic_m)や複数の連続したビデオの場合でも、潜在的MSEは0.1未満に留まり、元のフレームからの乖離が最小限であることを示している。 我々の手法の優れたパフォーマンスは、パノラマにおける球面一貫性を保持していることに起因すると考えられ、回転によってパフォーマンスが低下しないことを保証している。

Refer to caption
図8: 距離と回転数に応じた想像的探索サイクル一貫性(IECC)の変化。
Refer to caption
図9: 探索の質(IECC)と生成の質(FVD)の相関関係。

我々はさらに、実世界へのゼロショット汎化可能性、生成と想像的探索の相関関係、および新たに現れる3D一貫性に関する3つの発見について、以下でより詳細な分析を行う。

発見1. 生成の質が高いほど、想像的探索の一貫性が高くなる。 図9は、想像的探索サイクル一貫性と生成FVDの間に強い相関があることを示しており、拡散器を改善する我々の取り組みの妥当性を裏付けている。

IECC \downarrow Genex Genex w/o SCL Six-view
Realistic Anime Low-Texture Geometry Realistic Realistic
Street 0.105 0.131 0.122 0.147 0.131 0.269
Indoor 0.092 0.168 0.103 0.117 0.120 0.233
表2: 実世界へのゼロショット汎化可能性。行はモデルと訓練シーン別。列はゼロショットテストシーン別。

発見2. 合成データで訓練されたGenexは、実世界のシナリオに対して堅牢なゼロショット汎化可能性を示す。 印象的なことに、UE5および他の合成データで訓練されたモデル(表2)は、追加の微調整を必要とせずに、実世界の屋内行動ビジョンスイートおよび屋外のGoogle Map ストリートビューに対してよく汎化(IECC0.1IECC0.1\text{IECC}\leq 0.1IECC ≤ 0.1)している(例については§ B.2参照)。

発見3. 生成的世界探索は強力な3D理解を可能にする。 本稿の手法により、物体を取り巻く経路を通じた想像的探索によって、物体のマルチビュービデオの生成が可能となる。3は、一般的な物体レベルの前景指標(MSEobj.𝑀𝑆subscript𝐸𝑜𝑏𝑗MSE_{obj.}italic_M italic_S italic_E start_POSTSUBSCRIPT italic_o italic_b italic_j . end_POSTSUBSCRIPT)を報告するだけでなく、背景評価(MSEbg.𝑀𝑆subscript𝐸𝑏𝑔MSE_{bg.}italic_M italic_S italic_E start_POSTSUBSCRIPT italic_b italic_g . end_POSTSUBSCRIPT)も強調している。 我々のモデルは、最先端のオープンソースモデルと比較して優れたパフォーマンスを示している。重要なことに、ほぼ完璧な背景の一貫性を維持し、シーンの照明、物体の向き、3D関係を効果的にシミュレートしている。 興味深いことに、我々は追加のプラグアンドプレイモデル(Depth Anything (Yang et al., 2024a) および DUSt3R (Wang et al., 2024b))を使用して、我々のモデルが3D世界を再構築できることを示している。詳細は§ B.3に記載されている。

Refer to caption
図10: 新規視点合成のための最先端の3D再構築モデルとの比較。探索を通じて、我々のモデルは物体の新規視点合成においてより高品質を達成し、背景合成の一貫性も向上している。
Model LPIPS\downarrow PSNR\uparrow SSIM\uparrow MSEobj.\downarrow MSEbg.\downarrow
TripoSR  (Tochilkin et al., 2024) 0.76 6.69 0.56 0.08 -
SV3D  (Voleti et al., 2024) 0.75 6.63 0.53 0.08 -
Stable Zero123  (StabilityAI, 2023) 0.50 14.12 0.57 0.07 0.06
Genex 0.15 28.57 0.82 0.02 0.00
表3: Genexは、最先端の手法を上回り、地面真理値との最小限の差異で遠距離の物体(および背景シーン)の新規視点を合成できる。

要約すると、実世界へのロバストなゼロショット汎化可能性、生成と想像的探索の高い相関関係、および新たに現れる3D一貫性は、実世界における身体化された意思決定への道を開くものである。

5.4 Results on Embodied QA

実施型質問応答の評価。 実施型推論の評価のために、我々は3つの指標を定義する:

  • 決定精度: この指標は、エージェントの決定が十分な情報を持つ人間が取る最適な行動と一致するかどうかを評価する。これは、選択された行動が状況や問題に成功裏に対処する度合いを測定する。

  • ゴールド行動信頼度: これは、利用可能な情報とコンテキストに基づいて、最も適切な行動を取るエージェントの信念の強さを指す。信頼度は、エージェントが正しい選択を出力する正規化されたロジットの平均として計算される。

  • 論理精度: この指標は、決定に至る論理的推論プロセスの正確さを追跡する。我々は、提供された正しい思考の連鎖を用いて、エージェントの思考プロセスを評価するためにLLM-as-a-judge(GPT-4o)を使用する。これは、エージェントが最終的な行動に向かって進む際に行うステップ、推論、反省の連鎖を強調する。

表4では、我々の単一エージェント(§ 4.1)および複数エージェント(§ 4.2)の意思決定アルゴリズムを評価する。 単一モーダルはテキストコンテキストのみを受け取るエージェントを指し、マルチモーダル推論は自己中心的な視覚ビューとともにプロンプトされた場合のLLMの決定を示す。Gennexは認知的世界モデルを備えたエージェントとしてのモデルのパフォーマンスを示す。

手法 決定精度 (%) ゴールド行動信頼度 (%) 論理精度 (%) 単一エージェント 複数エージェント 単一エージェント 複数エージェント 単一エージェント 複数エージェント ランダム 25.00 25.00 25.00 25.00 - - 人間(テキストのみ) 44.82 21.21 52.19 11.56 46.82 13.50 人間(画像あり) 91.50 55.24 80.22 58.67 70.93 46.49 人間(Genexあり) 94.00 77.41 90.77 71.54 86.19 72.73 単一モーダル Gemini-1.5 30.56 26.04 29.46 24.37 13.89 5.56 単一モーダル GPT-4o 27.71 25.88 26.38 26.99 20.22 5.00 マルチモーダル Gemini-1.5 46.73 11.54 36.70 15.35 0.0 0.0 マルチモーダル GPT-4o 46.10 21.88 44.10 21.16 12.51 6.25 Genex (GPT4-o) 85.22 94.87 77.68 69.21 83.88 72.11

表4: 異なるシナリオにおける実施型質問応答の評価。単一モーダル入力の場合、エージェントはテキストコンテキストのみでプロンプトされ、マルチモーダル入力の場合、エージェントは自己中心的な画像ビューが与えられる。すべての設定において、我々はエージェントに他のエージェントの信念を想像するために思考の連鎖を生成するようプロンプトした。

想像力のない視覚はGPTにとって誤解を招く可能性がある。場合によっては、単一モーダルの応答(環境のテキスト説明のみを処理)がマルチモーダルの対応(テキストと自己中心的な視覚入力の両方を含む)を上回ることがある。これは、想像力のない視覚が誤解を招く可能性があることを示唆している。LLMエージェントがその視界をテキスト説明に変換し、言語ベースの常識推論にのみ依存する場合、空間的コンテキストの欠如により誤った推論を行う傾向がある。これは、エージェントの意思決定プロセスの精度と信頼性を向上させるために、想像力を視覚データと統合することの重要性を強調している。

Genexは人間の認知能力を向上させる可能性がある。人間のパフォーマンス結果はいくつかの重要な洞察を明らかにしている。第一に、視覚的情報とテキスト情報の両方を使用する個人は、テキストのみに依存する場合と比較して、著しく高い決定精度を達成する。これは、マルチモーダル入力が推論を向上させることを示している。 第二に、Genexによって生成された想像上の動画を提供された場合、人間は従来の画像のみの設定よりもさらに正確で情報に基づいた決定を行う。これは特に、高度な空間推論を必要とする複数エージェントのシナリオにおいて顕著である。これらの発見は、効果的な社会的協力と状況認識のためのGenexの認知能力向上の可能性を示している。

6 Conclusion

我々は、Generative World Explorer(Genex)という新しいビデオ生成モデルを紹介した。これは、実施エージェントが大規模な3D環境を想像力豊かに探索し、物理的な移動なしに信念を更新することを可能にするものである。球面一貫性学習を採用することで、Genexは長時間の探索中に高品質で一貫性のあるビデオを生成する。さらに、本稿では、想像力駆動の信念修正を通じて生成ビデオを部分観測可能な意思決定プロセスに統合する最初の方法の一つを提示している。我々の実験は、これらの想像された観測が意思決定を大幅に向上させ、エージェントがより情報に基づいた効果的な計画を立てることを可能にすることを示している。さらに、Genexのフレームワークはマルチエージェントの相互作用をサポートし、より高度で協調的なAIシステムへの道を開いている。本研究は、実施AIにおいて人間のような知能を実現するための重要な進歩を示すものである。

References

  • Bai et al. (2024) Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan L Yuille, Trevor Darrell, Jitendra Malik, and Alexei A Efros. Sequential modeling enables scalable learning for large vision models. In CVPR, 2024.
  • Blattmann et al. (2023a) Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, and Robin Rombach. Stable video diffusion: Scaling latent video diffusion models to large datasets, 2023a. URL https://arxiv.org/abs/2311.15127.
  • Blattmann et al. (2023b) Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In CVPR, 2023b.
  • Bu et al. (2024) Qingwen Bu, Jia Zeng, Li Chen, Yanchao Yang, Guyue Zhou, Junchi Yan, Ping Luo, Heming Cui, Yi Ma, and Hongyang Li. Closed-loop visuomotor control with generative expectation for robotic manipulation. arXiv preprint arXiv:2409.09016, 2024.
  • Cen et al. (2024) Jun Cen, Chenfei Wu, Xiao Liu, Shengming Yin, Yixuan Pei, Jinglong Yang, Qifeng Chen, Nan Duan, and Jianguo Zhang. Using left and right brains together: Towards vision and language planning. arXiv preprint arXiv:2402.10534, 2024.
  • Chen et al. (2021) Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L Yuille, and Yuyin Zhou. Transunet: Transformers make strong encoders for medical image segmentation. arXiv preprint arXiv:2102.04306, 2021.
  • Das et al. (2018) Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, and Dhruv Batra. Embodied question answering. In CVPR, 2018.
  • Diester et al. (2024) Ilka Diester, Marlene Bartos, Joschka Bödecker, Adam Kortylewski, Christian Leibold, Johannes Letzkus, Mathew M Nour, Monika Schönauer, Andrew Straw, Abhinav Valada, et al. Internal world models in humans, animals, and ai. Neuron, 112(14):2265–2268, 2024.
  • Du et al. (2024a) Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B Tenenbaum, et al. Video language planning. ICLR, 2024a.
  • Du et al. (2024b) Yilun Du, Sherry Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Josh Tenenbaum, Dale Schuurmans, and Pieter Abbeel. Learning universal policies via text-guided video generation. In NeurIPS, 2024b.
  • Ge et al. (2024) Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martin-Martin, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, and Jiajun Wu. Behavior vision suite: Customizable dataset generation via simulation. In CVPR, 2024.
  • Ha & Schmidhuber (2018) David Ha and Jürgen Schmidhuber. World models. arXiv preprint arXiv:1803.10122, 2018.
  • Hao et al. (2023) Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, and Zhiting Hu. Reasoning with language model is planning with world model. EMLNP, 2023.
  • Ho et al. (2020) Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. NeurIPS, 2020.
  • Horé & Ziou (2010) Alain Horé and Djemel Ziou. Image quality metrics: Psnr vs. ssim. In ICPR, 2010.
  • Hu et al. (2023) Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado. Gaia-1: A generative world model for autonomous driving. arXiv preprint arXiv:2309.17080, 2023.
  • Johnson-Laird (1983) Philip Nicholas Johnson-Laird. Mental models: Towards a cognitive science of language, inference, and consciousness. Harvard University Press, USA, 1983.
  • Kaelbling et al. (1998) Leslie Pack Kaelbling, Michael L Littman, and Anthony R Cassandra. Planning and acting in partially observable stochastic domains. Artificial intelligence, 101(1-2):99–134, 1998.
  • Kingma (2013) Diederik P Kingma. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
  • Kondratyuk et al. (2024) Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, et al. Videopoet: A large language model for zero-shot video generation. ICML, 2024.
  • LeCun (2022) Yann LeCun. A path towards autonomous machine intelligence version 0.9. 2, 2022-06-27. Open Review, 62(1):1–62, 2022.
  • Li & Bansal (2023) Jialu Li and Mohit Bansal. Improving vision-and-language navigation by generating future-view image semantics. In CVPR, 2023.
  • Li & Bansal (2024) Jialu Li and Mohit Bansal. Panogen: Text-conditioned panoramic environment generation for vision-and-language navigation. In NeurIPS, 2024.
  • Min et al. (2024) So Yeon Min, Xavi Puig, Devendra Singh Chaplot, Tsung-Yen Yang, Akshara Rai, Priyam Parashar, Ruslan Salakhutdinov, Yonatan Bisk, and Roozbeh Mottaghi. Situated instruction following. arXiv preprint arXiv:2407.12061, 2024.
  • Nayak et al. (2024) Siddharth Nayak, Adelmo Morrison Orozco, Marina Ten Have, Vittal Thirumalai, Jackson Zhang, Darren Chen, Aditya Kapoor, Eric Robinson, Karthik Gopalakrishnan, James Harrison, et al. Long-horizon planning for multi-agent robots in partially observable environments. arXiv preprint arXiv:2407.10031, 2024.
  • Newman & Ho (2005) Paul Newman and Kin Ho. Slam-loop closing with visually salient features. In ICRA, 2005.
  • OpenAI (2024) OpenAI. Video generation models as world simulators, 2024.
  • Puterman (1994) Martin L Puterman. Markov decision processes: discrete stochastic dynamic programming. John Wiley & Sons, 1994.
  • Radford et al. (2021) Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.
  • Rombach et al. (2022) Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
  • Ronneberger et al. (2015) Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
  • Sermanet et al. (2024) Pierre Sermanet, Tianli Ding, Jeffrey Zhao, Fei Xia, Debidatta Dwibedi, Keerthana Gopalakrishnan, Christine Chan, Gabriel Dulac-Arnold, Sharath Maddineni, Nikhil J Joshi, et al. Robovqa: Multimodal long-horizon reasoning for robotics. In ICRA, 2024.
  • Sohl-Dickstein et al. (2015) Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In ICML, 2015.
  • Souček et al. (2024) Tomáš Souček, Dima Damen, Michael Wray, Ivan Laptev, and Josef Sivic. Genhowto: Learning to generate actions and state transformations from instructional videos. In CVPR, 2024.
  • StabilityAI (2023) StabilityAI. Stable zero123, 2023.
  • Sudhakar et al. (2024) Sruthi Sudhakar, Ruoshi Liu, Basile Van Hoorick, Carl Vondrick, and Richard Zemel. Controlling the world by sleight of hand. In ECCV, 2024.
  • Szegedy et al. (2017) Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI, 2017.
  • Tewari et al. (2023) Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Josh Tenenbaum, Frédo Durand, Bill Freeman, and Vincent Sitzmann. Diffusion with forward models: Solving stochastic inverse problems without direct supervision. In NeurIPS, 2023.
  • Tochilkin et al. (2024) Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, and Yan-Pei Cao. Triposr: Fast 3d object reconstruction from a single image. arXiv preprint arXiv:2403.02151, 2024.
  • Unterthiner et al. (2019) Thomas Unterthiner, Sjoerd van Steenkiste, Karol Kurach, Raphael Marinier, Marcin Michalski, and Sylvain Gelly. Towards accurate generative models of video: A new metric and challenges, 2019. URL https://arxiv.org/abs/1812.01717.
  • Voleti et al. (2024) Vikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, and Varun Jampani. Sv3d: Novel multi-view synthesis and 3d generation from a single image using latent video diffusion. arXiv preprint arXiv:2403.12008, 2024.
  • Wang et al. (2024a) Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, and Jeong Joon Park. This&that: Language-gesture controlled video generation for robot planning. arXiv preprint arXiv:2407.05530, 2024a.
  • Wang et al. (2023a) Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, and Shiwei Zhang. Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571, 2023a.
  • Wang et al. (2024b) Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, and Jerome Revaud. Dust3r: Geometric 3d vision made easy. In CVPR, 2024b.
  • Wang et al. (2023b) Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiagang Zhu, and Jiwen Lu. Drivedreamer: Towards real-world-driven world models for autonomous driving. arXiv preprint arXiv:2309.09777, 2023b.
  • Wang et al. (2024c) Yuqi Wang, Jiawei He, Lue Fan, Hongxin Li, Yuntao Chen, and Zhaoxiang Zhang. Driving into the future: Multiview visual forecasting and planning with world model for autonomous driving. In CVPR, 2024c.
  • Wang et al. (2004) Zhou Wang, A.C. Bovik, H.R. Sheikh, and E.P. Simoncelli. Image quality assessment: from error visibility to structural similarity. TIP, 2004.
  • Yang et al. (2024a) Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. Depth anything v2. In NeurIPS, 2024a.
  • Yang et al. (2024b) Mengjiao Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Dale Schuurmans, and Pieter Abbeel. Learning interactive real-world simulators. In ICLR, 2024b.
  • Yang et al. (2024c) Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, and Dale Schuurmans. Video as the new language for real-world decision making. arXiv preprint arXiv:2402.17139, 2024c.
  • Yu et al. (2021) Alex Yu, Vickie Ye, Matthew Tancik, and Angjoo Kanazawa. pixelnerf: Neural radiance fields from one or few images. In CVPR, 2021.
  • Zhang et al. (2023) Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.
  • Zhang et al. (2018) Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric, 2018.
  • Zhang et al. (2024) Wentao Zhang, Junliang Guo, Tianyu He, Li Zhao, Linli Xu, and Jiang Bian. Video in-context learning. arXiv preprint arXiv:2407.07356, 2024.

Appendix A Appendix

A.1 Preliminary: Equirectangular Panorama Images

Refer to caption
図11: 左:ピクセルグリッド座標系と球面極座標系;中央:球面座標系での回転は2D画像での回転に対応;右:パノラマからキューブマップへの展開、または逆の合成。

A.1.1 Coordinate Systems

正距円筒図法パノラマ画像は、自己中心的視点からすべての視点を2D画像に捉える。本質的に、これは2Dグリッド上に球面座標系を表現している。

Definition D.1 (Spherical polar coordinate system).

𝒮𝒮\mathcal{S}caligraphic_S:原点を中心点とし、この系における点は座標(ϕ,θ,r)𝒮italic-ϕ𝜃𝑟𝒮(\phi,\theta,r)\in\mathcal{S}( italic_ϕ , italic_θ , italic_r ) ∈ caligraphic_Sで表される。ここで、ϕitalic-ϕ\phiitalic_ϕは経度、θ𝜃\thetaitalic_θは緯度、r𝑟ritalic_rは原点からの動径距離を表す。これらの座標の範囲はϕ[π,π)italic-ϕ𝜋𝜋\phi\in[-\pi,\pi)italic_ϕ ∈ [ - italic_π , italic_π )θ[π/2,π/2]𝜃𝜋2𝜋2\theta\in[-\pi/2,\pi/2]italic_θ ∈ [ - italic_π / 2 , italic_π / 2 ]、およびr>0𝑟0r>0italic_r > 0である。

Definition D.2 (Cartesian coordinate system for panoramic image).

𝒫𝒫\mathcal{P}caligraphic_P:この系では、ピクセルは座標(u,v)𝒫𝑢𝑣𝒫(u,v)\in\mathcal{P}( italic_u , italic_v ) ∈ caligraphic_Pで識別される。ここで、u𝑢uitalic_uv𝑣vitalic_vはそれぞれ2Dパノラマ画像平面上の列と行の位置に対応する。u𝑢uitalic_uの範囲は00からW1𝑊1W-1italic_W - 1まで、v𝑣vitalic_vの範囲は00からH1𝐻1H-1italic_H - 1までである。

Definition D.3 (Sphere-to-Cartesian Coordinate Transformation).

球面極座標とパノラマピクセルグリッド座標間の変換は、以下の関数で定義される:

f𝒮𝒫(ϕ,θ)subscript𝑓𝒮𝒫italic-ϕ𝜃\displaystyle f_{\mathcal{S}\to\mathcal{P}}(\phi,\theta)italic_f start_POSTSUBSCRIPT caligraphic_S → caligraphic_P end_POSTSUBSCRIPT ( italic_ϕ , italic_θ ) =(W2π(ϕ+π),Hπ(π2θ))absent𝑊2𝜋italic-ϕ𝜋𝐻𝜋𝜋2𝜃\displaystyle=\left(\frac{W}{2\pi}(\phi+\pi),\frac{H}{\pi}\left(\frac{\pi}{2}-% \theta\right)\right)= ( divide start_ARG italic_W end_ARG start_ARG 2 italic_π end_ARG ( italic_ϕ + italic_π ) , divide start_ARG italic_H end_ARG start_ARG italic_π end_ARG ( divide start_ARG italic_π end_ARG start_ARG 2 end_ARG - italic_θ ) ) (6)
f𝒫𝒮(u,v)subscript𝑓𝒫𝒮𝑢𝑣\displaystyle f_{\mathcal{P}\to\mathcal{S}}(u,v)italic_f start_POSTSUBSCRIPT caligraphic_P → caligraphic_S end_POSTSUBSCRIPT ( italic_u , italic_v ) =(2πuWπ,π2πvH)absent2𝜋𝑢𝑊𝜋𝜋2𝜋𝑣𝐻\displaystyle=\left(\frac{2\pi u}{W}-\pi,\frac{\pi}{2}-\frac{\pi v}{H}\right)= ( divide start_ARG 2 italic_π italic_u end_ARG start_ARG italic_W end_ARG - italic_π , divide start_ARG italic_π end_ARG start_ARG 2 end_ARG - divide start_ARG italic_π italic_v end_ARG start_ARG italic_H end_ARG ) (7)

ここで、関数f𝒮𝒫subscript𝑓𝒮𝒫f_{\mathcal{S}\to\mathcal{P}}italic_f start_POSTSUBSCRIPT caligraphic_S → caligraphic_P end_POSTSUBSCRIPTは球面座標(ϕ,θ)italic-ϕ𝜃(\phi,\theta)( italic_ϕ , italic_θ )をピクセル座標(u,v)𝑢𝑣(u,v)( italic_u , italic_v )に写像し、逆関数f𝒫𝒮subscript𝑓𝒫𝒮f_{\mathcal{P}\to\mathcal{S}}italic_f start_POSTSUBSCRIPT caligraphic_P → caligraphic_S end_POSTSUBSCRIPTはピクセル座標(u,v)𝑢𝑣(u,v)( italic_u , italic_v )を球面座標(ϕ,θ)italic-ϕ𝜃(\phi,\theta)( italic_ϕ , italic_θ )に戻す。この変換により、球面全体が2Dパノラマ画像上に表現されることが保証される。

パノラマは、単一の位置からの世界のあらゆる視点を効果的に保存する。我々の研究では、パノラマ画像の性質上、空間ナビゲーション中にグローバルコンテキストを保持することができる。これにより、条件画像から世界情報の一貫性を維持し、生成されたコンテンツが周囲の環境と整合性を保つことを確保できる。

A.1.2 Panorama Image transformations

球面形式により、様々な画像処理タスクが可能となる。例えば、球面表現により、情報の損失なく任意の角度で画像を回転させることができる。さらに、図11に示すように、2D可視化のためにキューブマップに分解することもできる。

Definition D.4 (Rotation Transformation in Spherical Polar Coordinate System).

パノラマ画像は球面形式であるため、元の画質を保持したまま異なる角度を向くように画像を回転させることができる。回転は以下の式を用いて実行できる:

𝒯(u,v,Δϕ,Δθ)=f𝒮𝒫((f𝒫𝒮(u,v),Δϕ,Δθ))𝒯𝑢𝑣Δitalic-ϕΔ𝜃subscript𝑓𝒮𝒫subscript𝑓𝒫𝒮𝑢𝑣Δitalic-ϕΔ𝜃\mathcal{T}(u,v,\Delta\phi,\Delta\theta)=f_{\mathcal{S}\to\mathcal{P}}\left(% \mathcal{R}\left(f_{\mathcal{P}\to\mathcal{S}}(u,v),\Delta\phi,\Delta\theta% \right)\right)caligraphic_T ( italic_u , italic_v , roman_Δ italic_ϕ , roman_Δ italic_θ ) = italic_f start_POSTSUBSCRIPT caligraphic_S → caligraphic_P end_POSTSUBSCRIPT ( caligraphic_R ( italic_f start_POSTSUBSCRIPT caligraphic_P → caligraphic_S end_POSTSUBSCRIPT ( italic_u , italic_v ) , roman_Δ italic_ϕ , roman_Δ italic_θ ) ) (8)

ここで、回転関数\mathcal{R}caligraphic_Rは以下のように定義される:

(ϕ,θ,Δϕ,Δθ)=(ϕ+Δϕ(mod 2π),θ+Δθ(mod π))italic-ϕ𝜃Δitalic-ϕΔ𝜃italic-ϕΔitalic-ϕmod 2𝜋𝜃Δ𝜃mod 𝜋\mathcal{R}(\phi,\theta,\Delta\phi,\Delta\theta)=\left(\phi+\Delta\phi\ (\text% {mod }2\pi),\theta+\Delta\theta\ (\text{mod }\pi)\right)caligraphic_R ( italic_ϕ , italic_θ , roman_Δ italic_ϕ , roman_Δ italic_θ ) = ( italic_ϕ + roman_Δ italic_ϕ ( mod 2 italic_π ) , italic_θ + roman_Δ italic_θ ( mod italic_π ) ) (9)

明示的な入力がない場合、ΔϕΔitalic-ϕ\Delta\phiroman_Δ italic_ϕΔθΔ𝜃\Delta\thetaroman_Δ italic_θの両方を0に設定することができる。

パノラマから立方体への変換 パノラマ画像は、図11に示すように、立方体の各面に対応する6つの別々の画像(前面、背面、左面、右面、上面、下面)に分解することができる。この変換により、パノラマを6つの従来の2D画像として表示することが可能となる。

A.2 Hyperparameters and Efficiency of Genex-Diffuser

Genex diffuserのトレーニングハイパーパラメータを表6に、トレーニングに使用した計算リソースを表6に示す。

Hyperparameters Value
learning rate 1e-5
lr scheduler Cosine
output height 576
output width 1024
mixed precision fp16
training frame 25
lr warmup steps 500
表5: Genex-Diffuserのトレーニング設定。
Setting Value
Total GPU Usage 384 A100 hours
GPU Configuration 2 A100 per batch,           Model Parallelism
Training Time 0.12 minutes per step
Inference Time 0.031 minutes per frame
表6: Genex-Diffuserのトレーニングおよび推論時間。

A.3 Genex-DB

データセットの作成において、我々は4つの異なるスタイルのシーンを使用し、異なる視覚表現が最終的なモデルのパフォーマンスにどのように影響するかを検討する。

  • リアリスティック:Unreal Engine 5のサンプルシティを使用し、フォトリアリスティックな環境に対するモデルの処理能力を評価するために設計された。

  • アニメーション:様式化されたアニメーション設定におけるモデルのパフォーマンスをテストするために作成された。

  • 低テクスチャ:テクスチャの詳細が最小限の環境にモデルがどの程度適応するかを評価するために使用され、モデルが建築物のみに依存して学習できるかどうかに焦点を当てている。

  • ジオメトリ:単純な幾何学的形状(立方体と円柱)のみで構成され、モデルが基本的な形状からパノラマ移動を学習できるかどうかを判断するために設計された。

選択された3D環境において、我々はランダムな位置とランダムな回転をサンプリングする。物体との衝突がない20メートルの直進経路をサンプリングし、この経路を一定の速度で移動する50フレームの動画をレンダリングする。トレーニング中、我々はframe1からframe52{}_{2}5start_FLOATSUBSCRIPT 2 end_FLOATSUBSCRIPT 5までのランダムなフレームを条件画像としてサンプリングし、次の25フレームのナビゲーションを正解とする。画像例は図12に示されている。

Refer to caption
図12: データセット例は4つの異なるシーンである。サンプリングされた各動画は50フレームで構成される。各ステップで、25フレームがトレーニングのために選択される。

データセットの統計を表7に報告する。

Statistics Value
Engine (Environment) UE5 (City Sample), Unity (Low-texture City, Animate), Blender (Geometry)
# scenes 40000 +
# frames 2,000,000 +
# traversal distance (m) 400,000 +
# total time (s) 285,000 +
# navigation direction +inf
表7: Genex-DBのデータ統計。

A.4 Genex-EQA

A.4.1 Dataset details

一般的に、Genex-EQAは単一エージェントと複数エージェントの2つのカテゴリーに分類することができる。単一エージェントのシナリオでは、エージェントは現在の観察のみで適切な決定を下すことができなければならない(これは、シーンに1つのエージェントしか存在しないことを意味する)。複数エージェントのシナリオでは、環境の状態を完全に理解するために、エージェントは他のエージェントの信念を理解する必要がある。各テストケースにおいて、我々は低テクスチャの仮想環境でシーンを繰り返し、観察の現実性レベルによる行動の違いを観察する。

構築されたGenex-EQAデータセットの例を図13に示す。

各シナリオについて、我々は対照群を含めている。例えば、探索の結果、救急車がエージェントに向かって走行する場合、救急車がエージェントから離れて走行する設定も存在する。

Refer to caption
図13: Genex-EQAの質問例。我々は一般的に質問を2つのカテゴリーに分類している。(1) 単一エージェントは、社会的相互作用とは無関係に最適な決定を下すエージェントの能力をテストしている。例えば、最初のシーンでは、決定エージェントは他の車が何を見ることができるかを推論する必要があるが、そのエージェントが持つ信念を推論する必要はない。(2) 複数エージェントは、他のエージェントの信念とその潜在的な相互作用を測定するエージェントの能力をテストしている。例えば、2行目の最初のシーンでは、エージェントは歩行者の周囲に対する信念と、他の車の信念を推論する必要がある。

Genex-EQAデータセットの統計を表8に示す。

Statistics Value
Engine UE5, Blender
Environment City Sample, Low-texture City
# scenes 200 +
# agents 500 +
# average agent per scene 2.7
# text context 800 +
# actions 200 +
# navigation direction +inf
表8: Genex-EQAベンチマークのデータ統計。

Appendix B Quantitative Analysis Implementation

テストされたすべての動画について、FVD、LPIPS、PSNR、SSIMは、各画像を1024×57610245761024\times 5761024 × 576ピクセルにリサイズし、同じ寸法の真値動画と比較して計算される。

画像の潜在MSEについては、各画像を500×500500500500\times 500500 × 500ピクセルにリサイズし、Inception v4モデルSzegedy et al. (2017)を通して処理し、潜在MSEを計算する。IECCを比較する際は、開始フレームと終了フレーム間の潜在MSEを比較する。

B.0.1 LMM Prompt for World Exploration

我々はマルチモーダルLLMにシーン全体を移動するようプロンプトを与えた。そのフォーマットは図14に示されている。移動距離の違いに対応するため、生成から異なる数のフレームを使用する。例えば、拡散モデルが一度に25フレームを生成し、1フレームが0.4メートルの移動を意味する場合、4メートルの移動は最初の10フレームを取ることを意味する。

Refer to caption
図14: ナビゲーションプロンプトのテンプレート。
Refer to caption
図15: 実施型QAプロンプトのテンプレート

B.0.2 Embodied Decision Making using LMM

我々は、図15に示すプロンプトフォーマットを使用して、マルチモーダルLLMにコンテキストを提供する。マルチモーダルのシナリオでは、ユニモーダルの場合に加えて、6つの別個の画像として提示される自己中心的(一人称)視点も含める。

B.0.3 System pipeline of EQA decision-making

我々は、§ B.0.3に一般的な想像力強化LMM POMDPシステムパイプラインを示す。

Refer to caption
図16: EQA回答パイプライン。これは想像力強化POMDPに従い、より情報に基づいた決定のために想像力で信念を更新する。

B.0.4 Evaluation Metric

機械評価。我々は、ベンチマーク対象のエージェントを評価するために、3つの具現化された決定指標を提供する。

  1. 1.

    決定の正確性と信頼度。我々はLLMに特定の形式で生成するようプロンプトを与えたため、正確性と信頼度を直接解析する。LLMが形式に従わなかった場合、それらのケースをフィルタリングして除外する。

  2. 2.

    決定の信頼度。これは、利用可能な情報とコンテキストに基づいて、最も適切な行動を選択するエージェントの信頼度を表す。信頼度は、エージェントの正しい選択に対応する正規化されたロジットの平均を計算することで求められる。

  3. 3.

    思考の連鎖の正確性 この指標は、決定に至るエージェントの論理的推論の正確性を評価する。我々はGPT-4oを審判として使用し、エージェントの思考プロセスを正しい思考の連鎖と比較して評価する。これは、エージェントが最終的な行動に到達するために使用する一連のステップ、推論、および反省を強調する。GPT-4oへのプロンプトは図17に示されている。

Refer to caption
図17: 審判としてのGPT4oへのプロンプトテンプレート。

人間による評価。 我々は全ての人間評価者に同じプロンプトを提示する。単一モーダルのシナリオ(現実的なものと様式化されたもの両方)では、LLMの固定温度と同様にランダム性がないため、同じ結果を再利用する。評価者は情報漏洩を防ぐために3つの厳密なステップを通じて指導される:(1)テキスト説明のみ、(2)自己中心的視点、(3)事前にナビゲートされたGenex生成。この順序的アプローチにより、一貫性が確保され、評価プロセスの完全性が維持される。

B.1 Compared Method: Six-view Exploration

我々は、元のアプローチと同じトレーニング構成とデータセットを使用するが、図18のようにパノラマ画像を直接扱うのではなく、正距円筒図法の画像を立方体の6面に分割する。各面は特定の方向に対応している:前、左、右、後、上、下であり、図11のように、シーンの離散的な部分に焦点を当てることでナビゲーションプロセスを得る。

  • 前面ビューは常に前進する。

  • 左面ビューは右に移動する。

  • 右面ビューは左に移動する。

  • 後面ビューは後退する。

  • 上面ビューは上方向に対しては静止し、前進する。

  • 下面ビューは下方向に対しては静止し、前進する。

各面は明確な視点を提供するが、面間の遷移は立方体の面間で情報が共有されないため、不整合を生じさせる。しかし、パノラマナビゲーションは一般的な世界の文脈を保持することができる。

Refer to caption
図18: 6面探索ベースラインでは、立方体の各面を表す6つの別個の拡散器を訓練する。個々の面は許容可能な品質を維持しているが、パノラマ世界探索のように世界の文脈は保持されない。

B.2 Details of cross-scene generation

このモデルは強力なシーン間汎化能力を示している。表2のサイクル一貫性の結果から、パノラマ生成は訓練セットから大きく逸脱したシーンに対しても良好に機能することがわかる。

データセット § 5.1で説明されたデータセットで訓練された各モデルについて、我々はそのシーン間生成品質を評価する。

評価指標 我々は異なるモデルで訓練された場合の異なるシーンに対するサイクル一貫性を評価し、表9に報告する。

Cycle Consistency Street Indoor Realistic Anime Texture Geometry
Realistic 0.1051 0.0917 0.0687 0.1248 0.1332 0.2047
Anime 0.1044 0.1679 0.1171 0.0571 0.1347 0.2890
Low-Texture 0.1215 0.1032 0.1104 0.1624 0.0508 0.0800
Geometry 0.1471 0.0782 0.1230 0.1746 0.0685 0.0434
表9: シーン間サイクル一貫性(§ 5.2)訓練シーンとテストシーンによる潜在MSE。列はテストシーン、行は訓練シーンによる。

画像例 我々はシーン間生成のいくつかの例を示す。例えば、アニメデータセットを使用して訓練した場合、モデルは低テクスチャデータセットの車の新しい視点を生成するように汎化できる。これは訓練セットに類似のものが存在しないにもかかわらずである。より多くの画像例は図19に示されている。

Refer to caption
図19: シーン間生成の例。Googleストリートビューや屋内シーンは訓練に使用されていない(入力と出力はパノラマ画像である。可視化のためにキューブを抽出している)。

B.3 Extension to 3D Representation of World

3D自己中心的世界。 我々は、単一のパノラマ画像と外部ツールであるDepth-Anything-v2 (Yang et al., 2024a)を組み合わせて、自己中心的な3Dポイントクラウドを再構築することができる。例を図20に示す。画像上の各点について、深度を用いて直接3D位置にマッピングする。

画像の寸法がW𝑊Witalic_W(幅)とH𝐻Hitalic_H(高さ)である場合、ピクセル(u,v)𝑢𝑣(u,v)( italic_u , italic_v )が与えられると、各点(X,Y,Z)𝑋𝑌𝑍(X,Y,Z)( italic_X , italic_Y , italic_Z )は3Dポイントクラウド内の点を表す:

Compute angles: Calculate 3D coordinates:
θ=2πuWπ𝜃2𝜋𝑢𝑊𝜋\theta=\frac{2\pi u}{W}-\piitalic_θ = divide start_ARG 2 italic_π italic_u end_ARG start_ARG italic_W end_ARG - italic_π X=Dcos(ϕ)cos(θ)𝑋𝐷italic-ϕ𝜃X=D\cdot\cos(\phi)\cdot\cos(\theta)italic_X = italic_D ⋅ roman_cos ( italic_ϕ ) ⋅ roman_cos ( italic_θ )
ϕ=π(1vH)π2italic-ϕ𝜋1𝑣𝐻𝜋2\phi=\pi\left(1-\frac{v}{H}\right)-\frac{\pi}{2}italic_ϕ = italic_π ( 1 - divide start_ARG italic_v end_ARG start_ARG italic_H end_ARG ) - divide start_ARG italic_π end_ARG start_ARG 2 end_ARG Y=Dsin(ϕ)𝑌𝐷italic-ϕY=D\cdot\sin(\phi)italic_Y = italic_D ⋅ roman_sin ( italic_ϕ )
Z=Dcos(ϕ)sin(θ)𝑍𝐷italic-ϕ𝜃Z=D\cdot\cos(\phi)\cdot\sin(\theta)italic_Z = italic_D ⋅ roman_cos ( italic_ϕ ) ⋅ roman_sin ( italic_θ )
Refer to caption
図20: 単眼深度推定ツール(Yang et al., 2024a)を用いた深度マップとポイントクラウドによる自己中心的3D再構築。

3D他者中心的世界。 マルチビュー画像から他者中心的な3D再構築を構築するために、任意のパノラマ画像に対して、ランダムな前方移動方向をサンプリングして複数のパノラマ画像を生成することができる。立方体に分解することで、パノラマ画像はDUSt3R (Wang et al., 2024b)のような再構築モデルに入力可能な2D画像となる。例を図21に示す。

Refer to caption
図21: DUSt3R (Wang et al., 2024b)による他者中心的3D再構築。