arXiv	https://arxiv.org/abs/2411.13543
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Davide Paglieri¹, Bartłomiej Cupiał^2∗, Samuel Coward³, Ulyana Piterbarg⁴,
Maciej Wolczyk², Akbir Khan^1,5, Eduardo Pignatelli¹, Łukasz Kuciński²,Lerrel Pinto⁴
Rob Fergus⁴, Jakob Nicolaus Foerster³, Jack Parker-Holder¹, Tim Rocktäschel¹
¹AI Centre, University College London, ²IDEAS NCBR, ³University of Oxford,
⁴New York University, ⁵Anthropic Equal technical contribution, first author was the project lead. Correspondence to [email protected].
Code and Leaderboard at balrogai.com

Abstract

大規模言語モデル（LLM）および視覚言語モデル（VLM）は広範な知識を有し、有望な推論能力を示すが、複雑で動的な環境下での性能にはまだ課題がある。現実世界のタスクでは、複雑な相互作用の処理、高度な空間推論、長期的計画、新しい戦略の継続的な探索が要求される。これらの能力を包括的に評価するための効果的な方法論が我々には不足している。この課題に対処するため、本稿ではBALROGを紹介する。これは、LLMとVLMのエージェント的能力を、多様で挑戦的なゲームを通じて評価するために設計された新しいベンチマークである。我々のベンチマークは、難易度の異なる既存の強化学習環境を組み込んでおり、非専門家の人間が数秒で解決できるタスクから、習得に何年もかかる可能性のある極めて困難なタスク（例：NetHack学習環境）まで含まれている。我々は、性能を測定するための詳細な指標を考案し、複数の人気のあるオープンソースおよびクローズドソースのLLMとVLMの広範な評価を実施した。我々の調査結果は、現在のモデルが比較的容易なゲームでは部分的な成功を収めているものの、より困難なタスクでは著しく苦戦していることを示している。特筆すべきは、環境の視覚的表現が提供された場合にモデルの性能が低下するという、視覚ベースの意思決定における深刻な欠陥が観察されたことである。我々は、エージェントコミュニティにおける今後の研究開発を促進するため、BALROGをオープンで使いやすいベンチマークとしてリリースする。

1 Introduction

大規模言語モデル（LLM）の最近の成功により、複雑な目標を自律的に達成できる汎用エージェントの構築に対する関心が再び高まっているYang et al. (2023)。 LLMは様々な分野にわたる膨大な知識を有し(Brown, 2020; Hendrycks et al., 2020)、特定のシナリオにおいて推論を行うことができ(Wei et al., 2022a; Shinn et al., 2023; Rein et al., 2023)、単純な設定では人間の指示を確実に遂行することができる(Ouyang et al., 2022)。これらの能力は、LLMが逐次的な意思決定を必要とする幅広い人間のタスクを自律的に実行できる効率的なエージェントになる可能性を示唆している。しかし、現在の最先端モデルは、自律的な実世界での相互作用に不可欠な多くのスキルにおいて、依然として持続的な失敗モードを示している。例えば、LLMは動的な環境で堅牢に行動することができず、過ちから確実に学習したり、空間と時間について推論したり、長期的な計画を立てたりすることができない(Xing et al., 2024; Yamada et al., 2023; Kambhampati et al., 2024)。厳密で安全な評価を通じてLLMの能力に対する理解を深めることは、エージェント型LLMを実世界に展開する際のリスクと限界を評価する上で重要である。

現在のエージェント型ベンチマークは、モデルと環境の間の数十回程度の相互作用を含む設定でLLMの性能を評価している。例えば、単純なオフィスタスクの解決(Wang et al., 2024)、インターネットのナビゲーション(Zhou et al., 2023)、GitHubの問題解決(Jimenez et al., 2023)などである。新しいエージェント型プロンプティングフレームワークやOpenAI o1のような短期的推論の改善により、これらのベンチマークにおける最先端の性能が劇的かつ急速に向上している(OpenAI, 2024b; Wang et al., 2023; Fernando et al., 2023; Hu et al., 2024)。しかし、多くの現実的なタスクでは、桁違いに多くの相互作用が必要とされる(Pignatiello et al., 2020; Wansink and Sobal, 2007)。

Refer to caption — 図1: 長文脈対話タスクにおけるLLMの評価のためのBALROGベンチマークの概要。既存モデルの能力を「エージェント戦略」を通じて改善する新しい推論時手法の提出は、agent.pyファイルのみを修正すれば良い。同様に、新しいモデルをゼロショットでベンチマークすることは、client.pyの設定ファイルを調整することで可能である。エージェントクラスには、観察履歴を管理するプロンプトビルダーと、様々なAPIやモデル提供フレームワークの複雑さを抽象化するクライアントが含まれる。env_wrapper.pyファイルは、設定全体で相互作用を標準化し、評価器はエージェントを実行してパフォーマンス指標を収集する。

本稿において、我々は言語モデルおよび視覚-言語モデルの能力における次なる frontier が、長期的な推論と意思決定にあると主張する。そのために、我々は BALROG: Benchmarking Agentic LLM/VLM Reasoning On Games を提案する。BALROG は、多様な複雑な強化学習ゲーム環境を統一されたテストベッドに集約し、長文脈 LLM の研究のためのベンチマークおよびフレームワークである。ゲームは歴史的に、深層強化学習研究の進歩を評価する非常に効果的な指標として機能してきた(Bellemare et al., 2013; Silver et al., 2018; Schrittwieser et al., 2020; Vinyals et al., 2019)。多くの異なるゲーム環境を単一の評価に集約することで、我々は実世界の具体的なタスクに意味のある形で取り組める真の汎用エージェントの開発に向けた進歩を促進することを目指している。具体的に、BALROG は BabyAI、Crafter、TextWorld、Baba Is AI、MiniHack、および NetHack 上で LLM および VLM エージェントをシームレスに実行することを可能にする(Chevalier-Boisvert et al., 2019; Hafner, 2021; Côté et al., 2019; Cloos et al., 2024; Samvelyan et al., 2021; Küttler et al., 2020)。これらの環境は軽量なシミュレータを持っており、研究コミュニティにとって手頃なベンチマークであることを保証している。さらに、これらのゲームはすべて長期的な horizon を持つが、最先端の長文脈モデルによる適度なゼロショット性能が見られるタスク（BabyAI）から、数十億の領域内データポイントで訓練された特殊なニューラルモデルでさえ非常に限られた進歩しか見られないもの（NetHack）まで、幅広い難易度レベルにわたっている(Piterbarg et al., 2024; Klissarov et al., 2023; Wołczyk et al., 2024)。BALROG は単純な記憶によって解決することが困難である - ベンチマークで使用されるすべての環境は手続き的に生成され、同じ環境のインスタンスに二度遭遇する可能性は低い。

我々は、提案された6つの環境を用いて、様々な人気のあるLLMとVLMの能力を評価する。タスク完了にどの程度近づいているかを捉える細分化された指標を採用しており、これにより結果として得られる軌跡を徹底的に理解することができる。定性的分析において、我々は空間推論、体系的探索、長期計画、環境力学の発見に関するエージェントの能力を研究する。現在のトップLLMは最も単純なタスクでは有望な結果を示すが、MiniHackやNetHackのようなより困難なタスクでは意味のある進展を全く示せないことが分かった。一部のモデルは事前学習からゲームに関する知識を示すが、実践でそれを活用できていない。例えば、NetHackにおいて、GPT-4oは腐った食べ物の摂取で頻繁に死亡するが、プロンプトで尋ねると、それが非常に危険であると正しく識別する。さらに、我々は入力表現の影響を研究する。環境の大半はビジョンを念頭に置いて作成されたにもかかわらず、マルチモーダルLLMは、環境の画像も提示された場合、テキストのみの観察描写を提示された場合と比べて、はるかに性能が劣ることが分かった。これは、信頼性の高いビジョンベースの意思決定が現在、我々の手の届かないところにあることを示唆している。

本稿の結果は、BALROGが非常に困難なベンチマークであり、長期計画、空間推論、ナビゲーションなどの重要な分野における細かな進歩を観察することができることを示している。我々はコードベースを共有し、外部からの投稿を受け付けるためにベンチマークを公開する。我々の貢献を以下のようにまとめる：

•

BALROG、長文脈LLMのエージェント能力をテストするための6つの強化学習環境からなるスイート。我々はモデル評価のための詳細な指標を提供し、NetHackのための新規のデータ情報に基づく進行システムを開発した。
•

言語-視覚および言語のみのモダリティにおいて、ゼロショットプロンプティングを用いたBALROGに対する最先端LLMのベースライン評価。我々は、モデルが比較的容易なゲームでは適度な性能を示す一方で、ベンチマークで最も難しいゲームであるNetHackの解決からは全てのモデルが非常に遠いことを示す。環境の画像が提示されると性能がさらに低下することが観察され、VLMの意思決定に深刻な問題があることが示唆される。
•

我々は、空間推論、体系的探索、長期計画などの能力に関する結果の定性的分析を行う。モデルが保有する知識を活用できないという興味深い知行不一致を特定する。
•

BALROGにおける長文脈モデルのベンチマーキングのためのオープンソースツールキット。このツールキットにより、研究者や実務者がモデルの性能を迅速に評価することが可能となる。本稿で行われたベースライン評価はゼロショットであるが、BALROGツールキットは推論時のプロンプティング戦略（思考連鎖(Wei et al., 2022b)、少数ショット学習など）をサポートしている。

2 BALROG

BALROGは、既存の長文脈LLMが主体的であるか、つまり、連続的な意思決定を必要とする複雑な活動を自動化するために使用できるかどうかについての我々の理解を深めることを目的としたベンチマークおよびフレームワークである。長期的な計画立案、空間推論、環境のメカニズムを推論する能力などのスキルをテストする、挑戦的な強化学習環境におけるモデル評価をサポートしている。

設計上、BALROGフレームワークは、推論時のプロンプト戦略を基礎となるモデルから明示的に切り離している。この設計選択の目的は二つある：(1) ゼロショットプロンプティングを超えて、長文脈の意思決定におけるモデルのパフォーマンスを向上させるための推論時手法の迅速なプロトタイピングを促進すること、(2) モデル評価の一貫性と厳密性を確保すること。

本節の残りの部分では、ベンチマークで評価されるゲーム環境を紹介し、BALROGベンチマークリーダーボード¹¹このリーダーボードは出版時に一般公開される。へのモデル提出のプロトコルについて議論する。

2.1 Environments

BALROGは、以下に説明するゲームにおいて、長文脈モデルをエージェントとして評価する。

BabyAI。 (Chevalier-Boisvert et al., 2019; Carta et al., 2023) エージェントが自然言語で記述された様々な複雑さのタスク（例：「青いボールに行き、その後灰色の鍵を拾う」）を解決しなければならない、単純な二次元グリッドワールドである。エージェントは5種類の異なるナビゲーションタスクにわたってテストされる。付録Aを参照。

Crafter。 (Hafner, 2021) Minecraftにインスパイアされたグリッド環境で、プレイヤーは生存を確保するために探索し、資源を集め、アイテムを作成しなければならない。エージェントは、新しい資源の発見や道具の作成など、達成したマイルストーンの数に基づいて評価される。付録Bを参照。

TextWorld。 (Côté et al., 2019) 視覚的要素のない完全にテキストベースのゲームで、エージェントは自然言語を通じて迷路を探索し、日常的な物体と相互作用しなければならない（例：「オーブンでジャガイモを調理する」）。BALROGの他の環境とは異なり、TextWorldはグリッドワールドではない。モデルは3つの異なるタスクで評価される。付録Cを参照。

Baba Is AI。 (Cloos et al., 2024) 人気のパズルビデオゲームBaba Is Youに基づく環境である。プレイヤーは単語ブロックを押すことでゲーム世界のルールを操作し、オブジェクトの相互作用の仕方を変更する。エージェントは40のパズルでテストされる。付録Dを参照。

MiniHack。 (Samvelyan et al., 2021) MiniHackは、NetHack Learning Environment (Küttler et al., 2020)の上に構築されたマルチタスクフレームワークである。我々は、Maze、Corridor、CorridorBattle、Boxoban、Questという5つの異なるタスクを選択した。これらは集合的に、探索、ナビゲーション、長期計画、資源管理など、幅広いスキルを評価する。付録9を参照。

NetHack Learning Environment (NLE) (Küttler et al., 2020)は、その極端な難しさと複雑さで知られる古典的なローグライクゲームNetHackに基づいている。NetHackでの成功には、勝利するゲームが数十万ステップを必要とする可能性があるため長期的な戦略的計画が必要であり、また怪物の群れと戦うための短期的な戦術も必要である。正確なクレジット割り当ても、どの行動が成功または失敗に寄与したかを理解するために重要である。人間のプレイヤーがNetHackを外部のガイドにアクセスせずにマスターするには何年もかかる。特筆すべきは、研究によると、LLMはゲームメカニクスと最適な戦略に関する質問に答えることができるが（付録F.5参照）、実践でこの知識を適用することに失敗することである。詳細は付録Fを参照。

表1: BALROGで評価されるインタラクティブな意思決定タスクのテストされるスキル、時間軸、複雑さ。既存のベンチマークと比較して、BALROGはより困難で長期的な時間軸を持つインタラクティブな設定でのモデルの推論と意思決定を評価するためのインフラストラクチャを提供する。評価されるタスクは様々な難易度にわたっている。

Skills	BabyAI	TextWorld	Crafter	Baba Is AI	MiniHack	NLE
Navigation	✔	✔	✔	✔	✔	✔
Exploration	✔	✔	✔	✔	✔	✔
Resource Management	✗	✔	✔	✗	✔	✔
Complex Credit Assignment	✗	✗	✔	✔	✔	✔
Deducing Env. Dynamics	✗	✗	✗	✔	✔	✔
Long-term Planning	✗	✗	✗	✔	✔	✔
Turns to Complete	$10^{1}$	$10^{2}$	$10^{3}$	$10^{2}$	$10^{2}$	$10^{4}$ – $10^{5}$
Time to Master for Humans	Seconds	Minutes	Hours	Hours	Hours	Years

表1は、ベンチマークで使用される環境の概要を提供し、各環境で成功するために必要な推論とエージェントの能力の詳細を示している。この多様な環境セットにより、BALROGはLLMエージェントの能力を評価するための包括的なベンチマークとして位置付けられ、今後何年にもわたってそのパフォーマンスを評価するための貴重なツールとなる。

2.2 Submitting to the Benchmark Leaderboard

BALROGベンチマークは2種類の提出を受け付けている。

新規モデル。提出には、大規模言語モデル（LLM）、視覚言語モデル（VLM）、大規模行動モデル（LAM）、または既存モデルの微調整版など、あらゆる種類の新規モデルを含めることができる。主要な要件は、これらのモデルが自然言語で行動を生成する能力を持つことである。デフォルトでは、これらのモデルはゼロショットで評価される。

エージェント戦略。提出には、既存のモデルの推論、計画、または文脈内学習能力を向上させるための新規の推論時プロンプト戦略を提案することができる。これらの戦略は、単純なゼロショットプロンプトによる直接的な行動予測を超えて、推論時の意思決定においてより洗練された技術を示すべきである。

3 Zero-Shot Evaluation Protocol

本節では、BALROGにおける最先端の長文脈言語モデル（LLM）および視覚言語モデル（VLM）を評価するためのプロトコルについて説明する。これらの評価は、ベンチマークのベースラインとして機能することを意図している。そのため、ゼロショット性能のみを検証するものである。

3.1 Evaluation Setting

我々は評価設定をシンプルに保つことを目指している。インタラクションの各タイムステップにおいて、エージェントは環境内での過去のインタラクション履歴を条件として、次のアクションを自然言語の文字列として出力するよう促される。BALROGで成功を収めるためには、モデルはゲームルールの読解と解釈、アクション空間の理解、タスクを効果的に完了するための有効なアクションの生成など、堅牢な指示追従能力を示す必要がある。

LLM/VLMが幻覚や無効なアクションを出力するケースに対処するため、BALROGはエージェントにアクションの無効性を示すフィードバックを提供し、その後デフォルトのフォールバックアクション（「何もしない」アクションや「北に移動」などの標準的な移動）を実行し、軌跡統計のためにその発生を記録する。これにより、インタラクションが継続的かつ堅牢に維持されると同時に、ユーザーが事後評価分析でそのようなエラーの文脈と頻度を分析できるようになる。

BALROGの図式的な可視化を図1に示す。我々はエージェントを、基礎となるLLM/VLMモデルと特定のプロンプト戦略の組み合わせとして概念化している。我々は、OpenAI、Gemini、ClaudeなどのクローズドソースのLLMとVLMのAPIをシームレスに統合し、ユーザーが容易にモデルを切り替えて評価できるようにする統一されたクライアントラッパーを提供している。ローカルで提供されるモデルの評価については、生成リクエストを効率的にバッチ処理することでスループットを最適化するvLLMライブラリ(Kwon et al., 2023)のネイティブサポートを含めている。結果の統計的有意性を確保するため、各環境に対して複数のシードを使用している。

メトリクス公平で解釈可能な評価を確保するため、我々は各タスクのパフォーマンスを0から100の範囲でスコア化する標準化されたメトリクスを導入している。MiniHack、BabyAI、Baba Is AIなどの環境では、各エピソードはタスク完了に基づいて0または100のいずれかでスコア化される。TextWorld、Crafter、NetHackについては、最高スコアに対する達成度の割合を表す0から100の間の実数をスコアとして使用する。NetHackについては、ゲームのスコアリングシステムが実際の進行を適切に反映していないため(Wołczyk et al., 2024)、我々はエージェントのパフォーマンスをより適切に捉えるために、付録F.2で説明する新しいデータ情報に基づく進行メトリクスを提案している。

パフォーマンス BALROGは、スイート内の各環境の軽量シミュレータを活用して、高度に並列化された評価をサポートしている。これらの評価により、最小限の計算オーバーヘッドで複数のエージェントと環境インスタンスを同時に実行できる。環境インスタンスは互いに非同期で実行され、様々な観察長に対応し、生成速度の速いエージェント（アクションごと）が遅いエージェントのボトルネックの影響を受けないようにしている。

3.2 Observations

初期プロンプトでは、エージェントにゲームのルールが紹介され、利用可能なアクションのリストが簡単な説明とともに提供される。モデルの過度な特殊化を防ぐため、我々は特定のLLMに微調整されていない一般的なプロンプトを設計した。その後のプロンプトでは、観察-行動の履歴をチャットベースの形式で提示する。ゲームのルールと観察は「ユーザー」の視点から伝えられ、過去のアクションは使用されるモデルの種類に応じて「アシスタント」または「モデル」の役割に帰属される。この構造は、指示に従うLLMの微調整に使用される標準的な形式を反映している。ゲームの観察の詳細な例は付録に含まれている。

視覚的要素を欠くTextWorldを除き、我々はすべての環境を2つの観察モダリティを用いて評価する：

言語のみの形式観察は環境の状態を自然言語で記述したものである（例：「5歩先に壁があり、左2歩に壁がある…」）。ネイティブのテキスト表現がない環境については、オープンソースの言語ラッパーを使用して記述を生成するか（BabyAI (Carta et al., 2023)、Crafter (Wu et al., 2023)、NetHack、およびMiniHack (Goodger et al., 2023)）、独自のラッパーを開発する（Baba is AI、付録5参照）。

視覚-言語形式 VLMの場合、観察は環境の現在の状態を表す画像と、その自然言語による記述（上記）で構成される。この形式では、画像は現在の観察のみに対応するが、観察履歴に複数の画像を含めることもサポートしている。

最も複雑な環境、すなわちMiniHackとNetHackについては、言語ベースの観察にASCII文字でレンダリングされた2次元マップを追加する。すべての実験において、タスク間の一貫性を保つために16の観察の履歴長を使用する。ただし、このベンチマークに提出する参加者は、それぞれのモデルと実験に応じて観察履歴の長さを必要に応じて変更することが許可されている。

3.3 Models

我々は、Gemini-1.5-FlashとGemini-1.5-Pro (Reid et al., 2024)、GPT-4o-mini（2024年7月18日リリース）とGPT-4o（2024年5月13日リリース）(Achiam et al., 2023; OpenAI, 2024a)、Claude 3.5 Sonnet (Anthropic, 2024)、さらにLlama 3.1 instruct（8Bおよび70B）(Dubey et al., 2024)とLlama 3.2 instruct（1B、3B、11Bおよび90B）(MetaAI, 2024)を含む、一連の人気のあるクローズドソースおよびオープンソースモデルを評価する。加えて、予算の制約により、o1-mini（2024年9月12日リリース）とo1-preview（2024年9月12日リリース）(OpenAI, 2024b)をNetHack環境でのみテストする。

4 Results

図2において、我々は言語のみのフォーマットと視覚-言語フォーマットの両方についてBALROG評価スクリプトを使用した実験結果を示している。ほとんどの主要モデルがBabyAI、Crafter、Baba Is AIにおいて公平な平均進捗を示しており、GPT-4oが最も優れた性能を示している。興味深いことに、オープンソースのLlama 3.1 70BとLlama 3.2 90Bモデルが、Baba Is AIの言語のみのフォーマットで最高の結果を達成し、GPT-4oとClaude 3.5 Sonnetをわずかに上回っている。TextWorldでは、GPT-4oとClaude 3.5 Sonnetが先行しているが、Geminiモデルはタスクを全く完了できず、プロンプトに実際の安全性の懸念がないにもかかわらず、Google Gemini APIによって「安全でない」とフラグが立てられている。MiniHackスイートは全てのモデルにとって非常に困難であり、特にquestとboxobanのタスクはどのモデルによっても解決されなかった。最後に、NetHackでは全てのモデルが横ばいとなり、最も性能の良いo1-previewモデルでさえ、平均ゲーム進捗率はわずか1.5%にとどまっている。

表LABEL:llm_tableは、言語のみのフォーマットにおける全環境での集計結果をまとめたものである。全体として、GPT-4oが平均進捗率31.62%で最も優れたモデルであり、Claude 3.5 SonnetとLlama 3.1 70Bがそれに続いている。Gemini-1.5-Proは他の大規模モデルに遅れを取っているが、これは部分的にTextWorldでの0%の性能によるものである。しかし、表LABEL:vlm_tableに示されているように、視覚-言語フォーマットでは結果が異なる。ここでは、GPT-4oとLlama 3.2の両方が画像観察が含まれると性能が低下することが観察される。これは、追加された視覚入力による混乱が原因である可能性が高い。対照的に、Gemini-1.5-ProとClaude 3.5 Sonnet（特に後者）は両フォーマットで一貫した性能を維持している。これは、現在のマルチモーダルTransformerアーキテクチャがまだ視覚入力よりもテキスト情報の処理に適していることを示唆しており、この話題については第6節でさらに詳しく探究する。さらに、Llama 3.1 70Bは言語のみのフォーマットにおいて、より大規模で新しいLlama 3.2 90Bを上回る性能を示しており、後者に視覚処理が導入されたことが言語能力と推論能力に悪影響を与えた可能性を示唆している。各環境のより詳細な結果は付録に示している。

表2: 言語のみの性能

Model	Average Progress (%)
gpt-4o	32.34 $\pm$ 1.49
claude-3.5-sonnet	29.98 $\pm$ 1.98
llama-3.1-70b-it	27.88 $\pm$ 1.43
llama-3.2-90B-it	23.66 $\pm$ 1.09
gemini-1.5-pro	21.00 $\pm$ 1.18
gpt-4o-mini	17.36 $\pm$ 1.35
llama-3.1-8b-it	14.14 $\pm$ 1.51
llama-3.2-11B-it	13.54 $\pm$ 1.05
gemini-1.5-flash	9.73 $\pm$ 0.77
llama-3.2-3B-it	8.47 $\pm$ 1.12
llama-3.2-1B-it	6.32 $\pm$ 1.00

表3: 視覚-言語の性能

Model	Average Progress (%)
claude-3.5-sonnet	29.08 $\pm$ 2.21
gemini-1.5-pro	25.76 $\pm$ 1.36
gpt-4o	22.56 $\pm$ 1.44
gpt-4o-mini	15.36 $\pm$ 1.29
gemini-1.5-flash	14.94 $\pm$ 1.40
llama-3.2-90B-it	13.43 $\pm$ 1.16
llama-3.2-11B-it	6.91 $\pm$ 0.84

4.1 Qualitative analysis

我々は、各環境におけるモデルの軌跡を分析し、共通の行動パターンや環境固有の課題を特定した。

空間推論言語モデルは基本的なナビゲーションにおいてある程度の能力を示すものの、より複雑な空間推論タスクにおいては顕著な限界を露呈する。BabyAIスイートでは、一部のシナリオで要求される「物体を他の物体の隣に配置する」能力において、エージェントの著しい欠点が観察された。NetHackとMiniHack CorridorBattleでは、プレイヤーが狭い通路内で怪物に囲まれないよう機動する必要があるため、戦闘時に優れた空間推論が不可欠である。しかしながら、エージェントは頻繁に追い詰められる結果となった。

体系的探索我々の実験により、モデルの探索能力に重大な弱点があることが明らかになった。エージェントがコインを見つけるために家を探索しなければならないTextWorldのCoin Collectorでは、エージェントがしばしば無目的に彷徨い、重要な領域を見逃しながら既に探索した部屋を再訪する傾向が見られた。効率的なエージェントであれば、深さ優先探索（DFS）的な方法で各部屋を体系的に探索し、訪問済みの領域を記録しつつ未探索の空間を優先するはずである。MiniHackのより複雑なクエストでも同様の問題が露呈し、モデルは迷路のような構造を効率的にナビゲートすることができなかった。

長期計画エージェントは長期的な計画の立案と実行において著しい欠陥を示している。慎重な計画が必要なMiniHackとNLEにおいて、我々はほぼゼロに近い性能を観察した。特に、MiniHackのBoxoban論理パズルでは、取り返しのつかない失敗を避けるために毎ステップで慎重な計画が必要とされるが、成功した軌跡は一つも観察されなかった。 LLMは、単一の順伝播で利用可能な有限の計算量により、必然的に推論問題の一部のみを解決することに制限される。我々は、現在のモデルの深さ、FLOP数、重みに埋め込まれた推論解決テンプレートでは、これらのモデルがBALROGの推論タスクを解決できないことを観察した。OpenAI o1の思考連鎖能力により、NetHackにおいて言語のみのモードで最も近い競合相手であるClaude-3.5-Sonnetの約3倍の性能を示すという顕著な改善が見られた。しかし、その平均進行率1.57%は依然として満足のいくものではない。

環境ダイナミクスの発見と活用一部のゲームでは、新しい戦略を考案するために、実験を通じて自明でない因果構造を推論する必要がある。例えば、プレイヤーはpotion of paralysisを飲むことでその効果を特定し、その後、敵を無力化するためにそのようなポーションを敵に投げつけるという戦略的な使用法を思いつく可能性がある。このような実験と戦略的思考はNetHackでの成功に不可欠である。しかし、現在のモデルはこのような文脈依存の戦略を策定し実行することに苦戦している。MiniHack Quests環境では、モデルはwand of coldやring of levitationを使用して溶岩の川を渡るといった複数ステップの戦略を考案し実行することができない。 Crafterでは、エージェントは木材の収集、アイテムの作成、水を飲む、さらには戦闘に参加するといった基本的なタスクを処理できるが、夜間の脅威から身を守るためのシェルター建設といった長期的な生存スキルを学習することができない。

知行不一致我々は顕著な「知行不一致」を観察した。これは、モデルがゲームプレイ中に、その行動の負の結果を知っているにもかかわらず、望ましくない行動を実行することを指す。例えば、NetHackでは、モデルがゲーム開始直後にダンジョンを出てしまい、即座にゲームが終了するケースが多く見られた。NetHackの最初のレベルを出ることの結果について別のスレッドで質問すると、それが即座の死につながる非常に望ましくない行動であることを正しく認識している。同様に、NetHackで腐った食べ物を食べると死に至る可能性があることをモデルは正しく認識しているにもかかわらず、これが失敗の一般的な原因となっており、知識と意思決定の間の乖離を浮き彫りにしている。さらに、モデルは入力プロンプトに直接存在するヒントさえも無視する傾向があり、過食を避けるよう助言されているにもかかわらず、過食によって死亡してしまう。この問題をより詳細に研究するため、我々はNetHackの基本的な知識を問うアンケートを用意した（付録F.5参照）。

5 Related Work

大規模言語モデルの評価は、これまで静的で非対話的なタスクを重視するベンチマークに依存してきた。一般的な言語理解をテストするSuperGLUE (Wang et al., 2019)や、大規模なマルチタスク言語理解を測定するMMLU (Hendrycks et al., 2020)などのベンチマークは、LLM研究の進展に重要な役割を果たしてきた。BigBench (Srivastava et al., 2022)は、多様な言語的・認知的課題を含めることでその範囲をさらに拡大している。GSM8KやMATH (Cobbe et al., 2021; Hendrycks et al., 2021)のような数学的推論データセットは、モデルの小学校レベルや競技レベルの数学問題を解く能力を評価し、Shi et al. (2022)は多言語での思考連鎖推論を探究している。コードの理解と生成の分野では、HumanEval (Chen et al., 2021)やCodeXGLUE (Lu et al., 2021)などのベンチマークがプログラミングタスクにおけるモデルの能力を評価している。

しかしながら、これらのベンチマークは単一ターンまたは短文脈のシナリオに限定されており、逐次的な意思決定や変化する環境への適応を必要とせず、急速に飽和しつつある (Kiela et al., 2021)。研究コミュニティは、動的環境で行動し、ツールを使用し、先を見越して計画を立て、周囲の状況を推論できるエージェント型基盤モデルの最前線を押し進めることを目指しているため、静的なベンチマークでは我々が求めている進歩を十分に捉えられない可能性がある。研究者たちは最近、LLMがこれらのスキルを使用して実用的なタスクを解決する方法を調査している。これには、オフィス関連の雑務を遂行するためのコンピューターインターフェースの使用 (Wang et al., 2024; Qin et al., 2024)、ウェブページのナビゲーション (Yao et al., 2022; Zhou et al., 2023)、GitHubの問題解決 (Jimenez et al., 2023)などが含まれる。いくつかの研究では、LLMのマルチエージェント能力を調査し、協力できるか (Gong et al., 2023; Piatti et al., 2024)、または他のエージェントと効果的に対戦できるか (Jin et al., 2024; Wu et al., 2024)を検討している。

本稿では、ビデオゲームの文脈におけるエージェント的スキルを研究する。ビデオゲームは人間のプレイヤーに適した課題を提供し、具現化されたエージェントにとって有用なスキルを試すものである。以前の関連研究では、LLMのベンチマークにゲームを使用し(Liu et al., 2023b; Todd et al., 2024; Wu et al., 2023)、問題解決、空間推論、明確に定義されたルールと目標に重点を置いていることを強調した。しかし、これらのベンチマークの一部はすでに飽和状態に達しており、Crafterのような環境が彼らのスイートの中で最も挑戦的なものとなっている。対照的に、BALROGは様々な難易度のゲームを幅広く提供することで重要なギャップを埋めている。これには、人間が習得に何年もかかるNetHack Learning Environment (Küttler et al., 2020)も含まれ、ゼロショットLLMが大きく苦戦することは先行研究でも示されている(Jeurissen et al., 2024)。これらのタスクは、エージェント的基盤モデルを評価するための豊かで粒度の細かいテストベッドを表しており、LLM/VLMの意思決定評価をそのコンテキスト長の限界まで押し進めている。MineDojo (Fan et al., 2022)やMineRL (Guss et al., 2019)のような他の環境もエージェント的能力に対してオープンエンドな課題を提示しているが、その急峻な計算要件とマルチモーダル入力への依存性により、アクセスしやすい大規模ベンチマークとしては実用性が低くなっている。

BALROGは現在、単一エージェントの基礎的能力の評価に焦点を当てているが、将来の拡張では、LLMのチームワークと調整スキルをテストするユニークな機会を提供するマルチエージェント協調環境を探索することができる。例えば、Overcooked (Carroll et al., 2019; Liu et al., 2023a)は、エージェントが時間制約とタスクの依存関係の下で効率的に協力しなければならない協調的な料理環境をシミュレートし、計画と通信能力をテストする。もう一つの魅力的な環境はHanabi (Bard et al., 2020)であり、これは協調的なカードゲームで、プレイヤーは部分的な観察可能性の下で共有目標を達成するために間接的なコミュニケーションと推論的思考に頼らなければならない。これらの環境は、エージェント的LLMのより広範な展開に不可欠な、高度な協調とマルチエージェント意思決定スキルをベンチマークする豊かな機会を提供している。

6 Open Research Problems

BALROGはモデル評価のための有用性に加えて、LLMとVLMのエージェント能力を向上させるための新しい推論時手法を迅速にプロトタイピングするためのテストベッドも提供している。この分野には多くのオープンな研究課題がある。本稿執筆時点では、短文および/またはより短いコンテキストの問題におけるモデルの推論能力を向上させるための最も効果的な手法の一部は、BALROGの非常に長いコンテキスト性質のタスクに単純に適用することは不可能である。これらの課題に取り組むことで、より強力な自律エージェントの開発をさらに促進できる可能性がある。以下に、将来の研究のための重要な分野をいくつか挙げる。

In-Context Learning and Few-Shot Prompting

BALROGは、分布外のタスクに適応するために少数ショットの例を使用できる文脈内学習（ICL）エージェントの評価を可能にする。我々は各環境に対する人間のデモンストレーションの小規模なデータセットと、BALROGコードベースにおける少数ショットの条件付けの実装を提供している。このベンチマークコードベースは、推論中に失敗から学習して改善するエージェントの文脈内強化学習の研究もサポートしている(Lee et al., 2024; Laskin et al., 2022; Lin et al., 2023)。第4節でベンチマークされた大規模モデルでは、単純な少数ショット学習（つまり、LLMとVLMエージェントに完全な人間のゲームの例を文脈内でプロンプトすること）は、BALROGで実行するには非常に計算コストが高い。例えば、NetHackのゲームプレイの単一のデモンストレーションは、プロンプトで表現するのに $700,000$ 以上の入力トークンを必要とする可能性がある。キャッシングや長文脈プロンプティングのAPIコスト低下など、高速推論技術の進歩にもかかわらず、我々はこれらの実験を現時点で実行することは不可能であると判断した。検索拡張少数ショットプロンプティング戦略(Lewis et al., 2020)を通じてデモンストレーションの関連部分のみを選択することで、これらの課題を回避できる可能性がある。我々はこのような手法の探索を今後の研究課題として残している。

Advanced Reasoning Strategies

BALROGは、LLMとVLMにゲームプレイの次の行動を直接予測させるだけでなく、チェーン・オブ・ソート(Wei et al., 2022b)、自己改善(Madaan et al., 2024)、基本的な計画立案などのより高度な推論技術の研究もサポートしている。これらの手法は、短いコンテキストの問題におけるモデルの性能を向上させることが実証されている。我々は、これらが長期的なコンテキストにおける推論と意思決定に関する将来の研究の興味深い方向性であると考えている。例えば、BALROGのタスクにおけるモデルの性能は、マルチエージェント協調(Chang, 2023; Khan et al., 2024; Yao et al., 2024)やツール使用(Shen et al., 2024; Ruan et al., 2023; Schick et al., 2024; Qin et al., 2023)を意思決定に統合することで改善される可能性がある。さらに、記憶メカニズムや強化学習技術を組み込むことで、「知識と行動のギャップ」を埋め、モデルが実践的な長期的タスクにおいて知識を効果的に適用できるようになる可能性がある。最後に、オープンエンドな自己改善ループ(Wang et al., 2023; Hu et al., 2024)を実験することで、より適応性が高く汎用的なエージェント(Team et al., 2023; Hughes et al., 2024)につながる可能性があり、真に自律的なシステムへの道筋を提供する可能性がある。

Limitations of Current Vision-Language Models

その潜在的可能性にもかかわらず、我々のベンチマークはVLMの性能に大きなばらつきがあることを示している。Llama 3.2のように視覚情報を一貫した意思決定に統合することに苦戦するモデルもある一方で、特にSonnet 3.5のようなモデルはVLMモードでより強力な性能を示している。この格差は、VLMの能力に大きな変動があることを浮き彫りにしており、これは訓練目的やデータセットの違いに起因する可能性がある。例えば、Sonnet 3.5の優れた性能は、コンピュータの使用に関連するタスクでの訓練に一部起因しており(Anthropic, 2024)、これは本質的に行動ベースの推論のために視覚的および文字的入力を統合することを必要とする。

最近の研究では、我々の発見と一致するVLMの主要な限界が特定されている。これには、自然な画像-テキストペアへのバイアス、画像説明よりも行動指向の推論のための最適化、分布外入力への課題が含まれる(Tan et al., 2024; Tong et al., 2024; Rahmanzadehgervi et al., 2024; Zang et al., 2024; Guan et al., 2023)。これらの限界は、我々のベンチマークでさらに例証されており、グリッドベースの画像観察は多くのVLMが訓練された自然な画像-テキストペアとは大きく異なっている(Yu et al., 2023; Rahmanzadehgervi et al., 2024)。さらに、画像処理の計算コストにより、我々の評価は観察ごとに単一の画像に制限され、履歴の残りはテキストで提供された。この制約は一部のモデルの性能を妨げる可能性があるが、我々の結果は、Claude 3.5 Sonnetのような特定のVLMがこれらの条件下でも堅牢に機能できることを示している。

これらの課題に対処するため、我々のコードベースはすでに複数画像の観察履歴をサポートしており、将来のイテレーションでは、我々のベンチマークの中心となる長期的な逐次意思決定タスクにより適していると思われるビデオ観察を組み込む予定である。これらの強化は、複雑な推論シナリオにおけるVLMの潜在能力をより良く評価し活用することを目的としている。我々は、効率的なビデオ処理機能を持つ著名なモデルが利用可能になり次第、ビデオ観察のサポートを導入する計画である。これにより、我々のベンチマークがVLM技術の最新の進歩と整合し続けることを確保する。

Computational Limitations of Large Language Models

メカニスティック解釈可能性は、エージェント型大規模言語モデル（LLM）の計算上の限界を理解する上で貴重な洞察を提供する可能性がある。LLMの計算表現力は、複雑な推論問題を解決する能力と本質的に結びついている (Wei et al., 2022a)。現在のモデルは、ナビゲーションや物体操作などの単純なタスクでは優れた性能を示すが、避難所の構築や戦闘戦略の立案など、非自明で汎用的な計算を必要とする可能性のあるより複雑なタスクでは苦戦している。これは、モデルが関連する計算回路を取り出す能力の欠如 (Olah et al., 2020)、推論時間の予算の制限 (Snell et al., 2024)、あるいは表現の表現力の限界によるものかもしれない。これは、LLMやVLMが効果的に解決できるタスクの範囲に関する重要な疑問を提起する。その範囲は、モデルの深さ、コンテキストサイズ、事前学習とダウンストリームタスク間の分布シフトなどの要因に依存する。これらの限界の根本的な原因を理解し、実行時の計算回路の適応的シミュレーションなど、それらを克服するための戦略を開発するためには、さらなる研究が必要である。

7 Conclusion

我々は、LLMとVLMの主体的能力を多様で長期的な課題にわたって評価するために設計された新しいベンチマーク、BALROGを紹介する。容易に再現可能な評価プロトコルを通じて、BALROGは現在のモデルの重大な欠点を明らかにしている。特に、視覚ベースの意思決定や長期的計画などの分野において、モデルの性能と人間レベルの能力との間に明確なギャップがあることを特定している。我々の定性的分析を通じて明らかになったこれらの欠点は、実世界のシナリオで直面する課題を反映しており、主体的アプリケーションに対する本ベンチマークの実践的な関連性を強調している。我々の評価フレームワークは、高速で手続き的に生成された環境を活用しており、他のベンチマークでよく見られる問題であるテストセットの漏洩を防ぐことで、厳密かつ公平な比較を保証している。本稿は、BALROGが自律的なLLMエージェントに向けた研究を支援し、推進するための重要なツールとなると確信している。

Ethics Statement

本稿は、大規模言語モデル（LLM）のエージェント的能力に関するベンチマークを提供するものである。我々は、エージェントの行動が容易に解釈できるシミュレーション環境での実験が、安全なエージェントシステムを構築する上で極めて重要であると考えている。エージェントの行動が人間の意図とよく整合していることをいかに確保するかという問題に取り組むことが重要である。

Reproducibility Statement

我々は本稿のすべての実験を完全に再現可能にすることを目指している。評価のためのコードベースを共有しており、これは補足資料で入手可能である。特定の環境の評価スキームの詳細な説明は付録AからFに記載されている。

References

Achiam et al. (2023) Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
Anthropic (2024) Anthropic. Developing a computer use model, 2024. URL https://www.anthropic.com/news/developing-computer-use. Accessed: 2024-11-17.
Anthropic (2024) Anthropic. Claude 3.5 sonnet: Enhanced intelligence and versatility, 2024. URL https://www.anthropic.com/news/claude-3-5-sonnet. Accessed: 2024-11-18.
Bard et al. (2020) Nolan Bard, Jakob N Foerster, Sarath Chandar, Neil Burch, Marc Lanctot, H Francis Song, Emilio Parisotto, Vincent Dumoulin, Subhodeep Moitra, Edward Hughes, et al. The hanabi challenge: A new frontier for ai research. Artificial Intelligence, 280:103216, 2020.
Bellemare et al. (2013) Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47:253–279, 2013.
Brown (2020) Tom B Brown. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020.
Carroll et al. (2019) Micah Carroll, Rohin Shah, Mark K Ho, Tom Griffiths, Sanjit Seshia, Pieter Abbeel, and Anca Dragan. On the utility of learning about humans for human-ai coordination. Advances in neural information processing systems, 32, 2019.
Carta et al. (2023) Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, and Pierre-Yves Oudeyer. Grounding large language models in interactive environments with online reinforcement learning. In International Conference on Machine Learning, pages 3676–3713. PMLR, 2023.
Chang (2023) Edward Y Chang. Prompting large language models with the socratic method. In 2023 IEEE 13th Annual Computing and Communication Workshop and Conference (CCWC), pages 0351–0360. IEEE, 2023.
Chen et al. (2021) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
Chevalier-Boisvert et al. (2019) Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen, and Yoshua Bengio. BabyAI: First steps towards grounded language learning with a human in the loop. In International Conference on Learning Representations, 2019. URL https://openreview.net/forum?id=rJeXCo0cYX.
Cloos et al. (2024) Nathan Cloos, Meagan Jens, Michelangelo Naim, Yen-Ling Kuo, Ignacio Cases, Andrei Barbu, and Christopher J Cueva. Baba is ai: Break the rules to beat the benchmark. In ICML 2024 Workshop on LLMs and Cognition, 2024.
Cobbe et al. (2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
Côté et al. (2019) Marc-Alexandre Côté, Akos Kádár, Xingdi Yuan, Ben Kybartas, Tavian Barnes, Emery Fine, James Moore, Matthew Hausknecht, Layla El Asri, Mahmoud Adada, et al. Textworld: A learning environment for text-based games. In Computer Games: 7th Workshop, CGW 2018, Held in Conjunction with the 27th International Conference on Artificial Intelligence, IJCAI 2018, Stockholm, Sweden, July 13, 2018, Revised Selected Papers 7, pages 41–75. Springer, 2019.
Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
Fan et al. (2022) Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, and Anima Anandkumar. Minedojo: Building open-ended embodied agents with internet-scale knowledge. Advances in Neural Information Processing Systems, 35:18343–18362, 2022.
Fernando et al. (2023) Chrisantha Fernando, Dylan Banarse, Henryk Michalewski, Simon Osindero, and Tim Rocktäschel. Promptbreeder: Self-referential self-improvement via prompt evolution. arXiv preprint arXiv:2309.16797, 2023.
Gong et al. (2023) Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante, Yusuke Noda, Zilong Zheng, Song-Chun Zhu, Demetri Terzopoulos, Li Fei-Fei, et al. Mindagent: Emergent gaming interaction. arXiv preprint arXiv:2309.09971, 2023.
Goodger et al. (2023) Nikolaj Goodger, Peter Vamplew, Cameron Foale, and Richard Dazeley. A nethack learning environment language wrapper for autonomous agents. Journal of Open Research Software, 11, 06 2023. doi: 10.5334/jors.444.
Guan et al. (2023) Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, et al. Hallusionbench: An advanced diagnostic suite for entangled language hallucination and visual illusion in large vision-language models. arXiv preprint arXiv:2310.14566, 2023.
Guss et al. (2019) William H Guss, Brandon Houghton, Nicholay Topin, Phillip Wang, Cayden Codel, Manuela Veloso, and Ruslan Salakhutdinov. Minerl: A large-scale dataset of minecraft demonstrations. arXiv preprint arXiv:1907.13440, 2019.
Hafner (2021) Danijar Hafner. Benchmarking the spectrum of agent capabilities. arXiv preprint arXiv:2109.06780, 2021.
Hambro et al. (2022a) Eric Hambro, Sharada Mohanty, Dmitrii Babaev, Minwoo Byeon, Dipam Chakraborty, Edward Grefenstette, Minqi Jiang, Jo Daejin, Anssi Kanervisto, Jongmin Kim, et al. Insights from the neurips 2021 nethack challenge. In NeurIPS 2021 Competitions and Demonstrations Track, pages 41–52. PMLR, 2022a.
Hambro et al. (2022b) Eric Hambro, Roberta Raileanu, Danielle Rothermel, Vegard Mella, Tim Rocktäschel, Heinrich Küttler, and Naila Murray. Dungeons and data: A large-scale nethack dataset. Advances in Neural Information Processing Systems, 35:24864–24878, 2022b.
Hendrycks et al. (2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874, 2021.
Hu et al. (2024) Shengran Hu, Cong Lu, and Jeff Clune. Automated design of agentic systems. arXiv preprint arXiv:2408.08435, 2024.
Hughes et al. (2024) Edward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, and Tim Rocktaschel. Open-endedness is essential for artificial superhuman intelligence. arXiv preprint arXiv:2406.04268, 2024.
Jeurissen et al. (2024) Dominik Jeurissen, Diego Perez-Liebana, Jeremy Gow, Duygu Cakmak, and James Kwan. Playing nethack with llms: Potential & limitations as zero-shot agents. arXiv preprint arXiv:2403.00690, 2024.
Jimenez et al. (2023) Carlos E Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik Narasimhan. Swe-bench: Can language models resolve real-world github issues? arXiv preprint arXiv:2310.06770, 2023.
Jin et al. (2024) Xuanfa Jin, Ziyan Wang, Yali Du, Meng Fang, Haifeng Zhang, and Jun Wang. Learning to discuss strategically: A case study on one night ultimate werewolf. arXiv preprint arXiv:2405.19946, 2024.
Kambhampati et al. (2024) Subbarao Kambhampati, Karthik Valmeekam, Lin Guan, Kaya Stechly, Mudit Verma, Siddhant Bhambri, Lucas Saldyt, and Anil Murthy. Llms can’t plan, but can help planning in llm-modulo frameworks. arXiv preprint arXiv:2402.01817, 2024.
Khan et al. (2024) Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R Bowman, Tim Rocktäschel, and Ethan Perez. Debating with more persuasive llms leads to more truthful answers. arXiv preprint arXiv:2402.06782, 2024.
Kiela et al. (2021) Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, et al. Dynabench: Rethinking benchmarking in nlp. arXiv preprint arXiv:2104.14337, 2021.
Klissarov et al. (2023) Martin Klissarov, Pierluca D’Oro, Shagun Sodhani, Roberta Raileanu, Pierre-Luc Bacon, Pascal Vincent, Amy Zhang, and Mikael Henaff. Motif: Intrinsic motivation from artificial intelligence feedback. arXiv preprint arXiv:2310.00166, 2023.
Küttler et al. (2020) Heinrich Küttler, Nantas Nardelli, Alexander Miller, Roberta Raileanu, Marco Selvatici, Edward Grefenstette, and Tim Rocktäschel. The nethack learning environment. Advances in Neural Information Processing Systems, 33:7671–7684, 2020.
Kwon et al. (2023) Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, and Ion Stoica. Efficient memory management for large language model serving with pagedattention. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023.
Laskin et al. (2022) Michael Laskin, Luyu Wang, Junhyuk Oh, Emilio Parisotto, Stephen Spencer, Richie Steigerwald, DJ Strouse, Steven Hansen, Angelos Filos, Ethan Brooks, et al. In-context reinforcement learning with algorithm distillation. arXiv preprint arXiv:2210.14215, 2022.
Lee et al. (2024) Jonathan Lee, Annie Xie, Aldo Pacchiano, Yash Chandak, Chelsea Finn, Ofir Nachum, and Emma Brunskill. Supervised pretraining can learn in-context reinforcement learning. Advances in Neural Information Processing Systems, 36, 2024.
Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33:9459–9474, 2020.
Li et al. (2022) Shuang Li, Xavier Puig, Chris Paxton, Yilun Du, Clinton Wang, Linxi Fan, Tao Chen, De-An Huang, Ekin Akyürek, Anima Anandkumar, et al. Pre-trained language models for interactive decision-making. Advances in Neural Information Processing Systems, 35:31199–31212, 2022.
Lin et al. (2023) Licong Lin, Yu Bai, and Song Mei. Transformers as decision makers: Provable in-context reinforcement learning via supervised pretraining. arXiv preprint arXiv:2310.08566, 2023.
Liu et al. (2023a) Jijia Liu, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu, and Yu Wang. Llm-powered hierarchical language agent for real-time human-ai coordination. arXiv preprint arXiv:2312.15224, 2023a.
Liu et al. (2023b) Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, et al. Agentbench: Evaluating llms as agents. arXiv preprint arXiv:2308.03688, 2023b.
Lu et al. (2024) Cong Lu, Shengran Hu, and Jeff Clune. Intelligent go-explore: Standing on the shoulders of giant foundation models. arXiv preprint arXiv:2405.15143, 2024.
Lu et al. (2021) Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin Clement, Dawn Drain, Daxin Jiang, Duyu Tang, et al. Codexglue: A machine learning benchmark dataset for code understanding and generation. arXiv preprint arXiv:2102.04664, 2021.
Madaan et al. (2024) Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, et al. Self-refine: Iterative refinement with self-feedback. Advances in Neural Information Processing Systems, 36, 2024.
MetaAI (2024) MetaAI. Llama 3.2: Revolutionizing edge ai and vision with open, customizable models, 2024. URL https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/. Accessed: 2024-09-28.
Olah et al. (2020) Chris Olah, Nick Cammarata, Ludwig Schubert, Gabriel Goh, Michael Petrov, and Shan Carter. Zoom in: An introduction to circuits. Distill, 5(3):e00024–001, 2020.
OpenAI (2024a) OpenAI. Hello gpt-4o, 2024a. URL https://openai.com/index/hello-gpt-4o/. Accessed: 2024-09-28.
OpenAI (2024b) OpenAI. Introducing openai o1 preview, September 2024b. URL https://openai.com/index/introducing-openai-o1-preview/. Accessed: 2024-09-27.
Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
Piatti et al. (2024) Giorgio Piatti, Zhijing Jin, Max Kleiman-Weiner, Bernhard Schölkopf, Mrinmaya Sachan, and Rada Mihalcea. Cooperate or collapse: Emergence of sustainability behaviors in a society of llm agents. arXiv preprint arXiv:2404.16698, 2024.
Pignatiello et al. (2020) Grant A Pignatiello, Richard J Martin, and Ronald L Hickman Jr. Decision fatigue: A conceptual analysis. Journal of health psychology, 25(1):123–135, 2020.
Piterbarg et al. (2024) Ulyana Piterbarg, Lerrel Pinto, and Rob Fergus. diff history for neural language agents. In Forty-first International Conference on Machine Learning, 2024.
Qin et al. (2024) Yanzhao Qin, Tao Zhang, Yanjun Shen, Wenjing Luo, Haoze Sun, Yan Zhang, Yujing Qiao, Weipeng Chen, Zenan Zhou, Wentao Zhang, et al. Sysbench: Can large language models follow system messages? arXiv preprint arXiv:2408.10943, 2024.
Qin et al. (2023) Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, et al. Toolllm: Facilitating large language models to master 16000+ real-world apis. arXiv preprint arXiv:2307.16789, 2023.
Rahmanzadehgervi et al. (2024) Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, and Anh Totti Nguyen. Vision language models are blind. arXiv preprint arXiv:2407.06581, 2024.
Reed et al. (2022) Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, et al. A generalist agent. arXiv preprint arXiv:2205.06175, 2022.
Reid et al. (2024) Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.
Rein et al. (2023) David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, and Samuel R Bowman. Gpqa: A graduate-level google-proof q&a benchmark. arXiv preprint arXiv:2311.12022, 2023.
Ruan et al. (2023) Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao, et al. Tptu: Task planning and tool usage of large language model-based ai agents. In NeurIPS 2023 Foundation Models for Decision Making Workshop, 2023.
Samvelyan et al. (2021) Mikayel Samvelyan, Robert Kirk, Vitaly Kurin, Jack Parker-Holder, Minqi Jiang, Eric Hambro, Fabio Petroni, Heinrich Küttler, Edward Grefenstette, and Tim Rocktäschel. Minihack the planet: A sandbox for open-ended reinforcement learning research. arXiv preprint arXiv:2109.13202, 2021.
Schick et al. (2024) Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. Advances in Neural Information Processing Systems, 36, 2024.
Schrittwieser et al. (2020) Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Mastering atari, go, chess and shogi by planning with a learned model. Nature, 588(7839):604–609, 2020.
Shen et al. (2024) Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, and Yueting Zhuang. Hugginggpt: Solving ai tasks with chatgpt and its friends in hugging face. Advances in Neural Information Processing Systems, 36, 2024.
Shi et al. (2022) Freda Shi, Mirac Suzgun, Markus Freitag, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, Yi Tay, Sebastian Ruder, Denny Zhou, et al. Language models are multilingual chain-of-thought reasoners. arXiv preprint arXiv:2210.03057, 2022.
Shinn et al. (2023) Noah Shinn, Beck Labash, and Ashwin Gopinath. Reflexion: an autonomous agent with dynamic memory and self-reflection. arXiv preprint arXiv:2303.11366, 2(5):9, 2023.
Silver et al. (2018) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, et al. A general reinforcement learning algorithm that masters chess, shogi, and go through self-play. Science, 362(6419):1140–1144, 2018.
Snell et al. (2024) Charlie Snell, Jaehoon Lee, Kelvin Xu, and Aviral Kumar. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024.
Srivastava et al. (2022) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022.
Tan et al. (2024) Weihao Tan, Ziluo Ding, Wentao Zhang, Boyu Li, Bohan Zhou, Junpeng Yue, Haochong Xia, Jiechuan Jiang, Longtao Zheng, Xinrun Xu, et al. Towards general computer control: A multimodal agent for red dead redemption ii as a case study. In ICLR 2024 Workshop on Large Language Model (LLM) Agents, 2024.
Team et al. (2023) Adaptive Agent Team, Jakob Bauer, Kate Baumli, Satinder Baveja, Feryal Behbahani, Avishkar Bhoopchand, Nathalie Bradley-Schmieg, Michael Chang, Natalie Clay, Adrian Collister, et al. Human-timescale adaptation in an open-ended task space. arXiv preprint arXiv:2301.07608, 2023.
Todd et al. (2024) Graham Todd, Tim Merino, Sam Earle, and Julian Togelius. Missed connections: Lateral thinking puzzles for large language models. arXiv preprint arXiv:2404.11730, 2024.
Tong et al. (2024) Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. Eyes wide shut? exploring the visual shortcomings of multimodal llms. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9568–9578, 2024.
Vinyals et al. (2019) Oriol Vinyals, Igor Babuschkin, Wojciech M Czarnecki, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, David H Choi, Richard Powell, Timo Ewalds, Petko Georgiev, et al. Grandmaster level in starcraft ii using multi-agent reinforcement learning. nature, 575(7782):350–354, 2019.
Wang et al. (2019) Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. Superglue: A stickier benchmark for general-purpose language understanding systems. Advances in neural information processing systems, 32, 2019.
Wang et al. (2023) Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar. Voyager: An open-ended embodied agent with large language models. arXiv preprint arXiv:2305.16291, 2023.
Wang et al. (2024) Zilong Wang, Yuedong Cui, Li Zhong, Zimin Zhang, Da Yin, Bill Yuchen Lin, and Jingbo Shang. Officebench: Benchmarking language agents across multiple applications for office automation. arXiv preprint arXiv:2407.19056, 2024.
Wansink and Sobal (2007) Brian Wansink and Jeffery Sobal. Mindless eating: The 200 daily food decisions we overlook. Environment and Behavior, 39(1):106–123, 2007.
Wei et al. (2022a) Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, et al. Emergent abilities of large language models. arXiv preprint arXiv:2206.07682, 2022a.
Wei et al. (2022b) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837, 2022b.
Wołczyk et al. (2024) Maciej Wołczyk, Bartłomiej Cupiał, Mateusz Ostaszewski, Michał Bortkiewicz, Michał Zajac, Razvan Pascanu, Łukasz Kuciński, and Piotr Miłoś. Fine-tuning reinforcement learning models is secretly a forgetting mitigation problem. arXiv preprint arXiv:2402.02868, 2024.
Wu et al. (2024) Shuang Wu, Liwen Zhu, Tao Yang, Shiwei Xu, Qiang Fu, Yang Wei, and Haobo Fu. Enhance reasoning for large language models in the game werewolf. arXiv preprint arXiv:2402.02330, 2024.
Wu et al. (2023) Yue Wu, Xuan Tang, Tom M Mitchell, and Yuanzhi Li. Smartplay: A benchmark for llms as intelligent agents. arXiv preprint arXiv:2310.01557, 2023.
Xing et al. (2024) Mingzhe Xing, Rongkai Zhang, Hui Xue, Qi Chen, Fan Yang, and Zhen Xiao. Understanding the weakness of large language model agents within a complex android environment. In Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pages 6061–6072, 2024.
Yamada et al. (2023) Yutaro Yamada, Yihan Bao, Andrew K Lampinen, Jungo Kasai, and Ilker Yildirim. Evaluating spatial understanding of large language models. arXiv preprint arXiv:2310.14540, 2023.
Yang et al. (2023) Hui Yang, Sifu Yue, and Yunzhong He. Auto-gpt for online decision making: Benchmarks and additional opinions. arXiv preprint arXiv:2306.02224, 2023.
Yao et al. (2022) Shunyu Yao, Howard Chen, John Yang, and Karthik Narasimhan. Webshop: Towards scalable real-world web interaction with grounded language agents. Advances in Neural Information Processing Systems, 35:20744–20757, 2022.
Yao et al. (2024) Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, and Karthik Narasimhan. Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing Systems, 36, 2024.
Yu et al. (2023) Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, et al. Scaling autoregressive multi-modal models: Pretraining and instruction tuning. arXiv preprint arXiv:2309.02591, 2(3), 2023.
Zang et al. (2024) Yuhang Zang, Hanlin Goh, Josh Susskind, and Chen Huang. Overcoming the pitfalls of vision-language model finetuning for ood generalization. arXiv preprint arXiv:2401.15914, 2024.
Zhou et al. (2023) Shuyan Zhou, Frank F Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Fried, et al. Webarena: A realistic web environment for building autonomous agents. arXiv preprint arXiv:2307.13854, 2023.

Appendix A Baby AI

BabyAI [Chevalier-Boisvert et al., 2019]は、人工エージェントにおける接地言語学習と指示追従を研究するために設計された研究プラットフォームである。これは、複雑さが増していく一連の2Dグリッドワールド環境で構成されている。これらの環境では、エージェントが部屋を移動し、ドア、鍵、ボール、異なる色の箱などの様々なオブジェクトと相互作用する。エージェントは「ミッション」と呼ばれる自然言語の指示を受け取り、特定のオブジェクトを拾う、または特定の場所に移動するなどの完了すべきタスクが記述されている。意思決定に関する多くの既存の研究が、この環境におけるモデルのパフォーマンスを研究している [Reed et al., 2022, Li et al., 2022]。我々は、これを歴史的に関連性があり、比較的容易に解決できると予想される環境として使用する。

A.1 BabyAI-Text

我々は、BabyAI-Text [Carta et al., 2023]で導入された5つのタスクでエージェントを評価する。これは、記号的表現の代わりに各観察の記述を提供する。テキストによる記述は、以下の構造を持つテンプレート記述のリストで構成される：

•

オブジェクトが鍵、ボール、箱、または壁である場合、"You see a <object> <location>"
•

エージェントがドアを見ている場合、"You see a(n) open/closed door <location>"
•

エージェントがオブジェクトを運んでいる場合、"You carry a <object>"

A.2 BabyAI Results

我々は、LLMモードとVLMモードのBabyAIの結果を表LABEL:babyAI_LLMおよびLABEL:babyAI_VLMに示す。誤差はBabyAIの5つのタスクそれぞれに対して25のシードを用いて計算されている。GPT-4oが首位であり、Llama 3.1 70Bがそれに続く。観察に視覚情報が追加されると、Gemini-1.5-Proを除くすべてのモデルのパフォーマンスが低下する。Gemini-1.5-Proのパフォーマンスは安定したままである。

表4: BabyAIにおけるLLMのパフォーマンス

Model	Average Progress (%)
gpt-4o	77.60 $\pm$ 3.73
llama-3.1-70B-it	73.20 $\pm$ 3.96
gemini-1.5-pro	58.40 $\pm$ 4.41
llama-3.2-90B-it	55.20 $\pm$ 4.45
claude-3.5-sonnet	52.00 $\pm$ 7.07
gpt-4o-mini	50.40 $\pm$ 4.47
llama-3.2-11B-it	32.80 $\pm$ 4.20
llama-3.1-8B-it	30.00 $\pm$ 6.48
gemini-1.5-flash	25.60 $\pm$ 3.90
llama-3.2-3B-it	10.00 $\pm$ 4.24
llama-3.2-1B-it	6.00 $\pm$ 3.36

表5: BabyAIにおけるVLMのパフォーマンス

Model	Average Progress (%)
gpt-4o	62.00 $\pm$ 4.34
gemini-1.5-pro	58.40 $\pm$ 4.41
claude-3.5-sonnet	50.00 $\pm$ 7.07
gemini-1.5-flash	43.20 $\pm$ 4.43
gpt-4o-mini	38.00 $\pm$ 4.34
llama-3.2-90B-it	28.20 $\pm$ 4.02
llama-3.2-11B-it	10.40 $\pm$ 2.73

A.3 Observations

BabyAIの指示プロンプトと観察の例

Appendix B Crafter

Crafter [Hafner, 2021] は、強力な一般化、深い探索、および強化学習における長期的推論の研究に特化して設計されたオープンソースの2Dサバイバルゲームである。これは、Minecraftにインスパイアされた、手続き的に生成される環境であり、資源収集、クラフト、および戦闘要素を組み合わせている。さらに、このゲームには包括的なタスクと達成項目のセットが含まれており、研究者が複数の目標と時間スケールにわたってエージェントのパフォーマンスを評価することを可能にしている。言語モデルとの対話を可能にするために、我々は Wu et al. [2023] で提案されたものと同じ言語ラッパーを使用している。

B.1 Crafter Results

我々は、LLMおよびVLMフォーマットのCrafter結果を表7および7に示す。標準誤差は10シードを使用して計算されている。GPT4oは言語のみのモードでリードし、Gemini-1.5-Proはビジョン言語モードでリードしている。驚くべきことに、Llama 3.2 90Bのパフォーマンスは画像が追加されると非常に急激に低下し、より小さな11Bモデルよりも平均進捗が悪化している。

表6: CrafterにおけるLLMのパフォーマンス

Model	Average Progress (%)
gpt-4o	33.10 $\pm$ 2.32
claude-3.5-sonnet	32.73 $\pm$ 3.20
llama-3.2-90B-it	31.69 $\pm$ 1.36
llama-3.1-70B-it	31.31 $\pm$ 2.68
gemini-1.5-pro	30.21 $\pm$ 2.86
llama-3.2-11B-it	26.20 $\pm$ 3.30
llama-3.1-8B-it	25.45 $\pm$ 3.23
gemini-1.5-flash	20.00 $\pm$ 0.74
gpt-4o-mini	12.72 $\pm$ 1.13
llama-3.2-3B-it	17.27 $\pm$ 2.79
llama-3.2-1B-it	12.73 $\pm$ 1.91

表7: CrafterにおけるVLMのパフォーマンス

Model	Average Progress (%)
claude-3.5-sonnet	37.27 $\pm$ 3.14
gemini-1.5-pro	33.50 $\pm$ 2.07
gpt-4o	26.81 $\pm$ 3.74
llama-3.2-11B-it	23.63 $\pm$ 1.48
gemini-1.5-flash	20.70 $\pm$ 4.43
gpt-4o-mini	19.91 $\pm$ 3.13
llama-3.2-90B-it	10.00 $\pm$ 1.13

B.2 Observations

Appendix C TextWorld

TextWorld [Côté et al., 2019]は、Microsoft Researchによって開発されたテキストベースのゲーム環境であり、インタラクティブフィクションゲームの作成とカスタマイズを可能にする。我々の実験では、TextWorldドメインから3つの特定のゲーム、「Treasure Hunter」、「The Cooking Game」、そして「Coin Collector」を使用する。各タスクは、部屋の数を変更し、障害物を有効にし、ディストラクター部屋を含めることで、異なる難易度で生成することができる。我々は、Lu et al. [2024]で紹介された生成ルールを使用する。

C.1 Treasure Hunter

Treasure Hunterでは、20の部屋を持つ挑戦的な迷路のような環境を作成する。ゲームは最大難易度レベル30に設定され、ロックされたドアやターゲットオブジェクトを見つけるために操作しなければならないコンテナが導入される。複雑さを増すために、我々は解決策の説明を削除し、20ステップ以下で最適に解決できるタスクをフィルタリングする。この設定では、エージェントが複雑な空間を移動し、様々なオブジェクトと相互作用し、宝物を見つける探索において障害を克服するための戦略を考案することが要求される。

C.2 The Cooking Game

The Cooking Gameは、13の部屋にわたる料理の挑戦を提示する。我々は、最大5つの材料を含め、すべての追加の挑戦的なオプションを有効にすることで複雑さを最大化する。エージェントはドアを通って移動し、ナイフなどの道具を使って食材を処理し、グリル、フライ、ローストなど様々な方法で材料を調理しなければならない。このゲームは、動的な環境での多段階プロセスを計画し実行するエージェントの能力をテストし、現実世界の料理タスクの複雑さをシミュレートする。

C.3 Coin Collector

Coin Collectorは、ナビゲーションの難しさを増すための潜在的なディストラクター部屋を含む、40の部屋を持つ広大な環境を特徴とする。Treasure Hunterと同様に、我々は挑戦を高めるために解決策の説明を削除する。エージェントの開始地点からターゲットまでの最適な経路は20ステップに設定され、効率的な探索と意思決定が要求される。このゲームは、大規模な空間をナビゲートし、気を散らすものを避け、複雑な迷路のような構造の中で効率的に目標に到達するエージェントの能力をテストする。

C.4 TextWorld Results

表8にTextWorldの結果を示す。標準誤差は3つのタスクそれぞれに対して20のシードを使用して計算された。GPT-4oが再び首位を獲得し、最も近い競合モデルであるLlama 3.1 70Bの2倍以上の平均進捗を達成した。コインコレクタータスクが最も困難であり、GPT-4oは20回の試行のうち1回しか解決できなかった。GeminiモデルのAPIは、TextWorldのゲームプレイに実際の安全性の懸念が全くないにもかかわらず、入力を「安全でない」としてフラグを立て、しばしば完了を返すことができなかった。これによりGeminiモデルの完全な評価ラウンドを完了することが不可能となったため、我々はそれらを0%の進捗としてマークした。

表8: TextWorldにおけるLLMの性能

Model	Average Progress (%)
claude-3.5-sonnet	42.06 $\pm$ 5.41
gpt-4o	39.31 $\pm$ 5.24
llama-3.1-70B-it	15.00 $\pm$ 4.61
gpt-4o-mini	12.25 $\pm$ 3.55
llama-3.2-90B-it	11.18 $\pm$ 2.98
llama-3.2-11B-it	6.67 $\pm$ 2.17
gemini-1.5-flash	0.00 $\pm$ 0.00
gemini-1.5-pro	0.00 $\pm$ 0.00

C.5 Observations

Appendix D Baba Is AI

Baba Is AIは、パズルゲーム「Baba Is You」に基づくベンチマーク環境である。このグリッドワールドゲームでは、プレイヤーは様々なオブジェクトやテキストによるルールブロックと相互作用し、特定の目標を達成する。Baba Is AIの特徴的な点は、ゲームのルールがプレイヤーによって操作され、再配置できることであり、エージェントが関連するオブジェクトとルールを識別し、それらを操作して新しいルールを変更または作成して成功する必要がある動的な環境を作り出している。このベンチマークにより、研究者はルールを学習し従うだけでなく、以前に見たルールを新しい方法で組み合わせる必要があるため、現在のベンチマークと比較してより広範な一般化の概念を探求することができる。エージェントは40の異なるパズルレベルでテストされる。

D.1 Baba Is AI Language Wrapper

言語モデルとの相互作用を可能にするため、我々はBaba Is AI用のカスタム言語ラッパーを作成した。これは、アクティブなルールから言語観測を構築し、プレイヤーに対するオブジェクトの位置を相対的にフォーマットして説明を作成する。我々は、テキストのみの実験では、エージェントに解決策を提供せず、グリッドの境界も指定しない。

D.2 Baba Is AI Results

我々は、LLMモードとVLMモードのBaba Is AIの結果を表10と10に示す。標準誤差は、40のBaba Is AIタスクそれぞれに対して5つのシードを使用して計算されている。驚くべきことに、Llamaモデルがリードしており、Llama 3.2 90Bは言語のみのモードでGPT-4oを10%上回っている。再び、視覚が追加されると、モデルのパフォーマンスは低下し、Gemini-1.5-Proのみが安定を保っている。

表9: BabaIsAIにおけるLLMのパフォーマンス

Model	Average Progress (%)
llama-3.2-90B-it	43.90 $\pm$ 3.47
llama-3.1-70B-it	40.00 $\pm$ 3.42
claude-3.5-sonnet	37.50 $\pm$ 4.42
gpt-4o	33.66 $\pm$ 3.30
gemini-1.5-pro	32.02 $\pm$ 3.26
llama-3.1-8B-it	18.33 $\pm$ 3.53
llama-3.2-3B-it	17.50 $\pm$ 3.47
gpt-4o-mini	15.60 $\pm$ 2.53
llama-3.2-11B-it	15.60 $\pm$ 2.50
gemini-1.5-flash	12.80 $\pm$ 2.33
llama-3.2-1B-it	10.83 $\pm$ 2.84

表10: BabaIsAIにおけるVLMのパフォーマンス

Model	Average Progress (%)
claude-3.5-sonnet	34.45 $\pm$ 4.36
gemini-1.5-pro	31.40 $\pm$ 3.24
llama-3.2-90B-it	21.90 $\pm$ 2.89
gpt-4o	18.62 $\pm$ 2.72
gpt-4o-mini	16.41 $\pm$ 2.59
gemini-1.5-flash	8.30 $\pm$ 1.93
llama-3.2-11B-it	5.76 $\pm$ 1.63

D.3 Observations

Appendix E MiniHack

MiniHack [Samvelyan et al., 2021] は、NLE [Küttler et al., 2020] の上に構築された強力なサンドボックスフレームワークであり、研究者が豊かで多様な強化学習環境を容易に設計することを可能にする。これは、単純なグリッドワールドナビゲーションから複雑な手続き的に生成された世界まで、複雑なゲームメカニクスを含む幅広いカスタム強化学習タスクを作成するための柔軟なプラットフォームを提供する。このフレームワークは、人間が読める記述言語または簡単なPythonインターフェースを使用して環境を定義することを可能にし、地形、オブジェクト、モンスター、罠などの環境要素を細かく制御できる。MiniHackは多様なタスクを提供し、これらは主に3つのグループに分類される：ナビゲーションタスク、スキル獲得タスク、移植タスクである。言語モデルとの対話を可能にするために、我々はNetHack付録Fで説明されているNetHack Language Wrapperを使用する。

MiniHackのナビゲーションタスクから、我々はMaze 9x9、Maze 15x15、Corridor、CorridorBattleを選択した。これらは、エージェントが廊下でモンスターと戦ったり、複雑または手続き的に生成された迷路を通り抜けたりするなど、様々な困難を克服してゴール位置に到達することを課題としている。これらのタスクは比較的小さなアクション空間を特徴とし、8つのコンパス方向への移動、そして環境に応じて、探索、蹴る、開く、食べるなどのアクションが含まれる。

MiniHackのスキル獲得タスクから、我々はQuest（Easy、Medium、Hardの3つの難易度レベルがある）を選択した。これは、エージェントが環境内で見つけたオブジェクト（これらのオブジェクトは浮遊または凍結能力を提供できる）を使用して溶岩の川を渡り、モンスターと戦い、部屋や迷路を通り抜け、最終的にはゴール位置を守る強力なモンスターを倒すために死の杖を使用することを課題としている。

我々はさらに、MiniHack Boxobanでエージェントをテストする。この環境ファミリーは、Boxobanパズルゲームを適応させたものであり、Boxoban自体は古典的なSokobanにインスパイアされている。これらの環境は、MiniHackフレームワーク内で、NetHackゲームのメカニクスを活用した挑戦的なパズル解決タスクを提示する。MiniHack Boxobanの主な目標は、4つの岩（MiniHackにおけるボックスの等価物）を4つの指定されたゴール位置（噴水で表現される）に押すことである。このタスクは戦略的思考と計画を必要とする。エージェントは、岩を角や壁に行き詰まらせることなく、環境を通して慎重に操作しなければならないためである。

我々は、表12および12にLLMモードとVLMモードのMiniHack結果を提供する。標準誤差は各タスクに対して5つのシードを使用して計算された。ここでは、GPT-4oとGemini-1.5-Proが言語のみのモードとビジョン言語モードの両方で互いに匹敵し、両モデルは廊下タスクと廊下戦闘タスクの一部を完了することのみ可能であった。他のモデルはいずれのタスクも解決できなかった。

表11: MiniHackにおけるLLMの性能

Model	Average Progress (%)
claude-3.5-sonnet	15.00 $\pm$ 5.65
gpt-4o	10.00 $\pm$ 4.74
gpt-4o-mini	10.00 $\pm$ 4.74
llama-3.1-70B-it	7.50 $\pm$ 4.16
gemini-1.5-pro	5.00 $\pm$ 3.45
llama-3.1-8B-it	5.00 $\pm$ 3.45
gemini-1.5-flash	5.00 $\pm$ 3.45
llama-3.2-1B-it	5.00 $\pm$ 3.45
llama-3.2-11B-it	2.50 $\pm$ 2.47
llama-3.2-3B-it	2.50 $\pm$ 2.47

表12: MiniHackにおけるVLMの性能

Model	Average Progress (%)
claude-3.5-sonnet	22.50 $\pm$ 6.60
gpt-4o	5.00 $\pm$ 3.44
gemini-1.5-pro	5.00 $\pm$ 3.44
llama-3.2-90B-it	2.50 $\pm$ 2.47
gpt-4o-mini	2.50 $\pm$ 2.47
gemini-1.5-flash	2.50 $\pm$ 2.47
llama-3.2-11B-it	2.50 $\pm$ 2.47

E.1 Observations

Appendix F NetHack Learning Environment

NetHack学習環境（NLE）[Küttler et al., 2020]は、探索、計画、スキル獲得、言語条件付きRLなどの問題に関する長期的な強化学習研究を推進するために設計された、スケーラブルで、手続き的に生成され、確率的で、豊かで、挑戦的な環境である。古典的で非常に複雑なターミナルローグライクゲームNetHackを中心に構築されたNLEは、エージェントが手続き的に生成されたダンジョンを通過し、何百もの種類のエンティティと相互作用し、さまざまな課題を克服することを学ばなければならない複雑で動的な環境を提供する。

プレイヤーの目標は、手続き的に生成されたダンジョンレベルを降下しながら、モンスターを倒し、パズルを解き、より良い装備を集めてイェンダーの魔除けを取得し、最終的に地上に戻って勝利することである。 NetHackは人間のプレイヤーにとっても悪名高く難しい。NetHack Wikiのようなオンラインリソースがあっても、ゲームをマスターするには何年もかかる可能性がある。NetHackで成功するには、勝利するゲームが数十万ステップを含む可能性があるため長期的な戦略的計画が必要であり、また多数のモンスターと戦うための短期的な戦術も必要である。正確な信用割り当ても、どの行動が成功や失敗に寄与したかを理解するために重要である。NetHackはすでに強化学習エージェントのテストベッドとして広く使用されている[Wołczyk et al., 2024, Piterbarg et al., 2024, Hambro et al., 2022b]。特にタブラ・ラサ強化学習エージェントは、疎な報酬、複雑な信用割り当て、極めて長い時間軸、ゲームの高い確率性のために苦戦している。現在の最先端のエージェントは、依然として手作業でコーディングされたシンボリックポリシーである[Hambro et al., 2022a]。

F.1 NetHack Language Wrapper

NetHack言語ラッパー[Goodger et al., 2023]は、非言語的な観察をテキストベースの表現に変換することで、NLEおよびMiniHackとインターフェースを取るために設計されたツールである。このラッパーは、glyphs、blstats、tty_chars、inv_letters、inv_strs、tty_cursorなどの様々なNLE観察を読みやすいテキスト相当に変換する。例えば、ゲーム環境の視覚的表示を、周囲の状況、インベントリ、プレイヤーの統計情報などの詳細を含むテキスト記述に変換する。また、このラッパーはテキストベースのアクションもサポートしており、ユーザーがwait、apply、northなどのコマンドを使用して環境と対話することを可能にし、これらはNLEが要求する離散的なアクションに変換される。この機能により、特に言語モデルにとって、NetHack環境とのより容易な対話が可能となる。

F.2 New NetHack Progression System

NetHackには、モンスターの討伐、オブジェクトの識別、食事、金やアイテムの収集、そして最終的にゲームでの昇天などのアクションに対してプレイヤーに報酬を与えるゲーム内スコアリングシステムがある。しかし、我々は、このスコアリングシステムが真のゲーム進行を効果的に捉えていないと主張する。プレイヤーは数十万から数百万ポイントの範囲のスコアでゲームに勝利することができるためである。この限界に対処するため、我々は人間がプレイしたNetHackゲームのデータセット[Hambro et al., 2022b]を使用して、新しいデータ駆動型の進行指標を開発した。具体的には、各ゲームで達成されたダンジョンレベルと経験レベル、およびそのゲームが昇天に至ったかどうかを記録した。これらの統計を利用して、特定のダンジョンレベルまたは経験レベルに到達した後に人間のプレイヤーがゲームに勝利する確率を表す各データポイントからなるデータ中心の進行システムを構築した。結果として得られた進行曲線を図10に示す。実用的な目的のため、我々はダンジョンレベル1（Dlvl:1）と経験レベル1をゲームの開始点に対応する0%の進行として定義し、昇天を100%の進行として定義する。したがって、エージェントの全体的な進行は、達成したダンジョンレベルと経験レベルの間で最も高い進行によって決定される。

F.3 NetHack Results

LLMモードとVLMモードのNetHackの結果を表LABEL:LLM_NLEとLABEL:VLM_NLEに示す。標準誤差は5つのシードを使用して計算されている。o1-previewは、テストされたすべてのモデルの中で最高の進行を達成している。しかし、ゲームにおいて有意な進行を示すにはまだ程遠い。最も良い個別の実行は、Gemini-1.5-Proのビジョン言語モードによって達成され、ダンジョンレベル3と経験レベル4に到達した。

表13: NLEにおける言語のみのパフォーマンス

Model	Average Progress (%)
o1-preview	1.57 $\pm$ 0.40
claude-3.5-sonnet	0.58 $\pm$ 0.52
gpt-4o	0.37 $\pm$ 0.37
o1-mini	0.36 $\pm$ 0.24
llama-3.1-70B-it	0.35 $\pm$ 0.35
llama-3.1-8B-it	0 $\pm$ 0
gemini-1.5-pro	0.31 $\pm$ 0.31
gpt-4o-mini	0 $\pm$ 0
gemini-1.5-flash	0 $\pm$ 0
llama-3.2-90B-it	0 $\pm$ 0
llama-3.2-11B-it	0 $\pm$ 0
llama-3.2-3B-it	0 $\pm$ 0
llama-3.2-1B-it	0 $\pm$ 0

表14: NLEにおけるビジョン言語のパフォーマンス

Model	Average Progress (%)
claude-3.5-sonnet	1.16 $\pm$ 0.42
gemini-1.5-pro	0.48 $\pm$ 0.48
gpt-4o	0.37 $\pm$ 0.37
gpt-4o-mini	0 $\pm$ 0
gemini-1.5-flash	0 $\pm$ 0
llama-3.2-11B-it	0 $\pm$ 0
gemini-1.5-flash	0 $\pm$ 0
llama-3.2-90B-it	0 $\pm$ 0
llama-3.2-11B-it	0 $\pm$ 0

F.4 Observation

NetHackには観察を記述する言語ラッパーがあるにもかかわらず[Goodger et al., 2023]、言語のみでプレイすることを意図していないため、我々は言語モードではASCIIマップを、視覚-言語モードではRGBタイルマップを提供した。LLMのコンテキストにおいては、長期的に保持することが重要な情報、すなわちゲームメッセージと言語観察のみを保持する。エージェントのステータスとインベントリは現在のステップでのみ必要であるため、コンテキストに保持しない。これは、NetHackのコンテキスト長が制御不能になることを防ぐためでもある。

F.5 LLMs possess extensive NetHack knowledge

エージェントがNetHackを効果的にプレイするには、広範な知識が必要である。熟練プレイヤーは、何時間ものプレイを通じて獲得したゲームの理解を活用する一方、新規プレイヤーはしばしばNetHack Wikiなどのオンラインの文書リソースに頼る。我々は、LLMがこの知識の一部を保有しているかをテストし、エージェントがそれを適用できるかを評価するために質問票を使用する。質問は以下の通りである：

1.

NetHackで腐った食べ物を食べることに何か結果はありますか？（回答：失明、幻覚、さらには即死につながる可能性がある。）
2.

NetHackで食べ物を食べ過ぎることに何か結果はありますか？（回答：プレイヤーキャラクターが食べ物を喉に詰まらせて死ぬ可能性がある。）
3.

NetHackのレベル1で階段を上ると何が起こりますか？（回答：即座にゲームオーバーになる。）
4.

NetHackでモンスターに透明化の杖を使うのは良いアイデアですか？（回答：いいえ、戦うのが難しくなるため。）
5.

NetHackで怒った神に祈るのは良いアイデアですか？（回答：いいえ、神がプレイヤーを罰する。）

これらの質問は、ゲームメカニクスの基本的な理解をテストするものであり、特に新規プレイヤーが誤って試みる可能性があり、避けるべき行動に焦点を当てている。

我々は各LLMの回答を以下の表にまとめる。各質問について、回答が正確であるか、結論が正しいか（つまり、LLMがそのような行動を避ける必要性を認識しているか）、そしてエージェントがこれらの間違いを首尾よく避けているかを評価する。

LLM		Q1	Q2	Q3	Q4	Q5
GPT 4o	Correct	✔	✔	$\sim$	✔	✔
	Conclusion	✔	✔	✔	✔	✔
	Behaviour	✗	✔	✗	N/A	✔
GPT 4o-mini	Correct	$\sim$	✗	✔	✗	✔
	Conclusion	✔	✔	✔	✔	✔
	Behaviour	✗	✔	✔	N/A	N/A
Gemini 1.5-flash	Correct	✗	✗	✗	✗	✔
	Conclusion	✔	✗	✗	✗	✔
	Behaviour	✔	✔	✗	N/A	N/A
Gemini 1.5-pro	Correct	✔	$\sim$	✗	✔	✔
	Conclusion	✔	✔	✗	✔	✔
	Behaviour	✔	✔	✗	N/A	N/A
Llama 3.1 70B Instruct	Correct	✔	✗	✔	✗	✔
	Conclusion	✔	✗	✗	✔	✔
	Behaviour	✗	✗	✗	✗	✗
Llama 3.2 11B Instruct	Correct	✗	✗	✗	✗	✔
	Conclusion	✔	✗	✗	✔	✔
	Behaviour	✗	✗	✗	N/A	N/A
Llama 3.2 90B Instruct	Correct	✔	$\sim$	✔	✗	✔
	Conclusion	✔	✔	✔	✔	✔
	Behaviour	✗	✔	✗	N/A	N/A

表15: 各LLMのNetHackにおける知識（適用能力）の比較。我々は各質問への回答を、与えられた回答の正確さ（つまり、回答がNetHack wikiの情報と一致するか）、結論の正しさ（つまり、LLMがそのような行動を避けるべきだと正しく識別しているか）、そしてLLMエージェントの評価中の行動が真実と一致しているか（つまり、エージェントが質問で示された行動を首尾よく避けているか）に基づいて手動で採点する。部分的に正しい回答には、

$\sim$

を与える。対応する質問の知識を適用すべきシナリオにエージェントが遭遇しない場合、行動をN/Aとして記録する。

我々は、LLMが一般的に一般的な間違いを避けるべきだと理解しているにもかかわらず、その推論が完全に正しいかどうかに関わらず、その知識を一貫して活用することに苦戦していることを観察する。エージェントはしばしば腐った食べ物を消費し、最初のレベルで階段を上って早々にゲームを終了してしまう。これは、LLMエージェントが実践で知識を活用する能力にギャップがあることを示している。