Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation
Abstract
強化学習(RL)の領域における多くのタスクにおいて、エージェントへのメモリの組み込みは不可欠である。特に、過去の情報の利用、新しい環境への適応、サンプル効率の向上を必要とするタスクにおいて、メモリは最も重要である。しかし、「メモリ」という用語は広範な概念を包含しており、エージェントのメモリを検証するための統一された方法論の欠如と相まって、エージェントのメモリ能力に関する誤った判断を招き、他のメモリ強化エージェントとの客観的な比較を妨げている。 本稿は、認知科学に触発された長期記憶対短期記憶、宣言的記憶対手続き的記憶などのエージェントメモリタイプの実用的な厳密な定義を提供することにより、RLにおけるメモリの概念を整理することを目的としている。 これらの定義を用いて、我々はエージェントメモリの異なるクラスを分類し、RLエージェントのメモリ能力を評価するための堅牢な実験方法論を提案し、評価を標準化する。 さらに、我々は異なるRLエージェントを用いた実験を行い、異なるタイプのエージェントメモリを評価する際に提案された方法論を遵守することの重要性と、それに違反した場合の結果を実証的に示す。
1 Introduction
強化学習(RL)は、エージェントが即座に利用可能な情報に基づいて決定を行うマルコフ決定過程(MDP)フレームワーク内の様々な問題に効果的に対処する(Mnih et al., 2015; Badia et al., 2020)。 しかし、部分観測性を持つより複雑なタスクにRLを適用する上では、依然として課題が存在する。
このような課題に成功裏に対処するためには、エージェントが環境との相互作用の履歴を効率的に保存し処理できることが不可欠である(Ni et al., 2021)。環境との相互作用の履歴は系列として表現できるため、自然言語処理(NLP)のために開発された系列処理手法をこれらのタスクに効果的に適用することができる(Hausknecht & Stone, 2015; Esslinger et al., 2022; Samsami et al., 2024)。
しかし、多くのタスクにおいて、観測の複雑さやノイズ、イベントの疎性、報酬関数設計の困難さ、エピソードの長期性により、重要な情報の保存と取り出しが極めて困難になり、記憶メカニズムの必要性が生じる(Graves et al., 2016; Wayne et al., 2018; Goyal et al., 2022)。 それにもかかわらず、「記憶」の概念が議論されている既存のRL文献では、記憶の定義は考慮中の特定の問題に関してのみ定義されている。
例えば、一部の研究では、記憶はエージェントが意思決定において固定サイズのトークン系列(コンテキスト)内のイベント間の依存関係を効果的に確立し利用する能力として定義されている(Esslinger et al., 2022; Ni et al., 2023; Grigsby et al., 2024)。他の研究では、「記憶」という用語は、様々な記憶メカニズムを通じてコンテキスト外の情報を使用するエージェントの能力を指す(Parisotto et al., 2020; Lampinen et al., 2021; Cherepanov et al., 2024)。しかし、メタ強化学習(Meta-RL)の文脈では、「記憶」という用語は、エージェントが他のタスクやエピソードからの経験を使用して、新しい未知の環境に適応する能力を表すために使用される(Team et al., 2023; Kang et al., 2024a; Grigsby et al., 2024)。
本稿では、我々はメモリを記憶増強エージェントの本質的な属性として扱い、強化学習におけるメモリタイプの分類をエージェントのメモリ特性に直接関連付けている。これらの特定のメモリタイプは、記憶集約型環境での実験を通じて評価することができる。時間的依存性と記憶される情報の性質に基づく我々の分類は、異なるメモリタイプを区別するための明確な枠組みを提供する。この明確な分類は、類似したメモリメカニズムを持つエージェント間の公平な比較や、エージェントのメモリアーキテクチャの限界を特定するために不可欠であり、正確な評価と改善に寄与する。
我々の目標が人間の記憶の全範囲を複製することではないことを明確にしておくことが重要である。代わりに、我々は神経科学における記憶の概念から、強化学習コミュニティ内で広く認識され、直感的に適用されているものの、明示的に定義または形式化されていない概念を引き出している(Fortunato et al., 2020; Ni et al., 2023; Kang et al., 2024b)。
要約すると、我々の貢献は以下のように記述できる:
-
1.
我々はエージェントの「記憶」を強化学習において形式化する:長期記憶(LTM)と短期記憶(STM)、宣言的記憶と手続き的記憶(セクション5)。
-
2.
我々は、エージェントが記憶を持つ必要のあるタスクの分離を導入する:記憶意思決定(Memory DM)とメタ強化学習(Meta-RL)(セクション5)。
-
3.
我々は、Memory DMタスクにおけるエージェントのLTMとSTM能力をテストするための一般的な実験方法論を提案する(サブセクション5.2)。
-
4.
我々は、提案された実験方法論に従わない場合、エージェントの記憶能力に関する判断が極めて不正確になる可能性があることを示す(セクション6)。
2 Partially Observable Markov Decision Process
部分観測可能マルコフ決定過程(POMDP)は、エージェントが環境の状態に関する不完全な情報しか持たない逐次的意思決定問題をモデル化するマルコフ決定過程(MDP)の一般化である。POMDPは、というタプルで表現される。ここで、は状態の集合、は行動の集合、は観測の集合、そしてはとなる観測関数である。エージェントは観測された履歴に基づいて行動を取り、報酬を受け取る。時刻において状態がエージェントに利用可能でないことに注意することが重要である。POMDPの場合、方策はエージェントの履歴を使用して行動の確率を得る関数である。したがって、POMDPにおいて効果的に動作するためには、エージェントは履歴を取得するためのメモリメカニズムを持つ必要がある。 部分観測性は、ロボットのナビゲーションや操作タスク、自動運転車のタスク、複雑な意思決定問題など、様々な現実世界の状況で発生する。
3 Related Works
メモリ強化型強化学習エージェントに対する研究者の関心は、メモリメカニズムを備えたアーキテクチャやそれらの検証のためのベンチマークを提案する多数の研究に表れている(Osband et al., 2019; Morad et al., 2023; Pleines et al., 2023)(詳細は付録Cを参照)。しかしながら、この話題に関する研究の数が多いにもかかわらず、強化学習における「メモリ」という用語は依然として複数の意味を持ち、ベンチマークや実験の選択が必ずしも適切に行われているわけではない。
例えば、Oh et al. (2016)では、メモリはエージェントが最近の観測を外部バッファに保存し、時間的文脈に基づいて関連情報を取り出す能力として理解されている。 Lampinen et al. (2021)では、メモリは長い間隔で望ましい情報を保存し、想起する能力である。 Fortunato et al. (2020)では、メモリは認知心理学と神経科学からのワーキングメモリとエピソードメモリ(それぞれ短期的および長期的性質を持つ)を指し、これにより知的エージェントは過去の出来事からの情報を現在と未来の意思決定に利用することができる。 Ni et al. (2023)は、時間的推論の2つの異なる形態として(ワーキング)メモリと(時間的)クレジット割り当てを説明しており、ここでメモリは現在の時点で遠い過去の出来事を想起する能力を指す。 Kang et al. (2024b)では、著者らは心理学で発見された再構成的メモリBartlett & Kintsch (1995)の概念を用いており、これは相互作用に基づく反省プロセスを確立する。
4 Memory of Humans and Agents
強化学習における記憶の概念に関連するほとんどの研究は、認知心理学や神経科学からの様々な原理を用いている。例えば、長期記憶(Lampinen et al., 2021; Ni et al., 2023; Grigsby et al., 2024)、ワーキングメモリ(Graves et al., 2014; Fortunato et al., 2020)、エピソード記憶(Pritzel et al., 2017; Fortunato et al., 2020)、連合記憶(Parisotto & Salakhutdinov, 2017; Zhu et al., 2020)などである。これらの概念には根本的な違いがあるにもかかわらず、強化学習における記憶に関する研究では、しばしばこれらの概念を固有の時間スケール(短期記憶と長期記憶)に単純化している。それにもかかわらず、時間スケールはしばしば定性的に提示され、それらの境界を明確に定義していない。例えば、多くの研究では、環境内の数ステップを記憶することを短期記憶、数百ステップを記憶することを長期記憶と仮定しているが、これらの概念の相対的な性質を考慮していない。短期記憶と長期記憶のこの曖昧さは、エージェントの記憶能力の誤った帰属や、実験を行う際の不正確な評価につながる可能性がある。 この曖昧さに対処するため、本節では強化学習におけるエージェントの記憶とその種類の形式的な定義を導入し、エージェントの記憶を正しく検証するための実験を設計するアルゴリズムを提案する。
4.1 Memory in Cognitive Science
適応的生存を確保する人間の認知能力は、主に記憶に依存しており、記憶は知識とスキルの蓄積、保存、再現を決定する(Parr et al., 2020; 2022)。 記憶には多くの形態が存在し、それぞれが異なる神経メカニズムに依存している。 神経科学と認知心理学は、情報が保存されアクセスされる時間的尺度と、保存される情報の種類によって記憶を区別する。 この区別を抽象化すると、人間の記憶の高レベルな定義は次のようになる:「記憶 - 情報を保持し、後で想起する能力である」。
この定義は、強化学習における記憶の一般的な理解と一致している。したがって、我々はこれを用いてエージェントの記憶の様々な種類に対する用語を作成する。神経科学では、記憶は時間的尺度と行動的表出によって分類される。典型的には、これは短期記憶(数秒間情報を保持する)と長期記憶(一生涯続く可能性がある)の区別につながる(Davis & Squire, 1984)。さらに、記憶は行動的表出によって宣言的記憶(明示的)と手続き的記憶(暗黙的)に分けられる(Graf & Schacter, 1985)。宣言的記憶は意識的に想起でき、出来事や事実を含む一方、手続き的記憶は無意識であり、スキーやドライビングなどのスキルに関連する。
次のセクションでは、強化学習タスクのために、神経科学からの上記の記憶タイプの形式的定義を導入する。これらの定量的な用語で書かれた定義を使用することで、エージェントが過去の情報を意思決定に使用する際に持つ記憶のタイプを一意に分類することができる。
4.2 Memory in RL
強化学習における記憶の解釈は研究によって異なる。一部のPOMDPでは、エージェントは単一の環境内で将来の決定を行うために重要な情報を保持する必要がある。ここで、記憶は通常2つの側面を含む:1) 固定された時間間隔内でイベント間の依存関係を確立する効率性(例:トランスフォーマーのコンテキスト (Esslinger et al., 2022; Ni et al., 2023));2) 固定された時間間隔外でイベント間の依存関係を確立する効率性 (Parisotto et al., 2020; Sorokin et al., 2022)。
4.1節で概説した神経科学の定義に基づくと、最初の解釈は短期記憶に、2番目の解釈は長期記憶に対応する。両方の解釈は宣言的記憶とも密接に関連している。メタ強化学習では、記憶は通常、エージェントが異なる環境/エピソードからスキルを活用する能力を指し Team et al. (2023); Kang et al. (2024a)、手続き的記憶に類似している。
しかし、多くの研究は宣言的記憶と手続き的記憶を持つエージェントを区別せず、過去の情報に基づく意思決定に焦点を当てるのではなく、メタ強化学習タスクを全体として扱うことが多い。例えば、ある論文がエージェントが長期記憶を持つと主張する場合、MDPに基づくメタ強化学習タスクでのみテストされている可能性がある。強化学習におけるエージェントの記憶の概念を明確にするために、本節では正式な定義を提供する。
本稿では、主に同じ環境内で過去の情報に基づいて現在の決定を行うために使用されるエージェントの記憶を研究する。したがって、我々の焦点は宣言的記憶、特にその短期および長期形態に置かれる。
Memory and Credit Assignment.
エージェントの記憶、特に宣言的記憶を探求する論文は、エージェントが扱わなければならない時間的依存関係に基づいて、しばしば2つの概念を区別する:記憶とクレジット割り当て (Osband et al., 2019; Mesnard et al., 2020; Ni et al., 2023)。 Ni et al. (2023)では、著者らは強化学習における2つの形態の時間的推論を正式に区別している:(ワーキング)記憶と(時間的)クレジット割り当て:「記憶は現在の時点で遠い過去のイベントを思い出す能力を指し、クレジット割り当ては現在のクレジットに値する行動がいつ発生したかを判断する能力を指す」(Ni et al., 2023)。
これらの概念は異なるものの、どちらも関連するイベント間の異なる時間的依存関係を確立する。本研究では、エージェントがこれらの依存関係を形成する能力に焦点を当て、「記憶」と「クレジット割り当て」を単一のエンティティとして扱う。我々は4.1節の定義を使用して、記憶を一般的に定義する。注目すべきは、「記憶」の定義が「クレジット割り当て」にも適用されることである。これらは時間的依存関係のみに関係し、その本質には関係しないためである。
5 Memory Decision Making
エージェントの記憶を使用するPOMDPタスクは、主に2つのクラスに分けることができる:タスク間でのスキル転移を伴うメタ強化学習(Meta-RL)と、将来の決定のための情報の保存と取り出しに焦点を当てる記憶に基づく意思決定(Memory DM)である。
この区別は重要である:Meta-RLのエージェントは、迅速な学習と一般化を促進するために4.1節の手続き記憶のようなものを使用するのに対し、Memory DMのエージェントは同じ環境内での現在の意思決定のために宣言的記憶のようなものに依存する。これらの違いにもかかわらず、多くの研究は行動の表れを見過ごし、時間的尺度のみに焦点を当てている。
Memory DMタスクの定義を導入するために、まずエージェントのコンテキスト長の定義を導入する必要がある:
Definition 1.
エージェントのコンテキスト長()- 時刻においてエージェントが処理できる過去のステップ(の三つ組)の最大数である。
例えば、MLPベースのエージェントは一度に1ステップを処理し()、トランスフォーマーベースのエージェントは最大個の三つ組のシーケンスを処理できる。ここで、は注意機構によって決定される。導入したエージェントのコンテキスト長に関する定義1を用いて、本稿で焦点を当てるMemory DMフレームワークの正式な定義を導入することができる:
Definition 2.
記憶意思決定(Memory DM)- これは、エージェントの時刻における意思決定プロセスが、の場合は履歴に基づき、そうでない場合はに基づくPOMDPのクラスである。目的は、現在の観測と長さの履歴を行動にマッピングする最適な方策を決定し、単一のPOMDP環境内で期待累積報酬を最大化することである:、ここではエピソード持続時間、は割引因子である。
Memory DMフレームワーク(定義2)では、記憶はエージェントが単一の環境とエピソード内で過去の情報を想起する能力を指す。対照的に、Meta-RLフレームワーク(付録、定義7参照)では、記憶は他の環境や以前のエピソードからのエージェントの行動に関する情報を想起することを含む。これらの概念を区別するために、我々は4.1節から「宣言的記憶」と「手続き的記憶」の定義を採用する:
Definition 3 (Declarative and Procedural memory in RL).
を訓練環境の数、を環境ごとのエピソード数とする。そのとき、
-
1.
宣言的記憶 - エージェントが単一の環境内および当該環境内の単一のエピソードにわたって知識を転移する際のエージェントの記憶の種類:
(1) -
2.
手続き的記憶 - エージェントが複数の環境または単一環境内の複数のエピソードにわたってスキルを転移する際のエージェントの記憶の種類:
(2)
ここで、「知識」とは事実、場所、出来事などの観察可能な情報を指す。対照的に、「スキル」とはエージェントが様々なタスクに適用できる事前に学習された方策である。したがって、Memory DMフレームワークはエージェントの宣言的記憶を検証し、Meta-RLフレームワークはその手続き的記憶を検証する(図1参照)。
4.2節において、我々はPOMDPを2つのクラスに区別した:宣言的記憶を必要とするMemory DMと、手続き的記憶を必要とするMeta-RLである。我々の主な焦点であるMemory DMタスク内では、エージェントの記憶は長期記憶と短期記憶に分類される:
Definition 4 (Memory DM types of memory).
エージェントのコンテキスト長をとし、をの期間でに始まりに終わるイベントとする。また、を現在の観測とイベントに関する情報に基づく時刻での意思決定点(想起)とする。さらに、を相関ホライズン、すなわち意思決定を支援するイベントとこのイベントの想起時点との間の最小時間遅延とする。そうすると、
-
1.
短期記憶(STM)とは、意思決定時に長さのエージェントコンテキスト内の過去からの局所的相関に関する情報を利用するエージェントの能力である:
短期記憶
-
2.
長期記憶(LTM)とは、意思決定時に長さのエージェントコンテキスト外の過去からのグローバルな相関に関する情報を利用するエージェントの能力である:
長期記憶
宣言的記憶の2つの定義は、過去の情報に基づいて決定を行うメモリDMタスクに関連するすべての研究を包含している。 メタ強化学習は、エージェントが環境と相互作用する内部ループと、タスク間で知識を転移する外部ループで構成される。通常、はメモリを必要としないMDPであり、外部ループにのみ寄与する。これが、メタ強化学習研究における「メモリ」が指すものである。
内部ループでの相互作用履歴に基づいてエージェントが決定を行うタスクは、別個に名付けられていない。これは、メタ強化学習タスクタイプの分類(マルチタスク、マルチタスク0ショット、シングルタスク)が外部ループのパラメータ(および)のみに基づいており、内部ループのタスクタイプを考慮していないためである。しかし、我々はこれらのタスクに対するエージェントのメモリを、宣言的短期記憶または長期記憶として分類することができる(図3参照)。
本稿では、メタ強化学習タスクタイプを緑色(POMDP内部ループタスクを持つ)と青色(MDP内部ループタスクを持つ)にさらに分離する。 緑色の場合、エージェントのメモリは外部ループでのスキル転移と内部ループでの相互作用履歴に基づく意思決定の両方に必要であり、したがって内部ループ内ではメモリDMとみなすことができる。 青色の場合、メモリはスキル転移にのみ必要である。本稿はメモリDMタスクに焦点を当てているが、この用語法により、様々なメタ強化学習タスクをさらに分類することが可能となり、POMDPのサブクラスを緑色で強調している。エージェントのメモリを必要とするタスクの提案された分類を表1に示す。
5.1 Memory-intensive environments
Memory DMエージェントの短期記憶と長期記憶の使用を効果的にテストするためには、適切な実験を設計することが不可欠である。すべての環境がエージェントの記憶を評価するのに適しているわけではない。例えば、フレームスタッキングを用いた遍在的なAtariゲーム(Bellemare et al., 2013)やMuJoCo制御タスク(Fu et al., 2021)は、代表的でない結果をもたらす可能性がある。エージェントの記憶能力の評価を容易にするために、我々は記憶集約型環境の定義を形式化する:
Definition 5 (Memory-intensive environments).
をPOMDPとし、をすべてのイベント-想起ペア間の相関ホライズンの集合とする。このとき。
系: 。
記憶集約型環境の定義(定義5)とエージェントの記憶タイプの定義(定義4)を用いることで、Memory DMフレームワークにおいて短期記憶と長期記憶をテストする実験を構成することができる。注目すべきは、定理1で概説されているように、同じ記憶集約型環境が両方のタイプの記憶を検証できることである:
Theorem 1 (On the context memory border).
を記憶集約型環境とし、をエージェントの文脈長とする。このとき、文脈記憶境界が存在し、であれば、環境はMemory DMフレームワークにおいて排他的に長期記憶を検証するために使用される:
(3) |
Proof.
とする。このとき、は相関ホライズンがエージェントの履歴に含まれないことを保証する。したがって、文脈長は排他的に長期記憶問題を生成する。文脈長は負またはゼロにはなり得ないため、となり、これが証明に必要であった。 ∎
-
1.
短期記憶を検証するための弱条件:であれば、記憶集約型環境は短期記憶と長期記憶の両方を検証するために使用される。
-
2.
短期記憶を検証するための強条件:であれば、記憶集約型環境は排他的に短期記憶を検証するために使用される。
定理1によると、の場合、相関ホライズンのいずれもエージェントの文脈に含まれず、長期記憶のみを検証する。の場合、長期記憶はまだテストできるが、一部の相関ホライズンがエージェントの文脈内に入り、長期記憶の検証には使用されない。このような場合、長期記憶を明示的に評価することはできない。の場合、すべての相関ホライズンがエージェントの文脈内にあり、短期記憶のみを検証する。得られた結果をまとめると、短期記憶と長期記憶の検証に必要なエージェントの文脈長の最終的な区分は以下のようになる:
5.2 Long-term memory in Memory DM
定義4で述べたように、短期記憶を伴うMemory DMタスクは、記憶集約型環境におけるイベント-リコールペアがエージェントのコンテキスト()内にある場合に発生する。ここでの記憶は、の大きさに関わらず、コンテキスト内で情報を関連付ける能力を指す。例として、Esslinger et al. (2022); Ni et al. (2023); Grigsby et al. (2024)などの研究がある。短期記憶の検証は、十分に大きなコンテキスト長を設定するだけで簡単に行える。しかし、長期記憶能力の検証はより複雑であり、より大きな関心事である。
長期記憶を必要とするMemory DMタスクは、記憶集約型環境におけるイベント-リコールペアがエージェントのコンテキスト()外にある場合に発生する。この場合、記憶はエージェントのコンテキストを超えて情報を関連付ける能力を指し、エージェントのベースモデルが扱える以上の長さの相互作用履歴を管理できる記憶メカニズム(定義6)が必要となる。
Definition 6 (Memory mechanisms).
エージェントが現在時刻において長さの履歴を処理するとし、はエージェントのコンテキスト長とする。このとき、記憶メカニズムは、固定されたに対して、エージェントが長さの配列を処理できるようにする関数として定義される。つまり、コンテキスト外のグローバルな相関関係を確立することができ、は有効コンテキストである。
(5) |
記憶メカニズムは、Memory DMフレームワークにおける長期記憶の課題(コンテキスト外の情報処理)に対処するために不可欠である。
Example of memory mechanism.
RNNアーキテクチャに基づくエージェントを考える。このエージェントは、すべての時刻において個のトークン(観測、行動、報酬)の三つ組を処理できる。記憶メカニズムを使用することで(例えばHausknecht & Stone (2015)のように)、エージェントはRNNアーキテクチャのコンテキストサイズを拡大せずに、1ステップで処理されるトークン数を増やすことができる。したがって、当初は記憶集約型環境であったものが、今ではとして表現できる。ここで、記憶メカニズムはRNNの隠れ状態への再帰的更新を指す。
したがって、Memory DMフレームワークにおいてエージェントの長期記憶問題解決能力を検証することは、エージェントの記憶メカニズムを検証することに帰着する。このような場合に正しい実験を設計するためには、以下の条件を満たす必要がある:
我々の定義によれば、Memory DMフレームワーク内で長期記憶タスクを解決できる記憶メカニズムを持つエージェントは、短期記憶タスクも処理できるが、その逆は成り立たない。エージェントの短期記憶または長期記憶をテストする実験を設定するためのアルゴリズムをアルゴリズム1に示す。
したがって、記憶は記憶強化エージェントの本質的なメカニズムであり、時間を超えて情報を保持、処理、想起する能力を表している。しかし、記憶の必要性は環境の要求から生じる。そのため、記憶はエージェントの本質的な属性と考えられ、記憶タイプの分類は本質的にエージェント自体に結びついている。ただし、これらの記憶タイプを正確に評価するには、記憶集約型環境で慎重に設計された実験が必要である。アルゴリズム1を使用して、これらの環境はエージェントの記憶メカニズムを適切に挑戦するように構成され、短期記憶と長期記憶能力の明確な区別を確保する必要がある。
5.3 Examples of setting up an experiment to test memory in Memory DM framework
Passive T-Maze.
受動的T字迷路環境(Ni et al., 2023)を考えてみよう。エージェントはT字型の廊下の始点から開始し、その場所でのみ利用可能な手がかりを観察する。エピソードを完了するには、エージェントは直進して分岐点まで歩き、最初の手がかりに基づいて曲がる必要がある。この環境は廊下の長さによって定義され、エピソードの持続時間はである。我々はアルゴリズム1を用いてこの環境を分析する:
-
1.
環境には1つのイベント-想起ペア(手がかりの観察 - 分岐点での方向転換)しかないため、であり、長期記憶と短期記憶の両方をテストするのに適している。
-
2.
このイベントの持続時間は(手がかりは1タイムステップでのみ利用可能)であり、相関ホライズンは(での手がかりとでの意思決定)である。したがって、となる。
-
3.
環境パラメータまたはエージェントのコンテキストサイズを変更することで、エージェントの長期記憶または短期記憶を評価できる。例えば、が固定されている場合、を設定することで短期記憶をテストする。長期記憶を評価するには、記憶メカニズムを使用し、コンテキスト長をに設定する必要がある。
理論的には、この推定値はエージェントの長期記憶をテストするのに十分であるが、実際には区間の左境界に近い値を選択する方が良い。これにより、記憶メカニズムの効果をより明示的に追跡できるためである。
6 Experiments
エージェントの長期記憶および短期記憶能力を評価する際に一貫した方法論(アルゴリズム1)に従うことの重要性を示すとともに、実験の誤設定から生じる結果の曖昧さを強調するために、我々はMemory DMフレームワーク内の記憶集約型環境において、記憶強化エージェントを用いた一連の実験を実施した。
我々の実験では、2つの記憶集約型環境を選択した:Passive-T-Maze (Ni et al., 2023) とMinigrid-Memory (Chevalier-Boisvert et al., 2023)(付録の図6を参照)である。Passive-T-Mazeでは、エージェントはT字型迷路の始点から開始し、手がかりを観察し、それを使用して迷路の終点にある分岐点で曲がる必要がある。Minigrid-Memory環境はPassive-T-Mazeと同様の課題を提示するが、エージェントは最初に手がかりを含む部屋に到達してから、廊下を歩いて曲がる必要がある。これらの環境の詳細な説明は、付録のサブセクションE.1に記載されている。
記憶強化ベースラインとして、我々はDeep Transformer Q-Networks (DTQN) (Esslinger et al., 2022)、DQN with GPT-2 (DQN-GPT-2) (Ni et al., 2023)、およびSoft Actor-Critic with GPT-2 (SAC-GPT-2) (Ni et al., 2023)を選択した。
6.1 Impact of Experiment Configuration on Memory Type Tested
5.1節において、我々は長期記憶(LTM)と短期記憶(STM)の影響を区別するためのエージェントのコンテキスト長の間隔を特定した。しかし、LTMとSTMの間の遷移は、一部の相関ホライズンがエージェントのコンテキスト内に収まり、他は収まらないという中間的な範囲を生み出し、そこではそれらの寄与を明確に区別することができない。
LTMとSTMの標準化された定義や検証方法がない場合、実験はしばしばこの遷移的な間隔で行われ、LTM記憶を評価することが不可能になる。この曖昧さは、以下に示すように、エージェントのLTM能力の誤解釈につながる可能性がある。
これを説明するために、我々はMiniGrid-Memory環境でトランスフォーマーベースのエージェントSAC-GPT-2を用いて実験を行い、マップサイズをに設定した。2つの実験構成が使用された:の固定長廊下(固定モード)との可変長廊下(可変モード)である。Memory DMフレームワーク内でLTMとSTMをテストするためのアルゴリズム1で提案された方法論に従わない場合、エージェントのコンテキスト長は恣意的に(なのでLTMを表す)または(なのでSTMを表す)に設定される可能性がある。
この実験の結果を図4に示す。実線はSTM()を、破線はLTM()を表し、緑は可変モードを、赤は固定モードを示している。可変モード(緑)では、エージェントはLTMとSTMの両方の検証実験でほぼ1.0の成功率(SR)を達成している。これは誤ってエージェントが両方の記憶タイプを持っていることを示唆する可能性がある。一方、固定モード(赤)では、結果に不一致が見られる:エージェントはSTM記憶を示すが、LTM記憶を示すことができない。
この不一致は、SAC-GPT-2がLTM問題を解決するための記憶メカニズムを欠いているために生じる;エージェントはそのコンテキスト内の情報しか活用できない。この混乱は、LTMとSTMの相互作用を考慮せずに、環境のドキュメントのみに基づいてをに対して相対的に選択した素朴な実験設定によって生じる。可変モードでは、エージェントの性能はLTMとSTMの能力の混合を反映し、LTM記憶を明示的に分離することが不可能になる。対照的に、アルゴリズム1で概説された方法論に従ってテストされた固定モードは、STM記憶を明確に識別し、同時にLTM記憶の欠如を確認する。
本節では、エージェントの記憶をテストする素朴なアプローチが、その真の能力を誤解釈する結果につながる可能性があることを示した。対照的に、我々の提案する方法論は、エージェントの長期記憶と短期記憶を明示的に区別し、正確に評価する実験を設計することを可能にする。
6.2 The relative nature of an agent’s memory
アルゴリズム1によると、エージェントの記憶タイプ(LTMとSTM)をテストするための実験設定は、エージェントのコンテキスト長と環境特性に依存するコンテキストメモリ境界という2つのパラメータに依存している。エージェントのLTMまたはSTMを検証するには、一方を固定しながらまたはを調整する必要がある。本節では、これらのパラメータが記憶テスト実験でどのように相互作用するかを説明する。
我々は、とを変化させることで、Passive T-Maze環境において2つの記憶強化エージェント、DTQNとDQN-GPT-2を評価する。結果は図5に示されている。
まず、を設定してSTMをテストする。この構成では、すべての関連情報がエージェントのコンテキスト内に留まる。図5(左)に示すように、両エージェントはのリターンを達成し、STM能力を確認している。 LTMをテストするために、を使用し、重要なイベント-リコールペアがエージェントのコンテキスト外に落ちるようにセットアップを調整する。図5(中央)に示すように、をからに減少させると、両エージェントのリターンはに低下し、手がかり情報を思い出せないことを示しており、LTMがLTMでないことを確認している。 次に、を減少させることでSTMをさらに評価する。図5(右)に示すように、とをからに減少させると、エージェントのリターンはに戻る。これは、すべての関連情報がコンテキスト内にある場合、エージェントが記憶を効果的に使用できることを示している。
要約すると、LTMとSTMの検証は、一方を固定しながらまたはを調整することで行うことができる。Passive T-Mazeは、との関係にある、パラメータ化可能な廊下の長さを持つため、効果的なテストベッドである。しかし、が固定されている多くの環境では、を変化させることが記憶評価のための実行可能なアプローチとして残っている。
7 Conclusion
本研究では、神経科学からインスピレーションを得て、強化学習における記憶タイプを形式化し、長期記憶(LTM)と短期記憶(STM)、および宣言的記憶と手続き的記憶を区別した。また、POMDPを記憶意思決定(Memory DM)とメタ強化学習(Meta-RL)の2つのクラスに分類した。
Memory DMフレームワークにおけるLTMとSTMの検証方法とともに、この形式化は、エージェントの記憶の異なるタイプを区別するための明確な構造を提供する。これにより、類似した記憶メカニズムを持つエージェント間の公平な比較が可能となり、記憶アーキテクチャの限界を浮き彫りにし、精密な評価と改善を促進する。
さらに、我々はこの方法論を無視することの潜在的な落とし穴を実証した。誤って設定された実験は、エージェントの記憶能力に関して誤解を招く結論につながり、LTMとSTMの境界を曖昧にする可能性がある。我々のアプローチに従うことで、研究者はより信頼性の高い評価を達成し、記憶強化エージェント間の情報に基づいた比較を行うことができる。
本稿は、強化学習におけるエージェントの記憶の統一的理解に向けた重要な一歩である。我々の定義と方法論は、エージェントの記憶を厳密にテストするための実用的なツールを提供し、一貫した実験設計を保証する。一般的な不整合に対処することで、我々のアプローチは信頼性の高い結果と意味のある比較を保証し、強化学習の研究を前進させる。
References
- Badia et al. (2020) Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Zhaohan Daniel Guo, and Charles Blundell. Agent57: Outperforming the Atari human benchmark. In Hal Daumé III and Aarti Singh (eds.), Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pp. 507–517. PMLR, 13–18 Jul 2020. URL https://proceedings.mlr.press/v119/badia20a.html.
- Bartlett & Kintsch (1995) Frederic C. Bartlett and Walter Kintsch. Remembering: A Study in Experimental and Social Psychology. Cambridge University Press, 2 edition, 1995.
- Beck et al. (2024) Jacob Beck, Risto Vuorio, Evan Zheran Liu, Zheng Xiong, Luisa Zintgraf, Chelsea Finn, and Shimon Whiteson. A survey of meta-reinforcement learning, 2024. URL https://arxiv.org/abs/2301.08028.
- Becker et al. (2024) Philipp Becker, Niklas Freymuth, and Gerhard Neumann. Kalmamba: Towards efficient probabilistic state space models for rl under uncertainty, 2024. URL https://arxiv.org/abs/2406.15131.
- Bellemare et al. (2013) Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47:253–279, 2013.
- Cherepanov et al. (2024) Egor Cherepanov, Alexey Staroverov, Dmitry Yudin, Alexey K. Kovalev, and Aleksandr I. Panov. Recurrent action transformer with memory. arXiv preprint arXiv:2306.09459, 2024. URL https://arxiv.org/abs/2306.09459.
- Chevalier-Boisvert et al. (2023) Maxime Chevalier-Boisvert, Bolun Dai, Mark Towers, Rodrigo de Lazcano, Lucas Willems, Salem Lahlou, Suman Pal, Pablo Samuel Castro, and Jordan Terry. Minigrid & miniworld: Modular & customizable reinforcement learning environments for goal-oriented tasks. CoRR, abs/2306.13831, 2023.
- Davis & Squire (1984) Hasker Davis and Larry Squire. Davis hp, squire lr. protein synthesis and memory: a review. psychol bull 96: 518-559. Psychological bulletin, 96:518–59, 11 1984. doi: 10.1037/0033-2909.96.3.518.
- Deverett et al. (2019) Ben Deverett, Ryan Faulkner, Meire Fortunato, Gregory Wayne, and Joel Z Leibo. Interval timing in deep reinforcement learning agents. Advances in Neural Information Processing Systems, 32, 2019.
- Duan et al. (2016) Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever, and Pieter Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning, 2016. URL https://arxiv.org/abs/1611.02779.
- Esslinger et al. (2022) Kevin Esslinger, Robert Platt, and Christopher Amato. Deep transformer q-networks for partially observable reinforcement learning. arXiv preprint arXiv:2206.01078, 2022.
- Fortunato et al. (2020) Meire Fortunato, Melissa Tan, Ryan Faulkner, Steven Hansen, Adrià Puigdomènech Badia, Gavin Buttimore, Charlie Deck, Joel Z Leibo, and Charles Blundell. Generalization of reinforcement learners with working and episodic memory, 2020. URL https://arxiv.org/abs/1910.13406.
- Fu et al. (2021) Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4rl: Datasets for deep data-driven reinforcement learning, 2021.
- Goyal et al. (2022) Anirudh Goyal, Abram L. Friesen, Andrea Banino, Theophane Weber, Nan Rosemary Ke, Adria Puigdomenech Badia, Arthur Guez, Mehdi Mirza, Peter C. Humphreys, Ksenia Konyushkova, Laurent Sifre, Michal Valko, Simon Osindero, Timothy Lillicrap, Nicolas Heess, and Charles Blundell. Retrieval-augmented reinforcement learning, 2022. URL https://arxiv.org/abs/2202.08417.
- Graf & Schacter (1985) P. Graf and D.L. Schacter. Implicit and explicit memory for new associations in normal and amnesic subjects. Journal of Experimental Psychology: Learning, Memory, & Cognition, 11:501–518, 1985.
- Graves et al. (2014) Alex Graves, Greg Wayne, and Ivo Danihelka. Neural turing machines, 2014. URL https://arxiv.org/abs/1410.5401.
- Graves et al. (2016) Alex Graves, Greg Wayne, Malcolm Reynolds, Tim Harley, Ivo Danihelka, Agnieszka Grabska-Barwińska, Sergio Gómez, Edward Grefenstette, Tiago Ramalho, John Agapiou, Adrià Badia, Karl Hermann, Yori Zwols, Georg Ostrovski, Adam Cain, Helen King, Christopher Summerfield, Phil Blunsom, Koray Kavukcuoglu, and Demis Hassabis. Hybrid computing using a neural network with dynamic external memory. Nature, 538, 10 2016. doi: 10.1038/nature20101.
- Grigsby et al. (2024) Jake Grigsby, Linxi Fan, and Yuke Zhu. Amago: Scalable in-context reinforcement learning for adaptive agents, 2024. URL https://arxiv.org/abs/2310.09971.
- Gu & Dao (2023) Albert Gu and Tri Dao. Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752, 2023.
- Gu et al. (2021) Albert Gu, Karan Goel, and Christopher Ré. Efficiently modeling long sequences with structured state spaces. arXiv preprint arXiv:2111.00396, 2021.
- Ha & Schmidhuber (2018) David Ha and Jürgen Schmidhuber. Recurrent world models facilitate policy evolution, 2018. URL https://arxiv.org/abs/1809.01999.
- Hafner et al. (2019) Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, and James Davidson. Learning latent dynamics for planning from pixels. In Kamalika Chaudhuri and Ruslan Salakhutdinov (eds.), Proceedings of the 36th International Conference on Machine Learning, volume 97 of Proceedings of Machine Learning Research, pp. 2555–2565. PMLR, 09–15 Jun 2019. URL https://proceedings.mlr.press/v97/hafner19a.html.
- Hausknecht & Stone (2015) Matthew Hausknecht and Peter Stone. Deep recurrent q-learning for partially observable mdps, 2015.
- Kang et al. (2024a) Jikun Kang, Romain Laroche, Xingdi Yuan, Adam Trischler, Xue Liu, and Jie Fu. Think before you act: Decision transformers with working memory, 2024a. URL https://arxiv.org/abs/2305.16338.
- Kang et al. (2024b) Yongxin Kang, Enmin Zhao, Yifan Zang, Lijuan Li, Kai Li, Pin Tao, and Junliang Xing. Sample efficient reinforcement learning using graph-based memory reconstruction. IEEE Transactions on Artificial Intelligence, 5(2):751–762, 2024b. doi: 10.1109/TAI.2023.3268612.
- Lampinen et al. (2021) Andrew Lampinen, Stephanie Chan, Andrea Banino, and Felix Hill. Towards mental time travel: a hierarchical memory for reinforcement learning agents. Advances in Neural Information Processing Systems, 34:28182–28195, 2021.
- Lu et al. (2023) Chris Lu, Yannick Schroecker, Albert Gu, Emilio Parisotto, Jakob Foerster, Satinder Singh, and Feryal Behbahani. Structured state space models for in-context reinforcement learning, 2023. URL https://arxiv.org/abs/2303.03982.
- Melo (2022) Luckeciano C. Melo. Transformers are meta-reinforcement learners, 2022. URL https://arxiv.org/abs/2206.06614.
- Mesnard et al. (2020) Thomas Mesnard, Théophane Weber, Fabio Viola, Shantanu Thakoor, Alaa Saade, Anna Harutyunyan, Will Dabney, Tom Stepleton, Nicolas Heess, Arthur Guez, et al. Counterfactual credit assignment in model-free reinforcement learning. arXiv preprint arXiv:2011.09464, 2020.
- Mishra et al. (2018) Nikhil Mishra, Mostafa Rohaninejad, Xi Chen, and Pieter Abbeel. A simple neural attentive meta-learner, 2018. URL https://arxiv.org/abs/1707.03141.
- Mnih et al. (2015) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin A. Riedmiller, Andreas Kirkeby Fidjeland, Georg Ostrovski, Stig Petersen, Charlie Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, and Demis Hassabis. Human-level control through deep reinforcement learning. Nature, 518:529–533, 2015. URL https://api.semanticscholar.org/CorpusID:205242740.
- Morad et al. (2023) Steven Morad, Ryan Kortvelesy, Matteo Bettini, Stephan Liwicki, and Amanda Prorok. Popgym: Benchmarking partially observable reinforcement learning, 2023. URL https://arxiv.org/abs/2303.01859.
- Morad et al. (2021) Steven D. Morad, Stephan Liwicki, Ryan Kortvelesy, Roberto Mecca, and Amanda Prorok. Graph convolutional memory using topological priors, 2021. URL https://arxiv.org/abs/2106.14117.
- Ni et al. (2021) Tianwei Ni, Benjamin Eysenbach, and Ruslan Salakhutdinov. Recurrent model-free rl can be a strong baseline for many pomdps. arXiv preprint arXiv:2110.05038, 2021.
- Ni et al. (2023) Tianwei Ni, Michel Ma, Benjamin Eysenbach, and Pierre-Luc Bacon. When do transformers shine in RL? decoupling memory from credit assignment. In Thirty-seventh Conference on Neural Information Processing Systems, 2023. URL https://openreview.net/forum?id=APGXBNkt6h.
- Oh et al. (2016) Junhyuk Oh, Valliappa Chockalingam, Satinder Singh, and Honglak Lee. Control of memory, active perception, and action in minecraft, 2016. URL https://arxiv.org/abs/1605.09128.
- Osband et al. (2019) Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepesvari, Satinder Singh, et al. Behaviour suite for reinforcement learning. arXiv preprint arXiv:1908.03568, 2019.
- Parisotto & Salakhutdinov (2017) Emilio Parisotto and Ruslan Salakhutdinov. Neural map: Structured memory for deep reinforcement learning, 2017. URL https://arxiv.org/abs/1702.08360.
- Parisotto et al. (2020) Emilio Parisotto, Francis Song, Jack Rae, Razvan Pascanu, Caglar Gulcehre, Siddhant Jayakumar, Max Jaderberg, Raphael Lopez Kaufman, Aidan Clark, Seb Noury, et al. Stabilizing transformers for reinforcement learning. In International conference on machine learning, pp. 7487–7498. PMLR, 2020.
- Parr et al. (2020) Thomas Parr, Rajeev Vijay Rikhye, Michael M Halassa, and Karl J Friston. Prefrontal computation as active inference. Cerebral Cortex, 30(2):682–695, 2020.
- Parr et al. (2022) Thomas Parr, Giovanni Pezzulo, and Karl J Friston. Active inference: the free energy principle in mind, brain, and behavior. MIT Press, 2022.
- Pleines et al. (2023) Marco Pleines, Matthias Pallasch, Frank Zimmer, and Mike Preuss. Memory gym: Partially observable challenges to memory-based agents in endless episodes. arXiv preprint arXiv:2309.17207, 2023.
- Pramanik et al. (2023) Subhojeet Pramanik, Esraa Elelimy, Marlos C Machado, and Adam White. Recurrent linear transformers. arXiv preprint arXiv:2310.15719, 2023.
- Pritzel et al. (2017) Alexander Pritzel, Benigno Uria, Sriram Srinivasan, Adrià Puigdomènech, Oriol Vinyals, Demis Hassabis, Daan Wierstra, and Charles Blundell. Neural episodic control, 2017. URL https://arxiv.org/abs/1703.01988.
- Robine et al. (2023) Jan Robine, Marc Höftmann, Tobias Uelwer, and Stefan Harmeling. Transformer-based world models are happy with 100k interactions. In The Eleventh International Conference on Learning Representations, 2023. URL https://openreview.net/forum?id=TdBaDGCpjly.
- Rumelhart et al. (1986) David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. Learning representations by back-propagating errors. Nature, 323:533–536, 1986. URL https://api.semanticscholar.org/CorpusID:205001834.
- Samsami et al. (2024) Mohammad Reza Samsami, Artem Zholus, Janarthanan Rajendran, and Sarath Chandar. Mastering memory tasks with world models, 2024. URL https://arxiv.org/abs/2403.04253.
- Shala et al. (2024) Gresa Shala, André Biedenkapp, and Josif Grabocka. Hierarchical transformers are efficient meta-reinforcement learners, 2024. URL https://arxiv.org/abs/2402.06402.
- Smith et al. (2023) Jimmy T. H. Smith, Andrew Warrington, and Scott W. Linderman. Simplified state space layers for sequence modeling, 2023. URL https://arxiv.org/abs/2208.04933.
- Song et al. (2018) Doo Re Song, Chuanyu Yang, Christopher McGreavy, and Zhibin Li. Recurrent deterministic policy gradient method for bipedal locomotion on rough terrain challenge, November 2018. URL http://dx.doi.org/10.1109/ICARCV.2018.8581309.
- Sorokin et al. (2022) Artyom Sorokin, Nazar Buzun, Leonid Pugachev, and Mikhail Burtsev. Explain my surprise: Learning efficient long-term memory by predicting uncertain outcomes. Advances in Neural Information Processing Systems, 35:36875–36888, 2022.
- Sorokin et al. (2015) Ivan Sorokin, Alexey Seleznev, Mikhail Pavlov, Aleksandr Fedorov, and Anastasiia Ignateva. Deep attention recurrent q-network, 2015. URL https://arxiv.org/abs/1512.01693.
- Team et al. (2023) Adaptive Agent Team, Jakob Bauer, Kate Baumli, Satinder Baveja, Feryal Behbahani, Avishkar Bhoopchand, Nathalie Bradley-Schmieg, Michael Chang, Natalie Clay, Adrian Collister, Vibhavari Dasagi, Lucy Gonzalez, Karol Gregor, Edward Hughes, Sheleem Kashem, Maria Loks-Thompson, Hannah Openshaw, Jack Parker-Holder, Shreya Pathak, Nicolas Perez-Nieves, Nemanja Rakicevic, Tim Rocktäschel, Yannick Schroecker, Jakub Sygnowski, Karl Tuyls, Sarah York, Alexander Zacherl, and Lei Zhang. Human-timescale adaptation in an open-ended task space, 2023. URL https://arxiv.org/abs/2301.07608.
- Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
- Wayne et al. (2018) Greg Wayne, Chia-Chun Hung, David Amos, Mehdi Mirza, Arun Ahuja, Agnieszka Grabska-Barwinska, Jack Rae, Piotr Mirowski, Joel Z. Leibo, Adam Santoro, Mevlana Gemici, Malcolm Reynolds, Tim Harley, Josh Abramson, Shakir Mohamed, Danilo Rezende, David Saxton, Adam Cain, Chloe Hillier, David Silver, Koray Kavukcuoglu, Matt Botvinick, Demis Hassabis, and Timothy Lillicrap. Unsupervised predictive memory in a goal-directed agent, 2018. URL https://arxiv.org/abs/1803.10760.
- Wierstra et al. (2010) Daan Wierstra, Alexander Förster, Jan Peters, and Jürgen Schmidhuber. Recurrent policy gradients. Logic Journal of the IGPL, 18:620–634, 10 2010. doi: 10.1093/jigpal/jzp049.
- YuXuan Liu & Hsieh (2016) Tony Duan YuXuan Liu and Wesley Hsieh. Temporal convolutional policy networks, 2016. URL https://yuxuanliu.com/files/tcpn.pdf.
- Zaremba & Sutskever (2016) Wojciech Zaremba and Ilya Sutskever. Reinforcement learning neural turing machines - revised, 2016. URL https://arxiv.org/abs/1505.00521.
- Zhu et al. (2023) Deyao Zhu, Li Erran Li, and Mohamed Elhoseiny. Value memory graph: A graph-structured world model for offline reinforcement learning, 2023. URL https://arxiv.org/abs/2206.04384.
- Zhu et al. (2020) Guangxiang Zhu, Zichuan Lin, Guangwen Yang, and Chongjie Zhang. Episodic reinforcement learning with associative memory. In International Conference on Learning Representations, 2020. URL https://api.semanticscholar.org/CorpusID:212799813.
- Zintgraf et al. (2020) Luisa Zintgraf, Kyriacos Shiarlis, Maximilian Igl, Sebastian Schulze, Yarin Gal, Katja Hofmann, and Shimon Whiteson. Varibad: A very good method for bayes-adaptive deep rl via meta-learning, 2020. URL https://arxiv.org/abs/1910.08348.
Appendix A Appendix – Glossary
本節では、本稿全体で使用される主要な用語と概念の包括的な用語集を提供する。これらの定義は、我々の研究で提案された用語を明確にし、読者が我々の研究の基礎となる主要な要素を明確に理解できるようにすることを目的としている。
-
1.
– MDP環境
-
2.
– POMDP環境
-
3.
– メモリ集約型環境
-
4.
– エージェントの環境との相互作用の履歴
-
5.
– エージェントの基本モデルのコンテキスト長
-
6.
– エージェントのコンテキストメモリの境界。ここでは厳密にLTM問題である
-
7.
– エージェントが処理できるステップ数を増加させるメモリメカニズム
-
8.
– メモリメカニズムを適用した後のエージェントの有効コンテキスト
-
9.
– 時刻に開始し、続くイベントで、エージェントが将来の意思決定時に想起すべきもの
-
10.
– イベントに従って時刻に意思決定を行う瞬間
-
11.
– イベントの相関ホライズン
Appendix B Appendix – Additional notes on the motivation for the article
B.1 Why use definitions from neuroscience?
短期記憶や長期記憶、宣言的記憶や手続き的記憶といった神経科学や認知科学からの定義は、強化学習コミュニティですでによく確立されているが、共通の意味を持たず、異なる方法で解釈されている。我々は、新しい概念を導入する際に生じる可能性のある混乱を避けるために、これらの定義を厳密に形式化し、エージェントの記憶の種類を特定するために明確で定量的な意味を持つように再定義する。多くのアルゴリズムの性能はその記憶の種類に依存するためである。
強化学習における記憶に焦点を当てる上で、我々は人間の記憶の全スペクトルを網羅的に再現しようとはしていない。代わりに、我々の目標は、強化学習研究者にすでに馴染みのある神経科学の概念の直感的な理解を活用することである。このアプローチにより、すでに複雑な記憶強化学習の領域に新しい用語を不必要に導入することを避けている。既存の定義を洗練し整合させることで、我々は強化学習研究における明確なコミュニケーション、厳密な評価、実践的な応用を促進する堅牢な枠組みを作成している。
B.2 On practical applications of our framework
我々のフレームワークの主な目的は、時間的依存性と記憶された情報の性質に基づいた記憶タイプの堅牢な分類を提供することにより、強化学習における実践的な課題に対処することである。この分類は、記憶テストを標準化し、強化学習エージェントがその能力を正確に反映する条件下で評価されることを保証するために不可欠である。
強化学習において、記憶は大きなコンテキストウィンドウを持つトランスフォーマー、再帰型ネットワーク、またはタスク間でスキル転移が可能なモデルなど、様々な方法で解釈される。しかし、これらのアプローチは設計において根本的に異なることが多く、比較が信頼できず、テストの不整合につながる。我々のフレームワークは、統一された実践的な条件下で記憶メカニズムを評価するための明確な構造を提供することでこの問題を解決する。
提案された宣言的記憶と手続き的記憶の定義は、環境の数()とエピソード数()という2つの簡潔な数値パラメータを使用する。これらのパラメータにより、研究者はタスクに必要な記憶のタイプを確実に決定できる。この単純さと数値パラメータとの整合性により、フレームワークは実用的であり、多様な強化学習問題に広く適用可能である。
さらに、宣言的記憶を長期記憶と短期記憶に分割すること、および実験を行う際にエージェントのコンテキスト長と環境の相関ホライズンのバランスを取る必要があることにより、エージェントにどのタイプの記憶が存在するかを明確に判断することができる。 この明確さにより、類似の記憶メカニズムを持つエージェント間の公平な比較が保証され、エージェントの設計における特定の制限が浮き彫りになる。記憶の定義を実践的なテスト要件と整合させることで、本フレームワークは記憶強化型強化学習エージェントの開発を導くための実用的な洞察を提供する。
Appendix C Appendix – Memory Mechanisms
強化学習において、記憶には複数の意味があり、それぞれが特定のクラスの異なるタスクに関連している。これらのタスクを解決するために、著者らは様々な記憶メカニズムを使用している。エージェントに記憶を組み込む最も一般的なアプローチは、リカレントニューラルネットワーク(RNN)の使用である(Rumelhart et al., 1986)。RNNは、過去の時間ステップに関する情報を捉える隠れ状態を維持することで、順序依存性を扱うことができる(Wierstra et al., 2010; Hausknecht & Stone, 2015; Sorokin et al., 2015; Duan et al., 2016; Song et al., 2018; Zintgraf et al., 2020)。 記憶を実装する別の人気のある方法は、Transformerを使用することである(Vaswani et al., 2017)。Transformerは自己注意メカニズムを使用して、コンテキストウィンドウ内の依存関係を捉える(Parisotto et al., 2020; Lampinen et al., 2021; Esslinger et al., 2022; Melo, 2022; Team et al., 2023; Pramanik et al., 2023; Robine et al., 2023; Ni et al., 2023; Grigsby et al., 2024; Shala et al., 2024)。 状態空間モデル(SSM)(Gu et al., 2021; Smith et al., 2023; Gu & Dao, 2023)は、RNNとTransformerの長所を組み合わせており、システム状態の保持を通じて記憶を実装することもできる(Hafner et al., 2019; Lu et al., 2023; Becker et al., 2024; Samsami et al., 2024)。 時間的畳み込みは、時間軸に沿って学習可能なフィルターを適用することで情報が暗黙的に保存される効果的な記憶メカニズムとみなすことができる(YuXuan Liu & Hsieh, 2016; Mishra et al., 2018)。 内部環境表現を構築するワールドモデル(Ha & Schmidhuber, 2018)も、記憶の一形態とみなすことができる。この内部表現を組織化する一つの方法は、グラフの使用である。ここでは、ノードが環境内の観測を表し、エッジが行動を表す(Morad et al., 2021; Zhu et al., 2023; Kang et al., 2024b)。
記憶の明確な自然な実現方法は、外部メモリバッファの利用であり、これにより、エージェントは関連情報を取得することが可能となる。このアプローチは、読み取り専用(書き込みなし)(Oh et al., 2016; Lampinen et al., 2021; Goyal et al., 2022; Cherepanov et al., 2024)と読み書きアクセス(Graves et al., 2016; Zaremba & Sutskever, 2016; Parisotto & Salakhutdinov, 2017)の2つのカテゴリーに分類することができる。
記憶は、アーキテクチャメカニズムを用いずに、エージェントのポリシーに依存して実装することも可能である。例えば、Deverett et al. (2019)の研究では、エージェントは特定のアクションパターンを生成することで時間間隔をエンコードすることを学習する。このアプローチにより、エージェントは自身の行動内に時間情報を暗黙的に表現することが可能となり、記憶が基礎となるニューラルアーキテクチャに明示的に組み込まれるのではなく、ポリシーの適応の結果として出現し得ることを示している。
これらの記憶メカニズムを使用することで、単一エピソード内の過去の情報に基づく意思決定タスクと、新しいタスクへの迅速な適応タスクの両方が解決される。しかしながら、同じ基本アーキテクチャを使用して同じクラスの問題を解決する研究においても、記憶の概念が異なる場合がある。
Appendix D Appendix – Meta Reinforcement Learning
本節では、メタ強化学習(Meta-RL)の概念について探究する。これはPOMDPの特殊な領域であり、エージェントに複数のタスクにわたる過去の経験から学習する能力を与えることに焦点を当てている。この能力は、エージェントが新しい課題に迅速に適応しなければならない動的な環境において特に重要である。過去の相互作用から共通のパターンや構造を認識し記憶することで、エージェントは未知のタスクに直面した際の効率性と有効性を向上させることができる。
Meta-RLは「学習する方法を学ぶ」という原則によって特徴付けられる。ここでエージェントは特定のタスクで優れた成績を上げるだけでなく、知識を一般化し、最小限の追加トレーニングで新しいタスクに迅速に適応することも学習する。この適応性は、様々なタスクから収集されたデータをエージェントの行動を導くポリシーにマッピングする構造化されたアプローチによって達成される。
Meta-RLアルゴリズムは、メタパラメータでパラメータ化された関数 であり、MDP(タスク) におけるRLエージェントのトレーニング過程で得られたデータ をポリシー にマッピングする。関数 を学習するプロセスは通常外部ループと呼ばれ、結果として得られる関数fは内部ループと呼ばれる。この文脈において、パラメータ は外部ループに関連付けられ、パラメータ は内部ループに関連付けられる。メタトレーニングは、タスク分布からタスクをサンプリングし、それに対して内部ループを実行し、生成されるポリシーを改善するために内部ループを最適化することで進行する。適応が行われる内部ループとタスクの相互作用は、生涯または試行と呼ばれる。Meta-RLでは、 と がすべてのタスク間で共有され、タスクが報酬関数 、ダイナミクス 、および初期状態分布 のみで異なることが一般的である (Beck et al., 2024)。Meta-RLフレームワークの形式的な定義は定義7に示されている。
Definition 7 (Meta-RL).
メタ強化学習とは、エージェントが複数のタスクにわたる過去の経験から学習し、共通のパターンや構造を記憶して新しいタスクへの効率的な適応を促進するPOMDPのクラスである。をMDP で収集された長さのエピソードのすべてのデータとする。メタ強化学習アルゴリズムは、データを方策にマッピングする関数であり、ここでである。 最適なを決定する目的は次のとおりである:。ここで、はMDP における割引報酬であり、は目的関数に寄与する報酬がカウントされる試行中の最初のエピソードのインデックスである(Beck et al., 2024)。
Appendix E Appendix – Experiment Details
E.1 Appendix – Environments description
本節では、本稿で使用された環境の詳細な説明を提供する。
Passive-T-Maze (Ni et al., 2023).
このT字型迷路環境において、エージェントの目標は出発点から分岐点まで移動し、初期信号に基づいて正しい方向に曲がることである。エージェントは4つの可能な行動から選択できる:。信号は変数で表され、軌道の開始時にのみ提供され、エージェントが上に曲がるべきか()、下に曲がるべきか()を示す。エピソードの持続時間はに制限されており、は分岐点に至る廊下の長さであり、これがタスクに複雑さを加えている。ナビゲーションを容易にするため、と呼ばれる二値変数が観測ベクトルに含まれている。この変数は分岐点に到達する1ステップ前にとなり、それ以外の時はとなり、エージェントの分岐点への近さを示している。さらに、ノイズチャンネルが集合からのランダムな整数値を観測ベクトルに導入し、タスクをさらに複雑にしている。観測ベクトルはと定義され、は垂直座標を表す。
エージェントはエピソードの終了時にのみ報酬を受け取り、これは分岐点で正しい方向に曲がったかどうかによって決まる。正しい方向に曲がるとの報酬が得られ、間違った方向に曲がるとの報酬となる。この構成は、従来の受動的T字迷路環境(Ni et al., 2023)とは異なり、独特の観測と報酬構造を特徴としており、それによってエージェントが定められた時間制約内でナビゲートし学習するためのより複雑な条件セットを提示している。疎な報酬関数から密な報酬関数への移行のため、環境はとして定義されるペナルティによってパラメータ化されており、これはエージェントが環境内で取る各ステップにペナルティを課す。したがって、この環境は1次元ベクトル空間の観測、離散的な行動空間、そして疎および密な報酬関数の構成を持つ。
Minigrid-Memory (Chevalier-Boisvert et al., 2023).
Minigrid-Memoryは、エージェントの長期記憶と信用割当能力を評価するために特別に設計された二次元グリッドベースの環境である。レイアウトはT字型迷路で構成されており、廊下の始まりに小さな部屋があり、その中にオブジェクトが配置されている。エージェントは廊下内のランダムな位置に生成される。その目的は部屋まで移動し、オブジェクトを観察して記憶し、その後迷路の終端にある分岐点まで進み、最初の部屋にあったものと同一のオブジェクトがある方向に曲がることである。成功した場合、として定義された報酬関数が与えられ、失敗した場合は報酬がゼロとなる。エピソードは、エージェントが分岐点で曲がるか、あるいはステップの事前定義された時間制限を超えた時点で終了する。部分観測性を実装するため、エージェントの視界をのフレームサイズに制限する観測制約が課されている。したがって、この環境は2次元の画像観測空間、離散的な行動空間、そして疎な報酬関数を持つ。
E.2 Experimental Protocol
各実験において、我々は異なる初期化を用いてエージェントの3回の実行を行い、からのからまでのランダムシードを使用して訓練中に検証を実施した。結果は平均成功率(または報酬)±平均の標準誤差(SEM)として提示される。
Hyperparameter | Value |
---|---|
Number of layers | 2 |
Number of attention heads | 2 |
Hidden dimension | 256 |
Batch size | 64 |
Optimizer | Adam |
Learning rate | 3e-4 |
Dropout | 0.1 |
Replay buffer size | 1e6 |
Discount () | 0.99 |
Entropy temperature | 0.1 |
Hyperparameter | Value |
---|---|
Number of layers | 2 |
Number of attention heads | 2 |
Hidden dimension | 256 |
Batch size | 64 |
Optimizer | Adam |
Learning rate | 3e-4 |
Dropout | 0.1 |
Replay buffer size | 1e6 |
Discount () | 0.99 |
Hyperparameter | Value |
---|---|
Number of layers | 4 |
Number of attention heads | 8 |
Hidden dimension | 128 |
Batch size | 32 |
Optimizer | Adam |
Learning rate | 3e-4 |
Dropout | 0.1 |
Replay buffer size | 5e5 |
Discount () | 0.99 |