JaLMS
最新の AI 研究を日本語で解読

Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Egor Cherepanov1,2Nikita Kachaev1Artem Zholus3,4,5
Alexey K. Kovalev1,2Aleksandr I. Panov1,2
1AIRI
Moscow Russia  2MIPT Dolgoprudny Russia  3Chandar Research Lab
4Mila – Quebec AI Institute  5Polytechnique Montréal
{cherepanov,kachaev,kovalev,panov}@airi.net  [email protected]
Abstract

強化学習(RL)の領域における多くのタスクにおいて、エージェントへのメモリの組み込みは不可欠である。特に、過去の情報の利用、新しい環境への適応、サンプル効率の向上を必要とするタスクにおいて、メモリは最も重要である。しかし、「メモリ」という用語は広範な概念を包含しており、エージェントのメモリを検証するための統一された方法論の欠如と相まって、エージェントのメモリ能力に関する誤った判断を招き、他のメモリ強化エージェントとの客観的な比較を妨げている。 本稿は、認知科学に触発された長期記憶対短期記憶、宣言的記憶対手続き的記憶などのエージェントメモリタイプの実用的な厳密な定義を提供することにより、RLにおけるメモリの概念を整理することを目的としている。 これらの定義を用いて、我々はエージェントメモリの異なるクラスを分類し、RLエージェントのメモリ能力を評価するための堅牢な実験方法論を提案し、評価を標準化する。 さらに、我々は異なるRLエージェントを用いた実験を行い、異なるタイプのエージェントメモリを評価する際に提案された方法論を遵守することの重要性と、それに違反した場合の結果を実証的に示す。

1 Introduction

強化学習(RL)は、エージェントが即座に利用可能な情報に基づいて決定を行うマルコフ決定過程(MDP)フレームワーク内の様々な問題に効果的に対処する(Mnih et al., 2015; Badia et al., 2020)。 しかし、部分観測性を持つより複雑なタスクにRLを適用する上では、依然として課題が存在する。

このような課題に成功裏に対処するためには、エージェントが環境との相互作用の履歴を効率的に保存し処理できることが不可欠である(Ni et al., 2021)。環境との相互作用の履歴は系列として表現できるため、自然言語処理(NLP)のために開発された系列処理手法をこれらのタスクに効果的に適用することができる(Hausknecht & Stone, 2015; Esslinger et al., 2022; Samsami et al., 2024)

しかし、多くのタスクにおいて、観測の複雑さやノイズ、イベントの疎性、報酬関数設計の困難さ、エピソードの長期性により、重要な情報の保存と取り出しが極めて困難になり、記憶メカニズムの必要性が生じる(Graves et al., 2016; Wayne et al., 2018; Goyal et al., 2022)。 それにもかかわらず、「記憶」の概念が議論されている既存のRL文献では、記憶の定義は考慮中の特定の問題に関してのみ定義されている。

例えば、一部の研究では、記憶はエージェントが意思決定において固定サイズのトークン系列(コンテキスト)内のイベント間の依存関係を効果的に確立し利用する能力として定義されている(Esslinger et al., 2022; Ni et al., 2023; Grigsby et al., 2024)。他の研究では、「記憶」という用語は、様々な記憶メカニズムを通じてコンテキスト外の情報を使用するエージェントの能力を指す(Parisotto et al., 2020; Lampinen et al., 2021; Cherepanov et al., 2024)。しかし、メタ強化学習(Meta-RL)の文脈では、「記憶」という用語は、エージェントが他のタスクやエピソードからの経験を使用して、新しい未知の環境に適応する能力を表すために使用される(Team et al., 2023; Kang et al., 2024a; Grigsby et al., 2024)

本稿では、我々はメモリを記憶増強エージェントの本質的な属性として扱い、強化学習におけるメモリタイプの分類をエージェントのメモリ特性に直接関連付けている。これらの特定のメモリタイプは、記憶集約型環境での実験を通じて評価することができる。時間的依存性と記憶される情報の性質に基づく我々の分類は、異なるメモリタイプを区別するための明確な枠組みを提供する。この明確な分類は、類似したメモリメカニズムを持つエージェント間の公平な比較や、エージェントのメモリアーキテクチャの限界を特定するために不可欠であり、正確な評価と改善に寄与する。

我々の目標が人間の記憶の全範囲を複製することではないことを明確にしておくことが重要である。代わりに、我々は神経科学における記憶の概念から、強化学習コミュニティ内で広く認識され、直感的に適用されているものの、明示的に定義または形式化されていない概念を引き出している(Fortunato et al., 2020; Ni et al., 2023; Kang et al., 2024b)

要約すると、我々の貢献は以下のように記述できる:

  1. 1.

    我々はエージェントの「記憶」を強化学習において形式化する:長期記憶(LTM)短期記憶(STM)宣言的記憶手続き的記憶セクション5)。

  2. 2.

    我々は、エージェントが記憶を持つ必要のあるタスクの分離を導入する:記憶意思決定Memory DM)とメタ強化学習Meta-RL)(セクション5)。

  3. 3.

    我々は、Memory DMタスクにおけるエージェントのLTMとSTM能力をテストするための一般的な実験方法論を提案する(サブセクション5.2)。

  4. 4.

    我々は、提案された実験方法論に従わない場合、エージェントの記憶能力に関する判断が極めて不正確になる可能性があることを示す(セクション6)。

2 Partially Observable Markov Decision Process

部分観測可能マルコフ決定過程(POMDP)は、エージェントが環境の状態に関する不完全な情報しか持たない逐次的意思決定問題をモデル化するマルコフ決定過程(MDP)の一般化である。POMDPは、P=𝒮,𝒜,𝒪,𝒫,,𝒵subscript𝑃𝒮𝒜𝒪𝒫𝒵\mathcal{M}_{P}=\langle\mathcal{S},\mathcal{A},\mathcal{O},\mathcal{P},% \mathcal{R},\mathcal{Z}\ranglecaligraphic_M start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT = ⟨ caligraphic_S , caligraphic_A , caligraphic_O , caligraphic_P , caligraphic_R , caligraphic_Z ⟩というタプルで表現される。ここで、𝒮𝒮\mathcal{S}caligraphic_Sは状態の集合、𝒜𝒜\mathcal{A}caligraphic_Aは行動の集合、𝒪𝒪\mathcal{O}caligraphic_Oは観測の集合、そして𝒵=𝒫(ot+1st+1,at)𝒵𝒫conditionalsubscript𝑜𝑡1subscript𝑠𝑡1subscript𝑎𝑡\mathcal{Z}=\mathcal{P}(o_{t+1}\mid s_{t+1},a_{t})caligraphic_Z = caligraphic_P ( italic_o start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT ∣ italic_s start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )ot+1𝒵(st+1,at)similar-tosubscript𝑜𝑡1𝒵subscript𝑠𝑡1subscript𝑎𝑡o_{t+1}\sim\mathcal{Z}(s_{t+1},a_{t})italic_o start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT ∼ caligraphic_Z ( italic_s start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )となる観測関数である。エージェントは観測された履歴h0:t1={(oi,ai,ri)}i=0t1subscript:0𝑡1superscriptsubscriptsubscript𝑜𝑖subscript𝑎𝑖subscript𝑟𝑖𝑖0𝑡1h_{0:t-1}=\{(o_{i},a_{i},r_{i})\}_{i=0}^{t-1}italic_h start_POSTSUBSCRIPT 0 : italic_t - 1 end_POSTSUBSCRIPT = { ( italic_o start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_i = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t - 1 end_POSTSUPERSCRIPTに基づいて行動at𝒜subscript𝑎𝑡𝒜a_{t}\in\mathcal{A}italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∈ caligraphic_Aを取り、報酬rt=(st,at)subscript𝑟𝑡subscript𝑠𝑡subscript𝑎𝑡r_{t}=\mathcal{R}(s_{t},a_{t})italic_r start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = caligraphic_R ( italic_s start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )を受け取る。時刻t𝑡titalic_tにおいて状態stsubscript𝑠𝑡s_{t}italic_s start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTがエージェントに利用可能でないことに注意することが重要である。POMDPの場合、方策はエージェントの履歴h0:t1subscript:0𝑡1h_{0:t-1}italic_h start_POSTSUBSCRIPT 0 : italic_t - 1 end_POSTSUBSCRIPTを使用して行動atsubscript𝑎𝑡a_{t}italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの確率を得る関数π(atot,h0:t1)𝜋conditionalsubscript𝑎𝑡subscript𝑜𝑡subscript:0𝑡1\pi(a_{t}\mid o_{t},h_{0:t-1})italic_π ( italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_h start_POSTSUBSCRIPT 0 : italic_t - 1 end_POSTSUBSCRIPT )である。したがって、POMDPにおいて効果的に動作するためには、エージェントは履歴h0:t1subscript:0𝑡1h_{0:t-1}italic_h start_POSTSUBSCRIPT 0 : italic_t - 1 end_POSTSUBSCRIPTを取得するためのメモリメカニズムを持つ必要がある。 部分観測性は、ロボットのナビゲーションや操作タスク、自動運転車のタスク、複雑な意思決定問題など、様々な現実世界の状況で発生する。

3 Related Works

メモリ強化型強化学習エージェントに対する研究者の関心は、メモリメカニズムを備えたアーキテクチャやそれらの検証のためのベンチマークを提案する多数の研究に表れている(Osband et al., 2019; Morad et al., 2023; Pleines et al., 2023)(詳細は付録Cを参照)。しかしながら、この話題に関する研究の数が多いにもかかわらず、強化学習における「メモリ」という用語は依然として複数の意味を持ち、ベンチマークや実験の選択が必ずしも適切に行われているわけではない。

例えば、Oh et al. (2016)では、メモリはエージェントが最近の観測を外部バッファに保存し、時間的文脈に基づいて関連情報を取り出す能力として理解されている。 Lampinen et al. (2021)では、メモリは長い間隔で望ましい情報を保存し、想起する能力である。 Fortunato et al. (2020)では、メモリは認知心理学と神経科学からのワーキングメモリとエピソードメモリ(それぞれ短期的および長期的性質を持つ)を指し、これにより知的エージェントは過去の出来事からの情報を現在と未来の意思決定に利用することができる。 Ni et al. (2023)は、時間的推論の2つの異なる形態として(ワーキング)メモリと(時間的)クレジット割り当てを説明しており、ここでメモリは現在の時点で遠い過去の出来事を想起する能力を指す。 Kang et al. (2024b)では、著者らは心理学で発見された再構成的メモリBartlett & Kintsch (1995)の概念を用いており、これは相互作用に基づく反省プロセスを確立する。

4 Memory of Humans and Agents

強化学習における記憶の概念に関連するほとんどの研究は、認知心理学や神経科学からの様々な原理を用いている。例えば、長期記憶(Lampinen et al., 2021; Ni et al., 2023; Grigsby et al., 2024)、ワーキングメモリ(Graves et al., 2014; Fortunato et al., 2020)、エピソード記憶(Pritzel et al., 2017; Fortunato et al., 2020)、連合記憶(Parisotto & Salakhutdinov, 2017; Zhu et al., 2020)などである。これらの概念には根本的な違いがあるにもかかわらず、強化学習における記憶に関する研究では、しばしばこれらの概念を固有の時間スケール(短期記憶と長期記憶)に単純化している。それにもかかわらず、時間スケールはしばしば定性的に提示され、それらの境界を明確に定義していない。例えば、多くの研究では、環境内の数ステップを記憶することを短期記憶、数百ステップを記憶することを長期記憶と仮定しているが、これらの概念の相対的な性質を考慮していない。短期記憶と長期記憶のこの曖昧さは、エージェントの記憶能力の誤った帰属や、実験を行う際の不正確な評価につながる可能性がある。 この曖昧さに対処するため、本節では強化学習におけるエージェントの記憶とその種類の形式的な定義を導入し、エージェントの記憶を正しく検証するための実験を設計するアルゴリズムを提案する。

4.1 Memory in Cognitive Science

適応的生存を確保する人間の認知能力は、主に記憶に依存しており、記憶は知識とスキルの蓄積、保存、再現を決定する(Parr et al., 2020; 2022)。 記憶には多くの形態が存在し、それぞれが異なる神経メカニズムに依存している。 神経科学と認知心理学は、情報が保存されアクセスされる時間的尺度と、保存される情報の種類によって記憶を区別する。 この区別を抽象化すると、人間の記憶の高レベルな定義は次のようになる:「記憶 - 情報を保持し、後で想起する能力である」。

この定義は、強化学習における記憶の一般的な理解と一致している。したがって、我々はこれを用いてエージェントの記憶の様々な種類に対する用語を作成する。神経科学では、記憶は時間的尺度と行動的表出によって分類される。典型的には、これは短期記憶(数秒間情報を保持する)と長期記憶(一生涯続く可能性がある)の区別につながる(Davis & Squire, 1984)。さらに、記憶は行動的表出によって宣言的記憶(明示的)と手続き的記憶(暗黙的)に分けられる(Graf & Schacter, 1985)。宣言的記憶は意識的に想起でき、出来事や事実を含む一方、手続き的記憶は無意識であり、スキーやドライビングなどのスキルに関連する。

次のセクションでは、強化学習タスクのために、神経科学からの上記の記憶タイプの形式的定義を導入する。これらの定量的な用語で書かれた定義を使用することで、エージェントが過去の情報を意思決定に使用する際に持つ記憶のタイプを一意に分類することができる。

4.2 Memory in RL

強化学習における記憶の解釈は研究によって異なる。一部のPOMDPでは、エージェントは単一の環境内で将来の決定を行うために重要な情報を保持する必要がある。ここで、記憶は通常2つの側面を含む:1) 固定された時間間隔内でイベント間の依存関係を確立する効率性(例:トランスフォーマーのコンテキスト (Esslinger et al., 2022; Ni et al., 2023));2) 固定された時間間隔外でイベント間の依存関係を確立する効率性 (Parisotto et al., 2020; Sorokin et al., 2022)

4.1節で概説した神経科学の定義に基づくと、最初の解釈は短期記憶に、2番目の解釈は長期記憶に対応する。両方の解釈は宣言的記憶とも密接に関連している。メタ強化学習では、記憶は通常、エージェントが異なる環境/エピソードからスキルを活用する能力を指し Team et al. (2023); Kang et al. (2024a)、手続き的記憶に類似している。

しかし、多くの研究は宣言的記憶と手続き的記憶を持つエージェントを区別せず、過去の情報に基づく意思決定に焦点を当てるのではなく、メタ強化学習タスクを全体として扱うことが多い。例えば、ある論文がエージェントが長期記憶を持つと主張する場合、MDPに基づくメタ強化学習タスクでのみテストされている可能性がある。強化学習におけるエージェントの記憶の概念を明確にするために、本節では正式な定義を提供する。

本稿では、主に同じ環境内で過去の情報に基づいて現在の決定を行うために使用されるエージェントの記憶を研究する。したがって、我々の焦点は宣言的記憶、特にその短期および長期形態に置かれる。

Memory and Credit Assignment.

エージェントの記憶、特に宣言的記憶を探求する論文は、エージェントが扱わなければならない時間的依存関係に基づいて、しばしば2つの概念を区別する:記憶クレジット割り当て (Osband et al., 2019; Mesnard et al., 2020; Ni et al., 2023)Ni et al. (2023)では、著者らは強化学習における2つの形態の時間的推論を正式に区別している:(ワーキング)記憶と(時間的)クレジット割り当て:「記憶は現在の時点で遠い過去のイベントを思い出す能力を指し、クレジット割り当ては現在のクレジットに値する行動がいつ発生したかを判断する能力を指す」(Ni et al., 2023)

これらの概念は異なるものの、どちらも関連するイベント間の異なる時間的依存関係を確立する。本研究では、エージェントがこれらの依存関係を形成する能力に焦点を当て、「記憶」と「クレジット割り当て」を単一のエンティティとして扱う。我々は4.1節の定義を使用して、記憶を一般的に定義する。注目すべきは、「記憶」の定義が「クレジット割り当て」にも適用されることである。これらは時間的依存関係のみに関係し、その本質には関係しないためである。

5 Memory Decision Making

エージェントの記憶を使用するPOMDPタスクは、主に2つのクラスに分けることができる:タスク間でのスキル転移を伴うメタ強化学習Meta-RL)と、将来の決定のための情報の保存と取り出しに焦点を当てる記憶に基づく意思決定Memory DM)である。

この区別は重要である:Meta-RLのエージェントは、迅速な学習と一般化を促進するために4.1節の手続き記憶のようなものを使用するのに対し、Memory DMのエージェントは同じ環境内での現在の意思決定のために宣言的記憶のようなものに依存する。これらの違いにもかかわらず、多くの研究は行動の表れを見過ごし、時間的尺度のみに焦点を当てている。

Memory DMタスクの定義を導入するために、まずエージェントのコンテキスト長の定義を導入する必要がある:

Definition 1.

エージェントのコンテキスト長K𝐾K\in\mathbb{N}italic_K ∈ blackboard_N)- 時刻t𝑡titalic_tにおいてエージェントが処理できる過去のステップ((o,a,r)𝑜𝑎𝑟(o,a,r)( italic_o , italic_a , italic_r )の三つ組)の最大数である。

例えば、MLPベースのエージェントは一度に1ステップを処理し(K=1𝐾1K=1italic_K = 1)、トランスフォーマーベースのエージェントは最大K=Kattn𝐾subscript𝐾𝑎𝑡𝑡𝑛K=K_{attn}italic_K = italic_K start_POSTSUBSCRIPT italic_a italic_t italic_t italic_n end_POSTSUBSCRIPT個の三つ組のシーケンスを処理できる。ここで、Kattnsubscript𝐾𝑎𝑡𝑡𝑛K_{attn}italic_K start_POSTSUBSCRIPT italic_a italic_t italic_t italic_n end_POSTSUBSCRIPTは注意機構によって決定される。導入したエージェントのコンテキスト長に関する定義1を用いて、本稿で焦点を当てるMemory DMフレームワークの正式な定義を導入することができる:

Definition 2.

記憶意思決定Memory DM)- これは、エージェントの時刻t𝑡titalic_tにおける意思決定プロセスが、t>0𝑡0t>0italic_t > 0の場合は履歴h0:t1={(oi,ai,ri)}i=0t1subscript:0𝑡1superscriptsubscriptsubscript𝑜𝑖subscript𝑎𝑖subscript𝑟𝑖𝑖0𝑡1h_{0:t-1}=\{(o_{i},a_{i},r_{i})\}_{i=0}^{t-1}italic_h start_POSTSUBSCRIPT 0 : italic_t - 1 end_POSTSUBSCRIPT = { ( italic_o start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_i = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t - 1 end_POSTSUPERSCRIPTに基づき、そうでない場合はh=h=\varnothingitalic_h = ∅に基づくPOMDPのクラスである。目的は、現在の観測otsubscript𝑜𝑡o_{t}italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTと長さt𝑡titalic_tの履歴h0:t1subscript:0𝑡1h_{0:t-1}italic_h start_POSTSUBSCRIPT 0 : italic_t - 1 end_POSTSUBSCRIPTを行動atsubscript𝑎𝑡a_{t}italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTにマッピングする最適な方策π(atot,h0:t1)superscript𝜋conditionalsubscript𝑎𝑡subscript𝑜𝑡subscript:0𝑡1\pi^{*}(a_{t}\mid o_{t},h_{0:t-1})italic_π start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ( italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_h start_POSTSUBSCRIPT 0 : italic_t - 1 end_POSTSUBSCRIPT )を決定し、単一のPOMDP環境Psubscript𝑃\mathcal{M}_{P}caligraphic_M start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT内で期待累積報酬を最大化することである:Jπ=𝔼π[t=0T1γtrt]superscript𝐽𝜋subscript𝔼𝜋delimited-[]superscriptsubscript𝑡0𝑇1superscript𝛾𝑡subscript𝑟𝑡J^{\pi}=\mathbb{E}_{\pi}\left[\sum\limits_{t=0}^{T-1}\gamma^{t}r_{t}\right]italic_J start_POSTSUPERSCRIPT italic_π end_POSTSUPERSCRIPT = blackboard_E start_POSTSUBSCRIPT italic_π end_POSTSUBSCRIPT [ ∑ start_POSTSUBSCRIPT italic_t = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T - 1 end_POSTSUPERSCRIPT italic_γ start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT italic_r start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ]、ここでT𝑇Titalic_Tはエピソード持続時間、γ[0,1]𝛾01\gamma\in[0,1]italic_γ ∈ [ 0 , 1 ]は割引因子である。

Memory DMフレームワーク(定義2)では、記憶はエージェントが単一の環境とエピソード内で過去の情報を想起する能力を指す。対照的に、Meta-RLフレームワーク(付録、定義7参照)では、記憶は他の環境や以前のエピソードからのエージェントの行動に関する情報を想起することを含む。これらの概念を区別するために、我々は4.1節から「宣言的記憶」「手続き的記憶」の定義を採用する:

Definition 3 (Declarative and Procedural memory in RL).

nenvssubscript𝑛𝑒𝑛𝑣𝑠n_{envs}italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPTを訓練環境の数、nepssubscript𝑛𝑒𝑝𝑠n_{eps}italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPTを環境ごとのエピソード数とする。そのとき、

  1. 1.

    宣言的記憶 - エージェントが単一の環境内および当該環境内の単一のエピソードにわたって知識を転移する際のエージェントの記憶の種類:

    Declarative Memorynenvs×neps=1iffDeclarative Memorysubscript𝑛𝑒𝑛𝑣𝑠subscript𝑛𝑒𝑝𝑠1\text{Declarative Memory}\iff n_{envs}\times n_{eps}=1Declarative Memory ⇔ italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT × italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT = 1 (1)
  2. 2.

    手続き的記憶 - エージェントが複数の環境または単一環境内の複数のエピソードにわたってスキルを転移する際のエージェントの記憶の種類:

    Procedural Memorynenvs×neps>1iffProcedural Memorysubscript𝑛𝑒𝑛𝑣𝑠subscript𝑛𝑒𝑝𝑠1\text{Procedural Memory}\iff n_{envs}\times n_{eps}>1Procedural Memory ⇔ italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT × italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT > 1 (2)
Refer to caption
図1: 宣言的記憶と手続き的記憶の概略図。赤い矢印は記憶のための情報伝達を示し、青い矢印は必要な情報への想起の方向を示している。

ここで、「知識」とは事実、場所、出来事などの観察可能な情報を指す。対照的に、「スキル」とはエージェントが様々なタスクに適用できる事前に学習された方策である。したがって、Memory DMフレームワークはエージェントの宣言的記憶を検証し、Meta-RLフレームワークはその手続き的記憶を検証する(図1参照)。

4.2節において、我々はPOMDPを2つのクラスに区別した:宣言的記憶を必要とするMemory DMと、手続き的記憶を必要とするMeta-RLである。我々の主な焦点であるMemory DMタスク内では、エージェントの記憶は長期記憶と短期記憶に分類される:

Definition 4 (Memory DM types of memory).

エージェントのコンテキスト長をK𝐾Kitalic_Kとし、αteΔt={oi,ai,ri}i=tete+Δtsuperscriptsubscript𝛼subscript𝑡𝑒Δ𝑡superscriptsubscriptsubscript𝑜𝑖subscript𝑎𝑖subscript𝑟𝑖𝑖subscript𝑡𝑒subscript𝑡𝑒Δ𝑡\alpha_{t_{e}}^{\Delta t}=\{o_{i},a_{i},r_{i}\}_{i=t_{e}}^{t_{e}+\Delta t}italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT = { italic_o start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT + roman_Δ italic_t end_POSTSUPERSCRIPTΔtΔ𝑡\Delta troman_Δ italic_tの期間でt=te𝑡subscript𝑡𝑒t=t_{e}italic_t = italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPTに始まりt=te+Δt𝑡subscript𝑡𝑒Δ𝑡t=t_{e}+\Delta titalic_t = italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT + roman_Δ italic_tに終わるイベントとする。また、βtr(αteΔt)=at(ot,αteΔt)subscript𝛽subscript𝑡𝑟superscriptsubscript𝛼subscript𝑡𝑒Δ𝑡conditionalsubscript𝑎𝑡subscript𝑜𝑡superscriptsubscript𝛼subscript𝑡𝑒Δ𝑡\beta_{t_{r}}(\alpha_{t_{e}}^{\Delta t})=a_{t}\mid(o_{t},\alpha_{t_{e}}^{% \Delta t})italic_β start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT ) = italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ ( italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT )を現在の観測otsubscript𝑜𝑡o_{t}italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTとイベントαteΔtsuperscriptsubscript𝛼subscript𝑡𝑒Δ𝑡\alpha_{t_{e}}^{\Delta t}italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPTに関する情報に基づく時刻t=tr𝑡subscript𝑡𝑟t=t_{r}italic_t = italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPTでの意思決定点(想起)とする。さらに、ξ=trteΔt+1𝜉subscript𝑡𝑟subscript𝑡𝑒Δ𝑡1\xi=t_{r}-t_{e}-\Delta t+1italic_ξ = italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT - italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT - roman_Δ italic_t + 1相関ホライズン、すなわち意思決定を支援するイベントαteΔtsuperscriptsubscript𝛼subscript𝑡𝑒Δ𝑡\alpha_{t_{e}}^{\Delta t}italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPTとこのイベントの想起時点βtrsubscript𝛽subscript𝑡𝑟\beta_{t_{r}}italic_β start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT end_POSTSUBSCRIPTとの間の最小時間遅延とする。そうすると、

  1. 1.

    短期記憶(STM)とは、意思決定時に長さK𝐾Kitalic_Kのエージェントコンテキスト内の過去からの局所的相関に関する情報を利用するエージェントの能力である:

    短期記憶 βtr(αteΔt)=at(ot,αteΔt)ξ=trteΔt+1Kiffabsentsubscript𝛽subscript𝑡𝑟superscriptsubscript𝛼subscript𝑡𝑒Δ𝑡conditionalsubscript𝑎𝑡subscript𝑜𝑡superscriptsubscript𝛼subscript𝑡𝑒Δ𝑡for-all𝜉subscript𝑡𝑟subscript𝑡𝑒Δ𝑡1𝐾\iff\beta_{t_{r}}(\alpha_{t_{e}}^{\Delta t})=a_{t}\mid(o_{t},\alpha_{t_{e}}^{% \Delta t})\ \forall\ \xi=t_{r}-t_{e}-\Delta t+1\leq K⇔ italic_β start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT ) = italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ ( italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT ) ∀ italic_ξ = italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT - italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT - roman_Δ italic_t + 1 ≤ italic_K

  2. 2.

    長期記憶(LTM)とは、意思決定時に長さK𝐾Kitalic_Kのエージェントコンテキスト外の過去からのグローバルな相関に関する情報を利用するエージェントの能力である:

    長期記憶 βtr(αteΔt)=at(ot,αteΔt)ξ=trteΔt+1>Kiffabsentsubscript𝛽subscript𝑡𝑟superscriptsubscript𝛼subscript𝑡𝑒Δ𝑡subscript𝑎𝑡ketsubscript𝑜𝑡superscriptsubscript𝛼subscript𝑡𝑒Δ𝑡for-all𝜉subscript𝑡𝑟subscript𝑡𝑒Δ𝑡1𝐾\iff\beta_{t_{r}}(\alpha_{t_{e}}^{\Delta t})=a_{t}\mid(o_{t},\alpha_{t_{e}}^{% \Delta t})\ \forall\ \xi=t_{r}-t_{e}-\Delta t+1>K⇔ italic_β start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT ) = italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ ( italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT ) ∀ italic_ξ = italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT - italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT - roman_Δ italic_t + 1 > italic_K

定義4からの記憶DMタスクをLTMとSTMに分類する定義の図解は、図2に示されている。

Refer to caption
図2: 長期記憶と短期記憶の図式。tesubscript𝑡𝑒t_{e}italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT – 意思決定に使用されるイベントの開始時間、ΔtΔ𝑡\Delta troman_Δ italic_t – イベントの持続時間、trsubscript𝑡𝑟t_{r}italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT – エージェントの想起時間、K𝐾Kitalic_K – エージェントのコンテキスト長、ξ𝜉\xiitalic_ξ – 相関ホライズン。イベントがコンテキスト外にある場合、意思決定には長期記憶が必要である。コンテキスト内にある場合は、短期記憶で十分である。

宣言的記憶の2つの定義は、過去の情報に基づいて決定を行うメモリDMタスクに関連するすべての研究を包含している。 メタ強化学習は、エージェントが環境と相互作用する内部ループp()similar-to𝑝\mathcal{M}\sim p(\mathcal{M})caligraphic_M ∼ italic_p ( caligraphic_M )と、タスク間で知識を転移する外部ループで構成される。通常、\mathcal{M}caligraphic_Mはメモリを必要としないMDPであり、外部ループにのみ寄与する。これが、メタ強化学習研究における「メモリ」が指すものである。

内部ループでの相互作用履歴に基づいてエージェントが決定を行うタスクは、別個に名付けられていない。これは、メタ強化学習タスクタイプの分類(マルチタスク、マルチタスク0ショット、シングルタスク)が外部ループのパラメータ(nenvssubscript𝑛𝑒𝑛𝑣𝑠n_{envs}italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPTおよびnepssubscript𝑛𝑒𝑝𝑠n_{eps}italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT)のみに基づいており、内部ループのタスクタイプを考慮していないためである。しかし、我々はこれらのタスクに対するエージェントのメモリを、宣言的短期記憶または長期記憶として分類することができる(図3参照)。

本稿では、メタ強化学習タスクタイプを緑色(POMDP内部ループタスクを持つ)と青色(MDP内部ループタスクを持つ)にさらに分離する。 緑色の場合、エージェントのメモリは外部ループでのスキル転移と内部ループでの相互作用履歴に基づく意思決定の両方に必要であり、したがって内部ループ内ではメモリDMとみなすことができる。 青色の場合、メモリはスキル転移にのみ必要である。本稿はメモリDMタスクに焦点を当てているが、この用語法により、様々なメタ強化学習タスクをさらに分類することが可能となり、POMDPのサブクラスを緑色で強調している。エージェントのメモリを必要とするタスクの提案された分類を表1に示す。

表1: 我々の定義に基づくエージェントのメモリーを必要とするタスクの分類: 緑色は提案された定義のLTMとSTMによって記述されるタスクを示し、青色はそうでないものを示す。POMDPの内部ループを持つメタ強化学習タスクは、Memory DMタスクとして分類できるため緑色でマークされている。POMDPは、外部ループのない内部ループタスクとして考えられるMemory DMタスクを示す。

環境数 実行数 POMDP 内部ループタスク メモリー エージェントのメモリーを必要とするタスク Memory DM 長期記憶 (ξ>K𝜉𝐾\xi>Kitalic_ξ > italic_K) 短期記憶 (ξK𝜉𝐾\xi\leq Kitalic_ξ ≤ italic_K) nenvs=1subscript𝑛𝑒𝑛𝑣𝑠1n_{envs}=1italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT = 1 neps=1subscript𝑛𝑒𝑝𝑠1n_{eps}=1italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT = 1 Memory DM POMDP 宣言的 長期記憶タスク 短期記憶タスク メタ強化学習: 外部ループと内部ループのメモリー 長期記憶 (ξ>K𝜉𝐾\xi>Kitalic_ξ > italic_K) 短期記憶 (ξK𝜉𝐾\xi\leq Kitalic_ξ ≤ italic_K) nenvs=1subscript𝑛𝑒𝑛𝑣𝑠1n_{envs}=1italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT = 1 neps>1subscript𝑛𝑒𝑝𝑠1n_{eps}>1italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT > 1 メタ強化学習 POMDP 手続き的 単一タスクメタ強化学習 単一タスクメタ強化学習 nenvs>1subscript𝑛𝑒𝑛𝑣𝑠1n_{envs}>1italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT > 1 neps=1subscript𝑛𝑒𝑝𝑠1n_{eps}=1italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT = 1 メタ強化学習 POMDP 手続き的 マルチタスク0ショットメタ強化学習 マルチタスク0ショットメタ強化学習 nenvs>1subscript𝑛𝑒𝑛𝑣𝑠1n_{envs}>1italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT > 1 neps>1subscript𝑛𝑒𝑝𝑠1n_{eps}>1italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT > 1 メタ強化学習 POMDP 手続き的 マルチタスクメタ強化学習 マルチタスクメタ強化学習 メタ強化学習: 外部ループのメモリーのみ メモリーなし (ξ=1𝜉1\xi=1italic_ξ = 1) メモリーなし (ξ=1𝜉1\xi=1italic_ξ = 1) nenvs=1subscript𝑛𝑒𝑛𝑣𝑠1n_{envs}=1italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT = 1 neps>1subscript𝑛𝑒𝑝𝑠1n_{eps}>1italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT > 1 メタ強化学習 MDP 手続き的 単一タスクメタ強化学習 単一タスクメタ強化学習 nenvs>1subscript𝑛𝑒𝑛𝑣𝑠1n_{envs}>1italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT > 1 neps=1subscript𝑛𝑒𝑝𝑠1n_{eps}=1italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT = 1 メタ強化学習 MDP 手続き的 マルチタスク0ショットメタ強化学習 マルチタスク0ショットメタ強化学習 nenvs>1subscript𝑛𝑒𝑛𝑣𝑠1n_{envs}>1italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT > 1 neps>1subscript𝑛𝑒𝑝𝑠1n_{eps}>1italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT > 1 メタ強化学習 MDP 手続き的 マルチタスクメタ強化学習 マルチタスクメタ強化学習

5.1 Memory-intensive environments

Memory DMエージェントの短期記憶と長期記憶の使用を効果的にテストするためには、適切な実験を設計することが不可欠である。すべての環境がエージェントの記憶を評価するのに適しているわけではない。例えば、フレームスタッキングを用いた遍在的なAtariゲーム(Bellemare et al., 2013)やMuJoCo制御タスク(Fu et al., 2021)は、代表的でない結果をもたらす可能性がある。エージェントの記憶能力の評価を容易にするために、我々は記憶集約型環境の定義を形式化する:

Definition 5 (Memory-intensive environments).

Psubscript𝑃\mathcal{M}_{P}caligraphic_M start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPTをPOMDPとし、Ξ={ξn}={(trteΔt+1)n}nΞsubscript𝜉𝑛subscriptsubscriptsubscript𝑡𝑟subscript𝑡𝑒Δ𝑡1𝑛𝑛\Xi=\big{\{}\xi_{n}\big{\}}=\big{\{}(t_{r}-t_{e}-\Delta t+1)_{n}\big{\}}_{n}roman_Ξ = { italic_ξ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } = { ( italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT - italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT - roman_Δ italic_t + 1 ) start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTをすべてのイベント-想起ペア間の相関ホライズンξ𝜉\xiitalic_ξの集合とする。このとき~Pmemory-intensive environmentminnΞ>1iffsubscript~𝑃memory-intensive environmentsubscript𝑛Ξ1\tilde{\mathcal{M}}_{P}-\text{{memory-intensive} environment}\ \iff\ \min% \limits_{n}\Xi>1over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT - italic_memory-intensive environment ⇔ roman_min start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT roman_Ξ > 1

Refer to caption
図3: RLエージェントの記憶タイプの分類。Memory DMフレームワークはMeta-RLと対照的であるが、その形式主義はPOMDPである場合、内部ループタスクも記述できる。

: maxnΞ=1MDPiffsubscript𝑛Ξ1MDP\max\limits_{n}\Xi=1\iff\mathcal{M}-\text{MDP}roman_max start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT roman_Ξ = 1 ⇔ caligraphic_M - MDP

記憶集約型環境の定義(定義5)とエージェントの記憶タイプの定義(定義4)を用いることで、Memory DMフレームワークにおいて短期記憶と長期記憶をテストする実験を構成することができる。注目すべきは、定理1で概説されているように、同じ記憶集約型環境が両方のタイプの記憶を検証できることである:

Theorem 1 (On the context memory border).

~Psubscript~𝑃\tilde{\mathcal{M}}_{P}over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPTを記憶集約型環境とし、K𝐾Kitalic_Kをエージェントの文脈長とする。このとき、文脈記憶境界K¯1¯𝐾1\overline{K}\geq 1over¯ start_ARG italic_K end_ARG ≥ 1が存在し、KK¯𝐾¯𝐾K\leq\overline{K}italic_K ≤ over¯ start_ARG italic_K end_ARGであれば、環境~Psubscript~𝑃\tilde{\mathcal{M}}_{P}over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPTはMemory DMフレームワークにおいて排他的に長期記憶を検証するために使用される:

K¯1:K[1,K¯]:K<minnΞ:¯𝐾1for-all𝐾1¯𝐾:𝐾subscript𝑛Ξ\exists\ \overline{K}\geq 1:\forall\ K\in[1,\overline{K}]:K<\min\limits_{n}\Xi∃ over¯ start_ARG italic_K end_ARG ≥ 1 : ∀ italic_K ∈ [ 1 , over¯ start_ARG italic_K end_ARG ] : italic_K < roman_min start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT roman_Ξ (3)
Proof.

K¯=minΞ1¯𝐾Ξ1\overline{K}=\min\Xi-1over¯ start_ARG italic_K end_ARG = roman_min roman_Ξ - 1とする。このとき、KK¯for-all𝐾¯𝐾\forall\ K\leq\overline{K}∀ italic_K ≤ over¯ start_ARG italic_K end_ARGは相関ホライズンξ𝜉\xiitalic_ξがエージェントの履歴htK+1:tsubscript:𝑡𝐾1𝑡h_{t-K+1:t}italic_h start_POSTSUBSCRIPT italic_t - italic_K + 1 : italic_t end_POSTSUBSCRIPTに含まれないことを保証する。したがって、文脈長KminΞ1𝐾Ξ1K\leq\min\Xi-1italic_K ≤ roman_min roman_Ξ - 1は排他的に長期記憶問題を生成する。文脈長は負またはゼロにはなり得ないため、1KK¯=minΞ11𝐾¯𝐾Ξ11\leq K\leq\overline{K}=\min\Xi-11 ≤ italic_K ≤ over¯ start_ARG italic_K end_ARG = roman_min roman_Ξ - 1となり、これが証明に必要であった。 ∎

定理1によると、記憶集約型環境~Psubscript~𝑃\tilde{\mathcal{M}}_{P}over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPTにおいて、文脈記憶境界K¯¯𝐾\overline{K}over¯ start_ARG italic_K end_ARGの値は以下のように求めることができる:

K¯=minΞ1=minn{(trteΔt+1)n}n1\overline{K}=\min\Xi-1=\min\limits_{n}\Big{\{}(t_{r}-t_{e}-\Delta t+1)_{n}\Big% {\}}_{n}-1over¯ start_ARG italic_K end_ARG = roman_min roman_Ξ - 1 = roman_min start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT { ( italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT - italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT - roman_Δ italic_t + 1 ) start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - 1 (4)

定理1を用いて、短期記憶を検証するための必要条件を確立できる:

  1. 1.

    短期記憶を検証するための弱条件K¯<K<maxΞ¯𝐾𝐾Ξ\overline{K}<K<\max\Xiover¯ start_ARG italic_K end_ARG < italic_K < roman_max roman_Ξであれば、記憶集約型環境M~Psubscript~𝑀𝑃\tilde{M}_{P}over~ start_ARG italic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPTは短期記憶と長期記憶の両方を検証するために使用される。

  2. 2.

    短期記憶を検証するための強条件maxΞ<KΞ𝐾\max\Xi<Kroman_max roman_Ξ < italic_Kであれば、記憶集約型環境M~Psubscript~𝑀𝑃\tilde{M}_{P}over~ start_ARG italic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPTは排他的に短期記憶を検証するために使用される。

定理1によると、K[1,K¯]𝐾1¯𝐾K\in[1,\overline{K}]italic_K ∈ [ 1 , over¯ start_ARG italic_K end_ARG ]の場合、相関ホライズンξ𝜉\xiitalic_ξのいずれもエージェントの文脈に含まれず、長期記憶のみを検証する。K¯<K<maxΞT1¯𝐾𝐾Ξ𝑇1\overline{K}<K<\max\Xi\leq T-1over¯ start_ARG italic_K end_ARG < italic_K < roman_max roman_Ξ ≤ italic_T - 1の場合、長期記憶はまだテストできるが、一部の相関ホライズンξ𝜉\xiitalic_ξがエージェントの文脈内に入り、長期記憶の検証には使用されない。このような場合、長期記憶を明示的に評価することはできない。KmaxΞ𝐾ΞK\geq\max\Xiitalic_K ≥ roman_max roman_Ξの場合、すべての相関ホライズンξ𝜉\xiitalic_ξがエージェントの文脈内にあり、短期記憶のみを検証する。得られた結果をまとめると、短期記憶と長期記憶の検証に必要なエージェントの文脈長の最終的な区分は以下のようになる:

LTMとSTMの個別検証のためのエージェント文脈長区間 1. K[1,K¯]𝐾1¯𝐾absentK\in[1,\overline{K}]\Rightarrowitalic_K ∈ [ 1 , over¯ start_ARG italic_K end_ARG ] ⇒ 長期記憶のみを検証する。 2. K(K¯,maxΞ)𝐾¯𝐾ΞabsentK\in(\overline{K},\max\Xi)\Rightarrowitalic_K ∈ ( over¯ start_ARG italic_K end_ARG , roman_max roman_Ξ ) ⇒ 短期記憶と長期記憶の両方を検証する。 3. K[maxΞ,)𝐾ΞabsentK\in[\max\Xi,\infty)\Rightarrowitalic_K ∈ [ roman_max roman_Ξ , ∞ ) ⇒ 短期記憶のみを検証する。

5.2 Long-term memory in Memory DM

定義4で述べたように、短期記憶を伴うMemory DMタスクは、記憶集約型環境~Psubscript~𝑃\tilde{\mathcal{M}}_{P}over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPTにおけるイベント-リコールペアがエージェントのコンテキスト(ξK𝜉𝐾\xi\leq Kitalic_ξ ≤ italic_K)内にある場合に発生する。ここでの記憶は、K𝐾Kitalic_Kの大きさに関わらず、コンテキスト内で情報を関連付ける能力を指す。例として、Esslinger et al. (2022); Ni et al. (2023); Grigsby et al. (2024)などの研究がある。短期記憶の検証は、十分に大きなコンテキスト長K𝐾Kitalic_Kを設定するだけで簡単に行える。しかし、長期記憶能力の検証はより複雑であり、より大きな関心事である。

長期記憶を必要とするMemory DMタスクは、記憶集約型環境~Psubscript~𝑃\tilde{\mathcal{M}}_{P}over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPTにおけるイベント-リコールペアがエージェントのコンテキスト(ξ>K𝜉𝐾\xi>Kitalic_ξ > italic_K)外にある場合に発生する。この場合、記憶はエージェントのコンテキストを超えて情報を関連付ける能力を指し、エージェントのベースモデルが扱える以上の長さの相互作用履歴hhitalic_hを管理できる記憶メカニズム(定義6)が必要となる。

Definition 6 (Memory mechanisms).

エージェントが現在時刻t𝑡titalic_tにおいて長さK𝐾Kitalic_Kの履歴htK+1:tsubscript:𝑡𝐾1𝑡h_{t-K+1:t}italic_h start_POSTSUBSCRIPT italic_t - italic_K + 1 : italic_t end_POSTSUBSCRIPTを処理するとし、K𝐾K\in\mathbb{N}italic_K ∈ blackboard_Nはエージェントのコンテキスト長とする。このとき、記憶メカニズムμ(K)::𝜇𝐾\mu(K):\mathbb{N}\rightarrow\mathbb{N}italic_μ ( italic_K ) : blackboard_N → blackboard_Nは、固定されたK𝐾Kitalic_Kに対して、エージェントが長さKeffKsubscript𝐾𝑒𝑓𝑓𝐾K_{eff}\geq Kitalic_K start_POSTSUBSCRIPT italic_e italic_f italic_f end_POSTSUBSCRIPT ≥ italic_Kの配列を処理できるようにする関数として定義される。つまり、コンテキスト外のグローバルな相関関係を確立することができ、Keffsubscript𝐾𝑒𝑓𝑓K_{eff}italic_K start_POSTSUBSCRIPT italic_e italic_f italic_f end_POSTSUBSCRIPT有効コンテキストである。

μ(K)=KeffK𝜇𝐾subscript𝐾𝑒𝑓𝑓𝐾\mu(K)=K_{eff}\geq Kitalic_μ ( italic_K ) = italic_K start_POSTSUBSCRIPT italic_e italic_f italic_f end_POSTSUBSCRIPT ≥ italic_K (5)

記憶メカニズムは、Memory DMフレームワークにおける長期記憶の課題(コンテキスト外の情報処理)に対処するために不可欠である。

Example of memory mechanism.

RNNアーキテクチャに基づくエージェントを考える。このエージェントは、すべての時刻t𝑡titalic_tにおいてK=1𝐾1K=1italic_K = 1個のトークン(観測、行動、報酬)の三つ組を処理できる。記憶メカニズムμ(K)𝜇𝐾\mu(K)italic_μ ( italic_K )を使用することで(例えばHausknecht & Stone (2015)のように)、エージェントはRNNアーキテクチャのコンテキストサイズを拡大せずに、1ステップで処理されるトークン数を増やすことができる。したがって、当初は記憶集約型環境~P:ξ>K=1:subscript~𝑃𝜉𝐾1\tilde{\mathcal{M}}_{P}:\xi>K=1over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT : italic_ξ > italic_K = 1であったものが、今では~P:ξKeff=μ(K):subscript~𝑃𝜉subscript𝐾𝑒𝑓𝑓𝜇𝐾\tilde{\mathcal{M}}_{P}:\xi\leq K_{eff}=\mu(K)over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT : italic_ξ ≤ italic_K start_POSTSUBSCRIPT italic_e italic_f italic_f end_POSTSUBSCRIPT = italic_μ ( italic_K )として表現できる。ここで、記憶メカニズムμ(K)𝜇𝐾\mu(K)italic_μ ( italic_K )はRNNの隠れ状態への再帰的更新を指す。

したがって、Memory DMフレームワークにおいてエージェントの長期記憶問題解決能力を検証することは、エージェントの記憶メカニズムμ(K)𝜇𝐾\mu(K)italic_μ ( italic_K )を検証することに帰着する。このような場合に正しい実験を設計するためには、以下の条件を満たす必要がある:

~P:KK¯<ξKeff=μ(K):subscript~𝑃𝐾¯𝐾𝜉subscript𝐾𝑒𝑓𝑓𝜇𝐾\tilde{\mathcal{M}}_{P}:K\leq\overline{K}<\xi\leq K_{eff}=\mu(K)over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT : italic_K ≤ over¯ start_ARG italic_K end_ARG < italic_ξ ≤ italic_K start_POSTSUBSCRIPT italic_e italic_f italic_f end_POSTSUBSCRIPT = italic_μ ( italic_K ) (6)

我々の定義によれば、Memory DMフレームワーク内で長期記憶タスクを解決できる記憶メカニズムを持つエージェントは、短期記憶タスクも処理できるが、その逆は成り立たない。エージェントの短期記憶または長期記憶をテストする実験を設定するためのアルゴリズムをアルゴリズム1に示す。

~Psubscript~𝑃\tilde{\mathcal{M}}_{P}over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT – 記憶集約型環境; μ(K)𝜇𝐾\mu(K)italic_μ ( italic_K ) – 記憶メカニズム。
1. 環境内のn𝑛nitalic_nイベント-リコールペアの数を推定する(定義5)。
  1. 1.

    n=0𝑛0absentn=0\rightarrowitalic_n = 0 → 環境は長期記憶と短期記憶のテストに適していない。

  2. 2.

    n1𝑛1absentn\geq 1\rightarrowitalic_n ≥ 1 → 環境は長期記憶と短期記憶のテストに適している。

2. コンテキスト記憶境界K¯¯𝐾\overline{K}over¯ start_ARG italic_K end_ARGを推定する(式4)。
  1. 1.

    for-all\forallイベント-リコールペア(β(α),α)isubscript𝛽𝛼𝛼𝑖(\beta(\alpha),\alpha)_{i}( italic_β ( italic_α ) , italic_α ) start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTに対応するξi,i[1..n]\xi_{i},i\in[1..n]italic_ξ start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_i ∈ [ 1 . . italic_n ]を見つける。

  2. 2.

    K¯¯𝐾\overline{K}over¯ start_ARG italic_K end_ARGK¯=minΞ1=minn{ξn}n1=minn{(trteΔt+1)n}n1\overline{K}=\min\Xi-1=\min\limits_{n}\{\xi_{n}\}_{n}-1=\min\limits_{n}\Big{\{% }(t_{r}-t_{e}-\Delta t+1)_{n}\Big{\}}_{n}-1over¯ start_ARG italic_K end_ARG = roman_min roman_Ξ - 1 = roman_min start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT { italic_ξ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - 1 = roman_min start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT { ( italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT - italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT - roman_Δ italic_t + 1 ) start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - 1として決定する

3. 適切な実験を実施する(定義4)。
  1. 1.

    短期記憶をテストするにはK>K¯𝐾¯𝐾K>\overline{K}italic_K > over¯ start_ARG italic_K end_ARGを設定する。

  2. 2.

    長期記憶をテストするにはKK¯Keff=μ(K)𝐾¯𝐾subscript𝐾𝑒𝑓𝑓𝜇𝐾K\leq\overline{K}\leq K_{eff}=\mu(K)italic_K ≤ over¯ start_ARG italic_K end_ARG ≤ italic_K start_POSTSUBSCRIPT italic_e italic_f italic_f end_POSTSUBSCRIPT = italic_μ ( italic_K )を設定する。

4. 結果を分析する。
アルゴリズム1 Memory DMフレームワークにおける長期記憶と短期記憶をテストする実験を設定するためのアルゴリズム。

したがって、記憶は記憶強化エージェントの本質的なメカニズムであり、時間を超えて情報を保持、処理、想起する能力を表している。しかし、記憶の必要性は環境の要求から生じる。そのため、記憶はエージェントの本質的な属性と考えられ、記憶タイプの分類は本質的にエージェント自体に結びついている。ただし、これらの記憶タイプを正確に評価するには、記憶集約型環境で慎重に設計された実験が必要である。アルゴリズム1を使用して、これらの環境はエージェントの記憶メカニズムを適切に挑戦するように構成され、短期記憶と長期記憶能力の明確な区別を確保する必要がある。

5.3 Examples of setting up an experiment to test memory in Memory DM framework

Passive T-Maze.

受動的T字迷路環境(Ni et al., 2023)を考えてみよう。エージェントはT字型の廊下の始点から開始し、その場所でのみ利用可能な手がかりを観察する。エピソードを完了するには、エージェントは直進して分岐点まで歩き、最初の手がかりに基づいて曲がる必要がある。この環境は廊下の長さL𝐿Litalic_Lによって定義され、エピソードの持続時間はT=L+1𝑇𝐿1T=L+1italic_T = italic_L + 1である。我々はアルゴリズム1を用いてこの環境を分析する:

  1. 1.

    環境には1つのイベント-想起ペア(手がかりの観察 - 分岐点での方向転換)しかないため、n=1𝑛1n=1italic_n = 1であり、長期記憶と短期記憶の両方をテストするのに適している。

  2. 2.

    このイベントの持続時間はΔt=0Δ𝑡0\Delta t=0roman_Δ italic_t = 0(手がかりは1タイムステップでのみ利用可能)であり、相関ホライズンはξ=T10+1=T𝜉𝑇101𝑇\xi=T-1-0+1=Titalic_ξ = italic_T - 1 - 0 + 1 = italic_Tt=te=0𝑡subscript𝑡𝑒0t=t_{e}=0italic_t = italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT = 0での手がかりとt=tr=T1𝑡subscript𝑡𝑟𝑇1t=t_{r}=T-1italic_t = italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT = italic_T - 1での意思決定)である。したがって、K¯=minn{ξn}n1=T1\overline{K}=\min\limits_{n}\{\xi_{n}\}_{n}-1=T-1over¯ start_ARG italic_K end_ARG = roman_min start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT { italic_ξ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT - 1 = italic_T - 1となる。

  3. 3.

    環境パラメータT=L+1𝑇𝐿1T=L+1italic_T = italic_L + 1またはエージェントのコンテキストサイズK𝐾Kitalic_Kを変更することで、エージェントの長期記憶または短期記憶を評価できる。例えば、T𝑇Titalic_Tが固定されている場合、K>K¯=T1𝐾¯𝐾𝑇1K>\overline{K}=T-1italic_K > over¯ start_ARG italic_K end_ARG = italic_T - 1を設定することで短期記憶をテストする。長期記憶を評価するには、記憶メカニズムμ(K)𝜇𝐾\mu(K)italic_μ ( italic_K )を使用し、コンテキスト長をKK¯=T1Keff=μ(K)𝐾¯𝐾𝑇1subscript𝐾𝑒𝑓𝑓𝜇𝐾K\leq\overline{K}=T-1\leq K_{eff}=\mu(K)italic_K ≤ over¯ start_ARG italic_K end_ARG = italic_T - 1 ≤ italic_K start_POSTSUBSCRIPT italic_e italic_f italic_f end_POSTSUBSCRIPT = italic_μ ( italic_K )に設定する必要がある。

理論的には、この推定値K=K¯𝐾¯𝐾K=\overline{K}italic_K = over¯ start_ARG italic_K end_ARGはエージェントの長期記憶をテストするのに十分であるが、実際には区間[1,K¯]1¯𝐾[1,\overline{K}][ 1 , over¯ start_ARG italic_K end_ARG ]の左境界に近い値K𝐾Kitalic_Kを選択する方が良い。これにより、記憶メカニズムμ(K)𝜇𝐾\mu(K)italic_μ ( italic_K )の効果をより明示的に追跡できるためである。

6 Experiments

エージェントの長期記憶および短期記憶能力を評価する際に一貫した方法論(アルゴリズム1)に従うことの重要性を示すとともに、実験の誤設定から生じる結果の曖昧さを強調するために、我々はMemory DMフレームワーク内の記憶集約型環境において、記憶強化エージェントを用いた一連の実験を実施した。

我々の実験では、2つの記憶集約型環境を選択した:Passive-T-Maze (Ni et al., 2023) とMinigrid-Memory (Chevalier-Boisvert et al., 2023)(付録の図6を参照)である。Passive-T-Mazeでは、エージェントはT字型迷路の始点から開始し、手がかりを観察し、それを使用して迷路の終点にある分岐点で曲がる必要がある。Minigrid-Memory環境はPassive-T-Mazeと同様の課題を提示するが、エージェントは最初に手がかりを含む部屋に到達してから、廊下を歩いて曲がる必要がある。これらの環境の詳細な説明は、付録のサブセクションE.1に記載されている。

記憶強化ベースラインとして、我々はDeep Transformer Q-Networks (DTQN) (Esslinger et al., 2022)、DQN with GPT-2 (DQN-GPT-2) (Ni et al., 2023)およびSoft Actor-Critic with GPT-2 (SAC-GPT-2) (Ni et al., 2023)を選択した。

Refer to caption
図4: マップサイズL=21𝐿21L=21italic_L = 21のMinigrid-Memory環境におけるLTMとSTMを持つSAC-GPT-2エージェントの成功率。

6.1 Impact of Experiment Configuration on Memory Type Tested

5.1節において、我々は長期記憶(LTM)と短期記憶(STM)の影響を区別するためのエージェントのコンテキスト長の間隔を特定した。しかし、LTMとSTMの間の遷移は、一部の相関ホライズンがエージェントのコンテキスト内に収まり、他は収まらないという中間的な範囲を生み出し、そこではそれらの寄与を明確に区別することができない。

LTMとSTMの標準化された定義や検証方法がない場合、実験はしばしばこの遷移的な間隔で行われ、LTM記憶を評価することが不可能になる。この曖昧さは、以下に示すように、エージェントのLTM能力の誤解釈につながる可能性がある。

これを説明するために、我々はMiniGrid-Memory環境でトランスフォーマーベースのエージェントSAC-GPT-2を用いて実験を行い、マップサイズをL=21𝐿21L=21italic_L = 21に設定した。2つの実験構成が使用された:ξ=L+1𝜉𝐿1\xi=L+1italic_ξ = italic_L + 1の固定長廊下(固定モード)とξ[7,L+1]𝜉7𝐿1\xi\in[7,L+1]italic_ξ ∈ [ 7 , italic_L + 1 ]の可変長廊下(可変モード)である。Memory DMフレームワーク内でLTMとSTMをテストするためのアルゴリズム1で提案された方法論に従わない場合、エージェントのコンテキスト長K𝐾Kitalic_Kは恣意的にK=14𝐾14K=14italic_K = 14K<L𝐾𝐿K<Litalic_K < italic_LなのでLTMを表す)またはK=22𝐾22K=22italic_K = 22K>L𝐾𝐿K>Litalic_K > italic_LなのでSTMを表す)に設定される可能性がある。

この実験の結果を図4に示す。実線はSTM(K=22𝐾22K=22italic_K = 22)を、破線はLTM(K=14𝐾14K=14italic_K = 14)を表し、緑は可変モードを、赤は固定モードを示している。可変モード(緑)では、エージェントはLTMとSTMの両方の検証実験でほぼ1.0の成功率(SR)を達成している。これは誤ってエージェントが両方の記憶タイプを持っていることを示唆する可能性がある。一方、固定モード(赤)では、結果に不一致が見られる:エージェントはSTM記憶を示すが、LTM記憶を示すことができない。

この不一致は、SAC-GPT-2がLTM問題を解決するための記憶メカニズムを欠いているために生じる;エージェントはそのコンテキストK𝐾Kitalic_K内の情報しか活用できない。この混乱は、LTMとSTMの相互作用を考慮せずに、環境のドキュメントのみに基づいてK𝐾Kitalic_KL𝐿Litalic_Lに対して相対的に選択した素朴な実験設定によって生じる。可変モードでは、エージェントの性能はLTMとSTMの能力の混合を反映し、LTM記憶を明示的に分離することが不可能になる。対照的に、アルゴリズム1で概説された方法論に従ってテストされた固定モードは、STM記憶を明確に識別し、同時にLTM記憶の欠如を確認する。

本節では、エージェントの記憶をテストする素朴なアプローチが、その真の能力を誤解釈する結果につながる可能性があることを示した。対照的に、我々の提案する方法論は、エージェントの長期記憶と短期記憶を明示的に区別し、正確に評価する実験を設計することを可能にする。

Refer to caption
K=15,ξ=15formulae-sequence𝐾15𝜉15K=15,\ \xi=15italic_K = 15 , italic_ξ = 15
Refer to caption
K=5,ξ=15formulae-sequence𝐾5𝜉15K=5,\ \xi=15italic_K = 5 , italic_ξ = 15
Refer to caption
K=5,ξ=5formulae-sequence𝐾5𝜉5K=5,\ \xi=5italic_K = 5 , italic_ξ = 5
図5: Passive-T-MazeにおけるDQN-GPT-2およびDTQNエージェントの結果。STM \leftrightarrows LTMの遷移は、エージェントと環境のパラメータの両方に依存する記憶をテストするための設定の相対的な性質を反映している:K=15𝐾15K=15italic_K = 15のSTMから、K=5𝐾5K=5italic_K = 5のLTMへ、そして再びK=5𝐾5K=5italic_K = 5のSTMへ。

6.2 The relative nature of an agent’s memory

アルゴリズム1によると、エージェントの記憶タイプ(LTMとSTM)をテストするための実験設定は、エージェントのコンテキスト長K𝐾Kitalic_Kと環境特性ξ𝜉\xiitalic_ξに依存するコンテキストメモリ境界K¯¯𝐾\overline{K}over¯ start_ARG italic_K end_ARGという2つのパラメータに依存している。エージェントのLTMまたはSTMを検証するには、一方を固定しながらK𝐾Kitalic_Kまたはξ𝜉\xiitalic_ξを調整する必要がある。本節では、これらのパラメータが記憶テスト実験でどのように相互作用するかを説明する。

我々は、K𝐾Kitalic_Kξ𝜉\xiitalic_ξを変化させることで、Passive T-Maze環境において2つの記憶強化エージェント、DTQNとDQN-GPT-2を評価する。結果は図5に示されている。

まず、K=ξ=15𝐾𝜉15K=\xi=15italic_K = italic_ξ = 15を設定してSTMをテストする。この構成では、すべての関連情報がエージェントのコンテキスト内に留まる。図5(左)に示すように、両エージェントは1.01.01.01.0のリターンを達成し、STM能力を確認している。 LTMをテストするために、ξ=15𝜉15\xi=15italic_ξ = 15を使用し、重要なイベント-リコールペアがエージェントのコンテキスト外に落ちるようにセットアップを調整する。図5(中央)に示すように、K𝐾Kitalic_K15151515から5555に減少させると、両エージェントのリターンは0.50.50.50.5に低下し、手がかり情報を思い出せないことを示しており、LTMがLTMでないことを確認している。 次に、ξ𝜉\xiitalic_ξを減少させることでSTMをさらに評価する。図5(右)に示すように、K=5𝐾5K=5italic_K = 5ξ𝜉\xiitalic_ξ15151515から5555に減少させると、エージェントのリターンは1.01.01.01.0に戻る。これは、すべての関連情報がコンテキスト内にある場合、エージェントが記憶を効果的に使用できることを示している。

要約すると、LTMとSTMの検証は、一方を固定しながらK𝐾Kitalic_Kまたはξ𝜉\xiitalic_ξを調整することで行うことができる。Passive T-Mazeは、ξ𝜉\xiitalic_ξξ=L+1𝜉𝐿1\xi=L+1italic_ξ = italic_L + 1の関係にある、パラメータ化可能な廊下の長さL𝐿Litalic_Lを持つため、効果的なテストベッドである。しかし、ξ𝜉\xiitalic_ξが固定されている多くの環境では、K𝐾Kitalic_Kを変化させることが記憶評価のための実行可能なアプローチとして残っている。

7 Conclusion

本研究では、神経科学からインスピレーションを得て、強化学習における記憶タイプを形式化し、長期記憶(LTM)と短期記憶(STM)、および宣言的記憶と手続き的記憶を区別した。また、POMDPを記憶意思決定(Memory DM)とメタ強化学習(Meta-RL)の2つのクラスに分類した。

Memory DMフレームワークにおけるLTMとSTMの検証方法とともに、この形式化は、エージェントの記憶の異なるタイプを区別するための明確な構造を提供する。これにより、類似した記憶メカニズムを持つエージェント間の公平な比較が可能となり、記憶アーキテクチャの限界を浮き彫りにし、精密な評価と改善を促進する。

さらに、我々はこの方法論を無視することの潜在的な落とし穴を実証した。誤って設定された実験は、エージェントの記憶能力に関して誤解を招く結論につながり、LTMとSTMの境界を曖昧にする可能性がある。我々のアプローチに従うことで、研究者はより信頼性の高い評価を達成し、記憶強化エージェント間の情報に基づいた比較を行うことができる。

本稿は、強化学習におけるエージェントの記憶の統一的理解に向けた重要な一歩である。我々の定義と方法論は、エージェントの記憶を厳密にテストするための実用的なツールを提供し、一貫した実験設計を保証する。一般的な不整合に対処することで、我々のアプローチは信頼性の高い結果と意味のある比較を保証し、強化学習の研究を前進させる。

References

  • Badia et al. (2020) Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Zhaohan Daniel Guo, and Charles Blundell. Agent57: Outperforming the Atari human benchmark. In Hal Daumé III and Aarti Singh (eds.), Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pp.  507–517. PMLR, 13–18 Jul 2020. URL https://proceedings.mlr.press/v119/badia20a.html.
  • Bartlett & Kintsch (1995) Frederic C. Bartlett and Walter Kintsch. Remembering: A Study in Experimental and Social Psychology. Cambridge University Press, 2 edition, 1995.
  • Beck et al. (2024) Jacob Beck, Risto Vuorio, Evan Zheran Liu, Zheng Xiong, Luisa Zintgraf, Chelsea Finn, and Shimon Whiteson. A survey of meta-reinforcement learning, 2024. URL https://arxiv.org/abs/2301.08028.
  • Becker et al. (2024) Philipp Becker, Niklas Freymuth, and Gerhard Neumann. Kalmamba: Towards efficient probabilistic state space models for rl under uncertainty, 2024. URL https://arxiv.org/abs/2406.15131.
  • Bellemare et al. (2013) Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47:253–279, 2013.
  • Cherepanov et al. (2024) Egor Cherepanov, Alexey Staroverov, Dmitry Yudin, Alexey K. Kovalev, and Aleksandr I. Panov. Recurrent action transformer with memory. arXiv preprint arXiv:2306.09459, 2024. URL https://arxiv.org/abs/2306.09459.
  • Chevalier-Boisvert et al. (2023) Maxime Chevalier-Boisvert, Bolun Dai, Mark Towers, Rodrigo de Lazcano, Lucas Willems, Salem Lahlou, Suman Pal, Pablo Samuel Castro, and Jordan Terry. Minigrid & miniworld: Modular & customizable reinforcement learning environments for goal-oriented tasks. CoRR, abs/2306.13831, 2023.
  • Davis & Squire (1984) Hasker Davis and Larry Squire. Davis hp, squire lr. protein synthesis and memory: a review. psychol bull 96: 518-559. Psychological bulletin, 96:518–59, 11 1984. doi: 10.1037/0033-2909.96.3.518.
  • Deverett et al. (2019) Ben Deverett, Ryan Faulkner, Meire Fortunato, Gregory Wayne, and Joel Z Leibo. Interval timing in deep reinforcement learning agents. Advances in Neural Information Processing Systems, 32, 2019.
  • Duan et al. (2016) Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever, and Pieter Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning, 2016. URL https://arxiv.org/abs/1611.02779.
  • Esslinger et al. (2022) Kevin Esslinger, Robert Platt, and Christopher Amato. Deep transformer q-networks for partially observable reinforcement learning. arXiv preprint arXiv:2206.01078, 2022.
  • Fortunato et al. (2020) Meire Fortunato, Melissa Tan, Ryan Faulkner, Steven Hansen, Adrià Puigdomènech Badia, Gavin Buttimore, Charlie Deck, Joel Z Leibo, and Charles Blundell. Generalization of reinforcement learners with working and episodic memory, 2020. URL https://arxiv.org/abs/1910.13406.
  • Fu et al. (2021) Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4rl: Datasets for deep data-driven reinforcement learning, 2021.
  • Goyal et al. (2022) Anirudh Goyal, Abram L. Friesen, Andrea Banino, Theophane Weber, Nan Rosemary Ke, Adria Puigdomenech Badia, Arthur Guez, Mehdi Mirza, Peter C. Humphreys, Ksenia Konyushkova, Laurent Sifre, Michal Valko, Simon Osindero, Timothy Lillicrap, Nicolas Heess, and Charles Blundell. Retrieval-augmented reinforcement learning, 2022. URL https://arxiv.org/abs/2202.08417.
  • Graf & Schacter (1985) P. Graf and D.L. Schacter. Implicit and explicit memory for new associations in normal and amnesic subjects. Journal of Experimental Psychology: Learning, Memory, & Cognition, 11:501–518, 1985.
  • Graves et al. (2014) Alex Graves, Greg Wayne, and Ivo Danihelka. Neural turing machines, 2014. URL https://arxiv.org/abs/1410.5401.
  • Graves et al. (2016) Alex Graves, Greg Wayne, Malcolm Reynolds, Tim Harley, Ivo Danihelka, Agnieszka Grabska-Barwińska, Sergio Gómez, Edward Grefenstette, Tiago Ramalho, John Agapiou, Adrià Badia, Karl Hermann, Yori Zwols, Georg Ostrovski, Adam Cain, Helen King, Christopher Summerfield, Phil Blunsom, Koray Kavukcuoglu, and Demis Hassabis. Hybrid computing using a neural network with dynamic external memory. Nature, 538, 10 2016. doi: 10.1038/nature20101.
  • Grigsby et al. (2024) Jake Grigsby, Linxi Fan, and Yuke Zhu. Amago: Scalable in-context reinforcement learning for adaptive agents, 2024. URL https://arxiv.org/abs/2310.09971.
  • Gu & Dao (2023) Albert Gu and Tri Dao. Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752, 2023.
  • Gu et al. (2021) Albert Gu, Karan Goel, and Christopher Ré. Efficiently modeling long sequences with structured state spaces. arXiv preprint arXiv:2111.00396, 2021.
  • Ha & Schmidhuber (2018) David Ha and Jürgen Schmidhuber. Recurrent world models facilitate policy evolution, 2018. URL https://arxiv.org/abs/1809.01999.
  • Hafner et al. (2019) Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, and James Davidson. Learning latent dynamics for planning from pixels. In Kamalika Chaudhuri and Ruslan Salakhutdinov (eds.), Proceedings of the 36th International Conference on Machine Learning, volume 97 of Proceedings of Machine Learning Research, pp.  2555–2565. PMLR, 09–15 Jun 2019. URL https://proceedings.mlr.press/v97/hafner19a.html.
  • Hausknecht & Stone (2015) Matthew Hausknecht and Peter Stone. Deep recurrent q-learning for partially observable mdps, 2015.
  • Kang et al. (2024a) Jikun Kang, Romain Laroche, Xingdi Yuan, Adam Trischler, Xue Liu, and Jie Fu. Think before you act: Decision transformers with working memory, 2024a. URL https://arxiv.org/abs/2305.16338.
  • Kang et al. (2024b) Yongxin Kang, Enmin Zhao, Yifan Zang, Lijuan Li, Kai Li, Pin Tao, and Junliang Xing. Sample efficient reinforcement learning using graph-based memory reconstruction. IEEE Transactions on Artificial Intelligence, 5(2):751–762, 2024b. doi: 10.1109/TAI.2023.3268612.
  • Lampinen et al. (2021) Andrew Lampinen, Stephanie Chan, Andrea Banino, and Felix Hill. Towards mental time travel: a hierarchical memory for reinforcement learning agents. Advances in Neural Information Processing Systems, 34:28182–28195, 2021.
  • Lu et al. (2023) Chris Lu, Yannick Schroecker, Albert Gu, Emilio Parisotto, Jakob Foerster, Satinder Singh, and Feryal Behbahani. Structured state space models for in-context reinforcement learning, 2023. URL https://arxiv.org/abs/2303.03982.
  • Melo (2022) Luckeciano C. Melo. Transformers are meta-reinforcement learners, 2022. URL https://arxiv.org/abs/2206.06614.
  • Mesnard et al. (2020) Thomas Mesnard, Théophane Weber, Fabio Viola, Shantanu Thakoor, Alaa Saade, Anna Harutyunyan, Will Dabney, Tom Stepleton, Nicolas Heess, Arthur Guez, et al. Counterfactual credit assignment in model-free reinforcement learning. arXiv preprint arXiv:2011.09464, 2020.
  • Mishra et al. (2018) Nikhil Mishra, Mostafa Rohaninejad, Xi Chen, and Pieter Abbeel. A simple neural attentive meta-learner, 2018. URL https://arxiv.org/abs/1707.03141.
  • Mnih et al. (2015) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin A. Riedmiller, Andreas Kirkeby Fidjeland, Georg Ostrovski, Stig Petersen, Charlie Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, and Demis Hassabis. Human-level control through deep reinforcement learning. Nature, 518:529–533, 2015. URL https://api.semanticscholar.org/CorpusID:205242740.
  • Morad et al. (2023) Steven Morad, Ryan Kortvelesy, Matteo Bettini, Stephan Liwicki, and Amanda Prorok. Popgym: Benchmarking partially observable reinforcement learning, 2023. URL https://arxiv.org/abs/2303.01859.
  • Morad et al. (2021) Steven D. Morad, Stephan Liwicki, Ryan Kortvelesy, Roberto Mecca, and Amanda Prorok. Graph convolutional memory using topological priors, 2021. URL https://arxiv.org/abs/2106.14117.
  • Ni et al. (2021) Tianwei Ni, Benjamin Eysenbach, and Ruslan Salakhutdinov. Recurrent model-free rl can be a strong baseline for many pomdps. arXiv preprint arXiv:2110.05038, 2021.
  • Ni et al. (2023) Tianwei Ni, Michel Ma, Benjamin Eysenbach, and Pierre-Luc Bacon. When do transformers shine in RL? decoupling memory from credit assignment. In Thirty-seventh Conference on Neural Information Processing Systems, 2023. URL https://openreview.net/forum?id=APGXBNkt6h.
  • Oh et al. (2016) Junhyuk Oh, Valliappa Chockalingam, Satinder Singh, and Honglak Lee. Control of memory, active perception, and action in minecraft, 2016. URL https://arxiv.org/abs/1605.09128.
  • Osband et al. (2019) Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepesvari, Satinder Singh, et al. Behaviour suite for reinforcement learning. arXiv preprint arXiv:1908.03568, 2019.
  • Parisotto & Salakhutdinov (2017) Emilio Parisotto and Ruslan Salakhutdinov. Neural map: Structured memory for deep reinforcement learning, 2017. URL https://arxiv.org/abs/1702.08360.
  • Parisotto et al. (2020) Emilio Parisotto, Francis Song, Jack Rae, Razvan Pascanu, Caglar Gulcehre, Siddhant Jayakumar, Max Jaderberg, Raphael Lopez Kaufman, Aidan Clark, Seb Noury, et al. Stabilizing transformers for reinforcement learning. In International conference on machine learning, pp.  7487–7498. PMLR, 2020.
  • Parr et al. (2020) Thomas Parr, Rajeev Vijay Rikhye, Michael M Halassa, and Karl J Friston. Prefrontal computation as active inference. Cerebral Cortex, 30(2):682–695, 2020.
  • Parr et al. (2022) Thomas Parr, Giovanni Pezzulo, and Karl J Friston. Active inference: the free energy principle in mind, brain, and behavior. MIT Press, 2022.
  • Pleines et al. (2023) Marco Pleines, Matthias Pallasch, Frank Zimmer, and Mike Preuss. Memory gym: Partially observable challenges to memory-based agents in endless episodes. arXiv preprint arXiv:2309.17207, 2023.
  • Pramanik et al. (2023) Subhojeet Pramanik, Esraa Elelimy, Marlos C Machado, and Adam White. Recurrent linear transformers. arXiv preprint arXiv:2310.15719, 2023.
  • Pritzel et al. (2017) Alexander Pritzel, Benigno Uria, Sriram Srinivasan, Adrià Puigdomènech, Oriol Vinyals, Demis Hassabis, Daan Wierstra, and Charles Blundell. Neural episodic control, 2017. URL https://arxiv.org/abs/1703.01988.
  • Robine et al. (2023) Jan Robine, Marc Höftmann, Tobias Uelwer, and Stefan Harmeling. Transformer-based world models are happy with 100k interactions. In The Eleventh International Conference on Learning Representations, 2023. URL https://openreview.net/forum?id=TdBaDGCpjly.
  • Rumelhart et al. (1986) David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. Learning representations by back-propagating errors. Nature, 323:533–536, 1986. URL https://api.semanticscholar.org/CorpusID:205001834.
  • Samsami et al. (2024) Mohammad Reza Samsami, Artem Zholus, Janarthanan Rajendran, and Sarath Chandar. Mastering memory tasks with world models, 2024. URL https://arxiv.org/abs/2403.04253.
  • Shala et al. (2024) Gresa Shala, André Biedenkapp, and Josif Grabocka. Hierarchical transformers are efficient meta-reinforcement learners, 2024. URL https://arxiv.org/abs/2402.06402.
  • Smith et al. (2023) Jimmy T. H. Smith, Andrew Warrington, and Scott W. Linderman. Simplified state space layers for sequence modeling, 2023. URL https://arxiv.org/abs/2208.04933.
  • Song et al. (2018) Doo Re Song, Chuanyu Yang, Christopher McGreavy, and Zhibin Li. Recurrent deterministic policy gradient method for bipedal locomotion on rough terrain challenge, November 2018. URL http://dx.doi.org/10.1109/ICARCV.2018.8581309.
  • Sorokin et al. (2022) Artyom Sorokin, Nazar Buzun, Leonid Pugachev, and Mikhail Burtsev. Explain my surprise: Learning efficient long-term memory by predicting uncertain outcomes. Advances in Neural Information Processing Systems, 35:36875–36888, 2022.
  • Sorokin et al. (2015) Ivan Sorokin, Alexey Seleznev, Mikhail Pavlov, Aleksandr Fedorov, and Anastasiia Ignateva. Deep attention recurrent q-network, 2015. URL https://arxiv.org/abs/1512.01693.
  • Team et al. (2023) Adaptive Agent Team, Jakob Bauer, Kate Baumli, Satinder Baveja, Feryal Behbahani, Avishkar Bhoopchand, Nathalie Bradley-Schmieg, Michael Chang, Natalie Clay, Adrian Collister, Vibhavari Dasagi, Lucy Gonzalez, Karol Gregor, Edward Hughes, Sheleem Kashem, Maria Loks-Thompson, Hannah Openshaw, Jack Parker-Holder, Shreya Pathak, Nicolas Perez-Nieves, Nemanja Rakicevic, Tim Rocktäschel, Yannick Schroecker, Jakub Sygnowski, Karl Tuyls, Sarah York, Alexander Zacherl, and Lei Zhang. Human-timescale adaptation in an open-ended task space, 2023. URL https://arxiv.org/abs/2301.07608.
  • Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
  • Wayne et al. (2018) Greg Wayne, Chia-Chun Hung, David Amos, Mehdi Mirza, Arun Ahuja, Agnieszka Grabska-Barwinska, Jack Rae, Piotr Mirowski, Joel Z. Leibo, Adam Santoro, Mevlana Gemici, Malcolm Reynolds, Tim Harley, Josh Abramson, Shakir Mohamed, Danilo Rezende, David Saxton, Adam Cain, Chloe Hillier, David Silver, Koray Kavukcuoglu, Matt Botvinick, Demis Hassabis, and Timothy Lillicrap. Unsupervised predictive memory in a goal-directed agent, 2018. URL https://arxiv.org/abs/1803.10760.
  • Wierstra et al. (2010) Daan Wierstra, Alexander Förster, Jan Peters, and Jürgen Schmidhuber. Recurrent policy gradients. Logic Journal of the IGPL, 18:620–634, 10 2010. doi: 10.1093/jigpal/jzp049.
  • YuXuan Liu & Hsieh (2016) Tony Duan YuXuan Liu and Wesley Hsieh. Temporal convolutional policy networks, 2016. URL https://yuxuanliu.com/files/tcpn.pdf.
  • Zaremba & Sutskever (2016) Wojciech Zaremba and Ilya Sutskever. Reinforcement learning neural turing machines - revised, 2016. URL https://arxiv.org/abs/1505.00521.
  • Zhu et al. (2023) Deyao Zhu, Li Erran Li, and Mohamed Elhoseiny. Value memory graph: A graph-structured world model for offline reinforcement learning, 2023. URL https://arxiv.org/abs/2206.04384.
  • Zhu et al. (2020) Guangxiang Zhu, Zichuan Lin, Guangwen Yang, and Chongjie Zhang. Episodic reinforcement learning with associative memory. In International Conference on Learning Representations, 2020. URL https://api.semanticscholar.org/CorpusID:212799813.
  • Zintgraf et al. (2020) Luisa Zintgraf, Kyriacos Shiarlis, Maximilian Igl, Sebastian Schulze, Yarin Gal, Katja Hofmann, and Shimon Whiteson. Varibad: A very good method for bayes-adaptive deep rl via meta-learning, 2020. URL https://arxiv.org/abs/1910.08348.

Appendix A Appendix – Glossary

本節では、本稿全体で使用される主要な用語と概念の包括的な用語集を提供する。これらの定義は、我々の研究で提案された用語を明確にし、読者が我々の研究の基礎となる主要な要素を明確に理解できるようにすることを目的としている。

  1. 1.

    \mathcal{M}caligraphic_M – MDP環境

  2. 2.

    Psubscript𝑃\mathcal{M}_{P}caligraphic_M start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT – POMDP環境

  3. 3.

    ~Psubscript~𝑃\tilde{\mathcal{M}}_{P}over~ start_ARG caligraphic_M end_ARG start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT – メモリ集約型環境

  4. 4.

    h0:t1={(oi,ai,ri)}i=0t1subscript:0𝑡1superscriptsubscriptsubscript𝑜𝑖subscript𝑎𝑖subscript𝑟𝑖𝑖0𝑡1h_{0:t-1}=\{(o_{i},a_{i},r_{i})\}_{i=0}^{t-1}italic_h start_POSTSUBSCRIPT 0 : italic_t - 1 end_POSTSUBSCRIPT = { ( italic_o start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_i = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t - 1 end_POSTSUPERSCRIPT – エージェントの環境との相互作用の履歴

  5. 5.

    K𝐾Kitalic_K – エージェントの基本モデルのコンテキスト長

  6. 6.

    K¯¯𝐾\overline{K}over¯ start_ARG italic_K end_ARG – エージェントのコンテキストメモリの境界。ここでK[1,K¯]𝐾1¯𝐾absentK\in[1,\overline{K}]\Leftrightarrowitalic_K ∈ [ 1 , over¯ start_ARG italic_K end_ARG ] ⇔は厳密にLTM問題である

  7. 7.

    μ(K)𝜇𝐾\mu(K)italic_μ ( italic_K ) – エージェントが処理できるステップ数を増加させるメモリメカニズム

  8. 8.

    Keff=μ(K)subscript𝐾𝑒𝑓𝑓𝜇𝐾K_{eff}=\mu(K)italic_K start_POSTSUBSCRIPT italic_e italic_f italic_f end_POSTSUBSCRIPT = italic_μ ( italic_K ) – メモリメカニズムを適用した後のエージェントの有効コンテキスト

  9. 9.

    αteΔt={(oi,ai,ri)}i=tete+Δtsuperscriptsubscript𝛼subscript𝑡𝑒Δ𝑡superscriptsubscriptsubscript𝑜𝑖subscript𝑎𝑖subscript𝑟𝑖𝑖subscript𝑡𝑒subscript𝑡𝑒Δ𝑡\alpha_{t_{e}}^{\Delta t}=\{(o_{i},a_{i},r_{i})\}_{i=t_{e}}^{t_{e}+\Delta t}italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT = { ( italic_o start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_i = italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT + roman_Δ italic_t end_POSTSUPERSCRIPT – 時刻tesubscript𝑡𝑒t_{e}italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPTに開始し、ΔtΔ𝑡\Delta troman_Δ italic_t続くイベントで、エージェントが将来の意思決定時に想起すべきもの

  10. 10.

    βtr=βtr(αteΔt)=at(ot,αteΔt)subscript𝛽subscript𝑡𝑟subscript𝛽subscript𝑡𝑟superscriptsubscript𝛼subscript𝑡𝑒Δ𝑡conditionalsubscript𝑎𝑡subscript𝑜𝑡superscriptsubscript𝛼subscript𝑡𝑒Δ𝑡\beta_{t_{r}}=\beta_{t_{r}}(\alpha_{t_{e}}^{\Delta t})=a_{t}\mid(o_{t},\alpha_% {t_{e}}^{\Delta t})italic_β start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT end_POSTSUBSCRIPT = italic_β start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT ) = italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ ( italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPT ) – イベントαteΔtsuperscriptsubscript𝛼subscript𝑡𝑒Δ𝑡\alpha_{t_{e}}^{\Delta t}italic_α start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT roman_Δ italic_t end_POSTSUPERSCRIPTに従って時刻trsubscript𝑡𝑟t_{r}italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPTに意思決定を行う瞬間

  11. 11.

    ξ=trtaΔt+1𝜉subscript𝑡𝑟subscript𝑡𝑎Δ𝑡1\xi=t_{r}-t_{a}-\Delta t+1italic_ξ = italic_t start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT - italic_t start_POSTSUBSCRIPT italic_a end_POSTSUBSCRIPT - roman_Δ italic_t + 1 – イベントの相関ホライズン

Appendix B Appendix – Additional notes on the motivation for the article

B.1 Why use definitions from neuroscience?

短期記憶や長期記憶、宣言的記憶や手続き的記憶といった神経科学や認知科学からの定義は、強化学習コミュニティですでによく確立されているが、共通の意味を持たず、異なる方法で解釈されている。我々は、新しい概念を導入する際に生じる可能性のある混乱を避けるために、これらの定義を厳密に形式化し、エージェントの記憶の種類を特定するために明確で定量的な意味を持つように再定義する。多くのアルゴリズムの性能はその記憶の種類に依存するためである。

強化学習における記憶に焦点を当てる上で、我々は人間の記憶の全スペクトルを網羅的に再現しようとはしていない。代わりに、我々の目標は、強化学習研究者にすでに馴染みのある神経科学の概念の直感的な理解を活用することである。このアプローチにより、すでに複雑な記憶強化学習の領域に新しい用語を不必要に導入することを避けている。既存の定義を洗練し整合させることで、我々は強化学習研究における明確なコミュニケーション、厳密な評価、実践的な応用を促進する堅牢な枠組みを作成している。

B.2 On practical applications of our framework

我々のフレームワークの主な目的は、時間的依存性と記憶された情報の性質に基づいた記憶タイプの堅牢な分類を提供することにより、強化学習における実践的な課題に対処することである。この分類は、記憶テストを標準化し、強化学習エージェントがその能力を正確に反映する条件下で評価されることを保証するために不可欠である。

強化学習において、記憶は大きなコンテキストウィンドウを持つトランスフォーマー、再帰型ネットワーク、またはタスク間でスキル転移が可能なモデルなど、様々な方法で解釈される。しかし、これらのアプローチは設計において根本的に異なることが多く、比較が信頼できず、テストの不整合につながる。我々のフレームワークは、統一された実践的な条件下で記憶メカニズムを評価するための明確な構造を提供することでこの問題を解決する。

提案された宣言的記憶と手続き的記憶の定義は、環境の数(nenvssubscript𝑛𝑒𝑛𝑣𝑠n_{envs}italic_n start_POSTSUBSCRIPT italic_e italic_n italic_v italic_s end_POSTSUBSCRIPT)とエピソード数(nepssubscript𝑛𝑒𝑝𝑠n_{eps}italic_n start_POSTSUBSCRIPT italic_e italic_p italic_s end_POSTSUBSCRIPT)という2つの簡潔な数値パラメータを使用する。これらのパラメータにより、研究者はタスクに必要な記憶のタイプを確実に決定できる。この単純さと数値パラメータとの整合性により、フレームワークは実用的であり、多様な強化学習問題に広く適用可能である。

さらに、宣言的記憶を長期記憶と短期記憶に分割すること、および実験を行う際にエージェントのコンテキスト長K𝐾Kitalic_Kと環境の相関ホライズンξ𝜉\xiitalic_ξのバランスを取る必要があることにより、エージェントにどのタイプの記憶が存在するかを明確に判断することができる。 この明確さにより、類似の記憶メカニズムを持つエージェント間の公平な比較が保証され、エージェントの設計における特定の制限が浮き彫りになる。記憶の定義を実践的なテスト要件と整合させることで、本フレームワークは記憶強化型強化学習エージェントの開発を導くための実用的な洞察を提供する。

Appendix C Appendix – Memory Mechanisms

強化学習において、記憶には複数の意味があり、それぞれが特定のクラスの異なるタスクに関連している。これらのタスクを解決するために、著者らは様々な記憶メカニズムを使用している。エージェントに記憶を組み込む最も一般的なアプローチは、リカレントニューラルネットワーク(RNN)の使用である(Rumelhart et al., 1986)。RNNは、過去の時間ステップに関する情報を捉える隠れ状態を維持することで、順序依存性を扱うことができる(Wierstra et al., 2010; Hausknecht & Stone, 2015; Sorokin et al., 2015; Duan et al., 2016; Song et al., 2018; Zintgraf et al., 2020)。 記憶を実装する別の人気のある方法は、Transformerを使用することである(Vaswani et al., 2017)。Transformerは自己注意メカニズムを使用して、コンテキストウィンドウ内の依存関係を捉える(Parisotto et al., 2020; Lampinen et al., 2021; Esslinger et al., 2022; Melo, 2022; Team et al., 2023; Pramanik et al., 2023; Robine et al., 2023; Ni et al., 2023; Grigsby et al., 2024; Shala et al., 2024)。 状態空間モデル(SSM)(Gu et al., 2021; Smith et al., 2023; Gu & Dao, 2023)は、RNNとTransformerの長所を組み合わせており、システム状態の保持を通じて記憶を実装することもできる(Hafner et al., 2019; Lu et al., 2023; Becker et al., 2024; Samsami et al., 2024)。 時間的畳み込みは、時間軸に沿って学習可能なフィルターを適用することで情報が暗黙的に保存される効果的な記憶メカニズムとみなすことができる(YuXuan Liu & Hsieh, 2016; Mishra et al., 2018)。 内部環境表現を構築するワールドモデル(Ha & Schmidhuber, 2018)も、記憶の一形態とみなすことができる。この内部表現を組織化する一つの方法は、グラフの使用である。ここでは、ノードが環境内の観測を表し、エッジが行動を表す(Morad et al., 2021; Zhu et al., 2023; Kang et al., 2024b)

記憶の明確な自然な実現方法は、外部メモリバッファの利用であり、これにより、エージェントは関連情報を取得することが可能となる。このアプローチは、読み取り専用(書き込みなし)(Oh et al., 2016; Lampinen et al., 2021; Goyal et al., 2022; Cherepanov et al., 2024)と読み書きアクセス(Graves et al., 2016; Zaremba & Sutskever, 2016; Parisotto & Salakhutdinov, 2017)の2つのカテゴリーに分類することができる。

記憶は、アーキテクチャメカニズムを用いずに、エージェントのポリシーに依存して実装することも可能である。例えば、Deverett et al. (2019)の研究では、エージェントは特定のアクションパターンを生成することで時間間隔をエンコードすることを学習する。このアプローチにより、エージェントは自身の行動内に時間情報を暗黙的に表現することが可能となり、記憶が基礎となるニューラルアーキテクチャに明示的に組み込まれるのではなく、ポリシーの適応の結果として出現し得ることを示している。

これらの記憶メカニズムを使用することで、単一エピソード内の過去の情報に基づく意思決定タスクと、新しいタスクへの迅速な適応タスクの両方が解決される。しかしながら、同じ基本アーキテクチャを使用して同じクラスの問題を解決する研究においても、記憶の概念が異なる場合がある。

Appendix D Appendix – Meta Reinforcement Learning

本節では、メタ強化学習(Meta-RL)の概念について探究する。これはPOMDPの特殊な領域であり、エージェントに複数のタスクにわたる過去の経験から学習する能力を与えることに焦点を当てている。この能力は、エージェントが新しい課題に迅速に適応しなければならない動的な環境において特に重要である。過去の相互作用から共通のパターンや構造を認識し記憶することで、エージェントは未知のタスクに直面した際の効率性と有効性を向上させることができる。

Meta-RLは「学習する方法を学ぶ」という原則によって特徴付けられる。ここでエージェントは特定のタスクで優れた成績を上げるだけでなく、知識を一般化し、最小限の追加トレーニングで新しいタスクに迅速に適応することも学習する。この適応性は、様々なタスクから収集されたデータをエージェントの行動を導くポリシーにマッピングする構造化されたアプローチによって達成される。

Meta-RLアルゴリズムは、メタパラメータでパラメータ化された関数 fθsubscript𝑓𝜃f_{\theta}italic_f start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT であり、MDP(タスク)ip()similar-tosubscript𝑖𝑝\mathcal{M}_{i}\sim p(\mathcal{M})caligraphic_M start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∼ italic_p ( caligraphic_M ) におけるRLエージェントのトレーニング過程で得られたデータ 𝒟𝒟\mathcal{D}caligraphic_D をポリシー πϕ:ϕ=fθ(𝒟):subscript𝜋italic-ϕitalic-ϕsubscript𝑓𝜃𝒟\pi_{\phi}:\phi=f_{\theta}(\mathcal{D})italic_π start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT : italic_ϕ = italic_f start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( caligraphic_D ) にマッピングする。関数 f𝑓fitalic_f を学習するプロセスは通常外部ループと呼ばれ、結果として得られる関数fは内部ループと呼ばれる。この文脈において、パラメータ θ𝜃\thetaitalic_θ は外部ループに関連付けられ、パラメータ ϕitalic-ϕ\phiitalic_ϕ は内部ループに関連付けられる。メタトレーニングは、タスク分布からタスクをサンプリングし、それに対して内部ループを実行し、生成されるポリシーを改善するために内部ループを最適化することで進行する。適応が行われる内部ループとタスクの相互作用は、生涯または試行と呼ばれる。Meta-RLでは、𝒮𝒮\mathcal{S}caligraphic_S𝒜𝒜\mathcal{A}caligraphic_A がすべてのタスク間で共有され、タスクが報酬関数 (s,a)𝑠𝑎\mathcal{R}(s,a)caligraphic_R ( italic_s , italic_a )、ダイナミクス 𝒫(ss,a)𝒫conditionalsuperscript𝑠𝑠𝑎\mathcal{P}(s^{{}^{\prime}}\mid s,a)caligraphic_P ( italic_s start_POSTSUPERSCRIPT start_FLOATSUPERSCRIPT ′ end_FLOATSUPERSCRIPT end_POSTSUPERSCRIPT ∣ italic_s , italic_a )、および初期状態分布 P0(s0)subscript𝑃0subscript𝑠0P_{0}(s_{0})italic_P start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ( italic_s start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) のみで異なることが一般的である (Beck et al., 2024)。Meta-RLフレームワークの形式的な定義は定義7に示されている。

Definition 7 (Meta-RL).

メタ強化学習とは、エージェントが複数のタスクにわたる過去の経験から学習し、共通のパターンや構造を記憶して新しいタスクへの効率的な適応を促進するPOMDPのクラスである。𝒟={τji}j=0H1𝒟superscriptsubscriptsuperscriptsubscript𝜏𝑗subscript𝑖𝑗0𝐻1\mathcal{D}=\{\tau_{j}^{\mathcal{M}_{i}}\}_{j=0}^{H-1}caligraphic_D = { italic_τ start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT start_POSTSUPERSCRIPT caligraphic_M start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_j = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_H - 1 end_POSTSUPERSCRIPTをMDP ip()similar-tosubscript𝑖𝑝\mathcal{M}_{i}\sim p(\mathcal{M})caligraphic_M start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∼ italic_p ( caligraphic_M )で収集された長さT𝑇Titalic_TH𝐻Hitalic_Hエピソードのすべてのデータとする。メタ強化学習アルゴリズムは、データ𝒟𝒟\mathcal{D}caligraphic_Dを方策πϕsubscript𝜋italic-ϕ\pi_{\phi}italic_π start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPTにマッピングする関数fθsubscript𝑓𝜃f_{\theta}italic_f start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTであり、ここでϕ=fθ(𝒟)italic-ϕsubscript𝑓𝜃𝒟\phi=f_{\theta}(\mathcal{D})italic_ϕ = italic_f start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( caligraphic_D )である。 最適なfθsubscript𝑓𝜃f_{\theta}italic_f start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTを決定する目的は次のとおりである:Jθ=𝔼ip()[𝔼𝒟[τ𝒟I:HGi(τ)|fθ,i]]superscript𝐽𝜃subscript𝔼similar-tosubscript𝑖𝑝delimited-[]subscript𝔼𝒟delimited-[]conditionalsubscript𝜏subscript𝒟:𝐼𝐻subscript𝐺𝑖𝜏subscript𝑓𝜃subscript𝑖J^{\theta}=\mathbb{E}_{\mathcal{M}_{i}\sim p(\mathcal{M})}\left[\mathbb{E}_{% \mathcal{D}}\left[\sum\limits_{\tau\in\mathcal{D}_{I:H}}G_{i}(\tau)\bigg{|}f_{% \theta},\mathcal{M}_{i}\right]\right]italic_J start_POSTSUPERSCRIPT italic_θ end_POSTSUPERSCRIPT = blackboard_E start_POSTSUBSCRIPT caligraphic_M start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∼ italic_p ( caligraphic_M ) end_POSTSUBSCRIPT [ blackboard_E start_POSTSUBSCRIPT caligraphic_D end_POSTSUBSCRIPT [ ∑ start_POSTSUBSCRIPT italic_τ ∈ caligraphic_D start_POSTSUBSCRIPT italic_I : italic_H end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_G start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ( italic_τ ) | italic_f start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT , caligraphic_M start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ] ]。ここで、Gi(τ)subscript𝐺𝑖𝜏G_{i}(\tau)italic_G start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ( italic_τ )はMDP isubscript𝑖\mathcal{M}_{i}caligraphic_M start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTにおける割引報酬であり、I𝐼Iitalic_Iは目的関数に寄与する報酬がカウントされる試行中の最初のエピソードのインデックスである(Beck et al., 2024)

Appendix E Appendix – Experiment Details

E.1 Appendix – Environments description

本節では、本稿で使用された環境の詳細な説明を提供する。

Refer to caption
図6: Memory DMにおけるSTMとLTMをテストするためのメモリ集約型環境。

Passive-T-Maze (Ni et al., 2023).

このT字型迷路環境において、エージェントの目標は出発点から分岐点まで移動し、初期信号に基づいて正しい方向に曲がることである。エージェントは4つの可能な行動から選択できる:aleft,up,right,down𝑎𝑙𝑒𝑓𝑡𝑢𝑝𝑟𝑖𝑔𝑡𝑑𝑜𝑤𝑛a\in{left,up,right,down}italic_a ∈ italic_l italic_e italic_f italic_t , italic_u italic_p , italic_r italic_i italic_g italic_h italic_t , italic_d italic_o italic_w italic_n。信号は変数clue𝑐𝑙𝑢𝑒clueitalic_c italic_l italic_u italic_eで表され、軌道の開始時にのみ提供され、エージェントが上に曲がるべきか(clue=1𝑐𝑙𝑢𝑒1clue=1italic_c italic_l italic_u italic_e = 1)、下に曲がるべきか(clue=1𝑐𝑙𝑢𝑒1clue=-1italic_c italic_l italic_u italic_e = - 1)を示す。エピソードの持続時間はT=L+1𝑇𝐿1T=L+1italic_T = italic_L + 1に制限されており、L𝐿Litalic_Lは分岐点に至る廊下の長さであり、これがタスクに複雑さを加えている。ナビゲーションを容易にするため、flag𝑓𝑙𝑎𝑔flagitalic_f italic_l italic_a italic_gと呼ばれる二値変数が観測ベクトルに含まれている。この変数は分岐点に到達する1ステップ前に1111となり、それ以外の時は00となり、エージェントの分岐点への近さを示している。さらに、ノイズチャンネルが集合1,0,+1101{-1,0,+1}- 1 , 0 , + 1からのランダムな整数値を観測ベクトルに導入し、タスクをさらに複雑にしている。観測ベクトルはo=[y,clue,flag,noise]𝑜𝑦𝑐𝑙𝑢𝑒𝑓𝑙𝑎𝑔𝑛𝑜𝑖𝑠𝑒o=[y,clue,flag,noise]italic_o = [ italic_y , italic_c italic_l italic_u italic_e , italic_f italic_l italic_a italic_g , italic_n italic_o italic_i italic_s italic_e ]と定義され、y𝑦yitalic_yは垂直座標を表す。

エージェントはエピソードの終了時にのみ報酬を受け取り、これは分岐点で正しい方向に曲がったかどうかによって決まる。正しい方向に曲がると1111の報酬が得られ、間違った方向に曲がると00の報酬となる。この構成は、従来の受動的T字迷路環境(Ni et al., 2023)とは異なり、独特の観測と報酬構造を特徴としており、それによってエージェントが定められた時間制約内でナビゲートし学習するためのより複雑な条件セットを提示している。疎な報酬関数から密な報酬関数への移行のため、環境はpenalty=1T1𝑝𝑒𝑛𝑎𝑙𝑡𝑦1𝑇1penalty=-\frac{1}{T-1}italic_p italic_e italic_n italic_a italic_l italic_t italic_y = - divide start_ARG 1 end_ARG start_ARG italic_T - 1 end_ARGとして定義されるペナルティによってパラメータ化されており、これはエージェントが環境内で取る各ステップにペナルティを課す。したがって、この環境は1次元ベクトル空間の観測、離散的な行動空間、そして疎および密な報酬関数の構成を持つ。

Minigrid-Memory (Chevalier-Boisvert et al., 2023).

Minigrid-Memoryは、エージェントの長期記憶と信用割当能力を評価するために特別に設計された二次元グリッドベースの環境である。レイアウトはT字型迷路で構成されており、廊下の始まりに小さな部屋があり、その中にオブジェクトが配置されている。エージェントは廊下内のランダムな位置に生成される。その目的は部屋まで移動し、オブジェクトを観察して記憶し、その後迷路の終端にある分岐点まで進み、最初の部屋にあったものと同一のオブジェクトがある方向に曲がることである。成功した場合、r=10.9×tT𝑟10.9𝑡𝑇r=1-0.9\times\frac{t}{T}italic_r = 1 - 0.9 × divide start_ARG italic_t end_ARG start_ARG italic_T end_ARGとして定義された報酬関数が与えられ、失敗した場合は報酬がゼロとなる。エピソードは、エージェントが分岐点で曲がるか、あるいは95959595ステップの事前定義された時間制限を超えた時点で終了する。部分観測性を実装するため、エージェントの視界を3×3333\times 33 × 3のフレームサイズに制限する観測制約が課されている。したがって、この環境は2次元の画像観測空間、離散的な行動空間、そして疎な報酬関数を持つ。

E.2 Experimental Protocol

各実験において、我々は異なる初期化を用いてエージェントの3回の実行を行い、100100100100からの00から99999999までのランダムシードを使用して訓練中に検証を実施した。結果は平均成功率(または報酬)±平均の標準誤差(SEM)として提示される。

表2: Minigrid-MemoryおよびPassive T-Maze実験で使用されたハイパーパラメータ。
(a) SAC-GPT-2
Hyperparameter Value
Number of layers 2
Number of attention heads 2
Hidden dimension 256
Batch size 64
Optimizer Adam
Learning rate 3e-4
Dropout 0.1
Replay buffer size 1e6
Discount (γ𝛾\gammaitalic_γ) 0.99
Entropy temperature 0.1
(b) DQN-GPT-2
Hyperparameter Value
Number of layers 2
Number of attention heads 2
Hidden dimension 256
Batch size 64
Optimizer Adam
Learning rate 3e-4
Dropout 0.1
Replay buffer size 1e6
Discount (γ𝛾\gammaitalic_γ) 0.99
(c) DTQN
Hyperparameter Value
Number of layers 4
Number of attention heads 8
Hidden dimension 128
Batch size 32
Optimizer Adam
Learning rate 3e-4
Dropout 0.1
Replay buffer size 5e5
Discount (γ𝛾\gammaitalic_γ) 0.99