JaLMS
最新の AI 研究を日本語で解読

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Yi Chen1,2, Yuying Ge2†, Yizhuo Li1,2, Yixiao Ge2, Mingyu Ding3, Ying Shan2, Xihui Liu1†
1
The University of Hong Kong, 2ARC Lab, Tencent PCG,
3University of California, Berkeley
https://chenyi99.github.io/moto/
Abstract

大規模なコーパスで事前学習された大規模言語モデル(LLM)の最近の発展は、最小限の微調整で様々な自然言語処理(NLP)タスクにおいて顕著な成功を示している。 この成功は、長年行動ラベル付きデータの高コストに制約されてきたロボティクスに新たな可能性をもたらす。我々は問う:インタラクションに関連する知識を含む豊富な動画データが「コーパス」として利用可能である中で、同様の生成的事前学習アプローチをロボット学習の強化に効果的に適用できるだろうか?鍵となる課題は、ロボット操作タスクに有益な自己回帰的事前学習のための効果的な表現を特定することである。 人間が動的環境を観察することで新しいスキルを学ぶ方法にヒントを得て、我々は効果的なロボット学習が動作関連知識を重視すべきであると提案する。これは低レベルの行動と密接に関連し、ハードウェアに依存しないため、学習した動作を実際のロボット行動に転移させることを容易にする。 この目的のために、我々はMotoを導入する。これは動画コンテンツを潜在的なMotion Tokenシーケンスに変換し、教師なしの方法で動画から動作の「言語」を学習する潜在動作トークナイザーである。 我々は動作トークンの自己回帰を通じてMoto-GPTを事前学習し、多様な視覚的動作知識を捉えることを可能にする。事前学習後、Moto-GPTは意味的に解釈可能な動作トークンを生成し、妥当な動作軌道を予測し、出力尤度を通じて軌道の合理性を評価する有望な能力を示す。 学習した動作事前知識を実際のロボット行動に転移させるために、我々は潜在動作トークン予測と実際のロボット制御をシームレスに橋渡しする共同微調整戦略を実装する。広範な実験により、微調整されたMoto-GPTがロボット操作ベンチマークにおいて優れた堅牢性と効率性を示すことが明らかになり、動画データから下流の視覚的操作タスクへの知識転移におけるその有効性が強調される。

1 Introduction

自然言語処理(NLP)における最近の進歩は、大規模なテキストコーパスに対する次単語予測を通じた自己回帰的な事前学習の成功に由来している[46, 6, 44, 50, 18]。事前学習された大規模言語モデル(LLM)は、より小規模なデータセットでファインチューニングを行った後、様々な下流のNLPタスクにおいて卓越した性能を示している。この成功は、行動ラベル付きデータの高コストによって制限されてきたロボティクスに新たな機会をもたらす。豊富な相互作用を含む動画データが存在することを考えると[3, 57]、我々は次の問いを立てる:動画データに対する自己回帰的な事前学習を活用してロボット学習を改善できるだろうか?

主な課題は、ロボット操作のための事前知識を効果的に捉える、動画データに対する自己回帰的な事前学習に適した表現を見出すことである。ロボティクスのための動画事前学習に関する先駆的研究は、主に静止フレームに焦点を当て、フレームレベルの視覚的詳細を強調していた[54, 9, 19]。しかし、人間はダイナミックな環境を観察することでスキルを学習し、状態の変化—我々が動きと呼ぶもの—に注目する。したがって、我々は、ロボティクスのための効果的な自己回帰は動きに関連する知識を優先すべきであると主張する。これは低レベルのロボット行動と密接に関連し、ハードウェアに依存しないため、学習した動きを実際のロボット行動にファインチューニングを通じて転移することを容易にする。

本稿では、Motoを紹介する。これは、潜在的なMotion Token(動きトークン)を橋渡しの「言語」として利用し、教師なしの方法でビデオフレーム間の視覚的動きをモデル化するものである。図1に示すように、我々はまず、離散的な潜在動きトークナイザーを訓練し、外部の監督なしでビデオフレーム間のダイナミクスを捉えるコンパクトな潜在動きトークンを生成する。次に、GPTベースのアーキテクチャを用いてMoto-GPTを事前学習し、次の潜在動きトークンを予測することで、ビデオから動きの事前知識を吸収する。これらの学習された事前知識は、その後、共同ファインチューニング戦略を通じてロボット操作タスクを強化するために転移される。

具体的には、図2に示すように、潜在運動トークナイザーエンコーダーはVQ-VAEベースのアーキテクチャ[51]を採用し、連続する2つのビデオフレームを離散トークンに圧縮する。 デコーダーに1つ目のフレームとトークンから2つ目のフレームを再構成するよう正則化することで、トークナイザーはビデオフレーム間の変化(多くの場合、運動に起因する)を効果的に捉えるよう訓練される。 トークナイザーの訓練後、我々はビデオクリップ内の連続する2フレームごとに潜在運動トークンを取得し、それらを連結して運動軌跡を表現する配列とする。 その後、Moto-GPTは初期フレームと対応する言語指示に基づいて次のトークンを予測することで、これらの配列に対して事前訓練される。この事前訓練フェーズの後、Moto-GPTは潜在運動トークンを自己回帰的に予測することで、もっともらしい軌跡を生成することが可能となる。

Moto-GPTを下流のロボット操作タスクに適応させるため、我々は各時間ステップにおいて行動クエリトークンを潜在運動トークンチャンクと連結し、行動ラベル付きロボットデータで共同微調整を行う。行動クエリトークンは学習可能なモジュールによって処理され、低レベルの行動を予測する一方、運動トークンは元の次トークン予測メカニズムを用いて微調整される。この共同微調整戦略は、学習された運動プライアにおける抽象的な意図を正確な行動実行に効果的に転移させ、モデルが事前訓練されたMoto-GPTの固有の知識を成功的な操作に活用することを可能にする。

我々は様々な観点から我々の主張を検証するため、広範な実験を行う:(1) 解釈可能な運動言語としての潜在運動トークン:実験により、潜在運動トークンが運動の簡潔かつ表現力豊かな表現を包含し、ビデオ内の運動軌跡を効果的に再構成し理解することが示される。(2) 有用な運動プライア学習器としての事前訓練されたMoto-GPT:結果は、事前訓練されたMoto-GPTがもっともらしい運動軌跡の予測と、出力尤度に基づくロボット軌跡の合理性評価において有望な成果を達成することを示している。(3) 効果的なロボットポリシーとしての微調整されたMoto-GPT:微調整されたMoto-GPTは、特に限られた訓練データにおいて、運動プライアなしで訓練された対照群と比較して顕著な性能向上を示し、学習された運動知識をロボット操作に転移させる効果を強調している。

要約すると、我々の貢献は以下の3点である:

  • 潜在運動トークンの導入。これは、ビデオフレーム間の視覚的な動きを教師なしで模倣し、自己回帰的な事前学習のための橋渡し的な「言語」として機能し、ロボット学習を強化する。

  • ビデオデータにおける次の潜在運動トークンの予測を通じたMoto-GPTの事前学習。これにより、行動のアノテーションを必要とせずに、モデルが有用な運動の事前知識を学習することを可能にする。

  • 学習した運動の事前知識を実際のロボット操作に効果的に転移させるための共同ファインチューニング戦略の実装。ファインチューニングされたモデルは、ロボティクスのベンチマークにおいて競争力のある性能を示す。

我々は、ビデオデータに含まれる膨大な相互作用に富んだ知識が、ロボット学習を進歩させる重要な機会を提供していると考えている。本稿が、事前学習を通じて価値ある事前知識を獲得するための効果的な自己回帰的表現のさらなる探求を促し、最終的にロボットの能力向上につながることを期待している。

2 Related Work

Refer to caption
図2: Motoの3段階の訓練の概要: (1) 潜在運動トークナイザーは、純粋な動画データを用いて教師なし学習により、ビデオフレーム間の主要な視覚的運動をコンパクトな潜在トークンにエンコードする。(2) Moto-GPTは、動画-指示ペアから運動の事前知識を学習するために、自己回帰的な運動トークン予測で事前訓練される。(3) Moto-GPTは、学習可能なアクションクエリトークンの出力に基づいてロボットのアクションを予測するために、次の運動トークン予測の目的を維持しながら、アクションラベル付きの軌跡でco-fine-tuningされる。

Vision-Language-Action Models.

近年の研究では、逐次的な観察と言語指示からロボットの行動を生成するために、トランスフォーマーを統一された視覚-言語-行動(VLA)アーキテクチャとして採用する傾向が増している[5, 48, 25]。視覚-言語トランスフォーマーにおける事前学習の成功[6, 44, 1, 36]に触発され、VLAモデルの事前学習が注目を集めている。一つのアプローチは、大規模な画像-テキストデータセットで事前学習された強力な視覚-言語モデルからポリシーモデルを微調整することである[16, 62, 32]。もう一つは、行動ラベルを持つ多様な異種ロボットデータで汎用ポリシーモデルを訓練することを探求している[42, 28, 15, 52]。対照的に、我々の研究は、ビデオデータを用いた生成的事前学習によってVLAモデルを強化することを目的としている。ビデオデータは、テキストや画像よりも豊かなインタラクションの詳細を提供し、低レベルのロボット行動に関するハードウェア固有のラベルを必要としない。 VLAモデルを超えて、ロボット操作性能の向上に焦点を当てた貢献もいくつか存在する。一部の研究は、単一視点のRGB画像から、複数の視点や深度情報を含む入力観察に拡張している[35, 8, 59]。行動チャンキングやポリシー拡散などの技術も行動の精度を向上させる[22, 13, 27]。さらに、一部の研究[20, 34]では、高レベルの言語指示を、模倣学習中に補助的な訓練目的を通じて学習された潜在スキルに分解している。

Robot Learning from Videos

動画は物理的な動力学に関する豊富な知識を提供するため、ロボット学習に理想的である。初期の研究[43, 38]では、自己中心的な動画を用いた対照学習により、操作のための視覚表現を強化した。一部の研究[17, 29, 33, 4, 30]では、低レベルの制御を導くための中間計画として動画や画像を生成している。 最近の研究[54, 9, 23]では、生成的な動画の事前学習の後、微調整を行ってエンドツーエンドのポリシーモデルを作成する方向にシフトしている。 Escontrela et al. [19]は、強化学習の報酬信号を提供するために自己回帰的な動画予測モデルを事前学習している。これらの研究は主に、動画フレームのピクセル値やパッチレベルのトークンを事前学習の対象としている。対照的に、我々のアプローチは潜在的な動きトークンを予測対象とし、重要な視覚的動きを強調しつつ、無関係な詳細を切り離すことに焦点を当てている。 さらに、一部の研究では行動条件付き動画生成を通じて世界モデルを構築し[21, 56, 55]、強化学習を促進したりインタラクティブな環境として機能したりしている。特に、Genie [7]は、大規模な動画から潜在的な行動を教師なし学習し、汎用的な2Dゲームシミュレータを作成することを提案している。しかし、我々の目標は、2Dゲームシミュレーション環境の開発よりも複雑なロボット操作のための汎用ポリシーモデルを訓練することである。同時期に、Ye et al. [58]は1ステップ先の潜在的な行動を予測するポリシーモデルを事前学習し、Chen et al. [12]は低レベルのポリシーの中間目標として潜在的な行動を使用している。我々のアプローチは、将来の動画クリップに対する潜在的な動きトークンの軌跡を自己回帰的に予測するエンドツーエンドのポリシーモデルを事前学習する点で異なっている。

3 Methodology

3.1 Overview

Motoは、潜在的な動作トークン列に対する自己回帰生成的事前学習を活用して、動画から動作の事前分布を学習し、その後、ロボット制御のためにアクションラベル付きデータで共同微調整を行う。 図2に示すように、Motoは3つの段階で構成される:1) 潜在動作トークナイザの教師なし学習、2) 生成モデルMoto-GPTの事前学習、3) ロボットアクションポリシーのための共同微調整。 3.2節では、視覚的動力学を量子化された潜在動作トークンにエンコードする潜在動作トークナイザについて詳述する。我々はまた、3.3節での動作トークンの自己回帰的事前学習と、3.4節での教師あり共同微調整を含む、Moto-GPTの学習手順について説明する。実装の詳細は補足資料に記載されている。

3.2 Latent Motion Tokenizer

3に示す潜在運動トークナイザーは、連続するビデオフレーム間の本質的な視覚的運動を捉えるための潜在的な「言語」を教師なしで学習する111視覚的な差異を十分に確保するため、元のビデオを一定の割合でダウンサンプリングする。。 その構造は、運動のトークン化と逆トークン化のための標準的なオートエンコーダー設計に従っている。 トークン化には、M-Formerと呼ばれる多層トランスフォーマーを使用し、凍結された事前学習済みViTエンコーダー[24]を用いて、現在のフレームotsubscript𝑜𝑡o_{t}italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTと前のフレームot1subscript𝑜𝑡1o_{t-1}italic_o start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTの最終層のパッチ特徴から運動特徴を抽出する。我々は8つの学習可能なクエリ埋め込みをこれらのパッチ特徴と連結し、M-Formerへの追加入力とする。ここでクエリは自己注意層を通じて相互作用する。出力されたクエリ特徴は、語彙サイズ128のVQコードブックによって処理され、離散的な潜在運動トークンが生成される。

逆トークン化には、画像再構成のためのViTデコーダーを使用する。これはot1subscript𝑜𝑡1o_{t-1}italic_o start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTの線形埋め込みパッチを入力とし、潜在運動トークンに基づいてotsubscript𝑜𝑡o_{t}italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTのピクセル値を復元する。MLPは、潜在運動トークンの量子化された埋め込みを連結し、コンパクトな埋め込み(1トークン)に投影する。これは各入力パッチ埋め込みに加算される。 この条件付き埋め込みは、エンコーダーとデコーダー間の情報ボトルネックとして機能し、ViTデコーダーがフレーム間の微妙な変化を捉え、ot1subscript𝑜𝑡1o_{t-1}italic_o start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTotsubscript𝑜𝑡o_{t}italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTに正確に変換することを可能にする。

潜在運動トークナイザーのコンポーネントは、標準的なVQ-VAEの目的関数[51]を用いて共同で最適化される。これには再構成損失、ベクトル量子化損失、およびコミットメント損失が含まれる。我々は特に、ViTデコーダーからの出力ピクセル値とotsubscript𝑜𝑡o_{t}italic_o start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの真のピクセル値との間のMSE損失を再構成損失として使用する。学習後、潜在運動トークナイザーは凍結され、「二フレーム」トークン化を通じてビデオの統一された順序付き運動表現を生成する。さらに、初期観測と指定された潜在運動トークンを用いて、デコーダーは環境の変化を視覚化するためのロールアウトを生成する「シミュレーター」として機能することができる。

Refer to caption
図3: 潜在運動トークナイザーは、連続する2つのビデオフレームから離散的な運動トークンを生成する。これは、最初のフレームと離散トークンに基づいて2番目のフレームを再構成するようにデコーダーを正則化し、フレーム間の運動を効果的に捉える。

3.3 Motion Token Autoregressive Pre-training

潜在モーショントークナイザーにより、Moto-GPTは潜在モーショントークンを橋渡し言語として使用し、動画から多様な視覚的動きについて学習することが可能となる。 図2に示すように、Moto-GPTは次のモーショントークン予測目的で事前学習される。動画クリップ[o0,o1,,oT]subscript𝑜0subscript𝑜1subscript𝑜𝑇[o_{0},o_{1},...,o_{T}][ italic_o start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_o start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_o start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT ]に対して、我々は連続するフレームのペアごとに潜在モーショントークンの塊を導出し、それらを時系列に連結してシーケンスを形成する。Moto-GPTはGPTスタイルのトランスフォーマーを使用して、これらのモーショントークン軌跡に対して自己回帰を行う。さらに、指示のテキスト特徴と初期ビデオフレームの視覚特徴を入力プロンプトとして前置する。事前学習の目的は、言語指示と初期ビデオフレームが与えられた場合の真のモーショントークンシーケンスの尤度を最大化することである:

motion=i=1MlogP(mi|𝒍,𝒗,𝒎<i;𝚯),subscript𝑚𝑜𝑡𝑖𝑜𝑛superscriptsubscript𝑖1𝑀𝑃conditionalsubscript𝑚𝑖𝒍𝒗subscript𝒎absent𝑖𝚯\mathcal{L}_{motion}=-\sum_{i=1}^{M}\log P(m_{i}|\boldsymbol{l},\boldsymbol{v}% ,\boldsymbol{m}_{<i};\boldsymbol{\Theta}),caligraphic_L start_POSTSUBSCRIPT italic_m italic_o italic_t italic_i italic_o italic_n end_POSTSUBSCRIPT = - ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT roman_log italic_P ( italic_m start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT | bold_italic_l , bold_italic_v , bold_italic_m start_POSTSUBSCRIPT < italic_i end_POSTSUBSCRIPT ; bold_Θ ) , (1)

ここで、𝒍𝒍\boldsymbol{l}bold_italic_l𝒗𝒗\boldsymbol{v}bold_italic_vは、凍結された事前学習済みのT5[47]およびViT[24]モデルからのテキスト特徴と視覚特徴である。𝒎<isubscript𝒎absent𝑖\boldsymbol{m}_{<i}bold_italic_m start_POSTSUBSCRIPT < italic_i end_POSTSUBSCRIPTは現在のトークンmisubscript𝑚𝑖m_{i}italic_m start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTに先行する潜在モーショントークンを表し、𝚯𝚯\boldsymbol{\Theta}bold_Θは学習可能なモデルパラメータを表す。ここで、M=KT𝑀𝐾𝑇M=K*Titalic_M = italic_K ∗ italic_Tであり、K𝐾Kitalic_Kは連続するフレーム間のモーションに対するトークン数、T𝑇Titalic_Tは動画の長さである。

3.4 Co-fine-tuning for Robot Manipulation

事前学習後、Moto-GPTは言語指示と初期観測に基づいて潜在的な動作トークンを生成することで、将来の軌道を予測できるようになる。 このプロセスは、潜在的な動作トークンのコードブックを抽象的な行動空間とみなせば、実際のロボットのポリシー推論に類似している。 しかし、精密なロボット制御を実現するには依然としてギャップが存在する。

この問題に対処するため、 微調整の段階では、特別な行動クエリトークンをMoto-GPTの入力に導入し、図2の右側に示すように、柔軟な行動ヘッドを通じて実際のロボット行動を生成できるようにする。具体的には、各時間ステップで潜在的な動作トークンチャンクの後にN𝑁Nitalic_N個のクエリトークンが追加される。ここでN𝑁Nitalic_Nは2つのビデオフレーム間に発生するロボット行動の数に対応する。 微調整段階は、一般的に事前学習と同じ因果マスクメカニズムに従う。 しかし、潜在的な動作トークンは事前学習の設定と一貫性を保つため、新たに挿入された行動クエリトークンに注意を向けません。 さらに、行動クエリトークンから潜在的な動作トークンへの注意の50%をランダムにマスクし、知識転移を可能にしつつ、真の条件への依存を減らす。 これにより推論効率も向上し、潜在的な動作トークンを生成せずにMotoに直接実際の行動をクエリすることが可能になる。これは、潜在的な行動トークンのプレースホルダーとしてパディングトークンを使用し、行動クエリトークンからこれらのプレースホルダーへの注意をブロックすることで実現できる。

MLP基盤の行動ヘッドは、各行動クエリトークンの出力隠れ状態を実際のロボット行動空間に投影する。我々は、位置(ΔxΔ𝑥\Delta xroman_Δ italic_x)や回転(ΔθΔ𝜃\Delta\thetaroman_Δ italic_θ)の変位などの連続的な行動成分にはSmooth-L1損失を、グリッパーの開閉状態(ΔgripΔ𝑔𝑟𝑖𝑝\Delta griproman_Δ italic_g italic_r italic_i italic_p)のような二値的成分にはバイナリクロスエントロピー(BCE)損失を適用する222行動空間は異なるロボットの具現化によって変わる可能性がある。例えば、Google Everyday Robotはグリッパー伸展に連続値を使用するため、ΔgripΔ𝑔𝑟𝑖𝑝\Delta griproman_Δ italic_g italic_r italic_i italic_pにSmooth-L1損失が必要になる。。総行動損失actionsubscript𝑎𝑐𝑡𝑖𝑜𝑛\mathcal{L}_{action}caligraphic_L start_POSTSUBSCRIPT italic_a italic_c italic_t italic_i italic_o italic_n end_POSTSUBSCRIPTは以下のように定義される:

action=(Δx)+(Δθ)+(Δgrip)subscript𝑎𝑐𝑡𝑖𝑜𝑛Δ𝑥Δ𝜃Δ𝑔𝑟𝑖𝑝\mathcal{L}_{action}=\mathcal{L}(\Delta x)+\mathcal{L}(\Delta\theta)+\mathcal{% L}(\Delta grip)caligraphic_L start_POSTSUBSCRIPT italic_a italic_c italic_t italic_i italic_o italic_n end_POSTSUBSCRIPT = caligraphic_L ( roman_Δ italic_x ) + caligraphic_L ( roman_Δ italic_θ ) + caligraphic_L ( roman_Δ italic_g italic_r italic_i italic_p ) (2)

我々は、Moto-GPTがビデオから学習した動作の事前知識を保持するために、潜在的な動作トークン予測の学習目的を維持する。したがって、微調整段階の全体的な損失関数は以下のようになる:

ft=motion+actionsubscript𝑓𝑡subscript𝑚𝑜𝑡𝑖𝑜𝑛subscript𝑎𝑐𝑡𝑖𝑜𝑛\mathcal{L}_{ft}=\mathcal{L}_{motion}+\mathcal{L}_{action}caligraphic_L start_POSTSUBSCRIPT italic_f italic_t end_POSTSUBSCRIPT = caligraphic_L start_POSTSUBSCRIPT italic_m italic_o italic_t italic_i italic_o italic_n end_POSTSUBSCRIPT + caligraphic_L start_POSTSUBSCRIPT italic_a italic_c italic_t italic_i italic_o italic_n end_POSTSUBSCRIPT (3)

4 Experiment Setup

4.1 Benchmarks and Datasets

我々は、ロボット操作の主要な評価ベンチマークとしてSIMPLER [31]とCALVIN [40]を使用する。

SIMPLER.

SIMPLERベンチマークでは、Google Everyday Robotの具現化に関する3つのタスクに焦点を当てる:コーラ缶をピックアップする近くに移動する引き出しを開閉する。これらは図4に示されている。「コーラ缶をピックアップする」タスクは、空のコーラ缶を3つの異なる向き(水平に寝かせた状態、垂直に寝かせた状態、立てた状態)で掴んで持ち上げることを含む。「近くに移動する」タスクでは、テーブルトップに8つのオブジェクトのうち3つを三角形のパターンで配置し、指定されたソースオブジェクトを別のオブジェクト(ターゲット)の近くに移動するようロボットに指示する。我々は、Latent Motion Tokenizerの訓練とMoto-GPTの事前訓練のために、Open-X-Embodiment [52]のサブセットを使用する。これは、様々な具現化にわたる109kの実世界の軌道ビデオ [5, 53, 49, 41, 14, 37, 39, 45, 61, 10, 60]で構成されている。Moto-GPTのファインチューニングには、RT-1 Robot Actionデータセット [5]からの73kのアクションラベル付き専門家軌道を使用する。

Refer to caption
図4: SIMPLERにおける評価タスクの図解 [31]

CALVIN.

CALVINベンチマーク [40]では、Franka Emika Pandaロボットを用いて長期的なタスク完了を評価する。各試行で34の操作タスクのうち5つを連続して完了することが求められる。 4つの異なる環境(A、B、C、D)があり、各環境にはスライドドア付きの机、引き出し、異なる色のブロック、LEDを切り替えるボタン、電球を制御するスイッチが含まれている。 図5に示すように、環境は机のテクスチャ、およびスライドドア、引き出し、LEDボタン、電球スイッチなどのすべての静的要素の位置が異なる。我々は、最も困難なABC\longrightarrowD設定、つまり環境A、B、Cのデータで訓練し、Dでゼロショットテストを行う設定で実験を行う。具体的には、環境A、B、Cからのすべてのプレイビデオを使用してLatent Motion Tokenizerを訓練し、データの35%(18kの軌道ビデオ)に言語アノテーションを含めてMoto-GPTの事前訓練を行う。Moto-GPTのファインチューニングには、環境A、B、Cからの言語アノテーションとアクションラベルを持つ18kの専門家軌道を使用する。

Refer to caption
図5: CALVINにおける4つの異なる環境の図解。Mees et al. [40]の原図を改変。

4.2 Compared Models

SIMPLER.

SIMPLERベンチマークにおいて、我々はMoto-GPTをOpen-X-Embodimentデータセットで事前学習された4つの代表的なモデルと比較する:

  • RT-1-X [5] はトランスフォーマーのバックボーンを使用してトークン化されたアクションを出力し、FiLM EfficientNetを用いて言語と6枚の履歴画像をトークン入力に融合する。

  • RT-2-X [62] は事前学習された大規模ビジョン言語モデル(VLM)であるPaLI-X(55B)[11]を、トークン化されたアクションをテキストトークンに変換することでロボットポリシーに適応させる。

  • Octo-Base [42] は言語と画像トークンを処理するためのトランスフォーマーアーキテクチャを採用し、拡散ベースのアクションヘッドを用いてアクションを生成する。

  • OpenVLA [28] はロボットアクション予測のために、事前学習されたPrismatic-7B [26] VLMバックボーンを基に構築される。

CALVIN.

CALVINベンチマークにおいて、我々はロボット操作性能を向上させるために事前学習戦略を活用する以下のベースラインモデルを選択する:

  • SuSIE [4] は目標画像を生成するための画像編集モデルを事前学習し、それをアクション予測のための低レベルポリシーに入力する。

  • RoboFlamingo [32] は、大規模なビジョン言語コーパスで事前学習された大規模VLMであるOpenFlamingo [2]から適応されたロボットポリシーモデルである。

  • GR-1 [54] は各入力観測に対する単一ステップの将来観測のピクセル値を直接予測するGPTスタイルのトランスフォーマーを事前学習する。

  • MT-R3M [54] はGR-1の変種であり、観測画像をエンコードするために事前学習されたロボット視覚エンコーダR3M [43]を活用する。

Ablations of Moto-GPT.

我々はまた、オプションのベースラインとしてMoto-GPTの以下のバリエーションを研究する:

  • Moto w/o Motion Token はMoto-GPTと同じバックボーンを共有するが、潜在運動トークンなしでアクションラベル付きロボットデータから一から学習される。

  • Moto-IML はMoto-GPTと同じ事前学習段階を経る。入力シーケンスに潜在運動トークンを保持するが、ファインチューニング段階では次の運動トークン予測損失を無視する。

  • Moto-DM はMoto-GPTと同じ方法で事前学習されるが、ファインチューニング中に入力シーケンスから潜在運動トークンを完全に破棄する。

4.3 Training Details

Latent Motion Tokenizer.

潜在運動トークナイザーの訓練可能なモジュールの実装詳細を表1にまとめる。 我々は表2に記載されたハイパーパラメータを用いて、4台のA100-40G GPUでこのモデルを訓練する。 潜在運動トークンの学習を促進するため、訓練データセット内の元の動画をダウンサンプリングし、フレーム間の視覚的な動きが十分に識別可能であることを確保する。具体的には、Open-X-Embodimentデータセットの動画については3フレームごとに1フレームをサンプリングし(すなわちΔt=3Δ𝑡3\Delta t=3roman_Δ italic_t = 3)、潜在運動トークナイザーを350,000ステップ訓練する。CALVINデータセットの動画については、5フレームごとに1フレームのサンプリングレート(Δt=5Δ𝑡5\Delta t=5roman_Δ italic_t = 5)を採用し、モデルを150,000ステップ訓練する。

表1: 潜在運動トークナイザーの実装詳細
Component Parameter Value
M-Former num_queries 8
num_layers 4
hidden_size 768
num_heads 12
ViT Decoder patch_size 16
num_layers 12
hidden_size 768
num_heads 12
VQ Codebook num_codes 128
latent_dim 32
表2: 潜在運動トークナイザーの訓練ハイパーパラメータ
Parameter Value
batch_size 256
optimizer AdamW
lr_max 1e-4
lr_schedule cosine decay
weight_decay 1e-4
warmup_steps 1000
表3: Moto-GPTの実装詳細
Component Parameter Value
GPT backbone num_layers 12
hidden_size 768
num_heads 12
Action Head num_layers 2
hidden_size 384
表4: Moto-GPTの訓練ハイパーパラメータ
Parameter Value
batch_size 512
optimizer AdamW
lr_max 1e-4
lr_schedule cosine decay
weight_decay 1e-4
warmup_epochs 1

Moto-GPT.

Moto-GPTの実装詳細を表3に示す。ここでアクションヘッドはファインチューニング段階でのみ含まれる。Moto-GPTは最大3フレームの動画長を扱い、事前訓練とファインチューニングの両段階で適用される動画ダウンサンプリングレートは、潜在運動トークナイザーの訓練に使用されたレートと一致する。 異なるベンチマークでMoto-GPTをファインチューニングする際、各時間ステップで潜在運動トークンの後に挿入されるアクションクエリトークンの数は異なる。具体的には、SIMPLERベンチマークでは3つのアクションクエリトークンを挿入し、CALVINベンチマークでは5つを挿入する。 事前訓練では、Moto-GPTを8台のA100-40G GPUを使用して10エポック訓練し、関連するハイパーパラメータを表4に示す。ファインチューニングのハイパーパラメータは、エポック数を除いて事前訓練時と一致する。我々はMoto-GPTをRT1-Robot-Actionデータセットで3エポック、CALVINデータセットで18エポックファインチューニングし、4台のA100-40G GPUを使用する。

5 Experiments

Motoの有効性を包括的に評価するために、我々は3つの重要な実験的問いを検討する:

  • Q1(解釈可能性): Latent Motion Tokenizerは、動画から視覚的な動きを効果的に表現する解釈可能な潜在運動トークンを学習するか?

  • Q2(運動の事前知識): Moto-GPTは、潜在運動トークン列に対する自己回帰的な事前学習を通じて、運動軌道に関する有意義な事前知識を獲得するか?

  • Q3(性能): 運動の事前知識は、効率的な微調整を通じてロボット操作ベンチマークにおけるポリシーの性能を向上させるために転移できるか?

5.1 Latent Motion Token as an Interpretable Motion Language

6に示されているように、潜在動作トークナイザーが正解の潜在動作トークンを用いて再構成した次のフレームは真正であり、初期フレームと正解の次のフレーム間の主要な動的特性を効果的に捉えている。これは、潜在動作トークンが細かな動作の詳細を表現できることを示唆しており、潜在動作トークナイザーのデコーダーが環境の変化を視覚化するための適格なシミュレーターとして機能していることを示している。

7では、潜在動作トークンの制御可能性と一貫性をさらに探究している。各行は、異なるトークンチャンクが初期フレームに対して様々な方向と規模の視覚的動作を生成することを示している。逆に、各列内では、同一のトークンチャンクが異なる開始観測に対して、結果として生じる位置や姿勢に類似した効果をもたらしている。動画の連続する2フレームごとに潜在動作トークンチャンクを連結することで、我々は自然言語のコンテキストに類似した動作軌跡の連続的表現を作成する。図8に示されているように、この表現は異なる初期観測に適用でき、文脈化された動作軌跡を生成し、模倣学習を導くための統一された言語インターフェースとしての潜在動作トークンの可能性を強調している。

5は、潜在動作トークンの意味的解釈可能性に関する定量的証拠を提示している。我々は、初期フレームのViTパッチ特徴と、続く7フレームの連結された潜在動作トークンを使用して、CALVINデータセットのABC\longrightarrowD分割から34のタスクの意味ラベルを予測するビデオ分類器を訓練した。潜在動作トークンを利用した分類器は79.7%の精度を達成し、後続の各フレームの入力特徴を196トークンからわずか8トークンに削減したにもかかわらず、8フレーム全てのViTパッチ特徴を使用した分類器の性能に匹敵した。対照的に、初期フレームのみ、または繰り返された初期フレーム列に依存する分類器は苦戦し、30%未満の精度しか達成できなかった。これらの結果は、テキストやアクションラベルなしで訓練されたにもかかわらず、潜在動作トークンが視覚的動作の非常にコンパクトで表現力豊かな表現を提供し、高レベルの意味論と結びついた解釈可能な動作言語として機能することを示している。

Refer to caption
図6: 再構成結果の定性的例。ここでは、初期フレームと次のフレームに基づいて潜在動作トークナイザーから得られた離散的動作トークンが、初期フレームとともにデコーダーに入力され、目標フレームを再構成している。
Refer to caption
図7: 潜在動作トークンの解釈可能性の視覚化。各行は同じ初期フレームから異なる潜在動作トークンを使用して再構成されたフレームを表示し、各列は同じ潜在動作トークンを使用して異なる初期フレームから再構成されたフレームを示している。潜在動作トークンは、教師なしで訓練されたにもかかわらず、一貫した(列を参照)かつ識別可能な(行を参照)意味論を示している。
Refer to caption
図8: 潜在動作トークンを介したビデオ模倣生成。ここでは、デモンストレーションビデオから潜在動作トークンのシーケンスが潜在動作トークナイザーによって抽出され、新しいビデオにデコードされる。この生成されたビデオは、元のロボットの動きの意味論を保持しながら、異なる初期フレームに基づいている。

5.2 Moto-GPT as a Useful Motion Prior Learner

Moto-GPTの事前学習段階では、潜在的な動作トークンを用いてビデオデータに対する自己回帰を行い、初期観測と様々な言語プロンプトに基づいて動作軌道を予測することが可能となる。これは図9に示されている通りである。 表6は、事前学習データセットの検証分割において、128サイズのコードブックから正解の潜在動作トークンを予測する際のMoto-GPTのトップk精度を示している。これらの結果は、Moto-GPTが動作軌道予測のための事前知識を効果的に獲得していることを示しており、これは人間の指示に基づくロボットの行動推論にとって極めて重要である。したがって、学習された動作事前知識は、下流のロボットタスクに有益である可能性を秘めている。

表5: 様々な表現を用いたビデオ分類精度。
Video Representation Semantic Acc.
Initial frame 0.292
Initial frame repeated by 8 times 0.283
Initial frame + 7 subsequent frames 0.828
Initial frame + 7 latent motion token chunks 0.797

さらに、潜在動作トークンによって、Moto-GPTは軌道ビデオをコンパクトなトークン列として解釈し、式1で定義された自己回帰尤度を通じてその合理性を評価することができる。図10は、Motoの対数尤度を軌道ビデオの報酬信号として使用する可能性を示しており、軌道がMoto-GPTの分布にどの程度適合しているかを示すとともに、行動の時間的一貫性を測定している。 これを評価するために、我々はCALVINにおいてベースラインポリシーとランダムポリシーを用いて98個のビデオ三つ組を収集した。各三つ組は、同じ環境状態から始まる3種類の軌道ビデオで構成されている。図10に示されている各シーケンスステップにおける各軌道タイプの平均対数尤度は、成功した軌道を失敗した軌道やランダムな試行から明確に区別している。

5.3 Moto-GPT as an Effective Robot Policy

Refer to caption
図9: 事前学習されたMoto-GPTが異なる言語指示に基づいて予測した潜在的動作トークンの系列から生成されたビデオ軌跡の可視化。
表6: Moto-GPTのTop-K動作トークン予測精度。
Dataset Top-5 Top-10 Top-20
Oepn-X-Embodiment 0.521 0.698 0.853
Calvin (ABC\longrightarrowD) 0.298 0.518 0.768
表7: Open-X-Embodiment [52] データセットで事前学習されたモデルのSIMPLER評価結果。「Overall」列は全タスクタイプのサブタスクにわたる平均成功率を報告している。
Method Pick Coke Can Move Near Open / Close Drawer Overall
Horizontal Vertical Standing Average Average Open Close Average Average
RT-1-X [5] 0.820 0.330 0.550 0.567 0.317 0.296 0.891 0.597 0.534
RT-2-X [62] 0.740 0.740 0.880 0.787 0.779 0.157 0.343 0.250 0.607
Octo-Base [42] 0.210 0.210 0.090 0.170 0.042 0.009 0.444 0.227 0.169
OpenVLA [28] 0.270 0.030 0.190 0.163 0.462 0.194 0.518 0.356 0.248
Moto 0.820 0.500 0.900 0.740 0.604 0.130 0.732 0.431 0.614
Moto w/o Motion Token 0.600 0.190 0.740 0.503 0.554 0.000 0.796 0.398 0.480
表8: CALVIN (ABC\longrightarrowD)における異なる事前学習技術を採用したモデルの比較。Avg. Len.は1,000回の試行シーケンスにわたって連続して達成されたタスクの平均数を示す包括的な指標である。「Static RGB」と「Gripper RGB」はそれぞれ静止カメラまたはグリッパービューからのRGB画像を表す。「Proprio」は固有受容性ロボット状態の略である。
Model Observation Space Tasks competed in a row (1000 chains)
1 2 3 4 5 Avg. Len.
SuSIE [4] Static RGB 0.870 0.690 0.490 0.380 0.260 2.69
RoboFlamingo [32] Static RGB + Gripper RGB 0.824 0.619 0.466 0.331 0.235 2.47
MT-R3M [54] Static RGB + Gripper RGB + Proprio 0.529 0.234 0.105 0.043 0.018 0.93
GR-1 [54] Static RGB + Gripper RGB + Proprio 0.854 0.712 0.596 0.497 0.401 3.06
Moto Static RGB 0.897 0.729 0.601 0.484 0.386 3.10
Moto w/o Motion Token Static RGB 0.779 0.555 0.380 0.256 0.167 2.14

Overall Performance.

ファインチューニング後、我々はMoto-GPT333簡略化のため、以下の実験表と図ではMoto-GPTをMotoと呼ぶ。をSIMPLERおよびCALVINベンチマークでベースラインモデルと比較評価した。その結果を表7および8に示す。全体として、Moto-GPTは両ベンチマークでベースラインを上回る性能を示した。特筆すべきは、SIMPLERにおいて、Moto-GPTがGPTスタイルのバックボーンに98Mパラメータしか持たないにもかかわらず、RT-2-X (PaLI-X 55B)やOpenVLA (Prismatic-7B)などのより大規模なモデルを凌駕したことである。 Moto-GPTは未見のCALVIN環境においても強力な汎化能力を示した。ベースラインモデルは様々な事前学習戦略を採用している:SuSIEは目標画像生成のために事前学習された画像編集モデルを使用し、RobotFlamingoは大規模な視覚言語モデルから初期化され、MT-R3Mは事前学習されたロボット視覚エンコーダーを使用し、GR-1は入力観測に基づいて将来のピクセル値を予測する。対照的に、Moto-GPTは自己回帰的な動作トークン予測を通じて事前学習され、静止カメラからのRGB画像のみに依存しているにもかかわらず、競争力のある性能を達成している。これは特に、静止カメラとグリッパーカメラの両方からの画像に加えて固有受容性ロボット状態データを使用するGR-1と比較して印象的である。 我々の発見は、フレームレベルの視覚的詳細よりも動作関連のダイナミクスに焦点を当てることが、ビデオから学習するためのより効果的なアプローチであるという考えを支持している。さらに、Moto-GPTは、潜在的動作トークンなしでアクションラベル付きロボットデータからゼロから学習されたその変種(Moto w/o Motion Token)を大幅に上回る性能を示した。これは、我々の潜在的動作トークンベースの事前学習と共同ファインチューニング戦略が、実践的なロボット操作タスクのためのポリシー性能を向上させる上で効果的であることを強調している。

Refer to caption
図10: Moto-GPTは対数尤度を用いて成功、失敗、およびランダムなロボット軌跡を区別し、軌跡の合理性と潜在的な報酬信号を効果的に評価することを可能にする。

Data Efficiency.

Moto-GPTの事前学習はビデオのみに依存し、アクションラベル付きの教師あり型ロボットデータの必要性を排除する。これにより、大規模で容易にアクセス可能なビデオデータセットでの事前学習が可能となり、その後、ポリシー適応のために小規模なアクションラベル付き軌跡でファインチューニングを行うことができる。低リソースシナリオをシミュレートするために、我々はアクションラベル付きデータの割合を変えてMoto-GPTをファインチューニングし、CALVIN (ABC\longrightarrowD)での性能を評価した。 図11に示すように、Moto-GPTと潜在的動作トークンなしでゼロから学習されたその変種(Moto w/o Motion Token)との性能差は、ファインチューニングデータが限られるほど広がる。特筆すべきは、Moto-GPTがラベル付きデータのわずか1%で52.5%の成功率を達成したのに対し、Moto w/o Motion Tokenは0%の成功率を記録したことである。これは、Moto-GPTが正確なアクションを生成するための適応効率の高さを示しており、より大規模な事前学習ビデオデータセットを活用することで、下流のロボット操作タスクにおける性能を向上させる可能性を強調している。

Ablations on Policy Fine-tuning Methods.

12では、Motoの共同ファインチューニング戦略の有効性を評価している。Moto-IMLとMoto-DMはMoto-GPTと同じ事前学習アプローチを共有しているが、ファインチューニング方法が異なる。具体的には、Moto-IMLは潜在的動作トークン予測の損失項を省略し、Moto-DMは入力シーケンスから潜在的動作トークンを完全に除外している。 潜在的動作トークンなしでゼロから学習されたMoto w/o Motion Tokensと比較すると、Moto-IMLとMoto-DMの両方が事前学習中に獲得した動作プライアによって性能向上を示している。しかし、それでもMoto-GPTの性能には及ばない。これは、シーケンス内に潜在的動作トークンを保持することの重要性を強調しており、アクションクエリトークンが直接的な注意を通じて知識を転移することを可能にしている。さらに、潜在的動作トークン予測のための共同ファインチューニングは、Moto-GPTにおいて学習された動作プライアを保持するのに役立っている。

Refer to caption
図11: CALVIN (ABC\longrightarrowD)において異なる割合のデータでファインチューニングされたモデルのタスク成功率。
Refer to caption
図12: CALVIN (ABC\longrightarrowD)におけるMoto-GPTの比較実験。

6 Conclusion and Discussion

本稿では、Motoという新しい手法を紹介した。これは、潜在的な動作トークンを「言語」インターフェースとして使用し、ビデオデータに対する生成的な事前学習と精密なロボット制御を橋渡しするものである。Motoは、今後の研究に向けていくつかの興味深い道筋を開いている。

第一に、Motoは、ビデオから多様な視覚的動態を解釈するための統一された言語を学習することの実現可能性を示している。これにより、ハードウェア固有のアクションラベルの必要性が排除される。ビデオからトークン化された潜在的な動作軌跡は、モデルが低レベルのアクションと密接に関連する動作の事前知識を学習するための豊富なリソースを提供する。 我々は現在、主にロボットのビデオを使用して潜在動作トークナイザーを訓練しているが、学習された潜在動作トークンは、様々な文脈と具現化にわたって一貫した視覚的動作を生成する可能性を示している。我々は、同様のアプローチが人間の動作表現にも適用できると考えており、これによりモデルがインターネット規模の人間のビデオから豊富な世界知識を学習することが可能になるであろう。

さらに、潜在動作トークン列にトークン化されたビデオで事前学習され、アクションラベル付きの軌跡で微調整されたMoto-GPTは、ビデオから学習した動作の事前知識を実際のロボットのアクション予測に効果的に転移する。これは特に低リソースのシナリオで有益である。 今後の研究では、事前学習のビデオデータをスケールアップし、微調整を最適化して、下流のロボットタスクにおけるモデルのパフォーマンスをさらに向上させることが考えられる。

さらに、Motoは主にロボット操作タスクの模倣学習を強化するために使用されているが、軌跡の合理性を測定するための報酬モデルとして、また生き生きとした環境シミュレーターとしての可能性も示している。今後の研究では、強化学習エージェントの堅牢性を向上させるためのMotoの使用を探求し、その応用をナビゲーションや移動などのより広範なロボットタスクに拡張して、より汎用性の高いロボットアクションポリシーを開発することが考えられる。

References

  • Alayrac et al. [2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. NeurIPS, 2022.
  • Awadalla et al. [2023] Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, et al. Openflamingo: An open-source framework for training large autoregressive vision-language models. arXiv preprint arXiv:2308.01390, 2023.
  • Bai et al. [2024] Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan L Yuille, Trevor Darrell, Jitendra Malik, and Alexei A Efros. Sequential modeling enables scalable learning for large vision models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22861–22872, 2024.
  • Black et al. [2024] Kevin Black, Mitsuhiko Nakamoto, Pranav Atreya, Homer Rich Walke, Chelsea Finn, Aviral Kumar, and Sergey Levine. Zero-shot robotic manipulation with pre-trained image-editing diffusion models. In The Twelfth International Conference on Learning Representations, 2024.
  • Brohan et al. [2022] Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, et al. Rt-1: Robotics transformer for real-world control at scale. arXiv preprint arXiv:2212.06817, 2022.
  • Brown et al. [2020] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems, pages 1877–1901. Curran Associates, Inc., 2020.
  • Bruce et al. [2024] Jake Bruce, Michael D Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, et al. Genie: Generative interactive environments. In Forty-first International Conference on Machine Learning, 2024.
  • Bu et al. [2024] Qingwen Bu, Jia Zeng, Li Chen, Yanchao Yang, Guyue Zhou, Junchi Yan, Ping Luo, Heming Cui, Yi Ma, and Hongyang Li. Closed-loop visuomotor control with generative expectation for robotic manipulation. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024.
  • Cheang et al. [2024] Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, et al. Gr-2: A generative video-language-action model with web-scale knowledge for robot manipulation. arXiv preprint arXiv:2410.06158, 2024.
  • [10] Lawrence Yunliang Chen, Simeon Adebola, and Ken Goldberg. Berkeley UR5 demonstration dataset. https://sites.google.com/view/berkeley-ur5/home.
  • Chen et al. [2023] Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang, Yi Tay, et al. Pali-x: On scaling up a multilingual vision and language model. arXiv preprint arXiv:2305.18565, 2023.
  • Chen et al. [2024] Xiaoyu Chen, Junliang Guo, Tianyu He, Chuheng Zhang, Pushi Zhang, Derek Cathera Yang, Li Zhao, and Jiang Bian. Igor: Image-goal representations are the atomic control units for foundation models in embodied ai. arXiv preprint arXiv:2411.00785, 2024.
  • Chi et al. [2023] Cheng Chi, Zhenjia Xu, Siyuan Feng, Eric Cousineau, Yilun Du, Benjamin Burchfiel, Russ Tedrake, and Shuran Song. Diffusion policy: Visuomotor policy learning via action diffusion. The International Journal of Robotics Research, page 02783649241273668, 2023.
  • Dass et al. [2023] Shivin Dass, Jullian Yapeter, Jesse Zhang, Jiahui Zhang, Karl Pertsch, Stefanos Nikolaidis, and Joseph J. Lim. Clvr jaco play dataset, 2023.
  • Doshi et al. [2024] Ria Doshi, Homer Rich Walke, Oier Mees, Sudeep Dasari, and Sergey Levine. Scaling cross-embodied learning: One policy for manipulation, navigation, locomotion and aviation. In 8th Annual Conference on Robot Learning, 2024.
  • Driess et al. [2023] Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, et al. Palm-e: An embodied multimodal language model. In International Conference on Machine Learning, pages 8469–8488. PMLR, 2023.
  • Du et al. [2024] Yilun Du, Sherry Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Josh Tenenbaum, Dale Schuurmans, and Pieter Abbeel. Learning universal policies via text-guided video generation. Advances in Neural Information Processing Systems, 36, 2024.
  • Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Escontrela et al. [2023] Alejandro Escontrela, Ademi Adeniji, Wilson Yan, Ajay Jain, Xue Bin Peng, Ken Goldberg, Youngwoon Lee, Danijar Hafner, and Pieter Abbeel. Video prediction models as rewards for reinforcement learning. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.
  • Garg et al. [2022] Divyansh Garg, Skanda Vaidyanath, Kuno Kim, Jiaming Song, and Stefano Ermon. Lisa: Learning interpretable skill abstractions from language. Advances in Neural Information Processing Systems, 35:21711–21724, 2022.
  • Hafner et al. [2020] Danijar Hafner, Timothy Lillicrap, Jimmy Ba, and Mohammad Norouzi. Dream to control: Learning behaviors by latent imagination. In International Conference on Learning Representations, 2020.
  • Haldar et al. [2024] Siddhant Haldar, Zhuoran Peng, and Lerrel Pinto. BAKU: An efficient transformer for multi-task policy learning. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024.
  • He et al. [2024] Haoran He, Chenjia Bai, Ling Pan, Weinan Zhang, Bin Zhao, and Xuelong Li. Learning an actionable discrete diffusion policy via large-scale actionless video pre-training. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024.
  • He et al. [2022] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 16000–16009, 2022.
  • Jiang et al. [2023] Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou, Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, and Linxi Fan. Vima: robot manipulation with multimodal prompts. In Proceedings of the 40th International Conference on Machine Learning, pages 14975–15022, 2023.
  • Karamcheti et al. [2024] Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, and Dorsa Sadigh. Prismatic VLMs: Investigating the design space of visually-conditioned language models. In Forty-first International Conference on Machine Learning, 2024.
  • Ke et al. [2024] Tsung-Wei Ke, Nikolaos Gkanatsios, and Katerina Fragkiadaki. 3d diffuser actor: Policy diffusion with 3d scene representations. In ICRA 2024 Workshop—Back to the Future: Robot Learning Going Probabilistic, 2024.
  • Kim et al. [2024] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.
  • Ko et al. [2024] Po-Chen Ko, Jiayuan Mao, Yilun Du, Shao-Hua Sun, and Joshua B. Tenenbaum. Learning to act from actionless videos through dense correspondences. In The Twelfth International Conference on Learning Representations, 2024.
  • Li et al. [2024a] Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, and Tao Kong. Gr-mg: Leveraging partially annotated data via multi-modal goal conditioned policy. arXiv preprint arXiv:2408.14368, 2024a.
  • Li et al. [2024b] Xuanlin Li, Kyle Hsu, Jiayuan Gu, Karl Pertsch, Oier Mees, Homer Rich Walke, Chuyuan Fu, Ishikaa Lunawat, Isabel Sieh, Sean Kirmani, et al. Evaluating real-world robot manipulation policies in simulation. arXiv preprint arXiv:2405.05941, 2024b.
  • Li et al. [2024c] Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, and Tao Kong. Vision-language foundation models as effective robot imitators. In The Twelfth International Conference on Learning Representations, 2024c.
  • Liang et al. [2024a] Junbang Liang, Ruoshi Liu, Ege Ozguroglu, Sruthi Sudhakar, Achal Dave, Pavel Tokmakov, Shuran Song, and Carl Vondrick. Dreamitate: Real-world visuomotor policy learning via video generation. arXiv preprint arXiv:2406.16862, 2024a.
  • Liang et al. [2024b] Zhixuan Liang, Yao Mu, Hengbo Ma, Masayoshi Tomizuka, Mingyu Ding, and Ping Luo. Skilldiffuser: Interpretable hierarchical planning via skill abstractions in diffusion-based task execution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16467–16476, 2024b.
  • Liu et al. [2024] Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, and Lin Ma. Robouniview: Visual-language model with unified view representation for robotic manipulation. arXiv preprint arXiv:2406.18977, 2024.
  • Liu et al. [2023] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023.
  • Luo et al. [2023] Jianlan Luo, Charles Xu, Xinyang Geng, Gilbert Feng, Kuan Fang, Liam Tan, Stefan Schaal, and Sergey Levine. Multi-stage cable routing through hierarchical imitation learning. arXiv pre-print, 2023.
  • Ma et al. [2023] Yecheng Jason Ma, Shagun Sodhani, Dinesh Jayaraman, Osbert Bastani, Vikash Kumar, and Amy Zhang. VIP: Towards universal visual reward and representation via value-implicit pre-training. In The Eleventh International Conference on Learning Representations, 2023.
  • Mandlekar et al. [2019] Ajay Mandlekar, Jonathan Booher, Max Spero, Albert Tung, Anchit Gupta, Yuke Zhu, Animesh Garg, Silvio Savarese, and Li Fei-Fei. Scaling robot supervision to hundreds of hours with roboturk: Robotic manipulation dataset through human reasoning and dexterity. In 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 1048–1055. IEEE, 2019.
  • Mees et al. [2022] Oier Mees, Lukas Hermann, Erick Rosete-Beas, and Wolfram Burgard. Calvin: A benchmark for language-conditioned policy learning for long-horizon robot manipulation tasks. IEEE Robotics and Automation Letters, 7(3):7327–7334, 2022.
  • Mees et al. [2023] Oier Mees, Jessica Borja-Diaz, and Wolfram Burgard. Grounding language with visual affordances over unstructured data. In Proceedings of the IEEE International Conference on Robotics and Automation (ICRA), London, UK, 2023.
  • Mees et al. [2024] Oier Mees, Dibya Ghosh, Karl Pertsch, Kevin Black, Homer Rich Walke, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Charles Xu, Jianlan Luo, You Liang Tan, Dorsa Sadigh, Chelsea Finn, and Sergey Levine. Octo: An open-source generalist robot policy. In First Workshop on Vision-Language Models for Navigation and Manipulation at ICRA 2024, 2024.
  • Nair et al. [2023] Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, and Abhinav Gupta. R3m: A universal visual representation for robot manipulation. In Conference on Robot Learning, pages 892–909. PMLR, 2023.
  • Ouyang et al. [2022] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
  • Pari et al. [2021] Jyothish Pari, Nur Muhammad Shafiullah, Sridhar Pandian Arunachalam, and Lerrel Pinto. The surprising effectiveness of representation learning for visual imitation, 2021.
  • Radford [2018] Alec Radford. Improving language understanding by generative pre-training. 2018.
  • Raffel et al. [2020] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140):1–67, 2020.
  • Reed et al. [2022] Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gómez Colmenarejo, Alexander Novikov, Gabriel Barth-maron, Mai Giménez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar, and Nando de Freitas. A generalist agent. Transactions on Machine Learning Research, 2022. Featured Certification, Outstanding Certification.
  • Rosete-Beas et al. [2022] Erick Rosete-Beas, Oier Mees, Gabriel Kalweit, Joschka Boedecker, and Wolfram Burgard. Latent plans for task agnostic offline reinforcement learning. 2022.
  • Touvron et al. [2023] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
  • Van Den Oord et al. [2017] Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. Advances in neural information processing systems, 30, 2017.
  • Vuong et al. [2023] Quan Vuong, Sergey Levine, Homer Rich Walke, Karl Pertsch, Anikait Singh, Ria Doshi, Charles Xu, Jianlan Luo, Liam Tan, Dhruv Shah, Chelsea Finn, Max Du, Moo Jin Kim, Alexander Khazatsky, Jonathan Heewon Yang, Tony Z. Zhao, Ken Goldberg, Ryan Hoque, Lawrence Yunliang Chen, Simeon Adebola, Gaurav S. Sukhatme, Gautam Salhotra, Shivin Dass, Lerrel Pinto, Zichen Jeff Cui, Siddhant Haldar, Anant Rai, Nur Muhammad Mahi Shafiullah, Yuke Zhu, Yifeng Zhu, Soroush Nasiriany, Shuran Song, Cheng Chi, Chuer Pan, Wolfram Burgard, Oier Mees, Chenguang Huang, Deepak Pathak, Shikhar Bahl, Russell Mendonca, Gaoyue Zhou, Mohan Kumar Srirama, Sudeep Dasari, Cewu Lu, Hao-Shu Fang, Hongjie Fang, Henrik I Christensen, Masayoshi Tomizuka, Wei Zhan, Mingyu Ding, Chenfeng Xu, Xinghao Zhu, Ran Tian, Youngwoon Lee, Dorsa Sadigh, Yuchen Cui, Suneel Belkhale, Priya Sundaresan, Trevor Darrell, Jitendra Malik, Ilija Radosavovic, Jeannette Bohg, Krishnan Srinivasan, Xiaolong Wang, Nicklas Hansen, Yueh-Hua Wu, Ge Yan, Hao Su, Jiayuan Gu, Xuanlin Li, Niko Suenderhauf, Krishan Rana, Ben Burgess-Limerick, Federico Ceola, Kento Kawaharazuka, Naoaki Kanazawa, Tatsuya Matsushima, Yutaka Matsuo, Yusuke Iwasawa, Hiroki Furuta, Jihoon Oh, Tatsuya Harada, Takayuki Osa, Yujin Tang, Oliver Kroemer, Mohit Sharma, Kevin Lee Zhang, Beomjoon Kim, Yoonyoung Cho, Junhyek Han, Jaehyung Kim, Joseph J Lim, Edward Johns, Norman Di Palo, Freek Stulp, Antonin Raffin, Samuel Bustamante, João Silvério, Abhishek Padalkar, Jan Peters, Bernhard Schölkopf, Dieter Büchler, Jan Schneider, Simon Guist, Jiajun Wu, Stephen Tian, Haochen Shi, Yunzhu Li, Yixuan Wang, Mingtong Zhang, Heni Ben Amor, Yifan Zhou, Keyvan Majd, Lionel Ott, Giulio Schiavi, Roberto Martín-Martín, Rutav Shah, Yonatan Bisk, Jeffrey T Bingham, Tianhe Yu, Vidhi Jain, Ted Xiao, Karol Hausman, Christine Chan, Alexander Herzog, Zhuo Xu, Sean Kirmani, Vincent Vanhoucke, Ryan Julian, Lisa Lee, Tianli Ding, Yevgen Chebotar, Jie Tan, Jacky Liang, Igor Mordatch, Kanishka Rao, Yao Lu, Keerthana Gopalakrishnan, Stefan Welker, Nikhil J Joshi, Coline Manon Devin, Alex Irpan, Sherry Moore, Ayzaan Wahid, Jialin Wu, Xi Chen, Paul Wohlhart, Alex Bewley, Wenxuan Zhou, Isabel Leal, Dmitry Kalashnikov, Pannag R Sanketi, Chuyuan Fu, Ying Xu, Sichun Xu, brian ichter, Jasmine Hsu, Peng Xu, Anthony Brohan, Pierre Sermanet, Nicolas Heess, Michael Ahn, Rafael Rafailov, Acorn Pooley, Kendra Byrne, Todor Davchev, Kenneth Oslund, Stefan Schaal, Ajinkya Jain, Keegan Go, Fei Xia, Jonathan Tompson, Travis Armstrong, and Danny Driess. Open x-embodiment: Robotic learning datasets and RT-x models. In Towards Generalist Robots: Learning Paradigms for Scalable Skill Acquisition @ CoRL2023, 2023.
  • Walke et al. [2023] Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, and Sergey Levine. Bridgedata v2: A dataset for robot learning at scale. In Conference on Robot Learning (CoRL), 2023.
  • Wu et al. [2024a] Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, and Tao Kong. Unleashing large-scale video generative pre-training for visual robot manipulation. In The Twelfth International Conference on Learning Representations, 2024a.
  • Wu et al. [2024b] Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye HAO, and Mingsheng Long. ivideoGPT: Interactive videoGPTs are scalable world models. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024b.
  • Yang et al. [2024a] Sherry Yang, Yilun Du, Seyed Kamyar Seyed Ghasemipour, Jonathan Tompson, Leslie Pack Kaelbling, Dale Schuurmans, and Pieter Abbeel. Learning interactive real-world simulators. In The Twelfth International Conference on Learning Representations, 2024a.
  • Yang et al. [2024b] Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, and Dale Schuurmans. Video as the new language for real-world decision making. arXiv preprint arXiv:2402.17139, 2024b.
  • Ye et al. [2024] Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, et al. Latent action pretraining from videos. arXiv preprint arXiv:2410.11758, 2024.
  • Zhen et al. [2024] Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, and Chuang Gan. 3d-vla: A 3d vision-language-action generative world model. arXiv preprint arXiv:2403.09631, 2024.
  • Zhou et al. [2023] Gaoyue Zhou, Victoria Dean, Mohan Kumar Srirama, Aravind Rajeswaran, Jyothish Pari, Kyle Hatch, Aryan Jain, Tianhe Yu, Pieter Abbeel, Lerrel Pinto, Chelsea Finn, and Abhinav Gupta. Train offline, test online: A real robot learning benchmark. In 2023 IEEE International Conference on Robotics and Automation (ICRA), 2023.
  • Zhu et al. [2022] Yifeng Zhu, Abhishek Joshi, Peter Stone, and Yuke Zhu. Viola: Imitation learning for vision-based manipulation with object proposal priors. 6th Annual Conference on Robot Learning (CoRL), 2022.
  • Zitkovich et al. [2023] Brianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, et al. Rt-2: Vision-language-action models transfer web knowledge to robotic control. In Conference on Robot Learning, pages 2165–2183. PMLR, 2023.