JaLMS
最新の AI 研究を日本語で解読

Move-in-2D: 2D-Conditioned Human Motion Generation

Hsin-Ping Huang1,2    Yang Zhou1    Jui-Hsien Wang1    Difan Liu1   
Feng Liu1    Ming-Hsuan Yang2    Zhan Xu1
1Adobe Research    2University of California, Merced
https://hhsinping.github.io/Move-in-2D
Abstract

リアルな人間の動画を生成することは依然として困難な課題であり、現在最も効果的な方法は人間の動作シーケンスを制御信号として使用している。既存のアプローチは多くの場合、他の動画から抽出された既存の動作を使用しており、これにより特定の動作タイプとグローバルなシーンマッチングに応用が制限されている。我々はMove-in-2Dを提案する。これは、シーン画像を条件として人間の動作シーケンスを生成する新しいアプローチであり、異なるシーンに適応する多様な動作を可能にする。我々のアプローチは、シーン画像とテキストプロンプトの両方を入力として受け取り、シーンに合わせた動作シーケンスを生成する拡散モデルを使用する。このモデルを訓練するために、我々は単一の人間の活動を特徴とする大規模な動画データセットを収集し、各動画に対応する人間の動作を目標出力としてアノテーションを付けた。実験により、我々の手法が投影後にシーン画像と整合する人間の動作を効果的に予測することが示された。さらに、生成された動作シーケンスが動画合成タスクにおいて人間の動作の品質を向上させることを示した。

1 Introduction

拡散モデルの進歩により、動画生成は大きな進展を遂げた。しかし、シーン内で現実的な人間の動きを生成することは、人間の動きの複雑さゆえに、依然として容易ではない課題である。人体は高度に構造化されており、現実的な動きの生成には、モデルが関節の動きを学習し、動画全体を通してそれを保持する必要がある。多くの研究[60, 23, 51, 48, 28]が、人間特有の事前知識を組み込むことで人物動画の品質を向上させており、特に生成プロセス中に動きの連続を制御信号として採用している。これらの駆動動作シーケンスは、通常、同じクラスの別の動画から抽出され、ポーズは主にターゲットとなる人物に合わせられ、全体的な動きは最小限に抑えられている。結果として、これらのアプローチは生成された人物動画の品質を向上させるものの、特定の動きの領域(ダンスなど)に限定され、移動を伴う動作は含まれていない。

本稿では、既存の駆動シーケンスに依存するのではなく、2D背景に基づいて動きのシーケンスを生成することを提案する。形式的には、2D条件付き人間動作生成を次のように定義する:目標とするシーンを表す画像と、望ましい動きを記述するテキストプロンプトが与えられた場合、テキストの説明に合致し、かつシーン画像に自然に投影できる動きのシーケンスを生成する。このアプローチにより、 1に示すような2段階の人物動画生成パイプラインが可能となる。第1段階では、テンプレート事前知識を用いて人間のポーズを配置し、体の関節の動きを保持しつつ、もっともらしい動きのシーケンスを生成する。この生成された動きは、その後の動画生成の制御信号として機能する。外部の動きのシーケンスに依存する手法と比較して、2D条件付き動作生成は、特定の動きの種類や最小限の全体的な動きに制約されることなく、目標とする背景やテキストプロンプトの説明と一貫して整合するシーケンスを生成することができる。

人間の動作生成は広く研究されてきたが、この新しい設定に直接対応する既存のアプローチは存在しない。一部の手法は、動作生成をテキストプロンプトのみに条件付けている[45, 8, 1]が、これは単純である一方で、特定の対象環境にシームレスに統合される動作を生成できない可能性があり、シーンとの互換性のためにさらなる調整が必要となる。他の手法[49, 24]は、3Dメッシュやスキャンされたポイントクラウドなど、シーンの3D表現に基づいて人間の動作を生成する。これらの手法はシーンのアフォーダンスを確保するが、3Dシーンの取得は時間がかかり、専門的な機器と手作業を必要とする。その結果、3Dシーンを考慮した動作生成アプローチは、単純な動作タイプ(歩行、着席など)や屋内シーンに限定されることが多い。

我々の2D条件付きアプローチは、入力2Dシーン画像を通じてアフォーダンスの認識を組み込むことで、人間の動作生成に新しいモダリティを導入する。これにより、既存のアプローチの範囲を大幅に拡大する。単一の2Dシーン画像は、2Dの視点から対象環境に関する意味的および空間的レイアウト情報を提供し、3Dシーンの再構築を必要とせずにアフォーダントな人間の動作を生成することを可能にする。特に、動作が最終的に2D平面に投影されることを意図している場合(例:ビデオ生成)に有効である。さらに、2D画像に条件付けることで、利用可能なシーンの多様性が高まる。なぜなら、多くのオンラインビデオには様々な環境での人間の活動が含まれているからである。例えば、3Dを考慮した動作生成ネットワークでは使用が困難な屋外シーンも、2D画像として容易に表現でき、本稿で提案するアプローチで利用することができる。

一方で、この新しいセットアップはいくつかの重要な課題も提起している。第一に、モデルの訓練には人間の動作シーケンス、動作を説明するテキストプロンプト、背景シーンを表す画像を含むデータセットが必要である。しかし、これらの要件を満たす既存のデータセットは存在しない。第二に、テキストとシーン画像の両方の入力に対してネットワークを効果的に条件付けする方法が不明確である。これらの課題に対処するため、我々はオープンドメインのインターネット動画から内部データソースを用いて大規模な動画データセットを収集した。 動画全体を通じて任意のフレームがシーンを確実に表現できるよう、静的な背景を持つ動画のみをフィルタリングした。さらに、最先端の3D姿勢推定アプローチを用いて人間の動作にアノテーションを付けた[14]。この大規模な人間の動作データセットを活用し、我々は1枚のシーン画像とテキストプロンプトに基づいて人間の動作を生成する条件付き拡散モデルを訓練した。大規模言語モデル(LLM)におけるインコンテキスト学習にヒントを得て[2, 50, 39]、我々は同様の戦略を採用し、シーンとテキストの入力を共有トークン空間に変換し、出力のためのトランスフォーマーベースの拡散モデル内に統合した。

本稿の貢献は以下のようにまとめられる:

  • 我々は2D画像とテキストを条件として人間の動作を生成するという新しいタスクを導入した。 これは3D再構成を必要とせずにシーンの条件を組み込むことで、動作生成により簡単にアクセスできる方法を提供する。

  • 我々は3D人間動作にアノテーションを付けた大規模な人間の動画データセットを収集した。 このデータセットは既存のシーンを考慮した動作生成データセットの規模を大幅に拡大する。

  • 我々はテキストと入力シーン画像の両方を条件とする拡散ベースのネットワークを提案する。また、出力された動作が動画生成時の人間の動作の品質を向上させることができることも示す。

2 Related Work

人物動画生成。 人物中心の動画生成は、通常、OpenPose [48, 23]、DensePose [51, 28]のキーポイント、またはSMPLメッシュシーケンス [60]などのモーションガイダンス信号に基づいて生成プロセスを制御するためにControlNetを活用している。これらのアプローチは視覚的に妥当な結果を提供するが、事前に定義されたモーションシーケンスをガイダンスとして依存しているため、多様なモーションを生成する能力が制限されている。 対照的に、我々は直交する問題に取り組んでいる:テキストプロンプトとシーン画像に基づいてモーションガイダンスシーケンスを生成することである。我々の生成したモーションは、その後、人物動画生成フレームワーク内でガイダンスとして使用することができる。

人物モーションデータセット。 人物モーションの理解と生成に関する研究を促進するために、いくつかのデータセットが提案されている。CMU Mocap [9]、Human3.6M [25]、MoVi [12]などのデータセットは人物モーションを捉えているが、動作のテキスト説明が欠けている。KIT Motion Language Dataset [42]はモーションシーケンスとテキストプロンプトの両方を提供し、約3.9Kのモーションシーケンスを含んでいる。HumanML3D [16]は、HumanAct12 [15]とAMASS [34]からモーションデータを取得することで、この数を14.6Kに拡大している。Motion-Xデータセット [32]はさらに規模を拡大し、81Kのモーションシーケンスを含み、体の動きだけでなく、顔の表情や手のポーズも含んでいる。これらのデータセットの規模は増加しているものの、モーションシーケンスに合わせたシーンコンテキストを提供するものはない。

一部のデータセットは、モーションシーケンスと共に捕捉された3Dシーンを提供している。[44, 52]のような研究では、3Dシーン内のグローバル位置を持つSMPLモデルが含まれている。PROXデータセット[18]は、RGB-Dデータを用いた最適化技術を活用して人間の動きを再構成しており、他の研究[3, 46]では人間とシーンの相互作用に関する合成データをまとめている。さらに、[49, 58]のようなデータセットは、特定のアクションに対してシーンのコンテキストと言語による説明の両方を組み込んでいる。しかしながら、これらのデータセットは主に3Dシーン表現の課題により、屋内環境に焦点を当てている。さらに、一部はグローバルな動きの予測に向けられているため、シーンの多様性が限られており、詳細なテキストアノテーションが不足している。

テキスト駆動型人間モーション生成。 モーションデータセットの利用可能性により、人間のモーション生成は顕著な進歩を遂げている。Text2Action[1]のような初期のアプローチは、モーションシーケンス内の時間的依存性を捉えるために再帰型ニューラルネットワークを使用した。その後、TM2T[17]やTEACH[4]のような研究でトランスフォーマーベースのアーキテクチャが導入され、改善された制御と、より長くより一貫性のあるシーケンスの生成が可能になった。これらの進歩を基に、MotionGPT[27]のようなモデルは、テキスト駆動型モーション合成のために大規模言語モデル(LLM)の事前学習を活用している。

近年、多くの研究が拡散モデルをモーション生成タスクに適用している。MotionDiffuse [55] とMDM [45] は、初期のランダムノイズからテキストプロンプトに合わせたモーションシーケンスを生成する。ReMoDiffuse [56] は検索拡張モデルを導入し、検索されたサンプルからの知識がモーション合成を強化する。MLD [8] は変分オートエンコーダーを用いて潜在空間でモーション拡散を実行する。EMDM [59] はさらにデノイジングプロセス中に必要なサンプリングステップ数を削減する。これらの手法ではテキストプロンプトのみでモーションを生成できるが、特定の仮想環境との文脈的な整合性が欠如していることが多く、ビデオ生成における制御信号としての直接的な適用可能性が制限されている。

シーンを考慮した人間のモーション生成。 3Dの室内シーンが与えられた場合、先行研究 [57, 57, 20, 19, 46, 47] は物理的に妥当な人間のポーズやモーションシーケンスの生成を実証している。HUMANISE [49] は、テキストプロンプトを条件入力として使用し、キャプチャーされた人間のモーションシーケンスを様々な3D室内シーンに合わせる。LaserHuman [10] は実際の人間のモーションを3D環境に組み込み、自由形式の記述をサポートし、室内外の設定の両方に対応している。しかし、3Dシーンの取得に関連する課題のため、これらの手法は多くの場合、限られたデータセットで訓練されており、より多様な実世界の背景への汎用性が制限されている。

Refer to caption
図2: 概要。 テキストプロンプトと背景シーン画像はCLIPおよびDINOエンコーダーによってエンコードされ、文脈内条件付けを通じてモデルに組み込まれる。AdaLN層は拡散タイムステップを入力として受け取る。我々のマルチ条件付きトランスフォーマーモデルは、拡散デノイジングプロセスを通じて人間のモーションシーケンスを生成し、生成されたモーションを両方の入力条件に合わせる。
表1: データセットの統計。 HiC-Motionは、モーション、テキスト、そして多様な屋内外のシーンを含む最大規模のデータセットである。
Dataset Motions Texts Scenes Scene Representation Scene Type
KIT [42] 3.9k 6.2k No No Indoor
HumanML3D [16] 14.6k 44.9k No No Indoor
HUMANISE [49] 19.6k 19.6k 643 RGBD Indoor
PROX [18] 28k No 12 RGBD Indoor
LaserHuman [10] 3.5k 12.3k 11 RGBD Indoor/Outdoor
Motion-X [32] 81.1k 81.1k 81.1k Video Indoor/Outdoor
HiC-Motion 300k 300k 300k Video Indoor/Outdoor

3 Humans-in-Context Motion Dataset

2D場面における人間の動作生成を進展させるためには、多様な場面で開放的な領域の人間の動きを捉えた大規模なビデオデータセットが不可欠である。 HiCのような人間中心のビデオデータセット[31, 6, 38]は、何百万ものビデオクリップを提供しているが、動作やテキストのアノテーションが欠如している。さらに、これらのデータセットは短いシーケンス長と低い空間解像度に制限されている。詳細な議論についてはSec. 2およびTab. 1を参照されたい。 HiCに触発され、我々はHumans-in-Context Motion (HiC-Motion)を収集した。これは豊かな背景場面と自然言語キャプションを捉えた人間の動作の大規模データセットである。 次に、我々のデータ収集と前処理のパイプラインについて説明する。

データ収集。 行動認識データセット[30, 35]は本質的に人間の行動を含んでいるが、一般的に短いシーケンスとクローズアップショットに限定されており、全身のビューや背景の文脈を省略していることが多い。 我々のデータセットは、3000万の開放的な領域のインターネットビデオを含む内部データセットから取得している。 大規模なプールにもかかわらず、これらのビデオの相当部分は人間の被写体を欠いている。 我々は、[6]に従い、Keypoint R-CNNを用いた人物検出[13]とOpenPoseを用いたキーポイント予測[7]を含むキーポイントベースのモデルを使用して、場面内で動く単一の人間を含むビデオをフィルタリングした。256フレームを超える動作シーケンスを持つビデオを保持し、結果として初期データセットの約1%に当たる30万本のビデオの厳選されたセットを得た。 我々のデータセットには、屋内外の場面と多様な人間の活動を含む高品質の実世界のビデオが含まれており、日常的なタスク(例:コーヒーを飲む、ラップトップを使用する)やスポーツ(例:テニスをする、ランジを行う)など、1000以上のカテゴリーにわたっている。

データの前処理。 選択された動画から人間の動作アノテーションを取得するために、我々は既製の手法である4D-Humans [14] を使用し、SMPL形式で高品質かつフレーム間の一貫性を保った疑似的な正解動作を抽出する。 本稿の目的は人間の動作を背景シーンに基づいて条件付けることであるため、Mask R-CNNを使用して人物マスクを検出し、基本的なインペインティングモデル [26] を適用して動画フレームから人物を除去する。トレーニング中は、各動画からランダムにインペイントされたフレームを選択し、背景画像として使用する。 モデルの未見のシーンへの汎化性能を向上させるため、背景画像に対して色調整を適用して多様な照明条件をシミュレートし [29]、さらにランダムなカットアウト拡張を行う。

4 Approach

テキストプロンプトと背景シーン画像が与えられた場合、我々の目的は、テキストプロンプトに記述されたアクションに合致し、かつ背景シーンと物理的に適合する人間の動作シーケンスを生成することである。 我々はまず、セクション4.1で拡散モデルの予備的な概要から始める。セクション4.2では、条件付き動作拡散モデルを提案する。次にセクション4.3で、マルチ条件トランスフォーマーを紹介する。最後に、セクション4.4で我々の訓練戦略を提示する。2に我々のアプローチの概要を示す。

4.1 Preliminaries on Diffusion Models

DDPMのような拡散モデル[22, 45]は、前方過程と後方過程を通じてデータ分布を近似する。前方過程では、サンプル𝐱0subscript𝐱0\mathbf{x}_{0}bold_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTにガウスノイズが加えられ、𝐱tsubscript𝐱𝑡\mathbf{x}_{t}bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTが生成される。モデル\mathcal{M}caligraphic_Mは、タイムステップt𝑡titalic_tとコンテキストc𝑐citalic_cを条件として𝐱tsubscript𝐱𝑡\mathbf{x}_{t}bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTのノイズを除去することで、この過程を逆転させることを学習する。訓練では、予測されたクリーンサンプル𝐱^0=(𝐱t|t,c)subscript^𝐱0conditionalsubscript𝐱𝑡𝑡𝑐\hat{\mathbf{x}}_{0}=\mathcal{M}(\mathbf{x}_{t}|t,c)over^ start_ARG bold_x end_ARG start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT = caligraphic_M ( bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_t , italic_c )と真のサンプル𝐱0subscript𝐱0\mathbf{x}_{0}bold_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTとの間のMSE損失、すなわちmse=𝔼𝐱0,t𝐱0(𝐱t|t,c)2\mathcal{L}_{\text{mse}}=\mathbb{E}_{\mathbf{x}_{0},t}\left\|\mathbf{x}_{0}-% \mathcal{M}(\mathbf{x}_{t}|t,c)\right\|^{2}caligraphic_L start_POSTSUBSCRIPT mse end_POSTSUBSCRIPT = blackboard_E start_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_t end_POSTSUBSCRIPT ∥ bold_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT - caligraphic_M ( bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_t , italic_c ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTを最小化する。 サンプリング時には、モデルはT𝑇Titalic_Tステップにわたって各タイムステップt𝑡titalic_t𝐱^0subscript^𝐱0\hat{\mathbf{x}}_{0}over^ start_ARG bold_x end_ARG start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを反復的に予測し、𝐱0subscript𝐱0\mathbf{x}_{0}bold_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを復元する。 条件との整合性を高めるために、クラシファイアフリーガイダンス(CFG)[21]が適用される。

4.2 Conditional Motion Diffusion

テキストプロンプトp𝑝pitalic_pと背景シーン画像s𝑠sitalic_sを含む入力条件が与えられた場合、我々は目標とする人間の動作𝐱𝐱\mathbf{x}bold_xを生成するために条件付き動作拡散モデルを訓練する。 目標とする人間の動作は、N𝑁Nitalic_N個の人間のポーズのシーケンスとして表現され、各ポーズの次元はD𝐷Ditalic_Dである。各ポーズは、23個のSMPL関節[33]の6D回転を捉える体のポーズパラメータθb23×6subscript𝜃𝑏superscript236\theta_{b}\in\mathbb{R}^{23\times 6}italic_θ start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT 23 × 6 end_POSTSUPERSCRIPTと、人体の全体的な向きを定義するグローバル方向パラメータθg6subscript𝜃𝑔superscript6\theta_{g}\in\mathbb{R}^{6}italic_θ start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT 6 end_POSTSUPERSCRIPTによってパラメータ化される。 先行する動作生成アプローチ[45, 8]とは異なり、本稿では2D背景シーン画像に自然に投影される人間の動作を生成することを目指している。そのため、我々のモデルは、固定焦点距離と内部パラメータを持つ透視カメラを仮定し、SMPL空間の点を画像平面に投影するための追加のカメラ平行移動パラメータπ3𝜋superscript3\pi\in\mathbb{R}^{3}italic_π ∈ blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTを予測する。 我々は、テキストプロンプトp𝑝pitalic_pと背景シーンs𝑠sitalic_sの条件を確率q𝑞qitalic_qでランダムにドロップすることにより条件付き拡散モデル\mathcal{M}caligraphic_Mを訓練する。ここで、我々の実験ではq=0.1𝑞0.1q=0.1italic_q = 0.1である。サンプリング時には、生成された動作と入力条件との整合性を高めるために、テキストとシーンの条件の両方に対してCFGを適用する。ここで、g𝑔gitalic_gはガイダンススケールである。

cfg=(𝐱t|t)+g((𝐱t|t,p,s)(𝐱t|t)).subscriptcfgconditionalsubscript𝐱𝑡𝑡𝑔conditionalsubscript𝐱𝑡𝑡𝑝𝑠conditionalsubscript𝐱𝑡𝑡\displaystyle\mathcal{M}_{\text{cfg}}=\mathcal{M}(\mathbf{x}_{t}|t)+g\left(% \mathcal{M}(\mathbf{x}_{t}|t,p,s)-\mathcal{M}(\mathbf{x}_{t}|t)\right).caligraphic_M start_POSTSUBSCRIPT cfg end_POSTSUBSCRIPT = caligraphic_M ( bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_t ) + italic_g ( caligraphic_M ( bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_t , italic_p , italic_s ) - caligraphic_M ( bold_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_t ) ) . (1)

4.3 Multi-Conditional Transformer

我々は、テキストプロンプトとシーン条件を拡散トランスフォーマーモデルに注入し、入力された説明と意味的に一致し、2Dへの投影後にシーンと物理的に適合する動作シーケンスを生成します。 我々のモデルアーキテクチャは拡散トランスフォーマー[39, 45]に従っています。 動作シーケンス𝐱T×D𝐱superscript𝑇𝐷\mathbf{x}\in\mathbb{R}^{T\times D}bold_x ∈ blackboard_R start_POSTSUPERSCRIPT italic_T × italic_D end_POSTSUPERSCRIPTはトランスフォーマーの隠れ次元に投影され、位置エンベディングがトークンに追加されてから一連のトランスフォーマーブロックに供給されます。出力トークンはその後線形投影されて動作予測𝐱^^𝐱\hat{\mathbf{x}}over^ start_ARG bold_x end_ARGが得られます。

ここで、条件のエンコーディングと注入プロセスについて説明します。我々は、拡散タイムステップt𝑡titalic_tを位置エンベディング層でエンコードし、テキストプロンプトp𝑝pitalic_pをCLIPエンコーダー[43]で、背景画像条件s𝑠sitalic_sをDINOエンコーダー[37]でエンコードします。DINOエンコーダーはパッチ間の空間的関係を保持します。各条件はその後トランスフォーマーの次元に投影されます。 拡散プロセスを誘導するために、我々はトランスフォーマーブロックに条件を注入するための単純かつ効果的な方法[39]を採用しています:

  • 文脈内条件付け。条件は動作シーケンスに追加トークンとして連結され、これらは損失計算を行わずに出力シーケンスから除去されます。

  • 適応的層正規化(AdaLN)[40] 線形層が条件トークンからスケールとシフトのパラメータを予測し、これらが動作シーケンスに適用されます。

  • クロスアテンション層。クロスアテンション層が自己アテンション層の後に挿入され、入力条件を取り込みます。

我々は、テキストとシーンの両モダリティに対する文脈内学習が、入力を共有トークン空間に変換することで、入力間の相互作用を捉えるモデルの能力を向上させ、両条件とのより良い整合性につながることを観察しました。拡散タイムステップ条件にAdaLNを使用することで、生成された動作の時間的滑らかさが向上します。したがって、我々はこの構成を主要なフレームワークとして採用しています( 4参照)。

4.4 Training Strategy

我々は、テキストプロンプトと背景に合わせた人間の動きを生成するために、2段階の訓練戦略を採用している。まず多様な動きのシーケンスを生成することを学習し、次に人間の動きをカメラ効果から分離することを学ぶ。

微調整セットの選択。 我々の動きのシーケンスはインターネット動画から抽出されており、人間とカメラの両方の動きが含まれている。例えば、カメラが右に動くと、ポーズのシーケンスが左にシフトするように見える場合がある。 しかし、我々の目標は、カメラの動きに依存せず、単一の画像を用いてシーンを表現することである。 これを達成するために、我々は生の動画のオプティカルフローを計算し、中央値のフロー値を用いて背景の動きが最小限の動画を選択する。さらに、多くの日常的な活動が限られた人間の動き(例:座っている)を含むというデータ分布のバイアスに対処するため、大きな動きのダイナミクスを持つシーケンスの生成を促すために、顕著な人間の動き(200ピクセル以上の動き)を含む動画のサブセットを選択する。

2段階訓練。 我々は、テキストプロンプトと背景に合わせた人間の動きを生成するために、2段階の訓練戦略を採用している。第1段階では、モデルを30万件の完全な動画データセットで60万回の反復訓練し、シーンのセマンティクスを学習し、テキストプロンプトに基づいて多様な動きのシーケンスを生成することを学ぶ。 第2段階では、60%の大きな動きの動画と40%の固定背景の動画からなる15万件の混合データセットでモデルを追加で60万回の反復で微調整する。この微調整により、モデルがカメラによって誘発される動きを分離した人間の動きを生成する能力を向上させ、大きな動きのダイナミクスの生成を改善する。

Refer to caption
図3: アフォーダンスを考慮した人間の生成。 我々のモデルは、崖の上に立つなど、テキストプロンプトとシーンの文脈の両方に一致する人間のポーズを生成する。また、犬を撫でるなどの複雑な人間とシーンの相互作用もサポートする。
Refer to caption
図4: 大きなダイナミクスを持つ動きの生成。 我々の結果は、テニスをプレイするなど、シーン内で正確に配置され動く動きのシーケンスを示しており、動画生成モデルにとって困難な複雑な人間の活動の生成を可能にする。

5 Experiments

評価データ。 2D シーンに条件付けられた人間の動作生成を評価するためのベンチマークの不足に対処するため、我々は包括的な評価のためのテキストプロンプト、シーン画像、および真値の動作シーケンスからなるテストセットを構築する。 我々のテストセットは、HiC-Motion データセットの保留部分からサンプリングされている。まず、データから 100 個の高頻度動詞句をテキストプロンプトとして選定する(例:「人がコーヒーを飲む」)。 各テキストプロンプトに対して、10 個の動画をサンプリングし、ランダムに 1 フレームを選択し、そこから人間を除去したものを対応するシーン画像とする。この過程により、合計 957 個のテストサンプルが生成される。

評価対象の手法。 テキストプロンプトに適合し、シーン画像と互換性のある人間の動作を生成する上での提案モデルの有効性を評価するため、我々は単一または複数のモダリティに条件付けられた最先端の動作生成モデルと比較する。 具体的には、MDM [45]MLD [8] はテキストプロンプトのみに条件付けられた動作を生成する。 2D シーン画像に条件付けられた動作を生成する既存の手法は存在しないが、我々は 3D 点群を利用してアフォーダンスを考慮した動作を生成するモデルを含める。まず、事前学習された深度予測モデル [53] を用いてシーンの深度を推定し、次に我々の 2D シーン画像を 3D 点群に逆投影してベースラインへの入力条件とする。 我々は以下のシーン条件付きアプローチと比較する:3D 点群を入力として使用する SceneDiff [24]、および我々のアプローチに最も近い、テキストプロンプトと 3D 点群の両方に条件付けられる HUMANISE [49]。 さらに、我々は MDM を我々の HiC-Motion データセットで学習させた拡張版である MDM+ を評価する。 我々はまた、我々のモデルの 2 つのバリアントを評価する: テキストプロンプトとシーン画像の両方に条件付けられた Ours。 シーン画像のみに条件付けられた Ours-scene

評価指標。 生成された人間の動作の品質と多様性を評価するために、先行研究[15, 41]では、事前学習された人間の動作分類器を使用して評価のための動作特徴を抽出している。しかし、オープンドメインの動画に対して学習された動作特徴抽出器が不足しているため、我々は長さ256のモーションシーケンスを用いてSTGCN[41, 54]に基づく分類器を学習した。各ポーズは21のSMPLジョイントを6D回転形式で表現している。モデル間の出力を標準化するために、グローバルな方向と平行移動は無視している。 我々は以下の4つの指標を用いてモデルを評価する:

  • FIDは、生成された動作と実際の動作の特徴分布間の距離を計算することで、生成された動作の全体的な品質を評価する。

  • 精度は、生成された動作の認識精度を計算することで、生成された動作と入力プロンプトの整合性を評価する。

  • 多様性は、すべてのプロンプトから生成された動作のうち、ランダムにサンプリングされた2つのサブセット間の距離を計算することで、生成された動作全体の変動を定量化する。

  • マルチモーダリティは、同一のプロンプトから生成された動作の2つのサブセット間の距離を計算することで、同一プロンプト内での変動を測定する。

Refer to caption
図5: 最先端手法との比較。MDMSceneDiffは不自然なポーズを生成し、MLDはシーンと一致しない動作を生成し、HUMANISEは静的なポーズを生成する。 我々の手法は、シーンとテキストプロンプトの両方に整合した一貫性のある動作を生成する。

実装の詳細。 我々のモデルは、長さN=256𝑁256N=256italic_N = 256、特徴次元D=147𝐷147D=147italic_D = 147のモーションシーケンスを生成する。このモデルは8つのトランスフォーマーブロック、512の隠れユニット、2048サイズのフィードフォワード層、および4つの注意ヘッドを持つアーキテクチャを使用している。学習には、学習率0.0002のAdamオプティマイザーを使用し、バッチサイズ128で120万イテレーション、1000の拡散ステップ、およびコサイン型ノイズスケジュールを適用している。解像度168×280168280168\times 280168 × 280のシーン画像はDINO-B [37]によって240トークンにエンコードされ、テキストプロンプトはCLIP-B [43]を用いて単一トークンにエンコードされ、結果として497トークンのシーケンスとなる。

5.1 Qualitative Results

アフォーダンスを考慮した人間の生成。 3は、我々のモデルがテキストプロンプトとシーンの文脈の両方に一致する人間のポーズを生成することを示している。例えば、崖の端に立つ、椅子に座る、サーフボードに乗るなどである。 さらに、我々のモデルは、馬に乗る、木を飾る、犬を撫でるなどの複雑な人間とシーンの相互作用を生成することが可能である。

大きなダイナミクスを伴うモーション生成。 4では、より大きなモーションダイナミクスを持つ例を示している。我々の結果は、トランポリンで跳ねるなどの環境で、人間の動作シーケンスが正しく配置され、動いているなど、強いシーン互換性を示している。 我々のモデルは、テニスをするなどのテキストプロンプトに沿った詳細なポーズシーケンスを持つ複雑な人間の活動を生成する。これは動画生成モデルにとって困難な課題であるが、我々のアプローチによって効果的に処理されている。

最先端手法との比較。 5に示すように、テキスト条件付き手法のMDMは妥当なポーズを生成できていない。MLDは走る動作を正しく生成しているが、特にカメラに向かって人物が動く生成に失敗しているため、モーションがシーンと互換性がない。 シーン条件付き手法のSceneDiffは正確な人間のポーズの生成に苦戦しており、HUMANISEはシーケンス全体で静的なポーズを生成している。これらの手法は、限られた合成点群データで訓練されているため、実世界のシーン条件への適応が困難である。 対照的に、我々の手法は、シーン内で一貫性があり、かつテキストプロンプトに沿ったモーションを生成している。

表2: 定量的結果。我々の手法は、最先端のテキスト条件付き、シーン条件付き、およびマルチモーダルモーション生成モデルと比較して、より優れた品質と多様性スコアを達成している。
Methods FID ()(\downarrow)( ↓ ) Accuracy ()(\uparrow)( ↑ ) Diversity ()(\uparrow)( ↑ ) Multimodality ()(\uparrow)( ↑ )
MDM [45] 164.595 0.325 24.758 18.924
MLD [8] 85.913 0.322 25.119 19.464
SceneDiff [24] 543.769 0.203 4.217 3.861
HUMANISE [49] 159.935 0.225 23.287 19.956
MDM+ [45] 46.035 0.620 23.002 17.627
Ours-scene 46.458 0.482 24.968 21.320
Ours 44.639 0.661 26.027 20.130
Refer to caption
図6: モーションガイド付き人間動画生成。 我々のアプローチは、シーン画像とテキストプロンプトからシーンと互換性のあるモーションシーケンスを生成し、これらを用いてChamp [60]またはGen-3 [11]を使用して参照人物をアニメーション化する。生成されたモーションは、結果として得られる動画において正確な人間の形状と滑らかなモーションを保証し、人間の幾何学的形状とモーションの一貫性の保持においてSVD [5]を上回る性能を示している。

5.2 Quantitative Results

評価結果を2に示す。我々は、シーン条件付き動作生成モデルであるHUMANISESceneDiffが、我々の手法やテキスト条件付きのベースラインであるMDMおよびMLDと比較して、より高いFIDとより低い認識精度を達成していることを観察した。 HUMANISESceneDiffは限られた合成3Dポイントクラウド(例えば、ScanNetの643の屋内シーン)で訓練されているため、これらのモデルは多様な屋内外のシーンの単一画像から構築された実世界のポイントクラウドへの一般化に苦戦し、動作の質が低下している。 テキストのみで条件付けされたモデルと比較すると、高度なモデルであるMLDMDMよりも優れた指標を達成している。 300kのシーケンスを含む我々の大規模な人間動作データセットで訓練することで、MDM+は14kの動作シーケンスのみを含むHumanML3Dデータセットで訓練されたMDMと比較して、72%低いFIDと90%高い精度を達成した。この結果は、実世界の動画から抽出された我々の大規模なHiC-Motionデータセットで訓練することによって可能となった人間動作生成の著しい改善を強調している。

同じバックボーンとデータセットで訓練されたが、異なる入力条件を持つモデル(すなわち、MDM+Ours-sceneOurs)の中で、Oursが最低のFIDスコア、最高の精度と多様性を達成している。OursOurs-sceneと比較して37%高い精度を達成しており、これは文脈内条件付け手法がモデルに特定のプロンプトに沿った行動を生成することを効果的に可能にしていることを示している。 一方で、Ours-sceneはより高いマルチモダリティスコアを達成しており、これは同じプロンプト内での多様性を測定するものである。Ours-sceneはテキストによる制約がないため、同一のプロンプトに対してより大きな出力の変動を示している。

表3: 自動評価。生成された動作に対するVLMスコア(0-5)の平均を報告し、シーン、テキスト、ポーズの質との整合性を評価している。我々の手法は評価されたすべてのベースラインを上回っている。
Methods Scene-Align ()(\uparrow)( ↑ ) Text-Align ()(\uparrow)( ↑ ) Quality ()(\uparrow)( ↑ ) Total ()(\uparrow)( ↑ )
MDM [45] 2.25 1.35 1.50 5.10
MLD [8] 2.85 1.95 1.90 6.70
SceneDiff [24] 2.05 1.20 1.20 4.45
HUMANISE [49] 2.20 1.45 1.30 4.95
MDM+ [45] 2.57 1.73 1.94 6.24
Ours-scene 2.90 2.00 1.95 6.85
Ours 3.55 2.70 2.85 9.10

自動評価。 現在、生成された動作シーケンスと2D背景画像との互換性を評価するための確立された指標が存在しないため、我々は自動評価のためにビジョン言語モデル(VLM)ChatGPT-4o [36]を採用している。 背景画像上にレンダリングされた生成されたSMPLポーズと入力テキストプロンプトが与えられると、VLMは以下の基準について0-5のスケールでスコアを提供する:1)ポーズと背景との整合性、2)ポーズとテキストプロンプトとの整合性、3)生成されたポーズの全体的な質。 一貫性のため、評価には各生成シーケンスの中間フレームを使用している。20のテストセット動画に対する平均スコアを3に報告している。 我々の手法は、比較対象のアプローチを全ての基準で一貫して上回っており、シーンとの整合性で最高スコアの3.55を達成している。これは、我々の文脈内フレームワークが2Dシーンにおいてアフォーダンスを意識した動作生成を効果的に強制していることを示している。

表4: アブレーション研究。我々は異なるトランスフォーマーブロックの設計を研究し、タイムステップ条件付けにはAdaLNを、テキストとシーンの条件付けにはIn-Contextを我々のメイン構成として選択した。
Timestep Text Scene FID ()(\downarrow)( ↓ ) Accuracy ()(\uparrow)( ↑ )
AdaLN In-Context In-Context 44.639 0.661
AdaLN In-Context Cross-Attn 47.656 0.567
In-Context In-Context In-Context 62.927 0.554
In-Context In-Context Cross-Attn 66.827 0.519

アブレーション研究。 セクション4で議論したように、我々はタイムステップ、テキスト、シーン入力に条件付けするために、AdaLN、in-context、およびクロスアテンション層を含む様々なトランスフォーマーブロックの設計を使用して2D条件付き動作拡散モデルを訓練した。我々はこれらの条件付け手法の異なる組み合わせを持つ4つのモデルを4で評価している。 我々の結果は、タイムステップ条件付けにAdaLNを、テキストとシーン入力にIn-Context条件付けを組み込んだモデルが最良のFIDと精度を達成することを示している。したがって、我々はこの設定を本稿のメインフレームワークとして採用している。

5.3 Motion-guided Human Video Generation

我々のアプローチが支援する重要な下流アプリケーションの1つは、モーションシーケンスによってガイドされる人物動画生成である。 我々は2段階のアプローチを採用している:まず、シーン画像とテキストプロンプトが与えられると、我々のモデルはシーンに適合したモーションシーケンスを生成する。次に、この生成されたモーションシーケンスとシーン内の参照人物を用いて、Champ [60] を適用し、生成されたモーションによってガイドされた参照人物のアニメーションを作成する。これにより、ターゲットの背景に適合したアフォーダンスを意識した人物動画の作成が可能となる。 さらに、我々はGen-3 [11] を使用してモーションガイド付きの動画を生成する。Gen-3は元の背景を保持しないが、我々が生成したモーションは人物の被写体に対して効果的なガイダンス信号として機能し、一方でシーン画像は望ましい背景のレイアウトと意味的情報を提供する。 6に示すように、我々のモデルによって生成された正確で滑らかなモーションシーケンスにより、ChampとGen-3の両方が詳細な人物の形状とクリーンなモーションを持つ動画を生成することができる。我々の手法は、ダンスやテニスのプレーなどの複雑な活動の256フレームのシーケンスを生成する( 1参照)。 我々は同じ参照フレームを使用したStable Video Diffusion (SVD) [5] の結果も含めている。ポーズガイダンスがない場合、SVDは不完全な人物の幾何学的形状と一貫性のないぼやけた結果を生成し、動画生成のための中間ポーズシーケンスの生成に我々の手法を使用することの利点を強調している。

6 Conclusions

我々は、シーン画像を条件とする人間の動きを生成するという新しいタスクを導入した。我々のアプローチは、文脈内学習技術によって強化された条件付き拡散モデルを採用している。これを支援するため、我々はモデル訓練のための多様な人間の活動と環境を含む大規模なデータセットを収集した。我々の手法は、2Dに整列した人間の動きを効果的に予測し、ビデオ生成における動きの品質を向上させる。 これらの進歩にもかかわらず、我々のフレームワークは生成された動きにおけるカメラの動きを制御しておらず、二段階のビデオ生成パイプラインは我々のデータセットと共同で最適化されていない。これらの側面は今後の課題として残されている。

References

  • Ahn et al. [2018] Hyemin Ahn, Timothy Ha, Yunho Choi, Hwiyeon Yoo, and Songhwai Oh. Text2action: Generative adversarial synthesis from language to action. In ICRA, 2018.
  • An et al. [2023] Shengnan An, Zeqi Lin, Qiang Fu, Bei Chen, Nanning Zheng, Jian-Guang Lou, and Dongmei Zhang. How do in-context examples affect compositional generalization? In ACL, 2023.
  • Araújo et al. [2023] Joao Pedro Araújo, Jiaman Li, Karthik Vetrivel, Rishi Agarwal, Jiajun Wu, Deepak Gopinath, Alexander William Clegg, and Karen Liu. Circle: Capture in rich contextual environments. In CVPR, 2023.
  • Athanasiou et al. [2022] Nikos Athanasiou, Mathis Petrovich, Michael J Black, and Gül Varol. Teach: Temporal action composition for 3d humans. In 3DV, 2022.
  • Blattmann et al. [2023] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, and Robin Rombach. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023.
  • Brooks and Efros [2022] Tim Brooks and Alexei A Efros. Hallucinating pose-compatible scenes. In ECCV, 2022.
  • Cao et al. [2019] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei, and Y. A. Sheikh. Openpose: Realtime multi-person 2d pose estimation using part affinity fields. IEEE TPAMI, 2019.
  • Chen et al. [2023] Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, and Gang Yu. Executing your commands via motion diffusion in latent space. In CVPR, 2023.
  • [9] CMU. Cmu graphics lab motion capture database. http://mocap.cs.cmu.edu/.
  • Cong et al. [2024] Peishan Cong, Ziyi Wang, Zhiyang Dou, Yiming Ren, Wei Yin, Kai Cheng, Yujing Sun, Xiaoxiao Long, Xinge Zhu, and Yuexin Ma. Laserhuman: Language-guided scene-aware human motion generation in free environment. arXiv preprint arXiv:2403.13307, 2024.
  • Esser et al. [2023] Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, and Anastasis Germanidis. Structure and content-guided video synthesis with diffusion models. In ICCV, 2023.
  • Ghorbani et al. [2021] Saeed Ghorbani, Kimia Mahdaviani, Anne Thaler, Konrad Kording, Douglas James Cook, Gunnar Blohm, and Nikolaus F Troje. Movi: A large multi-purpose human motion and video dataset. Plos one, 2021.
  • Girshick et al. [2018] Ross Girshick, Ilija Radosavovic, Georgia Gkioxari, Piotr Dollár, and Kaiming He. Detectron. https://github.com/facebookresearch/detectron, 2018.
  • Goel et al. [2023] Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, and Jitendra Malik. Humans in 4D: Reconstructing and tracking humans with transformers. In ICCV, 2023.
  • Guo et al. [2020] Chuan Guo, Xinxin Zuo, Sen Wang, Shihao Zou, Qingyao Sun, Annan Deng, Minglun Gong, and Li Cheng. Action2motion: Conditioned generation of 3d human motions. In ACM MM, 2020.
  • Guo et al. [2022a] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In CVPR, 2022a.
  • Guo et al. [2022b] Chuan Guo, Xinxin Zuo, Sen Wang, and Li Cheng. Tm2t: Stochastic and tokenized modeling for the reciprocal generation of 3d human motions and texts. In ECCV, 2022b.
  • Hassan et al. [2019] Mohamed Hassan, Vasileios Choutas, Dimitrios Tzionas, and Michael J. Black. Resolving 3D human pose ambiguities with 3D scene constraints. In ICCV, 2019.
  • Hassan et al. [2021a] Mohamed Hassan, Duygu Ceylan, Ruben Villegas, Jun Saito, Jimei Yang, Yi Zhou, and Michael J Black. Stochastic scene-aware motion prediction. In ICCV, 2021a.
  • Hassan et al. [2021b] Mohamed Hassan, Partha Ghosh, Joachim Tesch, Dimitrios Tzionas, and Michael J Black. Populating 3d scenes by learning human-scene interaction. In CVPR, 2021b.
  • Ho [2022] Jonathan Ho. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
  • Hu et al. [2023] Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, and Liefeng Bo. Animate anyone: Consistent and controllable image-to-video synthesis for character animation. arXiv preprint arXiv:2311.17117, 2023.
  • Huang et al. [2023] Siyuan Huang, Zan Wang, Puhao Li, Baoxiong Jia, Tengyu Liu, Yixin Zhu, Wei Liang, and Song-Chun Zhu. Diffusion-based generation, optimization, and planning in 3d scenes. In CVPR, 2023.
  • Ionescu et al. [2014] Catalin Ionescu, Dragos Papava, Vlad Olaru, and Cristian Sminchisescu. Human3.6m: Large scale datasets and predictive methods for 3d human sensing in natural environments. IEEE TPAMI, 2014.
  • Itseez [2015] Itseez. Open source computer vision library. https://github.com/itseez/opencv, 2015.
  • Jiang et al. [2024] Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, and Tao Chen. Motiongpt: Human motion as a foreign language. In NeurIPS, 2024.
  • Karras et al. [2023] Johanna Karras, Aleksander Holynski, Ting-Chun Wang, and Ira Kemelmacher-Shlizerman. Dreampose: Fashion image-to-video synthesis via stable diffusion. In ICCV, 2023.
  • Karras et al. [2020] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, and Timo Aila. Training generative adversarial networks with limited data. In NeurIPS, 2020.
  • Kay et al. [2017] Will Kay, João Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Apostol Natsev, Mustafa Suleyman, and Andrew Zisserman. The kinetics human action video dataset. arXiv preprint arXiv:1705.06950, 2017.
  • Kulal et al. [2023] Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, and Krishna Kumar Singh. Putting people in their place: Affordance-aware human insertion into scenes. In CVPR, 2023.
  • Lin et al. [2023] Jing Lin, Ailing Zeng, Shunlin Lu, Yuanhao Cai, Ruimao Zhang, Haoqian Wang, and Lei Zhang. Motion-x: A large-scale 3d expressive whole-body human motion dataset. In NeurIPS, 2023.
  • Loper et al. [2015] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned multi-person linear model. ACM TOG, 2015.
  • Mahmood et al. [2019] Naureen Mahmood, Nima Ghorbani, Nikolaus F. Troje, Gerard Pons-Moll, and Michael J. Black. AMASS: Archive of motion capture as surface shapes. In ICCV, 2019.
  • Monfort et al. [2019] Mathew Monfort, Alex Andonian, Bolei Zhou, Kandan Ramakrishnan, Sarah Adel Bargal, Tom Yan, Lisa Brown, Quanfu Fan, Dan Gutfruend, Carl Vondrick, et al. Moments in time dataset: one million videos for event understanding. IEEE TPAMI, pages 1–8, 2019.
  • OpenAI [2024] OpenAI. Chatgpt, 2024.
  • Oquab et al. [2023] Maxime Oquab, Timothée Darcet, Theo Moutakanni, Huy V. Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Russell Howes, Po-Yao Huang, Hu Xu, Vasu Sharma, Shang-Wen Li, Wojciech Galuba, Mike Rabbat, Mido Assran, Nicolas Ballas, Gabriel Synnaeve, Ishan Misra, Herve Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, and Piotr Bojanowski. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023.
  • Pan et al. [2024] Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, and Jimei Yang. Actanywhere: Subject-aware video background generation. In NeurIPS, 2024.
  • Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In ICCV, 2023.
  • Perez et al. [2018] Ethan Perez, Florian Strub, Harm de Vries, Vincent Dumoulin, and Aaron C. Courville. Film: Visual reasoning with a general conditioning layer. In AAAI, 2018.
  • Petrovich et al. [2021] Mathis Petrovich, Michael J. Black, and Gül Varol. Action-conditioned 3D human motion synthesis with transformer VAE. In ICCV, 2021.
  • Plappert et al. [2016] Matthias Plappert, Christian Mandery, and Tamim Asfour. The KIT motion-language dataset. Big Data, 4(4):236–252, 2016.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, A. Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
  • Ren et al. [2023] Yiming Ren, Chengfeng Zhao, Yannan He, Peishan Cong, Han Liang, Jingyi Yu, Lan Xu, and Yuexin Ma. Lidar-aid inertial poser: Large-scale human motion capture by sparse inertial and lidar sensors. IEEE TVCG, 2023.
  • Tevet et al. [2023] Guy Tevet, Sigal Raab, Brian Gordon, Yoni Shafir, Daniel Cohen-or, and Amit Haim Bermano. Human motion diffusion model. In ICLR, 2023.
  • Wang et al. [2021a] Jiashun Wang, Huazhe Xu, Jingwei Xu, Sifei Liu, and Xiaolong Wang. Synthesizing long-term 3d human motion and interaction in 3d scenes. In CVPR, 2021a.
  • Wang et al. [2021b] Jingbo Wang, Sijie Yan, Bo Dai, and Dahua Lin. Scene-aware generative network for human motion synthesis. In CVPR, 2021b.
  • Wang et al. [2024] Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, and Lijuan Wang. Disco: Disentangled control for realistic human dance generation. In CVPR, 2024.
  • Wang et al. [2022] Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Wei Liang, and Siyuan Huang. Humanise: Language-conditioned human motion generation in 3d scenes. In NeurIPS, 2022.
  • Wei et al. [2022] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, and William Fedus. Emergent abilities of large language models. TMLR, 2022.
  • Xu et al. [2024] Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, and Mike Zheng Shou. Magicanimate: Temporally consistent human image animation using diffusion model. In CVPR, 2024.
  • Yan et al. [2023] Ming Yan, Xin Wang, Yudi Dai, Siqi Shen, Chenglu Wen, Lan Xu, Yuexin Ma, and Cheng Wang. Cimi4d: A large multimodal climbing motion dataset under human-scene interactions. In CVPR, 2023.
  • Yang et al. [2024] Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. Depth anything: Unleashing the power of large-scale unlabeled data. In CVPR, 2024.
  • Yu et al. [2018] Bing Yu, Haoteng Yin, and Zhanxing Zhu. Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting. In AAAI, 2018.
  • Zhang et al. [2022] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.
  • Zhang et al. [2023] Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou Hong, Huirong Li, Lei Yang, and Ziwei Liu. Remodiffuse: Retrieval-augmented motion diffusion model. In ICCV, 2023.
  • Zhang et al. [2020] Yan Zhang, Mohamed Hassan, Heiko Neumann, Michael J Black, and Siyu Tang. Generating 3d people in scenes without people. In CVPR, 2020.
  • Zhao et al. [2022] Kaifeng Zhao, Shaofei Wang, Yan Zhang, Thabo Beeler, and Siyu Tang. Compositional human-scene interaction synthesis with semantic control. In ECCV, 2022.
  • Zhou et al. [2024] Wenyang Zhou, Zhiyang Dou, Zeyu Cao, Zhouyingcheng Liao, Jingbo Wang, Wenjia Wang, Yuan Liu, Taku Komura, Wenping Wang, and Lingjie Liu. Emdm: Efficient motion diffusion model for fast and high-quality motion generation. In ECCV, 2024.
  • Zhu et al. [2024] Shenhao Zhu, Junming Leo Chen, Zuozhuo Dai, Yinghui Xu, Xun Cao, Yao Yao, Hao Zhu, and Siyu Zhu. Champ: Controllable and consistent human image animation with 3d parametric guidance. In ECCV, 2024.