arXiv	https://arxiv.org/abs/2411.16781
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

UniPose: A Unified Multimodal Framework for Human
Pose Comprehension, Generation and Editing

Yiheng Li^1,2, Ruibing Hou¹ , Hong Chang^1,2, Shiguang Shan^1,2 , Xilin Chen^1,2
¹Key Laboratory of Intelligent Information Processing of Chinese Academy of Sciences (CAS),
Institute of Computing Technology, CAS, China
²University of Chinese Academy of Sciences, China
[email protected],{houruibing,changhong,sgshan,xlchen}@ict.ac.cn
Corresponding author

Abstract

人間の姿勢は、デジタル時代において重要な役割を果たしている。近年の研究では、人間の姿勢の理解と生成において印象的な進歩を遂げているが、多くの場合、単一の制御信号のモダリティのみをサポートし、孤立して動作するため、実世界のシナリオへの応用が制限されている。本稿では、画像、テキスト、3D SMPLポーズなど、様々なモダリティにわたって人間の姿勢を理解、生成、編集するために大規模言語モデル（LLM）を採用するフレームワークであるUniPoseを提示する。具体的には、3Dポーズを離散的なポーズトークンに変換するポーズトークナイザーを適用し、統一された語彙内でLLMにシームレスに統合できるようにしている。さらに、細かい粒度のポーズ認識能力を向上させるために、我々はUniPoseに複数の視覚エンコーダーを組み込んでおり、その中にはポーズに特化した視覚エンコーダーも含まれている。統一された学習戦略の恩恵を受け、UniPoseは異なるポーズ関連タスク間で効果的に知識を転移し、未知のタスクに適応し、拡張された能力を示す。本研究は、ポーズの理解、生成、編集のための汎用フレームワークを構築する最初の試みである。広範な実験により、UniPoseが様々なポーズ関連タスクにおいて競争力のある、さらには優れたパフォーマンスを示すことが強調されている。

1 Introduction

Tasks	Pose Comprehension				Pose Generation		Pose Editing
Tasks	Pose-to-Text	Image-to-Text	Pose-Diff	Image-Diff	Text-to-Pose	Pose Estimation	Pose Editing
Input $\rightarrow$ Output	Pose $\rightarrow$ Text	Image $\rightarrow$ Text	Pose Pair $\rightarrow$ Text	Image Pair $\rightarrow$ Text	Text $\rightarrow$ Pose	Image $\rightarrow$ Pose	Pose&Text $\rightarrow$ Pose
HMR 2.0 [23]	✘	✘	✘	✘	✘	✔	✘
PoseScript [14]	✔	✘	✘	✘	✔	✘	✘
PoseFix [13]	✘	✘	✔	✘	✘	✘	✔
ChatPose [18]	✘	✔	✘	✘	✔	✔	✘
ChatHuman [41]	✘	✔	✘	✘	✔	✔	✘
UniPose (Ours)	✔	✔	✔	✔	✔	✔	✔

表1: 様々なポーズ理解、生成、編集タスクにおける最近の手法の比較。

人間のポーズは、VRやヘルスケアなどの人間中心のアプリケーションにおいて重要な役割を果たしている。多くの研究が単一ポーズ理解、すなわち、3D身体ポーズ[14]や人間の画像[18]からポーズに関連する説明を生成すること、またポーズ生成、すなわち、テキスト説明[14, 40, 27]や人間の画像[15, 57, 70, 9, 19]から複雑な3Dポーズを作成することに焦点を当てている。最近、いくつかの研究がポーズのペア間の関係を探究している[13, 21, 34]。これらの研究は、2つの3Dポーズの差異に基づいてテキスト指示を生成するポーズペア理解と、初期ポーズと修正指示に基づいて修正された3D身体ポーズを生成するポーズ編集を調査している。しかし、既存の研究の主な限界は、ポーズの理解、生成、編集が主に個別に研究されていることである。実際には、人間のポーズ認知とコミュニケーションは本質的に、3D SMPLポーズ[45]、テキスト説明、人間の画像を含む複数のポーズ関連モダリティ間のシームレスな遷移を伴う。これは、ポーズの理解、生成、編集を同時に扱うことができる統一されたマルチモーダルフレームワークの必要性を浮き彫りにしている。

近年、大規模言語モデル（LLMs）[67, 25, 30]およびマルチモーダルLLMs（MLLMs）において大きな breakthrough が見られ、画像[43, 4]、動画[38, 73]、モーション[31, 10, 76]、音声[72, 74]の汎用的な分析が可能となっている。人間のポーズの分野では、最近のイノベーションであるChatPose[18]が、画像とテキスト記述から3D人体ポーズを生成するためにLLMsを活用している。しかしながら、これは単一ポーズの生成にのみ焦点を当てており、ポーズの理解と編集の能力が欠如している。さらに、既存のMLLMsは、特に細かい部分のセマンティクスやポーズペア間の複雑な関係に関して、人間のポーズの包括的な分析を提供するには至っていない。したがって、より細かい粒度のポーズ理解、生成、および複雑なポーズ編集を可能にする統合されたマルチモーダルLLMは、依然として高い需要がある。

このような統一された多モーダルLLMフレームワークを構築するには、2つの主要な課題を解決する必要がある。第一の課題は、3Dポーズとテキストにまたがる統一された表現空間を作成し、多様なポーズ関連タスクの統合を可能にすることである。既存の研究[18]では、3Dポーズとテキストを異なる方法で処理しており、3Dポーズを連続的な高レベル特徴としてエンコードする一方で、言語テキストを離散的なトークン列にトークン化している。この非統一的な処理は、LLMが3Dポーズとテキスト間の相互作用をモデル化する際に余分な負担を強いることになり、ポーズの理解、生成、編集の統合を妨げている。第二の課題は、多モーダルフレームワークの視覚分岐において、きめ細かなポーズ認識を実現することにある。ほとんどのMLLM[43, 4, 65, 18]は、視覚分岐としてCLIP[52]を採用している。CLIPの視覚エンコーダは画像-テキスト対比学習を通じてテキスト埋め込み空間とよく整合するが、画像キャプションによる大域的な監視のため、キーポイントやパージングマップなどのピクセルレベルの詳細情報を捉えるのに苦労する。この制限により、MLLMのきめ細かなポーズ理解と生成の能力が制約されている。

これらの課題に対処するため、我々はUniPoseを提案する。UniPoseは、人間のポーズの理解、生成、編集のための統一的なマルチモーダルフレームワークであり、LLMの強力な言語生成能力を活用して、様々なポーズ関連タスクを統合する（表1）。UniPoseは3つの層から構成される。第一に、UniPoseは3Dポーズとテキストを統一的に処理するためのポーズトークナイザーを備えている。人間のポーズが言語と同様の意味的結合を示すという観察に触発され[31, 46, 68]、我々は3Dポーズを特定の言語として扱う。言語と同様に、ポーズトークナイザーは生の3Dポーズを離散的な意味トークンの列に圧縮する。 3DポーズとテキストをともにLLMの共有語彙内でエンコードすることで、我々は3Dポーズとテキストにまたがる統一された表現空間を構築し、これによりLLMがポーズの理解、生成、編集を容易に扱えるようになる。第二に、CLIPの視覚エンコーダー[52]のみに依存する多くのMLLM[43, 4, 65, 18]とは異なり、我々はCLIPの元の視覚エンコーダーとポーズ推定タスクで事前学習されたポーズ特化型視覚エンコーダーを組み合わせた混合視覚エンコーダーを採用する。この二重エンコーダー設定は、視覚表現をテキスト埋め込み空間と整合させるだけでなく、細かいポーズ認識を強化し、ポーズの理解と生成を改善するためのマルチモーダルフレームワークへのより効果的な統合を可能にする。第三に、我々はLLM内に混合アテンション機構を実装し、ポーズトークンとテキストトークン間の異なる内部論理関係を処理する。テキストトークンとは異なり、ポーズトークンは因果関係なしに空間的な関節位置をエンコードするため、統一的な自己回帰モデリングは最適ではない。これに対処するため、我々はテキストトークンには因果アテンションを、ポーズトークンには双方向アテンションを適用する。この混合アテンション戦略は、LLMの元の推論能力を保持しつつ、文脈に応じたポーズ認識を強化し、より効果的なポーズ生成と編集を可能にする。

我々の知る限り、UniPoseは姿勢の理解、生成、編集に関する7つの中核的タスクを統一的なフレームワークに統合した初めてのアプローチである。広範な実験により、UniPoseが複数の姿勢関連タスクにおいて競争力のある性能を達成することが実証されている。さらに、定性的結果を通じて、UniPoseがゼロショット汎化能力を有していることを示している。例えば、テキスト強化型姿勢推定などがその例である。

2 Related Work

人間の姿勢理解。姿勢理解は、人間の姿勢や姿勢のペア間の差異に関する自然言語による説明を生成することを含む。単一姿勢の理解については、従来の手法では画像[77]、動画[66, 63, 62]、または骨格データ[49, 11, 22, 2]から基本的な人間の行動を分類している。しかし、これらの手法は通常、特定の身体部位の位置に関する詳細な説明が不足している。この課題に対処するため、[14]はPoseScriptデータセットを導入している。これは人間の姿勢と詳細な身体部位の説明をペアにしたものであり、姿勢情報をテキストトランスフォーマー内に埋め込むためにクロスアテンションを使用する姿勢からテキストへの生成モデルを提案し、詳細な姿勢の説明を可能にしている。姿勢ペアの理解については、[21, 34, 13]が画像、動画、または3D姿勢に基づいて、ソース姿勢とターゲット姿勢の間の差異を説明している。例えば、PoseFix [13]はMLPを使用してソース姿勢とターゲット姿勢を融合し、その後テキストトランスフォーマーでクロスアテンションを使用して姿勢の差異に関する説明を生成している。これらのアプローチはマルチモーダルデータからの人間の姿勢の理解を向上させているが、通常はタスク特化型であり、制御条件と応用シナリオが限定的である。

人間の姿勢生成。姿勢生成は、テキストや画像を条件として人間の姿勢を合成する。テキストを条件とした姿勢生成は、一般的に2つのカテゴリーに分類される：形状指向 [56, 24] と姿勢指向 [8, 27, 40] である。これらは、それぞれ体の属性（例えば、細い腰）や単純な動作（例えば、走る）の説明から3D姿勢を生成する。画像を条件とした姿勢生成（姿勢推定とも呼ばれる）には、最適化ベースのアプローチと回帰ベースのアプローチがある。最適化ベースの手法 [51, 7, 17, 54, 16] は、3D姿勢パラメータを反復的に推定し、予測された3D関節の投影が2Dキーポイントと一致することを保証する。回帰ベースの手法 [23, 15, 33, 70, 9] は、深層ニューラルネットワークを使用して入力画像から3D姿勢パラメータを直接予測する。これらの手法は姿勢生成において有望な結果を達成しているが、姿勢の理解と編集の能力が欠如している。

マルチモーダル大規模言語モデル。大規模言語モデル（LLM）[58, 30, 25, 71]は、テキストの理解と推論において顕著な能力を示してきた。これらのモデルはマルチモーダルタスクに適応され、マルチモーダル大規模言語モデルの開発につながっている。例えば、mPLUG-Owl3 [73]、MiniGPT-4 [79]、LLaVA [43, 44, 37]などのモデルは、画像特徴を抽出する視覚エンコーダーと、画像埋め込みをテキスト埋め込みと整合させる投影層を使用し、一般的な視覚認識を向上させている。タスク特化型アプリケーションに向けて、LISA [36]とVideo-LISA [5]は、SAM [35]を統合して詳細なセグメンテーションマスクを生成することで、セグメンテーションのためにMLLMを拡張している。さらに、Show-o [69]とTransfusion [78]は、MLLMと拡散モデル [26]を組み合わせて、画像理解と生成を統合している。最近の研究であるChatPose [18]は、LLMをポーズ関連タスクに適用し、多目的なポーズ生成器の構築を目指している。しかし、ポーズの理解と編集の能力には依然として限界がある。

Refer to caption — 図2: 手法の概要: UniPoseは、ポーズトークナイザー、ビジュアルプロセッサー、ポーズを認識する言語LLMで構成されている。ポーズトークナイザーによって学習されたポーズトークン、ビジュアルプロセッサーからのビジュアル埋め込み、テキストトークナイザーからのテキストトークンを組み合わせることで、UniPoseは統一された視覚-言語バックボーン内でポーズの理解、生成、編集の共同モデリングを可能にする。

3 Method

LLMに人間のポーズを理解し、生成し、編集する能力を付与するために、我々はUniPoseと名付けた統一フレームワークを提案する。図2に示すように、UniPoseは3つの主要コンポーネントで構成される：元の3Dポーズ（SMPLポーズパラメータとして表現[45]）を離散的なトークンに量子化するポーズトークナイザー（3.1節）、視覚入力から細粒度のポーズ関連特徴を抽出する視覚プロセッサ、そして複数のモダリティにわたる統一モデリングをサポートするポーズ認識LLM（3.2節）である。ポーズ関連タスクに対処するために、我々はポーズトークナイザーの訓練、ポーズ-テキスト整合性の事前訓練、視覚プロジェクターの事前訓練、および指示チューニングを含む4段階の訓練スキームを採用する（3.3節）。推論時には、ポーズトークンは関連するデトークナイザーによって元のSMPL形式にデコードされ、指示を通じて様々なポーズ関連タスクを実行することが可能となる（3.3節）。

3.1 Pose Tokenizer

3Dポーズを離散的なトークンで表現するために、我々はVector Quantized Variational Autoencoders (VQ-VAE) [60]に基づいてポーズトークナイザーを構築する。これは図2に示されている。ポーズトークナイザーは、エンコーダー $\mathcal{E}$ 、デコーダー $\mathcal{D}$ 、そして $M$ 個の離散ベクトルを含む学習可能なコードブック $\mathcal{B}_{p}=\{b_{m}\}_{m=1}^{M}$ で構成される。形式的には、3Dポーズ $\boldsymbol{p}$ をSMPLポーズパラメータを用いて表現する。すなわち、 $\boldsymbol{p}=\left[\boldsymbol{\gamma},\boldsymbol{\theta}\right]$ であり、ここで $\boldsymbol{\gamma}\in\mathbb{R}^{6}$ はルート方向を、 $\boldsymbol{\theta}\in\mathbb{R}^{6K}$ は $K$ 関節の回転を表す。次に、複数の1次元畳み込み層で構成されるポーズエンコーダー $\mathcal{E}$ が $\boldsymbol{p}$ を潜在埋め込み $\boldsymbol{z}=\mathcal{E}(\theta)$ に投影する。ここで $\boldsymbol{z}\in\mathbb{R}^{L_{p}\times d_{p}}$ であり、 $L_{p}$ はポーズトークンの数、 $d_{p}$ は潜在次元である。次に、離散量子化を通じて $\boldsymbol{z}$ をコードブックエントリーの集合に変換する。具体的には、量子化プロセスは $\boldsymbol{z}$ の各項目をコードブック $\mathcal{B}_{p}$ 内の最も近いエントリーで置き換え、以下のように量子化された潜在ベクトル $\widehat{\boldsymbol{z}}\in\mathbb{R}^{L_{p}\times d_{p}}$ を得る：

\widehat{\boldsymbol{z}}=\underset{b_{m}\in\mathcal{B}_{p}}{\arg\min}\left\|% \boldsymbol{z}-b_{m}\right\|_{2}.

(1)

量子化後、複数の1次元逆畳み込み層で構成されるポーズデコーダー $\mathcal{D}$ が $\widehat{\boldsymbol{z}}$ を生のポーズ空間 $\widehat{\boldsymbol{p}}=\mathcal{D}(\widehat{\boldsymbol{z}})$ に戻す。 [60]に従い、我々は損失関数 $\mathcal{L}_{vq}=\mathcal{L}_{r}+\mathcal{L}_{e}+\mathcal{L}_{c}$ を用いてポーズトークナイザーを訓練する。ここで $\mathcal{L}_{r}$ 、 $\mathcal{L}_{e}$ 、 $\mathcal{L}_{c}$ はそれぞれ再構成損失、埋め込み損失、コミットメント損失を表す。さらなる訓練と目的の詳細は付録に記載されている。

ポーズトークナイザーの訓練後、ポーズ $\boldsymbol{p}$ は量子化された潜在ベクトルの離散的なコードブックインデックスの列、すなわちポーズトークン $\mathbf{u}\in\mathbb{R}^{L_{p}}$ として以下のように表現できる：

\mathbf{u}=\underset{m\in\left\{1,\dots,M\right\}}{\arg\min}\left\|\boldsymbol% {z}-b_{m}\right\|_{2}.

(2)

3.2 Pose-aware Vision-Language Model

視覚プロセッサ。従来の研究 [43, 4] では、一般的にCLIP視覚エンコーダ [52] を視覚分岐として使用している。しかし、CLIPは画像キャプションからの全体的で粗い粒度の監視信号によって最適化されているため、ポーズに関連する詳細を捉えるのに苦労する。一方、ポーズ推定タスクは人間のキーポイントの正確な位置特定を要求し、これにより視覚エンコーダが細かい粒度のポーズ特徴を捉えることを促進する。そのため、我々は図 2 に示すように、ポーズ推定タスクで事前学習されたポーズ特化型Vision Transformer [23] を視覚分岐に統合する。具体的には、CLIP視覚エンコーダとポーズ特化型Vision Transformerをそれぞれ $f_{a}$ と $f_{b}$ と表す。入力画像 $\boldsymbol{x}$ が与えられたとき、我々はCLIPによって視覚埋め込みを $\mathbf{v_{a}}=f_{a}\left(\boldsymbol{x}\right)$ として抽出する。ここで $\mathbf{v_{a}}\in\mathbb{R}^{L_{v}\times d_{a}}$ であり、 $L_{v}$ は視覚パッチトークンの数、 $d_{a}$ はその視覚埋め込みの次元である。ポーズ特化型Vision Transformerによって出力される埋め込みは $\mathbf{v_{b}}=f_{b}\left(\boldsymbol{x}\right)$ であり、 $\mathbf{v_{b}}\in\mathbb{R}^{L_{v}\times d_{b}}$ である。次に、これら2つのエンコーダによって出力された埋め込みをチャネル次元に沿って連結し、学習可能なプロジェクタ層（投影行列 $W\in\mathbb{R}^{(d_{a}+d_{b})\times d}$ を持つ）を適用して、連結された視覚特徴の次元をテキスト特徴の次元に合わせる： $\mathbf{v}=\left[\mathbf{v_{a}}|\mathbf{v_{b}}\right]^{T}W$ 。ここで $\mathbf{v}\in\mathbb{R}^{L_{v}\times d}$ であり、 $d$ はLLMのテキスト埋め込みの次元である。融合された視覚特徴 $\mathbf{v}$ は、ポーズまたはテキストトークンと連結してLLMへの入力として使用できる。

混合注意メカニズム。既存のLLM [53, 30, 58] は通常、因果的注意を用いた自己回帰モデリングを採用しており、テキストやオーディオなどの逐次データの生成に優れている [72, 74]。しかし、人間の関節の空間的位置をエンコードするポーズトークンは本質的に非逐次的であり、従来の自己回帰生成は最適ではない。この問題に対処するため、我々はポーズトークンを全体として扱うモデリングを提案する。[69, 78] にインスパイアされ、我々はLLMの標準的な因果的注意を修正し、図 2 に示すようにポーズトークンに対して双方向注意を統合する。具体的には、テキスト系列に対しては因果的注意を適用するが、ポーズトークン系列内では双方向注意を適用する。情報漏洩を避けるため、図 2 に示すように、3Dポーズの生成と編集時に $L_{p}$ 個の学習可能なポーズクエリ $\mathcal{Q}=\{q_{1},...,q_{L_{p}}\}$ を初期化する。これらのクエリは、単一の前方ステップで対応するポーズトークンを予測するために使用される。この設計により、各ポーズトークンは同じポーズトークン系列内の他のトークンに注意を向けることができるが、以前に遭遇したテキストトークンにのみアクセスが制限される。

統合マルチモーダル言語モデル。図 2 に示すように、視覚プロセッサとポーズトークナイザを備えることで、元の視覚データ $\boldsymbol{x}$ とポーズデータ $\boldsymbol{p}$ をそれぞれ視覚特徴系列 $\mathbf{v}\in\mathbb{R}^{L_{v}\times d}$ とポーズトークン系列 $\mathbf{u}\in\mathbb{R}^{L_{p}}$ に圧縮できる。離散的なポーズトークンをLLMに組み込むために、我々はLLMの元のテキスト語彙 $\mathcal{V}_{t}$ をポーズ語彙 $\mathcal{V}_{p}$ ¹¹1ポーズ語彙 $\mathcal{V}_{p}$ はポーズコードブック $\mathcal{B}_{p}$ の順序を保持する。実装では、ポーズ系列の開始と終了を示す2つの特殊トークン <p> と <p/> を語彙 $\mathcal{V}_{p}$ に追加する。で拡張し、新しい統合テキスト-ポーズ語彙 $\mathcal{V}=\{\mathcal{V}_{t},\mathcal{V}_{p}\}$ を形成する。統合語彙 $\mathcal{V}$ を備えることで、様々なポーズ関連タスクを一般的な形式で定式化できる。ここでは、入力と出力の両方のトークンが同じ語彙から取得され、入力は任意で視覚特徴 $\mathbf{v}$ と組み合わせることができる。これらの離散トークンは、解決すべき特定のタスクに応じて、自然言語、3Dポーズ、またはそれらの組み合わせを表現できる。これにより、UniPoseはポーズの理解、生成、編集を統一的な方法で統合することが自然に可能となる。

学習時には、視覚埋め込み系列を $\mathbf{v}=\left\{v^{i}\in\mathbb{R}^{d}\right\}_{i=1}^{L_{v}}$ 、ポーズトークン系列を $\mathbf{u}=\left\{u^{i}\in\mathcal{V}\right\}_{i=1}^{L_{p}}$ 、単一ポーズ記述のテキストトークン系列を $\mathbf{t}=\left\{t^{i}\in\mathcal{V}\right\}_{i=1}^{L_{t}}$ 、ポーズ差分記述のテキストトークン系列を $\mathbf{d}=\left\{d^{i}\in\mathcal{V}\right\}_{i=1}^{L_{d}}$ と表す。我々は各タスクに対して、入力の特定のタイプと望ましい出力に合わせた異なる最適化目的を適用する。以下にその詳細を示す：

•

単一ポーズ理解。単一ポーズ理解は、3Dポーズまたは画像からポーズ記述を生成することを目的とする。形式的には、上記で定義された系列 $\mathbf{v}$ 、 $\mathbf{u}$ 、 $\mathbf{t}$ が与えられたとき、LLMは各ステップで潜在的な次のテキストトークンの確率分布 $p_{\theta}\left(t^{i}|\mathbf{v}/\mathbf{u},t^{<i}\right)$ を、視覚またはポーズトークンを条件として自己回帰的に予測する。目的は、この予測されたポーズ記述分布の対数尤度を最大化することである：

\mathcal{L}_{1}=\sum_{i=1}^{L_{t}}\log p_{\theta}\left(t^{i}|\mathbf{v}/% \mathbf{u},t^{<i}\right),

(3)

ここで、 $\theta$ は学習可能なパラメータを表す。

•

ポーズペア理解。ポーズペア理解は、一対の3Dポーズまたは画像間の差異をテキストで記述することを目的とする。形式的には、画像ペアの視覚特徴 $\mathbf{v_{1}}$ と $\mathbf{v}_{2}$ 、3Dポーズペアのポーズトークン $\mathbf{u_{1}}$ と $\mathbf{u_{2}}$ 、およびポーズ差分記述トークン $\mathbf{d}$ が与えられたとき、LLMは次のポーズ差分テキストトークンの確率分布 $p_{\theta}\left(d^{i}|\left(\mathbf{v_{1}},\mathbf{v_{2}}\right)/\left(\mathbf% {u_{1}},\mathbf{u_{2}}\right),d^{<i}\right)$ を、視覚またはポーズトークンのペアを条件として自己回帰的に予測する。目的は、この予測されたポーズ差分記述分布の対数尤度を最大化することである：

\mathcal{L}_{2}=\sum_{i=1}^{L_{d}}\log p_{\theta}\left(d^{i}|\left(\mathbf{v_{% 1}},\mathbf{v_{2}}\right)/\left(\mathbf{u_{1}},\mathbf{u_{2}}\right),d^{<i}% \right).

(4)

•

ポーズ生成。ポーズ生成は、ポーズのテキスト記述または画像から3Dポーズを生成することを目的とする。このタスクでは、入力ポーズトークンを事前定義されたポーズクエリ $\mathcal{Q}$ に置き換えた混合注意メカニズムを使用する。形式的には、上記で定義された $\mathbf{v}$ 、 $\mathbf{t}$ 、 $\mathbf{u}$ が与えられたとき、LLMは潜在的な全体のポーズトークンの確率分布 $p_{\theta}\left(\mathbf{u}|\mathbf{v}/\mathbf{t},\mathcal{Q}\right)$ を単一のステップで予測し、視覚またはポーズ記述テキストトークンとポーズクエリを条件とする。目的は、この予測されたポーズ分布の対数尤度を最大化することである：

\mathcal{L}_{3}=p_{\theta}\left(\mathbf{u}|\mathbf{v}/\mathbf{t},\mathcal{Q}% \right).

(5)

•

ポーズ編集。ポーズ編集は、初期ポーズと修正指示に基づいて修正された3Dポーズを生成することを目的とする。ポーズ生成と同様に、このタスクでも混合注意メカニズムを使用する。形式的には、上記で定義された $\mathbf{u_{1}}$ 、 $\mathbf{u_{2}}$ 、 $\mathbf{d}$ が与えられたとき、LLMは修正されたポーズの潜在的な全体のポー

3.3 Training and Inference Paradigm

学習手順は4段階で構成され、後半3段階の学習パラダイムを図3に示す。

ポーズトークナイザーの学習。我々はまず、目的関数 $\mathcal{L}_{vq}$ を用いてポーズトークナイザーを学習する。ポーズトークナイザーは3Dポーズを離散トークンの列としてエンコードし、LLM内でテキストとシームレスに統合できるようにする。LLM学習中の安定性を維持するため、ポーズトークナイザーはその後の学習段階で固定される。

ポーズ-テキスト整合性の事前学習。 LLMが離散ポーズトークンを扱えるようにするため、我々はポーズ-テキストコーパスでLLMを学習する。このプロセスは、LLM内での統一的な推論のためにポーズとテキストのモダリティを整合させることを目的としている。この段階では、表1に示す4つのポーズ-テキスト関連タスク、すなわち、 $2$ ポーズ理解タスク（ポーズからテキスト、ポーズ差分）、 $1$ ポーズ生成タスク（テキストからポーズ）、およびポーズ編集タスクを考慮する。これらのタスクに基づき、図3(a)に示すように、我々は目的関数 $\mathcal{L}$ を用いてLoRA[28]でLLMを学習する。

視覚プロジェクターの事前学習。ポーズとテキストのモダリティ間の整合性を確立した後、この学習段階では画像を共有ポーズ-テキスト空間にマッピングすることに焦点を当てる。この段階では、表1に示す3つの画像-テキスト関連タスク、すなわち、 $2$ ポーズ理解タスク（画像からテキスト、画像差分）および $1$ ポーズ生成タスク（画像からポーズ）を考慮する。これらのタスクに基づき、図3(b)に示すように、我々は目的関数 $\mathcal{L}$ を用いて視覚言語プロジェクターを学習し、視覚データを言語モデルと整合させる。

指示微調整。 UniPoseの指示追従能力を向上させるため、我々は表1の各タスクに対して200のテンプレートを持つマルチタスク、マルチモーダルな指示データセットを構築する。例えば、画像からポーズタスクの指示は「この画像に写っている人物のSMPLポーズを推定してください <image>」となり、<image>は視覚プロセッサによって抽出された画像埋め込みを表す。この指示データを用いて、図3(c)に示すように、我々は視覚プロジェクターとLLMをLoRAで共同学習する。

推論。推論時には、タスクの種類に応じて調整されたデコーディング戦略を採用する。ポーズ理解タスクでは、テキストトークンが順次、段階的に生成される標準的な自己回帰アプローチを使用する。ポーズ生成および編集タスクでは、図2に示すように、モデルが $\mathrm{start\_of\_pose}$ トークン<p>を予測すると、 $L_{p}$ の事前定義されたポーズクエリを条件付きテキストトークンに追加し、それをLLMに入力する。その後、LLMは各クエリに対応するポーズトークンを並列に予測し、これにより推論速度が大幅に向上する。

4 Experiments

4.1 Experimental Setup

Method	$\mathrm{R}^{\mathrm{T2P}}\uparrow$			$\mathrm{R}^{\mathrm{P2T}}\uparrow$			Pose Reconstruction Metric $\downarrow$
Method	Top-5	Top-10	Top-20	Top-5	Top-10	Top-20	MPJPE	PA-MPJPE	FID
PoseScript [14]	73.3	82.5	89.4	70.0	82.5	87.4	318.0	161.3	0.075
ChatPose [18]	17.6	25.3	35.8	28.0	39.0	54.4	-	-	-
ChatHuman [41]	41.8	52.6	65.1	42.1	52.3	66.5	-	-	-
UniPose $\dagger$	67.5	77.6	85.5	62.8	74.8	83.6	342.7	190.0	0.046
UniPose	73.7	82.4	89.6	70.9	80.5	89.6	308.6	171.1	0.038

表3: テキストからポーズ生成タスクの比較。検索と再構成の指標はPoseScript [14] データセットで報告されている。

Method	3DPW [61] $\downarrow$		H36M [29] $\downarrow$
Method	MPJPE	PA-MPJPE	MPJPE	PA-MPJPE
HMR [33]	130.0	76.7	88.0	56.8
PyMAF [75]	92.8	58.9	57.7	40.5
SMPLer [70]	73.7	43.4	45.2	32.4
HMR2.0 [23]	70.0	44.5	44.8	33.6
Zolly [64]	76.2	47.9	49.4	32.3
MEGA [20]	67.5	41.0	-	-
TokenHMR [15]	71.0	44.3	-	-
ChatPose [18]	163.6	81.9	126.0	82.4
UniPose $\dagger$	97.4	61.2	65.8	39.4
UniPose	94.7	59.1	69.2	41.8

表4: ポーズ推定タスクの比較。再構成指標は3DPWとHuman3.6Mデータセットで報告されている。

データセット。ポーズトークナイザーの訓練には、TokenHMR [15]に従い、AMASS [47]とMOYO [59]の標準的な訓練分割を使用する。 UniPoseの訓練には、3種類のデータを統合する： (1) テキスト-ポーズデータ。言語とポーズのモダリティを結びつけるために、PoseScript [14]とPoseFix [13]データセットを使用する。PoseScript [14]は、3D人体ポーズと対になった自然言語の説明を提供し、モデルが細かいポーズの意味を理解できるようにする。PoseFix [13]には、ソースポーズを目標ポーズに変更する方法を指定するテキスト説明と3Dポーズのペアが含まれる。 (2) 画像-ポーズデータ。[15, 23]に従い、標準的な人体ポーズ推定訓練データセットを使用する。これにはHuman3.6M [29]、MPI-INF-3DHP [48]、COCO [42]、MPII [3]データセットが含まれ、3DPW [61]とHuman3.6M [29]のテストセットで評価を行う。(3) 画像-テキストデータ。人物画像とポーズ説明を組み合わせた既存のデータセットがないため、視覚-テキストのポーズ理解におけるこのギャップを埋めるためにImageScriptとImageDiffデータセットを作成する。データセットの詳細は付録に記載されている。

評価指標。我々はPoseScript [14]とPoseFix [13]からの評価指標を採用する。(1) ポーズ理解タスク。2種類の指標を使用する。ポーズ-テキスト検索指標：R-Precisionは、ポーズと対応する説明のマッチング精度を評価する。クエリポーズと32のテキスト説明（ $1$ の正解と $31$ のランダムに選択されたミスマッチの説明）間のユークリッド距離をランク付けし、Top $1/2/3$ R-Precisionを報告する；言語指標：BLEU-4 [50]、Rouge-L [39]、METEOR [6]は、生成されたポーズ説明の品質を評価する。 (2) ポーズ生成タスク。2種類の指標を使用する。再構成指標：MPJPEとPA-MPJPEは、生成されたポーズと正解ポーズの間の平均関節位置誤差を計算する；ポーズ-テキスト検索指標：[18]に従い、Top $5/10/20$ $\mathrm{R}^{\mathrm{T2P}}$ と $\mathrm{R}^{\mathrm{P2T}}$ を報告する。これらはそれぞれテキストからポーズへの検索とポーズからテキストへの検索のリコールを表す。 (3) ポーズ編集タスク。再構成指標に加えて、Frechet Inception Distance (FID)も報告する。これは生成されたポーズ分布と正解ポーズ分布間の距離を測定する。これらの指標を計算するために、[14, 13]に従い、対照損失を用いてポーズとテキストの特徴抽出器を持つ検索モデルを訓練する。これにより、マッチしたポーズ-テキストペアの特徴ベクトルが幾何学的に近くなるようにする。

実装の詳細。ポーズトークナイザーについては、コードブックサイズを $2048$ に設定し、各3Dポーズを $80$ 個の離散トークンで表現する。視覚-言語モデルのバックボーンとしてLLaVA-1.6V [43]を利用する。ポーズトークナイザーの訓練には、バッチサイズ256、初期学習率2e-4のAdamWオプティマイザーを使用する。ポーズトークナイザーは単一のRTX 4090 GPUで $240$ エポック訓練される。UniPoseはポーズ-テキスト整列事前訓練段階で $6$ エポック、残りの段階で $2$ エポック、4台のA100 GPUを使用して訓練される。さらなる実装の詳細は付録に記載されている。

Method	MPJPE $\downarrow$	PA-MPJPE $\downarrow$	FID $\downarrow$
PoseFix [13]	300.2	144.1	0.019
UniPose $\dagger$	310.8	157.0	0.019
UniPose	270.3	138.9	0.015

表5: ポーズ編集タスクの比較。再構成指標はPoseFix [13]データセットで報告されている。

CLIP-ViT	Pose-ViT	Pose Estimation $\downarrow$		Image-to-Text $\uparrow$
CLIP-ViT	Pose-ViT	MPJPE	PA-MPJPE	BLEU-4	ROUGE-L	METEOR
✔	✘	193.4	86.1	11.1	30.2	33.9
✔	✔	96.1	58.9	13.3	31.7	35.2

表6: 視覚プロセッサのコンポーネントに関するアブレーション研究。

Attention Type	Text-to-Pose							Pose-to-Text
Attention Type	$\mathrm{R}^{\mathrm{T2P}}\uparrow$			$\mathrm{R}^{\mathrm{P2T}}\uparrow$			Latency (s) $\downarrow$	BLEU-4 $\uparrow$	ROUGE-L $\uparrow$	METEOR $\uparrow$
Causal Attention	9.0	14.2	20.8	9.3	14.7	22.3	2.5	26.9	39.5	38.0
Mixed Attention	13.8	20.3	28.8	15.9	23.0	32.0	0.2	25.0	39.1	36.7

表7: 異なる注意機構に関するアブレーション研究。

4.2 Comparisons on Pose-relevant Tasks

ポーズ理解に関する比較。我々はUniPoseを $4$ のポーズ理解タスク、すなわちPose-to-Text、Pose-Diff、Image-to-Text、Image-Diffで評価する。比較結果を表2に示す。表から分かるように、UniPoseは評価されたすべてのタスクで競争力のある性能を達成しており、単一のモデル内で多様なポーズ理解タスクに対応する能力を強調している。(1) Pose-to-Textタスクについては、我々はUniPoseをPoseScriptデータセットでPoseScript [14]と比較する。表2に示すように、UniPoseはPoseScriptよりもわずかに低い性能を達成している。しかし、PoseScriptは単一ポーズの説明生成に特化しており、異なるポーズ間の関係をモデル化する能力が欠けている。 (2) Pose-Diffタスクについては、我々はUniPoseをPoseFixデータセットでPoseFix [13]と比較する。表2に示すように、UniPoseはほとんどの指標でPoseFixを上回っており、ポーズのペア間の関係を捉える上での優位性を示している。 (3) Image-to-Textタスクについては、我々はUniPoseを既存の視覚言語MLLMであるLLaVA [43]、Qwen-VL [4]、GPT4V [1]とImageScriptデータセットで比較する。表2に示すように、UniPoseはこれらのMLLMを大幅に上回っている。この大幅な改善は、ポーズに特化した視覚エンコーダーの使用によるものであり、これによりUniPoseは視覚入力から細かなポーズ情報を抽出することが可能になっている。(4) Image-Diffタスクについては、我々はUniPoseをImageDiffデータセットでGPT4Vと比較する。UniPoseはGPT4Vを依然として上回っており、UniPoseが単一画像から細かなポーズ特徴を捉えるだけでなく、複数の画像間の人間のポーズの関係も学習していることを示している。

図4(a)と図4(b)は、UniPose、Qwen-VL [4]、GPT4V [1]によって生成されたテキスト説明を視覚化している。この視覚化により、既存のMLLMが細かなポーズ情報を理解するのに苦労していることが明らかになっている。具体的には、Qwen-VL [4]とGPT4V [1]は人体の向きを区別できていないのに対し、UniPoseは視覚入力から人体の向きを正確に特定することができる。

ポーズ生成に関する比較。我々はさらにUniPoseを $2$ のポーズ生成タスク、すなわちtext-to-poseとポーズ推定で評価する。比較結果を表3と表4に示す。 (1) Text-to-Poseタスクについては、我々はUniPoseを既存のテキスト条件付きポーズ生成モデル [14, 18, 41]とPoseScriptデータセットで比較する。表3に示すように、UniPoseはほとんどの指標で最高の性能を達成している。これは、LLMにおける混合アテンション機構の使用によるものであり、これによってポーズトークン間の双方向の依存関係を効果的に捉え、ポーズ生成性能を向上させている。 (2) ポーズ推定タスクについては、我々はUniPoseを従来のポーズ推定アプローチ [15, 23]およびMLLMベースのアプローチ [18]と、3DPW [61]およびH36M [29]データセットで比較する。表4に示すように、UniPoseは他のMLLMを大きく上回っているが、3D人体ポーズ推定に特化して設計された手法の性能には及ばない。これは驚くべきことではない。なぜなら、従来のポーズ推定手法は長年にわたって開発されており、推定精度を向上させるためにカスタムネットワークモジュールや損失関数を組み込んでいることが多いからである。

ポーズ編集に関する比較。ポーズ編集タスクについては、我々はUniPoseをPoseFixデータセットでPoseFix [13]と比較する。表6に示すように、UniPoseはすべての指標でPoseFixを大幅に上回っており、ポーズ編集における優位性を実証している。

4.3 Ablation Studies & Analysis

単一タスク学習対マルチタスク学習。表 2、3、4、6 には、単一タスクでのUniPoseの学習性能も報告されている（UniPose $\dagger$ と表記）。示されているように、マルチタスク学習は一貫して単一タスク学習を上回る性能を示しており、ポーズの理解、生成、編集を単一のモデル内で統合することの重要性を強調している。

ビジュアルプロセッサ。我々は、UniPoseのビジュアルプロセッサで使用される異なるビジョンエンコーダーの影響を比較した。この部分では、モデルはポーズ推定とImage-to-Textタスクのみで2エポック学習された。表 6 に示されているように、CLIP-ViTエンコーダーのみでは、モデルはポーズ推定タスクで低い性能を示す。我々は、CLIP-ViTが主に画像とテキスト間のグローバルな意味情報の整合に焦点を当てており、詳細な人間のポーズ情報の捕捉に苦戦していると考える。ポーズ推定に特化して学習された追加のViTモデルを組み込むことで、UniPoseは細かいポーズの詳細を捕捉する能力を獲得し、ポーズ推定タスクの性能を大幅に向上させた。さらに、画像から抽出されたポーズ情報はImage-to-Textタスクの性能を向上させ、UniPoseがより正確な人間のポーズの説明を生成することを可能にした。

アテンション機構。我々は、因果的アテンションと混合アテンションを使用したUniPoseの性能を評価した。この部分では、モデルはText-to-PoseとPose-to-Textタスクのみで6エポック学習された。より詳細な学習の詳細は付録に記載されている。表 7 に示されているように、Text-to-Poseタスクでは、混合アテンションを用いたモデルが因果的アテンションと比較して高い検索精度を達成した。この結果は、ポーズトークン間の双方向の依存関係を捉えることがポーズ生成を向上させることを示している。さらに、双方向アテンション機構により、すべてのポーズトークンを一度に生成することが可能となり、推論を大幅に加速させる。しかし、Pose-to-Textタスクでは、混合アテンションは因果的アテンションよりも性能が劣る。これは、双方向アテンションがテキスト生成に不可欠な因果的依存関係を妨害し、生成されるコンテンツの意味的精度を損なう可能性があるためかもしれない。

ゼロショットタスク分析。統一された学習形式の恩恵を受け、UniPoseは異なるポーズ関連タスク間で効果的に知識を転移し、未知のタスクに適応する。図 5 はゼロショット分析を提供している：追加の学習なしで、UniPoseはポーズ説明を活用してポーズ推定結果を向上させることができる。この能力は、曖昧さや遮蔽が画像からの正確な人間のポーズ推定に影響を与えるシナリオで特に有利である。

5 Conclusion

本稿では、人間のポーズの理解、生成、編集を統一されたフレームワーク内に統合する初の試みであるUniPoseを提示する。ポーズトークナイザーを採用することで、3Dポーズとテキストを橋渡しする統一された表現空間を構築し、モダリティ間のシームレスな相互作用を可能にしている。さらに、視覚エンコーダーの混合によって複雑なポーズの詳細を捉え、細かなポーズの認識を向上させている。混合注意機構はさらにポーズ生成の品質を高めると同時に、推論速度を大幅に加速している。ポーズに関連する様々なタスクにわたる広範な評価により、ポーズの理解、生成、編集におけるUniPoseの有効性が実証されている。

References

Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv, 2023.
Ahn et al. [2023] Dasom Ahn, Sangwon Kim, Hyunsu Hong, and Byoung Chul Ko. Star-transformer: a spatio-temporal cross attention transformer for human action recognition. In WACV, pages 3330–3339, 2023.
Andriluka et al. [2014] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, and Bernt Schiele. 2d human pose estimation: New benchmark and state of the art analysis. In CVPR, pages 3686–3693, 2014.
Bai et al. [2023] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv, 2023.
Bai et al. [2024] Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, and Mike Zheng Shou. One token to seg them all: Language instructed reasoning segmentation in videos. arXiv, 2024.
Banerjee and Lavie [2005] Satanjeev Banerjee and Alon Lavie. Meteor: An automatic metric for mt evaluation with improved correlation with human judgments. In ACL, pages 65–72, 2005.
Bogo et al. [2016] Federica Bogo, Angjoo Kanazawa, Christoph Lassner, Peter Gehler, Javier Romero, and Michael J Black. Keep it smpl: Automatic estimation of 3d human pose and shape from a single image. In ECCV, pages 561–578. Springer, 2016.
Briq et al. [2021] Rania Briq, Pratika Kochar, and Juergen Gall. Towards better adversarial synthesis of human images from text. arXiv, 2021.
Cai et al. [2024] Zhongang Cai, Wanqi Yin, Ailing Zeng, Chen Wei, Qingping Sun, Wang Yanjun, Hui En Pang, Haiyi Mei, Mingyuan Zhang, Lei Zhang, et al. Smpler-x: Scaling up expressive human pose and shape estimation. NeurIPS, 36, 2024.
Chen et al. [2024] Ling-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, and Lei Zhang. Motionllm: Understanding human behaviors from human motions and videos. arXiv, 2024.
Chen et al. [2021] Yuxin Chen, Ziqi Zhang, Chunfeng Yuan, Bing Li, Ying Deng, and Weiming Hu. Channel-wise topology refinement graph convolution for skeleton-based action recognition. In ICCV, pages 13359–13368, 2021.
Cho [2014] Kyunghyun Cho. Learning phrase representations using rnn encoder-decoder for statistical machine translation. arXiv, 2014.
Delmas et al. [2023] Ginger Delmas, Philippe Weinzaepfel, Francesc Moreno-Noguer, and Grégory Rogez. Posefix: correcting 3d human poses with natural language. In ICCV, pages 15018–15028, 2023.
Delmas et al. [2024] Ginger Delmas, Philippe Weinzaepfel, Thomas Lucas, Francesc Moreno-Noguer, and Grégory Rogez. Posescript: Linking 3d human poses and natural language. TPAMI, 2024.
Dwivedi et al. [2024] Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, Yao Feng, and Michael J Black. Tokenhmr: Advancing human mesh recovery with a tokenized pose representation. In CVPR, pages 1323–1333, 2024.
Fan et al. [2021] Taosha Fan, Kalyan Vasudev Alwala, Donglai Xiang, Weipeng Xu, Todd Murphey, and Mustafa Mukadam. Revitalizing optimization for 3d human pose and shape estimation: A sparse constrained formulation. In ICCV, pages 11457–11466, 2021.
Fang et al. [2023] Qi Fang, Kang Chen, Yinghui Fan, Qing Shuai, Jiefeng Li, and Weidong Zhang. Learning analytical posterior probability for human mesh recovery. In CVPR, pages 8781–8791, 2023.
Feng et al. [2024] Yao Feng, Jing Lin, Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, and Michael J Black. Chatpose: Chatting about 3d human pose. In CVPR, pages 2093–2103, 2024.
Fiche et al. [2024a] Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Antonio Agudo, and Francesc Moreno-Noguer. Vq-hps: Human pose and shape estimation in a vector-quantized latent space. In ECCV, 2024a.
Fiche et al. [2024b] Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, and Francesc Moreno-Noguer. Mega: Masked generative autoencoder for human mesh recovery. arXiv, 2024b.
Fieraru et al. [2021] Mihai Fieraru, Mihai Zanfir, Silviu Cristian Pirlea, Vlad Olaru, and Cristian Sminchisescu. Aifit: Automatic 3d human-interpretable feedback models for fitness training. In CVPR, pages 9919–9928, 2021.
Foo et al. [2023] Lin Geng Foo, Tianjiao Li, Hossein Rahmani, Qiuhong Ke, and Jun Liu. Unified pose sequence modeling. In CVPR, pages 13019–13030, 2023.
Goel et al. [2023] Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, and Jitendra Malik. Humans in 4d: Reconstructing and tracking humans with transformers. In CVPR, pages 14783–14794, 2023.
Gralnik et al. [2023] Omer Gralnik, Guy Gafni, and Ariel Shamir. Semantify: Simplifying the control of 3d morphable models using clip. In ICCV, pages 14554–14564, 2023.
Gunasekar et al. [2023] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, et al. Textbooks are all you need. arXiv, 2023.
Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
Hong et al. [2022] Fangzhou Hong, Mingyuan Zhang, Liang Pan, Zhongang Cai, Lei Yang, and Ziwei Liu. Avatarclip: Zero-shot text-driven generation and animation of 3d avatars. arXiv, 2022.
Hu et al. [2021] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv, 2021.
Ionescu et al. [2013] Catalin Ionescu, Dragos Papava, Vlad Olaru, and Cristian Sminchisescu. Human3. 6m: Large scale datasets and predictive methods for 3d human sensing in natural environments. TPAMI, 36(7):1325–1339, 2013.
Jiang et al. [2023a] AQ Jiang, A Sablayrolles, A Mensch, C Bamford, DS Chaplot, D de las Casas, F Bressand, G Lengyel, G Lample, L Saulnier, et al. Mistral 7b (2023). arXiv, 2023a.
Jiang et al. [2023b] Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, and Tao Chen. Motiongpt: Human motion as a foreign language. NeurIPS, 36:20067–20079, 2023b.
Johnson and Everingham [2011] Sam Johnson and Mark Everingham. Learning effective human pose estimation from inaccurate annotation. In CVPR 2011, pages 1465–1472. IEEE, 2011.
Kanazawa et al. [2018] Angjoo Kanazawa, Michael J Black, David W Jacobs, and Jitendra Malik. End-to-end recovery of human shape and pose. In CVPR, pages 7122–7131, 2018.
Kim et al. [2021] Hyounghun Kim, Abhay Zala, Graham Burri, and Mohit Bansal. Fixmypose: Pose correctional captioning and retrieval. In AAAI, pages 13161–13170, 2021.
Kirillov et al. [2023] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4015–4026, 2023.
Lai et al. [2024] Xin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu, and Jiaya Jia. Lisa: Reasoning segmentation via large language model. In CVPR, pages 9579–9589, 2024.
Li et al. [2024] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. Llava-onevision: Easy visual task transfer. arXiv, 2024.
Lin et al. [2023a] Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, and Li Yuan. Video-llava: Learning united visual representation by alignment before projection. arXiv, 2023a.
Lin [2004] Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, pages 74–81, 2004.
Lin et al. [2023b] Junfan Lin, Jianlong Chang, Lingbo Liu, Guanbin Li, Liang Lin, Qi Tian, and Chang-wen Chen. Being comes from not-being: Open-vocabulary text-to-motion generation with wordless training. In CVPR, pages 23222–23231, 2023b.
Lin et al. [2024] Jing Lin, Yao Feng, Weiyang Liu, and Michael J Black. Chathuman: Language-driven 3d human understanding with retrieval-augmented tool reasoning. arXiv, 2024.
Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, pages 740–755. Springer, 2014.
Liu et al. [2023] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. In NeurIPS, 2023.
Liu et al. [2024] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. In CVPR, pages 26296–26306, 2024.
Loper et al. [2015] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned multi-person linear model. SIGGRAPH, 34(6):248:1–248:16, 2015.
Luo et al. [2024] Mingshuang Luo, Ruibing Hou, Hong Chang, Zimo Liu, Yaowei Wang, and Shiguang Shan. ${M^{3}}$ gpt: An advanced multimodal, multitask framework for motion comprehension and generation. NeurIPS, 2024.
Mahmood et al. [2019] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. Amass: Archive of motion capture as surface shapes. In ICCV, pages 5442–5451, 2019.
Mehta et al. [2017] Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt. Monocular 3d human pose estimation in the wild using improved cnn supervision. In 3DV, pages 506–516. IEEE, 2017.
Mondal et al. [2024] Arnab Mondal, Stefano Alletto, and Denis Tome. Hummuss: Human motion understanding using state space models. In CVPR, pages 2318–2330, 2024.
Papineni et al. [2002] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In ACL, pages 311–318, 2002.
Pavlakos et al. [2019] Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, and Michael J. Black. Expressive body capture: 3d hands, face, and body from a single image. In CVPR, 2019.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, pages 8748–8763. PMLR, 2021.
Raffel et al. [2020] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. JMLR, 21(140):1–67, 2020.
Rempe et al. [2021] Davis Rempe, Tolga Birdal, Aaron Hertzmann, Jimei Yang, Srinath Sridhar, and Leonidas J Guibas. Humor: 3d human motion model for robust pose estimation. In ICCV, pages 11488–11499, 2021.
Sanh [2019] V Sanh. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. arXiv, 2019.
Streuber et al. [2016] Stephan Streuber, M Alejandra Quiros-Ramirez, Matthew Q Hill, Carina A Hahn, Silvia Zuffi, Alice O’Toole, and Michael J Black. Body talk: Crowdshaping realistic 3d avatars with words. TOG, 35(4):1–14, 2016.
Sun et al. [2024] Qingping Sun, Yanjun Wang, Ailing Zeng, Wanqi Yin, Chen Wei, Wenjia Wang, Haiyi Mei, Chi-Sing Leung, Ziwei Liu, Lei Yang, et al. Aios: All-in-one-stage expressive human pose and shape estimation. In CVPR, pages 1834–1843, 2024.
Touvron et al. [2023] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv, 2023.
Tripathi et al. [2023] Shashank Tripathi, Lea Müller, Chun-Hao P Huang, Omid Taheri, Michael J Black, and Dimitrios Tzionas. 3d human pose estimation via intuitive physics. In CVPR, pages 4713–4725, 2023.
Van Den Oord et al. [2017] Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. NeurIPS, 30, 2017.
Von Marcard et al. [2018] Timo Von Marcard, Roberto Henschel, Michael J Black, Bodo Rosenhahn, and Gerard Pons-Moll. Recovering accurate 3d human pose in the wild using imus and a moving camera. In ECCV, pages 601–617, 2018.
Wang et al. [2023a] Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang, Yali Wang, and Yu Qiao. Videomae v2: Scaling video masked autoencoders with dual masking. In CVPR, pages 14549–14560, 2023a.
Wang et al. [2023b] Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Lu Yuan, and Yu-Gang Jiang. Masked video distillation: Rethinking masked feature modeling for self-supervised video representation learning. In CVPR, pages 6312–6322, 2023b.
Wang et al. [2023c] Wenjia Wang, Yongtao Ge, Haiyi Mei, Zhongang Cai, Qingping Sun, Yanjun Wang, Chunhua Shen, Lei Yang, and Taku Komura. Zolly: Zoom focal length correctly for perspective-distorted human mesh reconstruction. In ICCV, pages 3925–3935, 2023c.
Wang et al. [2023d] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, et al. Cogvlm: Visual expert for pretrained language models. arXiv, 2023d.
Wang et al. [2024] Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Guo Chen, Baoqi Pei, Rongkun Zheng, Jilan Xu, Zun Wang, et al. Internvideo2: Scaling video foundation models for multimodal video understanding. arXiv, 2024.
Wei et al. [2024] Julong Wei, Shanshuai Yuan, Pengfei Li, Qingda Hu, Zhongxue Gan, and Wenchao Ding. Occllama: An occupancy-language-action generative world model for autonomous driving. arXiv, 2024.
Wu et al. [2024] Qi Wu, Yubo Zhao, Yifan Wang, Yu-Wing Tai, and Chi-Keung Tang. Motionllm: Multimodal motion-language learning with large language models. arXiv, 2024.
Xie et al. [2024] Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, and Mike Zheng Shou. Show-o: One single transformer to unify multimodal understanding and generation. arXiv, 2024.
Xu et al. [2023] Xiangyu Xu, Lijuan Liu, and Shuicheng Yan. Smpler: Taming transformers for monocular 3d human shape and pose estimation. TPAMI, 2023.
Yang et al. [2024a] An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, et al. Qwen2 technical report. arXiv, 2024a.
Yang et al. [2024b] Dongchao Yang, Haohan Guo, Yuanyuan Wang, Rongjie Huang, Xiang Li, Xu Tan, Xixin Wu, and Helen Meng. Uniaudio 1.5: Large language model-driven audio codec is a few-shot audio task learner. arXiv, 2024b.
Ye et al. [2024] Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, and Jingren Zhou. mplug-owl3: Towards long image-sequence understanding in multi-modal large language models, 2024.
Zhang et al. [2023] Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, and Xipeng Qiu. Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities. arXiv, 2023.
Zhang et al. [2021] Hongwen Zhang, Yating Tian, Xinchi Zhou, Wanli Ouyang, Yebin Liu, Limin Wang, and Zhenan Sun. Pymaf: 3d human pose and shape regression with pyramidal mesh alignment feedback loop. In ICCV, 2021.
Zhang et al. [2024] Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, and Wanli Ouyang. Motiongpt: Finetuned llms are general-purpose motion generators. In AAAI, pages 7368–7376, 2024.
Zhao et al. [2017] Zhichen Zhao, Huimin Ma, and Shaodi You. Single image action recognition using semantic body part actions. In ICCV, pages 3391–3399, 2017.
Zhou et al. [2024] Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, and Omer Levy. Transfusion: Predict the next token and diffuse images with one multi-modal model. arXiv, 2024.
Zhu et al. [2023] Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv, 2023.

A Data Collection

人物画像とポーズの説明を組み合わせたデータセットの不足に対処するため、我々は視覚的・テキスト的ポーズ理解におけるこのギャップを埋めるために特別に設計されたImageScriptおよびImageDiffデータセットを提示する。

A.1 ImageScript

ImageScriptデータセットは、画像に描かれた人間のポーズの正確で詳細なテキスト記述を提供することを目的としている。既存のポーズ推定データセット（総称してPoseEstと呼ぶ）（例えば、Human3.6M [29]、MPI-INF-3DHP [48]、COCO [42]、MPII [3]、および3DPW [61]）は、画像と正確な人間のポーズのペアを提供している。PoseScript [14]は、人間のポーズのテキスト記述を自動生成するパイプラインを導入している。これらの取り組みを基に、我々のImageScriptデータセットは、人間の画像、ポーズ、および詳細なテキスト記述を統合し、視覚-テキストのポーズ理解を進展させるものである。

ImageScriptデータセットは52,000の画像-テキストペアで構成されており、画像はPoseEstデータセットから取得している。PoseScript [14]に従い、我々はまず、PoseEstデータセットの各ポーズアノテーションの関節位置を、中立的なSMPL体型モデル [45]を用いて正規化する。これには、デフォルトの形状係数とグローバル方向0を使用する。多様性を確保するため、最遠点サンプリングアルゴリズムを適用し、平均関節誤差（MPJE）を距離メトリクスとしてサンプルを選択する。ランダムに選択されたポーズから始め、所望のサンプルサイズに達するまで、MPJEが最も高いポーズを選択セットに反復的に追加する。

テキストアノテーションについては、PoseScriptの自動パイプラインを利用して、サンプリングされた各ポーズに対して3つの多様なキャプションを生成する。しかし、自動生成されたキャプションは、しばしば過度に詳細で反復的であり、人間の言語に特徴的な簡潔さと流暢さに欠ける。この問題に対処するため、我々はGPT-4 [1]を使用してキャプションを洗練し、冗長で重複した記述を簡潔で自然な表現に変換する。クエリプロンプトとアノテーションワークフローの詳細は、図 1 および図 2に示されている。

データセットの統計。PoseScriptの自動パイプラインを使用して生成されたデータセットはImageScript-Aと呼ばれ、GPT-4で洗練されたバージョンはImageScript-Rと名付けられている。画像-ポーズのペアは、当初Human3.6M（15,000）、MPI-INF-3DHP（25,000）、COCO（5,000）、およびMPII（5,000）データセットからサンプリングされている。その後、自動パイプラインを使用して各ポーズのテキストによるポーズ記述が生成され、ImageScript-Aデータセットを形成する。ImageScript-Rトレーニングセットを構築するために、ImageScript-Aから6,250のサンプルが均一にサンプリングされる。さらに、3DPWデータセットから2,000サンプルが選択され、ImageScript-Rテストセットを作成する。ImageScript-Rのキャプションは、GPT-4を使用して洗練され、自動生成された記述をより簡潔で自然な表現に変換している。

A.2 ImageDiff

ImageDiffデータセットは、画像ペア間の人間の姿勢の違いを文章で説明することを目的として設計されており、モデルが異なる視覚入力間の姿勢の変化を効果的に認識し解釈できるようにするものである。3D SMPLポーズペアの比較説明を自動生成するパイプラインを導入したPoseFixを基に[13]、我々はImageDiffを提案する。これは画像ペア、対応する3Dポーズペア、およびポーズの違いを説明するテキストで構成されるデータセットである。

ImageDiffデータセットは、52,000組の{画像A、画像B、テキスト}の形式のトリプレットで構成されている。ここでテキストは、画像A（ソース画像）の人間の姿勢を画像B（ターゲット画像）に合わせるためにどのように修正するかを説明している。画像AとBに対応するポーズアノテーションはそれぞれポーズAとBと呼ぶ。画像Bの選択プロセスは、ImageScriptデータセットで使用されたアプローチと一致している。画像Aの選択については、PoseFix [13]に従い、まず各ポーズBのポーズ検索特徴（セクション B.2）と、PoseEstデータセット内の他のすべてのポーズとのコサイン類似度を計算する。類似度が最も高い上位100個のポーズがポーズAの候補としてショートリストに挙げられる。多様性を確保するために、posecode情報 [14]を活用し、各ポーズペアが少なくとも10個の異なる低レベルのポーズ特性を示すことを確認する。

ポーズの差異の説明は、PoseFixの自動アノテーションパイプラインを使用して生成され、サンプリングされた各ポーズペアに対して3つのキャプションが作成される。ImageScriptと同様に、我々はGPT-4を使用してこれらのキャプションを洗練し、自動生成されたアノテーションを簡潔で読みやすい説明に変換する。クエリプロンプトとアノテーションワークフローの詳細は、図 1 および図 3 にそれぞれ示されている。

データセットの統計。PoseFixの自動パイプラインを使用して生成されたデータセットはImageDiff-Aと呼ばれ、GPT-4で洗練されたバージョンはImageDiff-Rと呼ばれる。画像BはImageScript-Aと同じ設定に従い、当初Human3.6M（15,000）、MPI-INF-3DHP（25,000）、COCO（5,000）、およびMPII（5,000）データセットからサンプリングされる。画像Aは、上述の方法に従って対応するデータセットから選択される。各画像ペアの人間のポーズの差異の説明は、自動パイプラインを通じて生成され、ImageDiff-Aを構築する。ImageDiff-Rについては、ImageDiff-Aから6,250例を均一にサンプリングしてトレーニングセットを形成し、3DPWデータセットから2,000の画像ペアをサンプリングしてテストセットとする。最後に、GPT-4を使用してImageDiff-Rのテキスト説明を洗練する。

A.3 Training Data Details

我々はUniPoseの各訓練段階において、特定のタスクとデータセットを使用している。これらは表1にまとめられている。詳細は以下の通りである：

•

ポーズ-テキスト整合性の事前訓練段階。我々は4つのポーズ-テキスト関連タスクを組み込んでいる：2つのポーズ理解タスク（ポーズからテキスト、ポーズ差分）、1つのポーズ生成タスク（テキストからポーズ）、そしてポーズ編集タスクである。PoseScript [14] とPoseFix [13] の自動キャプション生成パイプラインを活用してデータセットを拡張する成功に着想を得て、我々は自動生成されたキャプションが豊富なPoseScript-AとPoseFix-Aを訓練セットとして使用している。この広範なデータは、ポーズとテキストのモダリティの整合性を効果的に促進する。
•

視覚プロジェクターの事前訓練段階。我々は3つの画像関連タスクを含めている：2つのポーズ理解タスク（画像からテキスト、画像差分）、1つのポーズ生成タスク（画像からポーズ）であり、訓練にはImageScript-A、ImageDiff-A、およびPoseEstデータセットを使用している。
•

指示微調整段階。この段階では、モデルが人間の表現に整合したテキストを理解し生成することを確実にするため、全てのタスクにわたって訓練される。訓練プロセスではPoseEstデータセット、PoseScript-HやPoseFix-Hなどの人間によってアノテーションされたデータセット、そしてImageScript-RやImageDiff-Rなどのグラフィックデザイナーによって洗練されたデータセットを使用する。さらに、UniPoseの指示追従能力を向上させるため、タスク固有の指示テンプレートを設計している。これらの詳細は表2に示されている。

Configuration	Pose-Text Align Pretraining	Visual Projector Pretraining	Instruction Finetuning
Batch Size	24	8	8
Learning Rate	1.5e-4	5e-5	5e-5
Epochs	6	2	2
Image Res	336 $\times$ 336 / 256 $\times$ 256
Patch Size	14 $\times$ 14 / 16 $\times$ 16
Warmup Epochs	0.03
LR Schedule	Cosine
Optimizer	AdamW

表3: UniPoseの訓練ハイパーパラメータ。 Image Resは、CLIP-ViTとPose-ViTの入力画像解像度を示し、Patch Sizeと同じである。

Method	$R^{P2T}\uparrow$			$R^{T2P}\uparrow$			mRecall
Method	Top-1	Top-5	Top-10	Top-1	Top-5	Top-10	mRecall
Pose-Text Retrieval
PoseScript	22.3	50.1	62.9	22.1	51.4	63.1	45.3
UniPose	31.3	60.1	73.0	31.4	62.5	73.8	55.5
Pose Pair-Text Retrieval
PoseFix	13.9	33.2	45.2	14.1	30.1	42.5	30.0
UniPose	15.7	34.0	44.7	15.2	34.0	44.6	31.3

表4: PoseScript [14] およびPoseFix [13] データセットにおける検索結果。Top 1 / 5 / 10

R^{P2T}

および

R^{T2P}

を報告し、全ての検索リコール値の平均である平均リコール（mRecall）も併せて示す。

	AMASS $\downarrow$		MOYO $\downarrow$
	MPJPE	PA-MPJPE	MPJPE	PA-MPJPE
w/o. Noise	6.7	3.8	32.6	11.7
w/. Noise	6.2	3.7	23.1	11.3

表5: ポーズトークナイザーにおけるグローバル方向ノイズに関するアブレーション。

B Implementation details

B.1 Pose Tokenizer

我々は、ポーズトークナイザーの学習目的について詳細な説明を提供する。ポーズトークナイザーは、再構成損失 $\mathcal{L}_{r}$ 、埋め込み損失 $\mathcal{L}_{e}$ 、およびコミットメント損失 $\mathcal{L}_{c}$ を用いて学習される。生成されるポーズの品質をさらに向上させるために、再構成損失において頂点と位置の正則化を利用する。以下のとおりである：

		$\displaystyle\mathcal{L}_{vq}=\mathcal{L}_{r}+\mathcal{L}_{e}+\mathcal{L}_{c},% \ \text{where},$		(7)
		$\displaystyle\mathcal{L}_{r}=\lambda_{1}\left\\|\widehat{\boldsymbol{p}}-% \boldsymbol{p}\right\\|_{2}+\lambda_{2}\left\\|\widehat{\boldsymbol{v}}-% \boldsymbol{v}\right\\|_{2}+\lambda_{3}\left\\|\widehat{\boldsymbol{j}}-% \boldsymbol{j}\right\\|_{2},$
		$\displaystyle\mathcal{L}_{e}=\left\\|sg\left[\boldsymbol{z}\right]-\widehat{% \boldsymbol{z}}\right\\|^{2}_{2},\quad\mathcal{L}_{c}=\left\\|\boldsymbol{z}-sg% \left[\widehat{\boldsymbol{z}}\right]\right\\|^{2}_{2},$

ここで、 $\boldsymbol{v}$ および $\boldsymbol{j}$ は $\boldsymbol{p}$ から導出された真のSMPLメッシュ頂点と関節位置を表し、 $\widehat{\boldsymbol{v}}$ および $\widehat{\boldsymbol{j}}$ は $\widehat{\boldsymbol{p}}$ から導出された予測頂点と位置を表す。 $sg[\cdot]$ は勾配停止演算子であり、 $\lambda_{1}$ 、 $\lambda_{2}$ および $\lambda_{3}$ は重み係数である。

学習設定。ポーズトークナイザーの学習には、AdamWをオプティマイザーとして使用し、バッチサイズは256、初期学習率は2e-4とする。モデルは240エポックにわたって学習され、重み係数 $\lambda_{1}$ 、 $\lambda_{2}$ および $\lambda_{3}$ はそれぞれ $20$ 、 $100$ 、 $100$ に設定される。コードブックサイズは2048に設定し、各3Dポーズを80個の離散トークンで表現する。 TokenHMR[15]に従い、我々はランダムな関節にノイズを付加し、0.01から開始して5000イテレーションごとに徐々に増加させる。さらに、グローバルな方向の変動に対する頑健性を高めるために、z方向に-45度から45度、xおよびy方向に-20度から20度のランダムな摂動を導入する。グローバルな方向ノイズの効果は、セクションCで分析される。

B.2 Retrieval Model

ポーズ-テキスト検索メトリックを計算するためには、与えられたテキストクエリに基づいて大規模なポーズコレクションをランク付けし、またその逆を行うための検索モデルが必要である。

ポーズ-テキスト検索モデルは、ポーズエンコーダーとテキストエンコーダーで構成される。ポーズ特徴抽出には、ポーズトークナイザーからポーズエンコーダーを直接使用し、次元削減のために1D畳み込みを追加する。テキストエンコーダーには、テキスト特徴抽出のために1層の双方向GRUを使用し[12]、単語埋め込みとテキストトークナイザーは事前学習済みのDistilBERTモデルから派生させる[55]。ポーズとテキストの両方が512次元の特徴ベクトルにエンコードされる。PoseScriptに従い[14]、我々は学習目的としてBatch-Based Classification (BBC)損失を採用する：

\mathcal{L}_{BBC}=-\frac{1}{B}\sum_{i=1}^{B}\log\frac{\exp(\gamma(x_{i},y_{i})% )}{\sum_{j}\exp(\gamma\delta(x_{i},y_{j}))}

(8)

ここで、 $\gamma$ は学習可能な温度パラメータ、 $\delta$ はコサイン類似度関数、 $(x_{i},y_{i})$ はポーズ-テキストペアを表す。

ポーズペア-テキスト検索モデルは、ポーズ/画像差分タスクにおいてポーズペアとテキストを検索するために設計されている。その構造はポーズ-テキスト検索モデルと類似しているが、主な違いはポーズエンコーダーがペアの各ポーズを個別に処理することである。抽出された特徴はチャネル次元に沿って連結され、次元削減のために複数の1D畳み込み層を通過する。ポーズエンコーダーとテキストエンコーダーの両方が512次元の特徴ベクトルを生成し、ポーズ-テキスト検索モデルと同じ学習目的を使用する。

学習設定。 PoseScriptとPoseFixに従い、検索モデルはまず自動生成されたキャプション（PoseScript-AとPoseFix-A）で事前学習され、その後人間が書いたキャプション（PoseScript-HとPoseFix-H）でファインチューニングされる。検索モデルは事前学習とファインチューニングの段階を通じて120エポック学習される。我々はAdamオプティマイザーを使用し、事前学習ではバッチサイズ512、ファインチューニングではバッチサイズ32を使用する。学習率は2e-4に設定され、学習可能な温度パラメータ $\gamma$ は10に初期化される。本文中のすべての実験では、テキストからポーズへのタスクを除いて我々の提案する検索モデルを使用している。テキストからポーズへのタスクではPoseScriptの検索モデルを使用している[14]。

B.3 UniPose

UniPoseの詳細な訓練ハイパーパラメータ設定は表3に示されている。ポーズ-テキスト整合性の事前訓練段階では、UniPoseはバッチサイズ24、学習率1.5e-4で6エポック訓練される。視覚プロジェクタの事前訓練段階と指示微調整段階では、モデルはそれぞれバッチサイズ8、学習率5e-5で2エポック訓練される。各段階には0.03エポックのウォームアップ期間が含まれる。我々はコサイン学習率スケジュールを採用し、AdamWオプティマイザを使用する。UniPoseは2つのビジョンエンコーダを組み込んでいる：CLIP-ViTとPose-ViTであり、入力画像の解像度とパッチサイズはそれぞれ336 / 14と256 / 16である。Pose-ViTの出力特徴マップは、視覚トークン数がCLIP-ViTのものと一致するように双線形補間を用いてリサイズされる。

C Additional Experiments

C.1 Retrieval Model

表 4は、PoseScriptおよびPoseFixのテストセットにおける検索結果を示している。すべての手法は自動生成されたキャプション（PoseScript-AおよびPoseFix-A）で事前学習され、人間が書いたキャプション（PoseScript-HおよびPoseFix-H）でファインチューニングされている。我々のPose-Text検索モデルは、すべての指標においてPoseScriptを大幅に上回り、検索性能を10%以上向上させている。Pose Pair-Text検索においても、我々のモデルは優れた性能を達成している。これらの結果は、ポーズ表現とテキスト記述を整合させる我々のアプローチの有効性を示している。

C.2 Pose Tokenizer

表 5は、ポーズトークナイザーに対するグローバル方向ノイズの影響を示している。すべての手法はAMASS [47]とMOYO [59]の標準的な訓練セットで学習され、AMASSのテストセットとMOYOの検証セットで評価されている。結果は、グローバル方向にランダムノイズを導入することでトークナイザーの堅牢性が向上することを示しており、特にMOYOデータセットではMPJPEが9.5改善している。より強力なトークナイザーは、UniPoseが様々なポーズ関連タスクを扱う上で有利となる。したがって、我々はノイズ拡張版を最終的なトークナイザーとして選択している。

D Qualitative Evaluation

我々は、ポーズ推定タスクにおけるUniPoseの定性的結果を提示する。図4では、従来のポーズ推定タスクにおけるUniPoseの性能を視覚化し、従来手法のTokenHMR[15]およびMLLMベースの手法であるChatPose[18]と比較している。結果は、我々のアプローチが複雑な四肢の関節動作を伴うシナリオでさえ、より正確に人間のポーズを推定することを示している。

図5では、推論ベースのポーズ推定タスクにおけるUniPoseの性能を示している。このために、PoseEstデータセットから8000枚の複数人物画像を選択し、ChatPoseのアノテーションアプローチに従い、GPT-4[1]を活用して各個人の行動、服装、ポーズにラベルを付けた。このデータセットでUniPoseをファインチューニングした結果、印象的な推論能力が示され、モデルの適応性と新しいデータへの汎化能力が強調された。

E Limitation

姿勢推定タスクにおいて、MLLMsベースのモデルの性能は依然として専門的な手法に劣っている。我々は、これらの制限が凍結された視覚エンコーダーによって課される制約に起因する可能性があると主張する。今後の研究では、大規模言語モデルが多様な視覚エンコーダーから姿勢に関連する視覚特徴をより効果的に統合できるようにする技術の開発に焦点を当て、複雑な姿勢推定タスクを処理する能力を向上させることを目指す。

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing