JaLMS
最新の AI 研究を日本語で解読

MIVE: New Design and Benchmark for Multi-Instance Video Editing

Samuel Teodoro1111Co-first authors (equal contribution)  Agus Gunawan1111Co-first authors (equal contribution)  Soo Ye Kim2  Jihyong Oh3222Co-corresponding authors  Munchurl Kim1222Co-corresponding authors
1KAIST  2Adobe Research  3Chung-Ang University
{sateodoro, agusgun, mkimee}@kaist.ac.kr  [email protected][email protected]
https://kaist-viclab.github.io/mive-site/
Abstract

近年のAIベースの動画編集により、ユーザーは単純なテキストプロンプトを通じて動画を編集できるようになり、編集プロセスが大幅に簡素化された。 しかし、最近のゼロショット動画編集技術は主にグローバルな編集や単一オブジェクトの編集に焦点を当てており、これは動画の他の部分に意図しない変更をもたらす可能性がある。 複数のオブジェクトに局所的な編集が必要な場合、既存の手法は、忠実でない編集、編集の漏れ、適切な評価データセットとメトリクスの欠如といった課題に直面している。 これらの制限を克服するため、我々はMIVE(Multi-Instance Video Editing)と呼ばれるゼロショットマルチインスタンス動画編集フレームワークを提案する。 MIVEは、特定のオブジェクト(例:人物)に特化せず、汎用的なマスクベースのフレームワークである。 MIVEは2つの重要なモジュールを導入している:(i) 編集の漏れを防ぐための分離マルチインスタンスサンプリング(DMS)、および (ii) 正確な局所化と忠実な編集を確保するためのインスタンス中心確率再分配(IPR)である。 さらに、我々は多様な動画シナリオを特徴とする新しいMIVEデータセットを提示し、マルチインスタンス動画編集タスクにおける編集の漏れを評価するためのクロスインスタンス精度(CIA)スコアを導入する。 我々の広範な定性的、定量的、およびユーザースタディ評価は、MIVEが編集の忠実性、精度、および漏れ防止の面で最近の最先端手法を大きく上回り、マルチインスタンス動画編集の新しいベンチマークを設定していることを示している。 プロジェクトページはhttps://kaist-viclab.github.io/mive-site/で利用可能である。

1 Introduction

ソーシャルメディア上の短尺動画の人気は著しく成長している [52, 27]。 しかし、これらの動画の編集は多くの場合、時間がかかり [48]、専門家の支援を必要とすることがある [33]。 これらの課題が、生成モデル [44, 66, 4] および視覚言語モデル [41] の進歩に支えられ、AI基盤の動画編集(VE)ツールの開発を促進してきた [27]。 これらのツールにより、ユーザーは簡単なテキストプロンプトで望む編集を指定できるようになり [2, 40]、編集プロセスがより迅速かつアクセスしやすくなっている。

Refer to caption
図2: 従来のSOTA手法の限界。(a) ControlVideo [70] は単一のグローバルキャプションに依存し、(b) GAV [25] は時に重複することのあるバウンディングボックス条件に依存している。両者とも不忠実な編集(赤矢印)と注意の漏洩(青矢印)の影響を受けやすい。

最近のVE手法は、事前学習済みのテキストから画像への変換(T2I)モデルを活用することが多い[44]。 大規模データセットでモデルを訓練する[71, 10]や単一の動画でファインチューニングする[58, 32, 2]といった代替アプローチと比較して、ゼロショット手法[70, 11, 26, 62, 16, 40, 25, 7]は、その効率性と事前学習済みT2Iモデルの利用可能性により、引き続き注目を集めている。 ほとんどのゼロショットアプローチは、シーン全体を修正するグローバル編集[70, 62]や、意図せずに動画の他の部分に影響を与える可能性のある単一オブジェクト編集[6, 32]に焦点を当てている。 しかし、場合によっては、ユーザーが動画の他の部分を変更せずに特定のオブジェクトを正確に編集する必要がある場合がある。例えば、家族向けバージョンを作成するために露骨なコンテンツ(例えば、タバコ)を置き換えるなどである[68]

局所的VEは、動画内の特定のオブジェクトを正確に操作することでこの問題に対処することを目指している。 しかし、事前学習済みのT2Iモデルをこのタスクに適応させることは困難である。なぜなら、これらのモデルは細かな制御が欠如しており、空間的制御を可能にするために追加の学習[71]や注意機構の操作[63, 32]が必要となるためである。 この問題は、 2-(a)のControlVideo[70]で見られるように、モデルが単一の長いキャプションを使用して複数の局所的編集を同時に実行する必要がある場合にさらに悪化する。 このアプローチは多くの場合、以下の問題を引き起こす:(i) 忠実でない編集(例えば、赤いバッグが黄色の財布に変換されない)、(ii) 注意漏れ[61]、つまり特定のオブジェクトに対する意図した編集が意図せずに他のオブジェクト領域に影響を与える(例えば、壁と像の両方が黄色になる)。

最近、Ground-A-Video (GAV)[25]は、グラウンディング条件[29]で微調整されたT2Iモデル[44]を使用して、同時に複数のオブジェクトのVEが可能であることを示した。 しかし、GAVは依然として注意漏れ[61]に悩まされており、特にオブジェクトのバウンディングボックスが重なる場合に問題が生じる(例えば 2-(b)では像もフラワークラウンを獲得している)。 並行して開発されたEVA[63]は、編集プロンプトをオブジェクトマスクに割り当てることで漏れに対処しようとしている。 しかし、EVAは人間中心の動画[63]向けに設計されており、多様なオブジェクト(例えば、車両)の編集能力を実証していない。

さらに、GAV [25] と EVA [63] の両方とも、限られたデータセットでのみテストされており、多様な視点、インスタンスサイズ、インスタンス数にわたる多インスタンスVEの包括的なテストには不十分である。 これらの手法で使用されているグローバル編集メトリクスは、多インスタンスVEに不可欠なローカル編集品質を正確に測定することができない。

上記より、多インスタンスVEには以下の4つの重要な課題が残されている: (i) 注意の漏洩。 事前学習されたT2Iモデルにおけるローカル制御の欠如、不正確な入力条件 [25]、単一のグローバル編集キャプションの使用 [70] により、従来の手法は編集プロンプトを効果的に分離することができない; (ii) 汎用的な多インスタンスVE手法の欠如。 EVA [63] はオブジェクトごとの編集機能を示すが、汎用的なVEフレームワークではない; (iii) 忠実でない編集。 多インスタンスVEタスクにおいて編集の忠実性を向上させる技術の欠如が、しばしば不正確な編集をもたらす; (iv) 評価データセットとメトリクスの欠如。 最近の手法 [63, 25] は、ローカルVE品質の評価に不適切なメトリクスを用いて限られたデータセットでテストされている。

これらの課題を克服するため、我々は汎用的なゼロショットルチンスタンスデオ集フレームワークであるMIVEを提案する。これは、マルチインスタンス編集を分離することで、忠実な編集を実現し、注意の漏洩を軽減するものである。 MIVEは既存のT2Iモデルに容易に統合でき、2つの主要モジュールを通じてマルチインスタンス編集機能を実現する: (i) 先行研究[55, 46]にインスパイアされ、注意の漏洩を大幅に軽減する分離マルチインスタンスサンプリング(DMS)を設計した。 (ii) 編集の忠実性を高め、オブジェクトがそのマスク内に出現する可能性を増加させるため、クロスアテンション層にインスタンス中心確率再分配(IPR)を導入した。 さらに、我々は提案するMIVEデータセットを用いてMIVEを評価した。このデータセットは200本のビデオからなり、標準的な評価指標と、注意の漏洩を定量化するための新しい指標であるクロスインスタンス精度(CIA)スコアを使用している。 本稿の貢献は以下の通りである:

  • 我々は、ビデオのマルチインスタンス編集を可能にする新しい汎用マスクベースのゼロショットルチンスタンスデオ集フレームワークであるMIVEを提案する;

  • 我々は、(i)編集の漏洩を軽減する分離マルチインスタンスサンプリング(DMS)と、(ii)編集の局所化と忠実性を高めるインスタンス中心確率再分配(IPR)を通じて、マルチインスタンスビデオ編集を分離することを提案する;

  • 我々は、クロスインスタンス精度(CIA)スコアと呼ばれる新しい評価指標と、新しいデータセットであるMIVEデータセットを含む新しい評価ベンチマークを提案する。MIVEデータセットは、インスタンスレベルのキャプションとマスクを伴う、様々な数と大きさのインスタンスを含む200本のビデオで構成されている。CIAスコアは、マルチインスタンス編集タスクにおける注意の漏洩を定量化するために設計されている;

  • 我々の広範な実験により、複数のインスタンスにわたる編集の分離と忠実な編集の達成におけるMIVEの有効性が検証され、最新のSOTAビデオ編集手法を大幅に上回る性能を示している。

Refer to caption
図3: マルチインスタンスビデオ編集(MIVE)の全体的なフレームワーク。我々の分離マルチインスタンスサンプリング(DMS、セクション 3.2)は、潜在並列サンプリング(LPS、青色のボックス)、異なるインスタンス潜在表現を融合する潜在融合(黄色のボックス)、融合後の潜在表現を調和させる再逆変換(赤色のボックス)、およびノイズ並列サンプリング(NPS、緑色のボックス)で構成されている。さらに、我々のインスタンス中心確率再分配(IPR、セクション 3.3)は、より良い空間制御を提供する。

2 Related Works

ゼロショットのテキストガイド付きビデオ編集。 拡散モデルの最近の進歩 [20, 49, 50] により、テキストから画像への変換(T2I)[42, 38, 45, 12, 44] およびテキストから動画への変換(T2V)[4, 67, 57, 21, 17, 15, 53] モデルの生成タスクにおける進化が加速している。 これらのブレークスルーにより、事前学習済みモデルをバックボーンとして使用する多数のビデオ編集(VE)フレームワークの開発が進んでいる。 ほとんどのVE手法 [40, 58, 16, 11, 26, 25, 70] は、事前学習済みのT2Iモデル [44, 29, 69] に依存している。これは、T2Vモデルが一般に公開されていないか [5]、計算コストが高いためである [53]。 VEを促進するために、最近の手法では、大規模な動画データセットでT2Iモデルを微調整したり [71, 56, 15]、単一の入力動画で最適化したり [58, 32]、あるいはゼロショット推論を活用したりしている [70, 11, 26, 62, 16, 25, 40]。 我々の研究はゼロショットVEに分類され、追加の学習なしで編集を可能にするものである。

ゼロショットVE手法は、しばしば時間的一貫性を優先し、様々な技術を用いる。例えば、U-Netの自己注意層の修正[58, 54, 11, 62, 6]、最適化戦略の適用[62, 6]、入力潜在変数の平滑化[25, 70]、特徴の線形結合[16]、または入力潜在変数の変換[26]などである。 我々のアプローチは、忠実な編集の実現と注意漏れの低減により重点を置いており、時間的一貫性を達成するために先行研究[11]の手法を採用している。

ローカルビデオ編集と画像生成からの技術。 画像生成や編集と同様に、ビデオにおける細かな制御の必要性により、いくつかのローカルVE手法が開発されてきた[71, 32, 25, 63]。 これらの手法は通常、追加のアダプターを訓練する[69, 1, 29, 64, 55]や、ゼロショット技術を採用する、例えば、最適化[3, 8, 9, 60]、注意機構の変調[28]、マルチブランチサンプリング[46]など、画像生成からの空間制御技術を採用している。 特に、AVID[71]はマスクを使用し、Stable Diffusion (SD)のインペインティングモデル[44]を再訓練する一方、Video-P2P[32]は注意制御手法[18]を活用しており、両者ともより細かな制御を実現している。

複数インスタンスのVEシナリオに対するローカル制御の拡張は比較的未開拓の分野であり、この課題に取り組む研究はわずかである[25, 63]。これらの研究は、同様に画像生成技術[29, 28]を採用して複数インスタンスのVEをローカライズしている。 GAV[25]は、バウンディングボックスを使用し、トランスフォーマーブロック内にゲート付き自己注意層を統合することで空間制御を可能にするフレームワークであるGLIGEN[29]を活用している。 しかし、GLIGENは新しいT2Iモデル(例えばSDv1.5やSDv2.1)ごとにゲート付き自己注意層を再訓練する必要があり、柔軟性が低下する。 EVA[63]は、空間制御のためにマスクと離散的なテキスト埋め込みを使用し、時空間注意(STA)に対して注意モジュレーション[28]を適用している。 しかし、STAにおける不正確な特徴対応[65]は、注意モジュレーションが適切に制御されない場合にアーティファクトを引き起こすため[28]、ちらつきを増幅させる。 我々の研究では、同様に注意値をモジュレートするが、クロス注意層内のみで行うことで、STAに影響を与えずに空間制御を可能にしている。

3 Proposed Method

3.1 Overall Framework

本稿では、複数のインスタンスに対する編集を分離することにより、マルチインスタンスビデオ編集(VE)に取り組む。 N𝑁Nitalic_N個の入力フレーム𝒇=f1:N𝒇superscript𝑓:1𝑁\boldsymbol{f}=f^{1:N}bold_italic_f = italic_f start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTM𝑀Mitalic_M個のインスタンスターゲット編集𝒈={gi}i=1M𝒈superscriptsubscriptsubscript𝑔𝑖𝑖1𝑀\boldsymbol{g}=\{g_{i}\}_{i=1}^{M}bold_italic_g = { italic_g start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPTが与えられ、各ターゲット編集gi={𝒎𝒊,ci}subscript𝑔𝑖subscript𝒎𝒊subscript𝑐𝑖g_{i}=\{\boldsymbol{m_{i}},c_{i}\}italic_g start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = { bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT , italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT }はインスタンスマスク𝒎𝒊=mi1:Nsubscript𝒎𝒊superscriptsubscript𝑚𝑖:1𝑁\boldsymbol{m_{i}}=m_{i}^{1:N}bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT = italic_m start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTと対応する編集キャプションcisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTから構成される。我々は各インスタンスi𝑖iitalic_icisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTに基づいて修正し、マスクmi1:Nsuperscriptsubscript𝑚𝑖:1𝑁m_{i}^{1:N}italic_m start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT外の領域が編集されないようにする。

3はMIVEの全体的なフレームワークを示している。 MIVEは反転ベースのVEカテゴリーに属する[40](予備知識については補足資料セクションAを参照)。 VAEエンコーダー\mathcal{E}caligraphic_E[44]を用いて生成された初期潜在変数z01:N=(f1:N)superscriptsubscript𝑧0:1𝑁superscript𝑓:1𝑁z_{0}^{1:N}=\mathcal{E}(f^{1:N})italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT = caligraphic_E ( italic_f start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT )から始め、我々は非インフレーションU-Netを使用してDDIM反転[49]により潜在変数を反転させる。 これにより、反転された潜在変数のシーケンス{𝒛~𝒕}t=0T={z~t1:N}t=0Tsuperscriptsubscriptsubscriptbold-~𝒛𝒕𝑡0𝑇superscriptsubscriptsuperscriptsubscript~𝑧𝑡:1𝑁𝑡0𝑇\{\boldsymbol{\tilde{z}_{t}}\}_{t=0}^{T}=\{\tilde{z}_{t}^{1:N}\}_{t=0}^{T}{ overbold_~ start_ARG bold_italic_z end_ARG start_POSTSUBSCRIPT bold_italic_t end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_t = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT = { over~ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_t = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPTが得られ、後で使用するために保存する。ここでT𝑇Titalic_Tはノイズ除去ステップ数を表す。

サンプリングについては、画像生成手法[55, 46]にインスパイアされた分離マルチインスタンスサンプリング(DMS、セクション3.2)を導入し、マルチインスタンスVEプロセスを分離し、注意の漏洩を最小限に抑える。 各インスタンスは潜在並列サンプリング(青色のボックス)を用いて独立に修正され、複数のノイズ除去されたインスタンス潜在変数は、潜在融合と再反転(それぞれ緑、黄、赤のボックス)に続くノイズ並列サンプリングを通じて調和される。 我々は[25, 70]に従い、サンプリング中に3D U-Net[58]と3D ControlNet[69]を使用し、MiDas[43]によって得られた深度マップ𝒅=di1:N𝒅subscriptsuperscript𝑑:1𝑁𝑖\boldsymbol{d}=d^{1:N}_{i}bold_italic_d = italic_d start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを条件として用いる。

我々のDMSは、各編集されたインスタンスi𝑖iitalic_iがそのマスク𝒎𝒊subscript𝒎𝒊\boldsymbol{m_{i}}bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT内に現れることを要求する。 通常のクロスアテンション[44]では、ターゲット編集が𝒎𝒊subscript𝒎𝒊\boldsymbol{m_{i}}bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT内に留まることを保証できない(7-(b)参照)。 この問題に対処するため、我々はクロスアテンションにインスタンス中心確率再分配(IPR、セクション3.3)を導入し、𝒎𝒊subscript𝒎𝒊\boldsymbol{m_{i}}bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT内での編集配置の精度を向上させる。 最後に、時間的一貫性を確保するためにFLATTEN[11]を使用する。

3.2 Disentangled Multi-instance Sampling

マルチインスタンスVEプロセスを分離し、注意の漏洩を減少させるために、我々は分離型マルチインスタンスサンプリング(DMS)を提案する。 3に示すように、DMSは2つのサンプリング戦略から構成される:(1) 青枠で示される潜在並列サンプリング(LPS)と、(2) 潜在融合(黄色枠)と再逆変換(赤枠)に続く緑枠で示されるノイズ並列サンプリング(NPS)である。 LPSでは、各インスタンスi𝑖iitalic_iを、そのターゲットキャプションcisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTとマスク𝒎𝒊subscript𝒎𝒊\boldsymbol{m_{i}}bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPTを用いて、DDIM [49]ノイズ除去を通じて独立して編集する:

{z^t11:N}i=DDIM({z^t1:N}i,ϵθ({z^t1:N}i,ci,𝒎𝒊,𝒆,t),t).subscriptsuperscriptsubscript^𝑧𝑡1:1𝑁𝑖DDIMsubscriptsuperscriptsubscript^𝑧𝑡:1𝑁𝑖subscriptitalic-ϵ𝜃subscriptsuperscriptsubscript^𝑧𝑡:1𝑁𝑖subscript𝑐𝑖subscript𝒎𝒊𝒆𝑡𝑡\leavevmode\resizebox{385.92152pt}{}{$\{\hat{z}_{t-1}^{1:N}\}_{i}=\text{DDIM}(% \{\hat{z}_{t}^{1:N}\}_{i},\epsilon_{\theta}(\{\hat{z}_{t}^{1:N}\}_{i},c_{i},% \boldsymbol{m_{i}},\boldsymbol{e},t),t)$}.{ over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = DDIM ( { over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( { over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT , bold_italic_e , italic_t ) , italic_t ) . (1)

次に、ノイズ除去されたインスタンス潜在変数{z^t11:N}isubscriptsuperscriptsubscript^𝑧𝑡1:1𝑁𝑖\{\hat{z}_{t-1}^{1:N}\}_{i}{ over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを逆変換された潜在変数z~t11:Nsuperscriptsubscript~𝑧𝑡1:1𝑁\tilde{z}_{t-1}^{1:N}over~ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTと融合し、マスキングを用いて編集されたインスタンス潜在変数{z¯t11:N}isubscriptsuperscriptsubscript¯𝑧𝑡1:1𝑁𝑖\{\bar{z}_{t-1}^{1:N}\}_{i}{ over¯ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを得る:

{z¯t11:N}i={z^t11:N}i𝒎𝒊+z~t11:N(1𝒎𝒊).subscriptsuperscriptsubscript¯𝑧𝑡1:1𝑁𝑖subscriptsuperscriptsubscript^𝑧𝑡1:1𝑁𝑖subscript𝒎𝒊superscriptsubscript~𝑧𝑡1:1𝑁1subscript𝒎𝒊\{\bar{z}_{t-1}^{1:N}\}_{i}=\{\hat{z}_{t-1}^{1:N}\}_{i}\cdot\boldsymbol{m_{i}}% +\tilde{z}_{t-1}^{1:N}\cdot(1-\boldsymbol{m_{i}}).{ over¯ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = { over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ⋅ bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT + over~ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT ⋅ ( 1 - bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT ) . (2)

LPSでは、各ステップで背景を逆変換された潜在変数で置き換えているため、編集されたインスタンスi𝑖iitalic_i𝒎𝒊subscript𝒎𝒊\boldsymbol{m_{i}}bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT内に現れることが要求される。 これは、我々が提案するIPR(セクション 3.3)によって達成され、必要な空間制御が提供される。

ノイズ除去の終了まで単にLPSを用いてマルチインスタンスVEを実行することも可能であるが、結果として得られるインスタンスは独立にサンプリングされるため、アーティファクトを含む(図6-(c)参照)。 したがって、我々は中間サンプリングステップ中にLPSから得られた複数のインスタンス潜在変数{z˙t1:N}superscriptsubscript˙𝑧𝑡:1𝑁\{\dot{z}_{t}^{1:N}\}{ over˙ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT }を以下のように融合することを提案する:

z˙t1:N=Σi=1M({z¯t1:N}i𝒎𝒊)+z~t1:N𝒎𝑩.superscriptsubscript˙𝑧𝑡:1𝑁superscriptsubscriptΣ𝑖1𝑀subscriptsuperscriptsubscript¯𝑧𝑡:1𝑁𝑖subscript𝒎𝒊superscriptsubscript~𝑧𝑡:1𝑁subscript𝒎𝑩\dot{z}_{t}^{1:N}=\Sigma_{i=1}^{M}(\{\bar{z}_{t}^{1:N}\}_{i}\cdot\boldsymbol{m% _{i}})+\tilde{z}_{t}^{1:N}\cdot\boldsymbol{m_{B}}.over˙ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT = roman_Σ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ( { over¯ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ⋅ bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT ) + over~ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT ⋅ bold_italic_m start_POSTSUBSCRIPT bold_italic_B end_POSTSUBSCRIPT . (3)

ここで、𝒎𝑩=𝟏Σi=1M𝒎𝒊subscript𝒎𝑩1superscriptsubscriptΣ𝑖1𝑀subscript𝒎𝒊\boldsymbol{m_{B}}=\boldsymbol{1}-\Sigma_{i=1}^{M}\boldsymbol{m_{i}}bold_italic_m start_POSTSUBSCRIPT bold_italic_B end_POSTSUBSCRIPT = bold_1 - roman_Σ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPTは背景マスクを表す。 その後、NPS(詳細は次の段落)を実行して中間潜在変数z^t11:Nsuperscriptsubscript^𝑧𝑡1:1𝑁\hat{z}_{t-1}^{1:N}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTを生成する。 z^t11:Nsuperscriptsubscript^𝑧𝑡1:1𝑁\hat{z}_{t-1}^{1:N}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTを使用し、ノイズ除去の終了まで、LPSと潜在融合およびNPSを交互に続けることができる。 しかし、結果はまだアーティファクト、例えばノイズやぼかしを含んでいる( 6-(d)参照)。 したがって、我々は潜在融合後にl𝑙litalic_lステップのDDIMを用いて再逆変換を実行し、z¨t+l1:Nsuperscriptsubscript¨𝑧𝑡𝑙:1𝑁\ddot{z}_{t+l}^{1:N}over¨ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t + italic_l end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTを得た後、タイムステップt+l𝑡𝑙t+litalic_t + italic_lからt𝑡titalic_tまでNPSを実行して最終的な融合潜在変数z¨t1:Nsuperscriptsubscript¨𝑧𝑡:1𝑁\ddot{z}_{t}^{1:N}over¨ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTを生成することを提案する。 初期の逆変換とは異なり、我々の再逆変換は追加のアーティファクトを引き起こすのを避けるために3D U-NetとControlNetを使用する(補足資料参照)。

我々のNPSの目的は、LPSから得られた独立したインスタンス潜在変数を調和させることである。 このサンプリング戦略では、再逆変換された融合潜在変数z¨t1:Nsuperscriptsubscript¨𝑧𝑡:1𝑁\ddot{z}_{t}^{1:N}over¨ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTを使用して、インスタンスキャプションcisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを用いて各インスタンスノイズn^i1:N=ϵθ(z¨t1:N,ci,𝒎𝒊,e,t)superscriptsubscript^𝑛𝑖:1𝑁subscriptitalic-ϵ𝜃superscriptsubscript¨𝑧𝑡:1𝑁subscript𝑐𝑖subscript𝒎𝒊𝑒𝑡\hat{n}_{i}^{1:N}=\epsilon_{\theta}(\ddot{z}_{t}^{1:N},c_{i},\boldsymbol{m_{i}% },e,t)over^ start_ARG italic_n end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT = italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( over¨ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT , italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT , italic_e , italic_t )を推定する。 また、逆変換された潜在変数z~t1:Nsuperscriptsubscript~𝑧𝑡:1𝑁\tilde{z}_{t}^{1:N}over~ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTと空のキャプションcsubscript𝑐c_{\varnothing}italic_c start_POSTSUBSCRIPT ∅ end_POSTSUBSCRIPTを用いて背景のノイズn~1:N=ϵθ(z~t1:N,c,t)superscript~𝑛:1𝑁subscriptitalic-ϵ𝜃superscriptsubscript~𝑧𝑡:1𝑁subscript𝑐𝑡\tilde{n}^{1:N}=\epsilon_{\theta}(\tilde{z}_{t}^{1:N},c_{\varnothing},t)over~ start_ARG italic_n end_ARG start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT = italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( over~ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT , italic_c start_POSTSUBSCRIPT ∅ end_POSTSUBSCRIPT , italic_t )を推定する。 次に、n^i1:Nsuperscriptsubscript^𝑛𝑖:1𝑁\hat{n}_{i}^{1:N}over^ start_ARG italic_n end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTn~1:Nsuperscript~𝑛:1𝑁\tilde{n}^{1:N}over~ start_ARG italic_n end_ARG start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTをマスキングを通じて単一のノイズに結合し、1回のDDIMステップを実行して潜在変数z^t11:Nsuperscriptsubscript^𝑧𝑡1:1𝑁\hat{z}_{t-1}^{1:N}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTを得る:

z^t11:N=DDIM(z^t1:N,Σi=1M(n^i1:N𝒎𝒊)+n~1:N𝒎𝑩,t)superscriptsubscript^𝑧𝑡1:1𝑁DDIMsuperscriptsubscript^𝑧𝑡:1𝑁superscriptsubscriptΣ𝑖1𝑀superscriptsubscript^𝑛𝑖:1𝑁subscript𝒎𝒊superscript~𝑛:1𝑁subscript𝒎𝑩𝑡\hat{z}_{t-1}^{1:N}=\text{DDIM}(\hat{z}_{t}^{1:N},\Sigma_{i=1}^{M}(\hat{n}_{i}% ^{1:N}\cdot\boldsymbol{m_{i}})+\tilde{n}^{1:N}\cdot\boldsymbol{m_{B}},t)over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT = DDIM ( over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT ( over^ start_ARG italic_n end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT ⋅ bold_italic_m start_POSTSUBSCRIPT bold_italic_i end_POSTSUBSCRIPT ) + over~ start_ARG italic_n end_ARG start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPT ⋅ bold_italic_m start_POSTSUBSCRIPT bold_italic_B end_POSTSUBSCRIPT , italic_t ) (4)

3.3 Instance-centric Probability Redistribution

Refer to caption
図4: 我々のIPRと他の手法の比較図(上)と我々のIPRの詳細(下)。

我々のサンプリングでは、編集されたオブジェクトがそのマスク内に現れる必要があり、U-Netにおける空間制御の重要性が強調される。これは、通常のクロスアテンション [44] が編集の局所化に苦戦するためである( 7-(b)参照)。 この問題に対処するため、我々はアテンション変調 [28] にインスパイアされたインスタンス中心の確率再分配(IPR)を提案する。 我々のIPRは、最大化-最小化を使用する [28] とは異なり、初期アテンションスコアの空間分布を乱す可能性があり、アーティファクトを引き起こす可能性がある(図 7-(c)参照)が、忠実な編集とアーティファクトの少ない結果を実現する。 4 は我々のIPR(下部)と他の手法との比較図(上部)を示している。

4 の下部では、ターゲットキャプション c=ci𝑐subscript𝑐𝑖c=c_{i}italic_c = italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT を用いた単一インスタンスの編集に焦点を当てている。 キャプション c𝑐citalic_c は、n𝑛nitalic_n のテキストトークンを持ち、事前学習済みのCLIPモデル [41] を使用してテキスト埋め込みにエンコードされ、これらはクロスアテンションのキー 𝑲𝑲\boldsymbol{K}bold_italic_K として使用される。 キー Kj={S,𝑻,E,𝑷}subscript𝐾𝑗𝑆𝑻𝐸𝑷K_{j=\{S,\boldsymbol{T},E,\boldsymbol{P}\}}italic_K start_POSTSUBSCRIPT italic_j = { italic_S , bold_italic_T , italic_E , bold_italic_P } end_POSTSUBSCRIPT の各値は、シーケンスの開始 S𝑆Sitalic_S、複数のテキスト 𝑻𝑻\boldsymbol{T}bold_italic_T、シーケンスの終了 E𝐸Eitalic_E、および複数のパディング 𝑷𝑷\boldsymbol{P}bold_italic_P トークンのいずれかに対応する。 クエリ画像特徴 𝑸hw×d𝑸superscript𝑤𝑑\boldsymbol{Q}\in\mathbb{R}^{hw\times d}bold_italic_Q ∈ blackboard_R start_POSTSUPERSCRIPT italic_h italic_w × italic_d end_POSTSUPERSCRIPT𝑲𝑲\boldsymbol{K}bold_italic_K の間のクロスアテンションマップ 𝑨𝑨\boldsymbol{A}bold_italic_A は以下のように表現できる:

𝑨=Softmax(𝑸𝑲T/d)[0,1]hw×n,𝑨Softmax𝑸superscript𝑲𝑇𝑑superscript01𝑤𝑛\boldsymbol{A}=\text{Softmax}(\boldsymbol{Q}\boldsymbol{K}^{T}\mathbin{/}\sqrt% {d})\in[0,1]^{hw\times n},bold_italic_A = Softmax ( bold_italic_Q bold_italic_K start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT / square-root start_ARG italic_d end_ARG ) ∈ [ 0 , 1 ] start_POSTSUPERSCRIPT italic_h italic_w × italic_n end_POSTSUPERSCRIPT , (5)

ここで、𝑨={Ai,j;ihw,jn}\boldsymbol{A}=\{A_{i,j};i\in hw,j\in n\}bold_italic_A = { italic_A start_POSTSUBSCRIPT italic_i , italic_j end_POSTSUBSCRIPT ; italic_i ∈ italic_h italic_w , italic_j ∈ italic_n }i𝑖iitalic_ii-th𝑖-thi\text{-th}italic_i -th 画像特徴に、j𝑗jitalic_jj-th𝑗-thj\text{-th}italic_j -th テキストトークン ejsubscript𝑒𝑗e_{j}italic_e start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT に対応する。 我々は、編集を局所化し、アーティファクトの少ない忠実な編集を実現するために、再分配を通じて各アテンションマップ Ai,jsubscript𝐴𝑖𝑗A_{i,j}italic_A start_POSTSUBSCRIPT italic_i , italic_j end_POSTSUBSCRIPT を操作することを提案する。

我々のIPRでは、インスタンスの Ai,jsubscript𝐴𝑖𝑗A_{i,j}italic_A start_POSTSUBSCRIPT italic_i , italic_j end_POSTSUBSCRIPT をマスク m𝑚mitalic_m に応じて2つのセットに分割する:インスタンスの外側 𝑨𝑶,j={Ai,j;mi=0}subscript𝑨𝑶𝑗subscript𝐴𝑖𝑗subscript𝑚𝑖0\boldsymbol{A}_{\boldsymbol{O},j}=\{A_{i,j};m_{i}=0\}bold_italic_A start_POSTSUBSCRIPT bold_italic_O , italic_j end_POSTSUBSCRIPT = { italic_A start_POSTSUBSCRIPT italic_i , italic_j end_POSTSUBSCRIPT ; italic_m start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = 0 } とインスタンスの内側 𝑨𝑰,j={Ai,j;mi=1}subscript𝑨𝑰𝑗subscript𝐴𝑖𝑗subscript𝑚𝑖1\boldsymbol{A}_{\boldsymbol{I},j}=\{A_{i,j};m_{i}=1\}bold_italic_A start_POSTSUBSCRIPT bold_italic_I , italic_j end_POSTSUBSCRIPT = { italic_A start_POSTSUBSCRIPT italic_i , italic_j end_POSTSUBSCRIPT ; italic_m start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = 1 } である。 我々のIPRは、いくつかの実験的観察に基づいている(詳細は補足資料 セクション E.2 参照): (i) パディングトークン Ai,jPsubscript𝐴𝑖𝑗𝑃A_{i,j\in P}italic_A start_POSTSUBSCRIPT italic_i , italic_j ∈ italic_P end_POSTSUBSCRIPT のアテンション確率を操作するとアーティファクトが生じる可能性があるため、これらの変更は避ける; (ii) S𝑆Sitalic_S トークンの確率を増加させると編集の忠実性が低下するが、それを減少させ、その値を 𝑻𝑻\boldsymbol{T}bold_italic_T および E𝐸Eitalic_E トークンに再配分すると編集の忠実性が向上する。 したがって、𝑨𝑶,jsubscript𝑨𝑶𝑗\boldsymbol{A}_{\boldsymbol{O},j}bold_italic_A start_POSTSUBSCRIPT bold_italic_O , italic_j end_POSTSUBSCRIPT に対しては、𝑻𝑻\boldsymbol{T}bold_italic_T および E𝐸Eitalic_E トークンの確率をゼロにし、マスク外での編集を防ぐために S𝑆Sitalic_S に再配分する( 4 下部の青い点線ボックス)。 さらに、マスク内のオブジェクト領域に対するアテンション確率を、S𝑆Sitalic_S の値を減少させ、𝑻𝑻\boldsymbol{T}bold_italic_T および E𝐸Eitalic_E に再分配することで再配分する( 4 下部の赤い点線ボックス)。 我々は 𝑨𝑰,j=Ssubscript𝑨𝑰𝑗𝑆\boldsymbol{A}_{\boldsymbol{I},j=S}bold_italic_A start_POSTSUBSCRIPT bold_italic_I , italic_j = italic_S end_POSTSUBSCRIPTλSsubscript𝜆𝑆\lambda_{S}italic_λ start_POSTSUBSCRIPT italic_S end_POSTSUBSCRIPT だけ減少させる。これは t=T𝑡𝑇t=Titalic_t = italic_T から t=1𝑡1t=1italic_t = 1 まで線形に0に減衰し、以下のように定式化される:

λS=(t/T)(min(mean(AI,j=S),min(AI,j=S))+W)subscript𝜆𝑆𝑡𝑇minmeansubscript𝐴𝐼𝑗𝑆minsubscript𝐴𝐼𝑗𝑆𝑊\begin{gathered}\leavevmode\resizebox{385.92152pt}{}{$\lambda_{S}=(t\mathbin{/% }T)\cdot(\text{min}(\text{mean}(A_{I,j=S}),\text{min}(A_{I,j=S}))+W)$}\end{gathered}start_ROW start_CELL italic_λ start_POSTSUBSCRIPT italic_S end_POSTSUBSCRIPT = ( italic_t / italic_T ) ⋅ ( min ( mean ( italic_A start_POSTSUBSCRIPT italic_I , italic_j = italic_S end_POSTSUBSCRIPT ) , min ( italic_A start_POSTSUBSCRIPT italic_I , italic_j = italic_S end_POSTSUBSCRIPT ) ) + italic_W ) end_CELL end_ROW (6)

ここで、W𝑊Witalic_W はウォームアップ値であり、特に小さく困難なオブジェクトの編集忠実性を高めるために、初期のサンプリングステップ t<0.1T𝑡0.1𝑇t<0.1Titalic_t < 0.1 italic_Tλ𝜆\lambdaitalic_λ から0まで線形に減衰する。 λ𝜆\lambdaitalic_λ を増加させると忠実性が向上する傾向があるが、アーティファクトが導入される可能性がある。 我々は経験的に、λ=0.4𝜆0.4\lambda=0.4italic_λ = 0.4 が忠実性とアーティファクトのない結果のバランスが最も良いことを見出した。 次に、λSsubscript𝜆𝑆\lambda_{S}italic_λ start_POSTSUBSCRIPT italic_S end_POSTSUBSCRIPT𝑻𝑻\boldsymbol{T}bold_italic_T および E𝐸Eitalic_E にそれぞれ λrsubscript𝜆𝑟\lambda_{r}italic_λ start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT および 1λr1subscript𝜆𝑟1-\lambda_{r}1 - italic_λ start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT の比率で再分配する。 𝑻𝑻\boldsymbol{T}bold_italic_T および E𝐸Eitalic_E のアテンション確率 𝑨𝑰,j𝑻subscript𝑨𝑰𝑗𝑻\boldsymbol{A}_{\boldsymbol{I},j\in\boldsymbol{T}}bold_italic_A start_POSTSUBSCRIPT bold_italic_I , italic_j ∈ bold_italic_T end_POSTSUBSCRIPT および 𝑨𝑰,j=Esubscript𝑨𝑰𝑗𝐸\boldsymbol{A}_{\boldsymbol{I},j=E}bold_italic_A start_POSTSUBSCRIPT bold_italic_I , italic_j = italic_E end_POSTSUBSCRIPT は以下のように更新される:

𝑨𝑰,j𝑻=𝑨𝑰,j𝑻+λSλr/N𝑻𝑨𝑰,j=E=𝑨𝑰,j=E+λS(1λr)subscript𝑨𝑰𝑗𝑻subscript𝑨𝑰𝑗𝑻subscript𝜆𝑆subscript𝜆𝑟subscript𝑁𝑻subscript𝑨𝑰𝑗𝐸subscript𝑨𝑰𝑗𝐸subscript𝜆𝑆1subscript𝜆𝑟\begin{gathered}\boldsymbol{A}_{\boldsymbol{I},j\in\boldsymbol{T}}=\boldsymbol% {A}_{\boldsymbol{I},j\in\boldsymbol{T}}+\lambda_{S}\cdot\lambda_{r}\mathbin{/}% N_{\boldsymbol{T}}\\ \boldsymbol{A}_{\boldsymbol{I},j=E}=\boldsymbol{A}_{\boldsymbol{I},j=E}+% \lambda_{S}\cdot(1-\lambda_{r})\end{gathered}start_ROW start_CELL bold_italic_A start_POSTSUBSCRIPT bold_italic_I , italic_j ∈ bold_italic_T end_POSTSUBSCRIPT = bold_italic_A start_POSTSUBSCRIPT bold_italic_I , italic_j ∈ bold_italic_T end_POSTSUBSCRIPT + italic_λ start_POSTSUBSCRIPT italic_S end_POSTSUBSCRIPT ⋅ italic_λ start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT / italic_N start_POSTSUBSCRIPT bold_italic_T end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL bold_italic_A start_POSTSUBSCRIPT bold_italic_I , italic_j = italic_E end_POSTSUBSCRIPT = bold_italic_A start_POSTSUBSCRIPT bold_italic_I , italic_j = italic_E end_POSTSUBSCRIPT + italic_λ start_POSTSUBSCRIPT italic_S end_POSTSUBSCRIPT ⋅ ( 1 - italic_λ start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT ) end_CELL end_ROW (7)

ここで、N𝑻subscript𝑁𝑻N_{\boldsymbol{T}}italic_N start_POSTSUBSCRIPT bold_italic_T end_POSTSUBSCRIPT はテキストトークンの数を表す。 λrsubscript𝜆𝑟\lambda_{r}italic_λ start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT を増加させると、特定のトークンの編集詳細が強化される可能性があるが、減少させると全体的な編集忠実性が向上する可能性がある。 λr=0.6subscript𝜆𝑟0.6\lambda_{r}=0.6italic_λ start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT = 0.6 はすべての実験で経験的に設定される。

Dataset Name Number Number of Number of Number of Object Number of Instances Instance Instance Range of Average Instance
of Clips Frames per Clip Objects per Clip Classes per Object Class Captions Masks Mask Size Per Video (%)
TGVE [59] & TGVE+ [47] 76 321283212832-12832 - 128 1-2 No Info 1-2 \checkmark ×\times× No Masks
EVA [63] 26 1632163216-3216 - 32 1-2 No Info 1-2 No Info
MIVE Dataset (Ours) 200 1246124612-4612 - 46 3-12 110 1-20 0.0198.68similar-to0.0198.680.01\sim 98.680.01 ∼ 98.68
表1: 我々のマルチインスタンスビデオ編集データセットと他のテキストガイドビデオ編集データセットとの比較。

4 Evaluation Data and Metric

4.1 MIVE Dataset Construction

既存のデータセットは、マルチインスタンスビデオ編集(VE)タスクには適していない。 TGVE [59] とTGVE+ [47] は、ビデオ数が限られており、オブジェクトの種類が少なく、各オブジェクトクラスのインスタンス数も少ない上、インスタンスマスクがない。 GAV [25] とEVA [63] で使用されているデータセット(DAVISのサブセット [39]、TGVE [59]、またはインターネット上のビデオ)は、部分的にアクセス可能であるか、入手不可能である。 DAVIS [39] は同じオブジェクトクラスの複数のインスタンスを単一のエンティティとして扱うため、マルチインスタンスVEには適していない。

この課題に対処するため、我々はマルチインスタンスVEタスクのための新しい評価データセットであるMIVEデータセットを導入する。 我々のMIVEデータセットは、ビデオパノプティックセグメンテーションデータセットであるVIPSeg [37] から多様な200のビデオを特徴とし、各ビデオは 512×512512512512\times 512512 × 512 の領域に中央クロップされている。 VIPSegにはソースキャプションがないため、我々はLLaVA [31] を使用してキャプションを生成し、Llama 3 [14] を使用してキャプションをより少ないトークンに要約する。 次に、オブジェクトとマスクの対応関係を確立するために、キャプションに手動でタグを挿入する。 最後に、Llama 3を使用して、[71] と同様に各インスタンスを入れ替えたりリテクスチャリングしたりすることで、ターゲット編集キャプションを生成する。

1 は、我々のMIVEデータセットと他のVEデータセットを比較している。 EVAのデータセットは公開されていないため、我々は彼らの論文の統計を使用している。 他のデータセットと比較して、MIVEデータセットは最も多くの評価ビデオを提供し、ビデオごとのオブジェクト数とオブジェクトクラスごとのインスタンス数の点で最大の多様性を示している。 我々のデータセットは、ビデオあたりわずか25ピクセル(similar-to\sim0.01%)を占める小さなオブジェクトから、ビデオのsimilar-to\sim98.68%を占める大きなオブジェクトまで、幅広いインスタンスサイズも示している。 詳細については補足資料 セクション C.1 を参照されたい。

4.2 Cross-Instance Accuracy Score

SpaText [1] とInstanceDiffusion [55] は、ローカルテキスト忠実度を用いてローカルなテキストの整合性を評価している。これは、インスタンスキャプションのCLIP [41] テキスト埋め込みと、切り取られたインスタンスの画像埋め込みとのコサイン類似度である。 この方法はテキストとインスタンスの整合性を測定するが、あるインスタンスのキャプションが他のインスタンスに影響を与える可能性があるクロスインスタンス情報漏洩を見落としている。 我々は、インスタンスキャプションの影響を受けるべきではないインスタンスに対してもこのスコアが時として高くなることを観察している(補足資料 セクション C.2参照)。

この問題に対処するため、我々はクロスインスタンス精度(CIA)スコアと呼ぶ新しい指標を提案する。これは以下のように定義される: 各切り取られたインスタンス i𝑖iitalic_i に対して、そのCLIP画像埋め込み Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT と、全ての n𝑛nitalic_n インスタンスキャプション (i,j{1,,n})𝑖𝑗1𝑛(i,j\in\{1,...,n\})( italic_i , italic_j ∈ { 1 , … , italic_n } ) のテキスト埋め込み Cjsubscript𝐶𝑗C_{j}italic_C start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT とのコサイン類似度 S(Ii,Cj)𝑆subscript𝐼𝑖subscript𝐶𝑗S(I_{i},C_{j})italic_S ( italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_C start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) を計算する。これにより、i,j=1,2,,nformulae-sequence𝑖𝑗12𝑛i,j=1,2,...,nitalic_i , italic_j = 1 , 2 , … , italic_n に対して 𝐒=[S(Ii,Cj)]𝐒delimited-[]𝑆subscript𝐼𝑖subscript𝐶𝑗\mathbf{S}=[S(I_{i},C_{j})]bold_S = [ italic_S ( italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_C start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) ] で表される n×n𝑛𝑛n\times nitalic_n × italic_n の類似度行列が生成される。 Sの各行において、最も高い類似度スコアを1に、他をすべて0に設定する。理想的には、対角線上に1、それ以外に0が並ぶ行列となり、各切り取られたインスタンスが自身のキャプションと最もよく整合していることを示す。 CIAは対角要素の平均として以下のように計算される:

CIA=(1/n)Σi=1nS(Ii,Ci).CIA1𝑛superscriptsubscriptΣ𝑖1𝑛𝑆subscript𝐼𝑖subscript𝐶𝑖\text{CIA}=(1\mathbin{/}n)\cdot\Sigma_{i=1}^{n}S(I_{i},C_{i}).CIA = ( 1 / italic_n ) ⋅ roman_Σ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT italic_S ( italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_C start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) . (8)

5 Experiments

Method Venue Editing Global Scores Local Scores Leakage Scores User Study
Scope GTC \uparrow GTF \uparrow FA \uparrow LTC \uparrow LTF \uparrow IA \uparrow CIA (Ours) \uparrow BP \downarrow TC \uparrow TF \uparrow Leakage \uparrow
ControlVideo [70] ICLR’24 Global 0.9743 0.2738 0.8856 0.9548 0.1960 0.4941 0.4967 72.8690 6.97 14.00 6.26
FLATTEN [11] ICLR’24 Global 0.9679 0.2388 0.2637 0.9507 0.1881 0.2469 0.5111 62.8136 32.32 2.45 9.74
RAVE [26] CVPR’24 Global 0.9675 0.2727 0.5777 0.9551 0.1869 0.3512 0.4945 64.8703 10.45 3.61 4.52
TokenFlow [16] ICLR’24 Global 0.9686 0.2569 0.5622 0.9478 0.1868 0.3501 0.5307 68.6688 7.61 3.16 4.26
FreSCo [62] CVPR’24 Global 0.9541 0.2527 0.4202 0.9324 0.1860 0.2962 0.5172 85.1843 3.55 1.81 3.42
GAV [25] ICLR’24 Local, Multiple 0.9660 0.2566 0.5504 0.9514 0.1893 0.3703 0.5492 60.0773 8.90 7.74 9.74
MIVE (Ours) - Local, Multiple 0.9604 0.2750 0.8557 0.9478 0.2138 0.6419 0.7100 54.3452 30.20 67.23 62.06
表2: マルチインスタンスビデオ編集の定量的比較。最良および2番目に良いスコアはそれぞれで示されている。

実装の詳細。 我々は単一のNVIDIA RTX A6000 GPUで実験を行った。 Stable Diffusion [44] v1.5をControlNet [69]および深度 [43]を条件として使用した。 [11]に従い、空のテキストで100ステップの反転を行った後、T=50𝑇50T=50italic_T = 50ステップのDDIM逆ノイズ化を実行した。 我々のCFG [19]スケールは12.5である。 我々のフレームワークで採用しているFLATTEN [11]のために、RAFT [51]を使用してオプティカルフローを推定した。 我々のIPRを適用し、最初の40ステップではLPSとNPSを交互に行い、最後の10ステップではNPSのみに切り替えた。 具体的には、最初の40ステップでは、9ステップのLPSと1ステップのNPSをl=3𝑙3l=3italic_l = 3回の再反転ステップで行い、このサイクルを4回繰り返した。 最後の10ステップでは、IPRを無効にし、l=2𝑙2l=2italic_l = 2回の再反転ステップでNPSを実行した。

評価指標。 編集されたフレームを評価するために、我々は標準的な指標を報告する:(i) グローバル時間的一貫性(GTC) [63, 26, 11, 62]:連続するフレーム間のCLIP [41]画像埋め込みのコサイン類似度の平均、(ii) グローバルテキスト忠実度(GTF) [63, 26, 11, 16]:フレームとグローバル編集プロンプト間の平均類似度、および (iii) フレーム精度(FA) [63, 62]:ソースプロンプトよりもターゲットプロンプトとの類似度が高いフレームの割合である。

グローバルな評価指標は全体的なフレーム品質を評価するが、マルチインスタンスタスクに不可欠な個々のインスタンス編集の細かな違いを見落としている。 この問題に対処するため、我々は局所的時間一貫性(LTC)、局所的テキスト忠実度(LTF)[55, 1]、および切り取られた編集済みインスタンスを用いて計算されるインスタンス精度(IA)を使用する。 評価指標の計算詳細は補足資料セクションC.3に記載されている。 我々はまた、提案するCIA(セクション4.2)を通じてインスタンス間の漏洩を定量化し、背景保存(BP)[71]を通じて背景の漏洩を定量化する。背景保存は入力フレームと編集されたフレームの背景間のL1subscript𝐿1L_{1}italic_L start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT距離である。

5.1 Experimental Results

Refer to caption
図5: 我々のMIVEデータセットにおける3つのビデオ(左から右へ難易度が上がる)の定性的比較。 (a)は、対応するインスタンスキャプションと一致するように入力フレームに重ねられたカラーコードマスクを示す。 (b)-(f)はグローバルターゲットキャプションを編集に使用。 (g)はグローバルおよびインスタンスターゲットキャプションとバウンディングボックスを使用((a)では視覚化のために省略)。 我々のMIVE (h)はインスタンスキャプションとマスクを使用。 不忠実な編集例は赤矢印で、注意の漏れは緑矢印で示されている。

我々は、最近のゼロショットビデオ編集(VE)手法と我々のフレームワークを比較する:(i) 5つのグローバル編集:ControlVideo [70]、FLATTEN [11]、RAVE [26]、FreSCo [62]、TokenFlow [16]、および (ii) 1つの複数オブジェクト編集:GAV [25]。 グローバル編集手法には、単一のグローバルソースおよび編集キャプションを使用する。 GAVには、グローバルおよびローカルのソースとターゲットキャプションの組み合わせと、バウンディングボックス条件を使用する。 コードがまだ公開されていないため、同時期の研究であるEVA [63]は除外し、Video-P2P [32]は一度に1つのインスタンスを編集し、複数インスタンス編集シナリオで使用すると誤差が蓄積するため除外する(補足資料 セクション D.4参照)。 各ベースラインについて、すべてのビデオでデフォルト設定を使用する。

定性的比較 5に定性的比較を示す。 示されているように、ControlVideoとGAVは注意の漏れに悩まされている(例えば 5-(b)と-(g)のビデオ1で"黄色""エイリアン"に影響している)一方、FLATTEN、RAVE、TokenFlow、FreSCo、およびGAVはすべての例で不忠実な編集を示している( 5-(c)から 5-(g))。 さらに、ControlVideoとFreSCoはインスタンス編集のミスマッチを示している。これは 5-(b)のビデオ2(左側の男性を誤って"赤いドレスの女性"に変更)と 5-(f)のビデオ1(左側の洗濯機を誤って"黄色い洗濯機"に変更)にそれぞれ示されている。 対照的に、我々の手法は編集をインスタンスマスク内に限定し、インスタンスキャプションに忠実に従い、インスタンス編集のミスマッチを示さない。

定量的比較。 表2に定量的比較を示す。 最先端の手法は、(i) LTFとIAスコアが低く、インスタンスレベルの編集の精度が低いこと、および (ii) CIAスコアが低く、注意の漏れが著しいことを示している。 しかし、時間的一貫性関連のメトリクス(GTCとLTC)では、(i) テクスチャや詳細が少ない滑らかな結果( 5-(b)、ビデオ2)または (ii) 不忠実な編集( 5-(c)から 5-(g))により、インスタンスを変更せずに入力ビデオの構造と動きを保持しているため、より良いスコアを示している。 対照的に、我々のMIVEはGTFと主要な複数インスタンスVEメトリクス(LTF、IA、CIA、およびBP)で最高スコアを達成し、競争力のあるLTCスコアを維持している。 我々のFAはControlVideoに次いで2位であるが、これはCLIPの構成的推論の限界 [23, 36]に起因すると考えられ、グローバルキャプションとフレーム内のインスタンス間の複雑な関係を捉えることができない。 これにより、インスタンス編集のミスマッチにもかかわらず(例えば 5-(b)のビデオ2で2人の編集が入れ替わっている)、より高いFAスコアにつながる可能性がある。 なお、我々のMIVEはGAVのようにインペインティングモデルを使用せずに最高のBPパフォーマンスを示しており、インスタンス編集を分離しながら背景を保持し、漏れを防ぐ効果を示している。 追加のデモビデオは補足資料で利用可能である。

Methods LTC \uparrow LTF \uparrow IA \uparrow CIA \uparrow BP \downarrow
DMS Only NPS 0.9460 0.2072 0.5587 0.6663 54.6597
Only LPS 0.9483 0.2068 0.5716 0.6688 50.8549
LPS + NPS w/o Re-Inversion 0.9485 0.2080 0.5776 0.6783 52.3240
Ours, Full 0.9478 0.2138 0.6419 0.7100 54.3452
IPR No Modulation [44] 0.9535 0.2060 0.5225 0.6553 50.1319
Dense Diffusion [28] 0.9482 0.2136 0.6215 0.6891 59.2100
Ours, Full 0.9478 0.2138 0.6419 0.7100 54.3452
表3: DMS(セクション 3.2)とIPR(セクション 3.3)に関するアブレーション研究の結果。 LPSとNPSはそれぞれLatent Parallel SamplingとNoise Parallel Samplingを表す。 最良および2番目に良いスコアはそれぞれで示されている。

ユーザー調査。 我々はベースラインと我々の手法を比較するユーザー調査を実施し、結果を 2に報告する。 我々のデータセットから、多様なシナリオ(クリップあたりのオブジェクト数、オブジェクトクラスあたりのインスタンス数、インスタンスサイズの変化)をカバーする50のビデオを選択した。 31人の参加者に、時間的一貫性(TC)、テキストの忠実性(TF)、および編集の漏れの最小化(Leakage)において最良の手法を選択するタスクを課した。 我々の手法はベースラインを上回り、TFで67.23%、漏れの最小化で62.06%の確率で最良として選択された。 MIVEはまた、30.20%の選択率で2番目に良いTCを達成した。 これは我々のGTCおよびLTCスコアとの不一致であるが、CLIPが連続するフレームの一貫性に焦点を当てているのに対し、人間の評価者はインスタンスとフレーム全体の視覚的安定性を優先しているためかもしれない。 ユーザー調査の詳細は補足資料に記載されている。

5.2 Ablation Studies

Refer to caption
図6: DMS(セクション 3.2)に関するアブレーション実験。

我々のアブレーション実験では、主要なマルチインスタンスVE指標を 3に報告し、グローバルスコアを補足資料に提供している。

DMSに関するアブレーション実験。 我々はDMSに関するアブレーション実験を実施し、定性的結果を 6に、定量的結果を 3に示す。 6から、以下のことが観察される: (b) NPSのみを使用すると、最適ではなく忠実でない編集結果となる;(c) LPSのみを使用すると、ノイズの多い、ぼやけたテクスチャで詳細が乏しくなる;(d) LPSとNPSを交互に実行すると、(c)と同様のアーティファクトが生じるが、エッジがやや鮮明になり、LPSとNPSの交互実行の重要性が強調される; そして(e) 再逆変換を追加すると、アーティファクトが少なく、境界がより鮮明で、詳細が強化された忠実な編集が生成され、我々の再逆変換技術の有効性が実証される。 表3はこれらの発見を裏付けており、我々の完全な手法がLTF、IA、CIAに反映されるように、最高の編集忠実度を達成しているが、BPとLTCがわずかに低下している。 全体として、我々の最終モデルは忠実度、BP、LTCの間でバランスの取れたトレードオフを実現している。

Refer to caption
図7: IPR(セクション 3.3)に関するアブレーション実験。

IPRに関するアブレーション実験。 我々はIPRに関するアブレーション実験も実施し、定性的結果を 7に、定量的結果を 3に示す。 7-(b)に示されるように、変調を省略するとモデルは入力フレームを再構成する傾向がある。 この再構成により、入力の高いLTCは保持されるが、忠実でない編集(低いLTFとIA)と漏洩(低いCIA)が大きく生じる。 DenseDiffusion [28]を通じて変調を導入すると( 7-(c))、LTCがわずかに低下するが、忠実度が向上し、漏洩が減少する。ただし、注意マップの空間分布の変化により、深刻なぼかしと平滑化のアーティファクトが生じる。 これらのアーティファクトは、結果としてBPを悪化させる。 対照的に、我々のIPRは忠実な編集(最高のLTFとIA)と少ない漏洩(最高のCIA)を生成し、DenseDiffusionよりもアーティファクトが少なく(より良いBP)、LTCのわずかな低下で済んでいる。

6 Conclusion

本稿では、Disentangled Multi-instance Sampling (DMS) とInstance-centric Probability Redistribution (IPR) を特徴とする新しい汎用マスクベースの多インスタンスビデオ編集フレームワークであるMIVEを紹介する。 我々の手法は、注意の漏れを最小限に抑えつつ、忠実で分離された編集を実現し、我々が新たに提案するMIVEデータセットにおける定性的および定量的分析の両面で、既存の最先端手法を凌駕している。 さらに、注意の漏れを定量化するための新しいCross-Instance Accuracy (CIA) スコアを提案する。 我々のユーザー調査は、MIVEの堅牢性と有効性を支持しており、参加者は我々の手法を好んでいる。

References

  • Avrahami et al. [2023] Omri Avrahami, Thomas Hayes, Oran Gafni, Sonal Gupta, Yaniv Taigman, Devi Parikh, Dani Lischinski, Ohad Fried, and Xi Yin. Spatext: Spatio-textual representation for controllable image generation. In CVPR. IEEE, 2023.
  • Bar-Tal et al. [2022] Omer Bar-Tal, Dolev Ofri-Amar, Rafail Fridman, Yoni Kasten, and Tali Dekel. Text2live: Text-driven layered image and video editing. In ECCV, pages 707–723. Springer, 2022.
  • Bar-Tal et al. [2023] Omer Bar-Tal, Lior Yariv, Yaron Lipman, and Tali Dekel. MultiDiffusion: Fusing diffusion paths for controlled image generation. In ICML, pages 1737–1752, 2023.
  • Blattmann et al. [2023] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In CVPR, pages 22563–22575, 2023.
  • Brooks et al. [2024] Tim Brooks, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, et al. Video generation models as world simulators, 2024.
  • Ceylan et al. [2023] Duygu Ceylan, Chun-Hao P Huang, and Niloy J Mitra. Pix2video: Video editing using image diffusion. In ICCV, pages 23206–23217, 2023.
  • Chai et al. [2023] Wenhao Chai, Xun Guo, Gaoang Wang, and Yan Lu. Stablevideo: Text-driven consistency-aware diffusion video editing. In ICCV, pages 23040–23050, 2023.
  • Chefer et al. [2023] Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, and Daniel Cohen-Or. Attend-and-excite: Attention-based semantic guidance for text-to-image diffusion models. ACM Trans. Graph., 42(4):1–10, 2023.
  • Chen et al. [2024] Minghao Chen, Iro Laina, and Andrea Vedaldi. Training-free layout control with cross-attention guidance. In WACV, pages 5343–5353, 2024.
  • Cheng et al. [2024] Jiaxin Cheng, Tianjun Xiao, and Tong He. Consistent video-to-video transfer using synthetic dataset. In ICLR, 2024.
  • Cong et al. [2024] Yuren Cong, Mengmeng Xu, christian simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, and Sen He. FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing. In ICLR, 2024.
  • Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. NeurIPS, 34:8780–8794, 2021.
  • Dhiman et al. [2024] Ankit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, and R Venkatesh Babu. Reflecting reality: Enabling diffusion models to produce faithful mirror reflections. arXiv preprint arXiv:2409.14677, 2024.
  • Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Esser et al. [2023] Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, and Anastasis Germanidis. Structure and content-guided video synthesis with diffusion models. In ICCV, pages 7346–7356, 2023.
  • Geyer et al. [2024] Michal Geyer, Omer Bar-Tal, Shai Bagon, and Tali Dekel. Tokenflow: Consistent diffusion features for consistent video editing. In ICLR, 2024.
  • He et al. [2022] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, and Qifeng Chen. Latent video diffusion models for high-fidelity long video generation. arXiv preprint arXiv:2211.13221, 2022.
  • Hertz et al. [2022] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Prompt-to-prompt image editing with cross attention control. arXiv preprint arXiv:2208.01626, 2022.
  • Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. NeurIPS, 33:6840–6851, 2020.
  • Ho et al. [2022] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben Poole, Mohammad Norouzi, David J Fleet, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022.
  • Hong et al. [2024] Seongmin Hong, Kyeonghyun Lee, Suh Yoon Jeon, Hyewon Bae, and Se Young Chun. On exact inversion of dpm-solvers. In CVPR, pages 7069–7078, 2024.
  • Hu et al. [2023] Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, and Noah A Smith. Tifa: Accurate and interpretable text-to-image faithfulness evaluation with question answering. In ICCV, pages 20406–20417, 2023.
  • Jamriška et al. [2019] Ondřej Jamriška, Šárka Sochorová, Ondřej Texler, Michal Lukáč, Jakub Fišer, Jingwan Lu, Eli Shechtman, and Daniel Sỳkora. Stylizing video by example. ACM Transactions on Graphics (TOG), 38(4):1–11, 2019.
  • Jeong and Ye [2024] Hyeonho Jeong and Jong Chul Ye. Ground-a-video: Zero-shot grounded video editing using text-to-image diffusion models. In ICLR, 2024.
  • Kara et al. [2024] Ozgur Kara, Bariscan Kurtkaya, Hidir Yesiltepe, James M Rehg, and Pinar Yanardag. Rave: Randomized noise shuffling for fast and consistent video editing with diffusion models. In CVPR, pages 6507–6516, 2024.
  • Kim and Kim [2024] Jini Kim and Hajun Kim. Unlocking creator-ai synergy: Challenges, requirements, and design opportunities in ai-powered short-form video production. In Proceedings of the CHI Conference on Human Factors in Computing Systems, pages 1–23, 2024.
  • Kim et al. [2023] Yunji Kim, Jiyoung Lee, Jin-Hwa Kim, Jung-Woo Ha, and Jun-Yan Zhu. Dense text-to-image generation with attention modulation. In ICCV, pages 7701–7711, 2023.
  • Li et al. [2023] Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, and Yong Jae Lee. Gligen: Open-set grounded text-to-image generation. In CVPR, pages 22511–22521, 2023.
  • Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, pages 740–755. Springer, 2014.
  • Liu et al. [2024a] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. In CVPR, pages 26296–26306, 2024a.
  • Liu et al. [2024b] Shaoteng Liu, Yuechen Zhang, Wenbo Li, Zhe Lin, and Jiaya Jia. Video-p2p: Video editing with cross-attention control. In CVPR, pages 8599–8608, 2024b.
  • Liu et al. [2023] Ying Liu, Dickson KW Chiu, and Kevin KW Ho. Short-form videos for public library marketing: performance analytics of douyin in china. Applied Sciences, 13(6):3386, 2023.
  • Lu et al. [2022a] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models. arXiv preprint arXiv:2211.01095, 2022a.
  • Lu et al. [2022b] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver: A fast ode solver for diffusion probabilistic model sampling in around 10 steps. NeurIPS, 35:5775–5787, 2022b.
  • Ma et al. [2023] Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, and Ranjay Krishna. Crepe: Can vision-language foundation models reason compositionally? In CVPR, pages 10910–10921, 2023.
  • Miao et al. [2022] Jiaxu Miao, Xiaohan Wang, Yu Wu, Wei Li, Xu Zhang, Yunchao Wei, and Yi Yang. Large-scale video panoptic segmentation in the wild: A benchmark. In CVPR, pages 21033–21043, 2022.
  • Nichol et al. [2022] Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob Mcgrew, Ilya Sutskever, and Mark Chen. GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models. In ICML, pages 16784–16804, 2022.
  • Pont-Tuset et al. [2017] Jordi Pont-Tuset, Federico Perazzi, Sergi Caelles, Pablo Arbeláez, Alex Sorkine-Hornung, and Luc Van Gool. The 2017 davis challenge on video object segmentation. arXiv preprint arXiv:1704.00675, 2017.
  • Qi et al. [2023] Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying Shan, and Qifeng Chen. Fatezero: Fusing attentions for zero-shot text-based video editing. In ICCV, pages 15932–15942, 2023.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, pages 8748–8763. PMLR, 2021.
  • Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
  • Ranftl et al. [2020] René Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, and Vladlen Koltun. Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. IEEE TPAMI, 44(3):1623–1637, 2020.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, pages 10684–10695, 2022.
  • Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. NeurIPS, 35:36479–36494, 2022.
  • Shirakawa and Uchida [2024] Takahiro Shirakawa and Seiichi Uchida. Noisecollage: A layout-aware text-to-image diffusion model based on noise cropping and merging. In CVPR, pages 8921–8930, 2024.
  • Singer et al. [2024] Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, and Yaniv Taigman. Video editing via factorized diffusion distillation. In ECCV, pages 450–466. Springer, 2024.
  • Soe [2021] Than Htut Soe. Automation in video editing: Assisted workflows in video editing. In AutomationXP@ CHI, 2021.
  • Song et al. [2021a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR, 2021a.
  • Song et al. [2021b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR, 2021b.
  • Teed and Deng [2020] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow. In ECCV, pages 402–419. Springer, 2020.
  • Vandersmissen et al. [2014] Baptist Vandersmissen, Fréderic Godin, Abhineshwar Tomar, Wesley De Neve, and Rik Van de Walle. The rise of mobile and social short-form video: an in-depth measurement study of vine. In Workshop on Social Multimedia and Storytelling (SoMuS 2014), pages 1–10, 2014.
  • Wang et al. [2023a] Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, and Shiwei Zhang. Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571, 2023a.
  • Wang et al. [2024a] Jiangshan Wang, Yue Ma, Jiayi Guo, Yicheng Xiao, Gao Huang, and Xiu Li. Cove: Unleashing the diffusion feature correspondence for consistent video editing. arXiv preprint arXiv:2406.08850, 2024a.
  • Wang et al. [2024b] Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, and Ishan Misra. Instancediffusion: Instance-level control for image generation. In CVPR, pages 6232–6242, 2024b.
  • Wang et al. [2024c] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. Videocomposer: Compositional video synthesis with motion controllability. NeurIPS, 36, 2024c.
  • Wang et al. [2023b] Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, et al. Lavie: High-quality video generation with cascaded latent diffusion models. arXiv preprint arXiv:2309.15103, 2023b.
  • Wu et al. [2023a] Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, and Mike Zheng Shou. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation. In ICCV, pages 7623–7633, 2023a.
  • Wu et al. [2023b] Jay Zhangjie Wu, Xiuyu Li, Difei Gao, Zhen Dong, Jinbin Bai, Aishani Singh, Xiaoyu Xiang, Youzeng Li, Zuwei Huang, Yuanxi Sun, et al. Cvpr 2023 text guided video editing competition. arXiv preprint arXiv:2310.16003, 2023b.
  • Xie et al. [2023] Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng, and Mike Zheng Shou. Boxdiff: Text-to-image synthesis with training-free box-constrained diffusion. In ICCV, pages 7452–7461, 2023.
  • Yang et al. [2023a] Fei Yang, Shiqi Yang, Muhammad Atif Butt, Joost van de Weijer, et al. Dynamic prompt learning: Addressing cross-attention leakage for text-based image editing. NeurIPS, 36:26291–26303, 2023a.
  • Yang et al. [2024a] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Fresco: Spatial-temporal correspondence for zero-shot video translation. In CVPR, pages 8703–8712, 2024a.
  • Yang et al. [2024b] Xiangpeng Yang, Linchao Zhu, Hehe Fan, and Yi Yang. Eva: Zero-shot accurate attributes and multi-object video editing. arXiv preprint arXiv:2403.16111, 2024b.
  • Yang et al. [2023b] Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, et al. Reco: Region-controlled text-to-image generation. In CVPR, pages 14246–14255, 2023b.
  • Yeh et al. [2024] Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, and Yu-Lun Liu. Diffir2vr-zero: Zero-shot video restoration with diffusion-based image restoration models. arXiv preprint arXiv:2407.01519, 2024.
  • Yu et al. [2023a] Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, et al. Magvit: Masked generative video transformer. In CVPR, pages 10459–10469, 2023a.
  • Yu et al. [2023b] Sihyun Yu, Kihyuk Sohn, Subin Kim, and Jinwoo Shin. Video probabilistic diffusion models in projected latent space. In CVPR, pages 18456–18466, 2023b.
  • Yuksel and Tan [2023] Asim Sinan Yuksel and Fatma Gulsah Tan. Deepcens: A deep learning-based system for real-time image and video censorship. Expert Systems, 40(10):e13436, 2023.
  • Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, pages 3836–3847, 2023.
  • Zhang et al. [2024a] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, and Qi Tian. Controlvideo: Training-free controllable text-to-video generation. In ICLR, 2024a.
  • Zhang et al. [2024b] Zhixing Zhang, Bichen Wu, Xiaoyan Wang, Yaqiao Luo, Luxin Zhang, Yinan Zhao, Peter Vajda, Dimitris Metaxas, and Licheng Yu. Avid: Any-length video inpainting with diffusion model. In CVPR, pages 7162–7172, 2024b.

A Preliminaries

我々は本節で、反転ベースの動画編集がどのように達成されるかを簡潔に紹介する。 入力フレームの集合 f1:Nsuperscript𝑓:1𝑁f^{1:N}italic_f start_POSTSUPERSCRIPT 1 : italic_N end_POSTSUPERSCRIPTが与えられた場合、各フレーム fisuperscript𝑓𝑖f^{i}italic_f start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT は潜在拡散モデル(LDM)のエンコーダー \mathcal{E}caligraphic_E を用いてクリーンな潜在コード z0i=(fi)superscriptsubscript𝑧0𝑖superscript𝑓𝑖z_{0}^{i}=\mathcal{E}(f^{i})italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT = caligraphic_E ( italic_f start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ) にエンコードされる [44]。 DDIM反転 [49, 12] が適用され、クリーンな潜在 z0isuperscriptsubscript𝑧0𝑖z_{0}^{i}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT をノイズのある潜在 z^Tisuperscriptsubscript^𝑧𝑇𝑖\hat{z}_{T}^{i}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT に、LDMのU-Net ϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT を用いて逆拡散タイムステップ t:1T:𝑡1𝑇t:1\rightarrow Titalic_t : 1 → italic_T を通じてマッピングする:

z^ti=αtz^t1i1αt1ϵθ(It1)αt1+1αtϵθ(It1),superscriptsubscript^𝑧𝑡𝑖subscript𝛼𝑡superscriptsubscript^𝑧𝑡1𝑖1subscript𝛼𝑡1subscriptitalic-ϵ𝜃subscript𝐼𝑡1subscript𝛼𝑡11subscript𝛼𝑡subscriptitalic-ϵ𝜃subscript𝐼𝑡1\begin{split}\leavevmode\resizebox{385.92152pt}{}{$\hat{z}_{t}^{i}=\sqrt{% \alpha_{t}}\dfrac{\hat{z}_{t-1}^{i}-\sqrt{1-\alpha_{t-1}}\epsilon_{\theta}(I_{% t-1})}{\sqrt{\alpha_{t-1}}}+\sqrt{1-\alpha_{t}}\epsilon_{\theta}(I_{t-1})$},% \end{split}start_ROW start_CELL over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG divide start_ARG over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_I start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT ) end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG end_ARG + square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_I start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT ) , end_CELL end_ROW (9)

ここで、αtsubscript𝛼𝑡\alpha_{t}italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT はノイズスケジューリングパラメータを表し [44]It=(z^t,t,c,e)subscript𝐼𝑡subscript^𝑧𝑡𝑡𝑐𝑒I_{t}=(\hat{z}_{t},t,c,e)italic_I start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = ( over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , italic_c , italic_e ) はテキストプロンプト c𝑐citalic_c を入力としたタイムステップ t𝑡titalic_t におけるノイズのある潜在を表す。 反転後、t=T𝑡𝑇t=Titalic_t = italic_T における潜在 z^tisuperscriptsubscript^𝑧𝑡𝑖\hat{z}_{t}^{i}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT が編集を実行するためのDDIMノイズ除去プロセス [49] への入力として使用される:

z^t1i=αt1z^ti1αtϵθ(It)αt+1αt1ϵθ(It).superscriptsubscript^𝑧𝑡1𝑖subscript𝛼𝑡1superscriptsubscript^𝑧𝑡𝑖1subscript𝛼𝑡subscriptitalic-ϵ𝜃subscript𝐼𝑡subscript𝛼𝑡1subscript𝛼𝑡1subscriptitalic-ϵ𝜃subscript𝐼𝑡\begin{split}\leavevmode\resizebox{418.08165pt}{}{$\hat{z}_{t-1}^{i}=\sqrt{% \alpha_{t-1}}\dfrac{{\hat{z}_{t}^{i}}-\sqrt{1-\alpha_{t}}\epsilon_{\theta}(I_{% t})}{\sqrt{\alpha_{t}}}+\sqrt{1-\alpha_{t-1}}\epsilon_{\theta}(I_{t})$}.\end{split}start_ROW start_CELL over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG divide start_ARG over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_I start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG + square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_I start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) . end_CELL end_ROW (10)

ControlNet [69] 条件 e𝑒eitalic_e は、サンプリングの追加ガイダンスとして加えることができ、任意の構造化情報(例えば、深度マップ)から得ることができる。 編集されたフレーム f^i=𝒟(z^0i)superscript^𝑓𝑖𝒟superscriptsubscript^𝑧0𝑖\hat{f}^{i}=\mathcal{D}(\hat{z}_{0}^{i})over^ start_ARG italic_f end_ARG start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT = caligraphic_D ( over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ) は、LDMのデコーダー 𝒟𝒟\mathcal{D}caligraphic_D を用いて得られる。 分類器フリーガイダンス [19] スケール scfg=1subscript𝑠𝑐𝑓𝑔1s_{cfg}=1italic_s start_POSTSUBSCRIPT italic_c italic_f italic_g end_POSTSUBSCRIPT = 1 と、より大きなスケール scfg1much-greater-thansubscript𝑠𝑐𝑓𝑔1s_{cfg}\gg 1italic_s start_POSTSUBSCRIPT italic_c italic_f italic_g end_POSTSUBSCRIPT ≫ 1 が、それぞれ反転とノイズ除去の際に使用される。

B Demo Videos

我々の手法および比較対象となる基準手法のサンプル入力動画と編集後の動画を、プロジェクトページにて提供している: https://kaist-viclab.github.io/mive-site/

C Dataset and Metrics Additional Details

Use Case Number Number of Number of Number of Object Number of Instances Range of Average Instance
of Clips Frames per Clip Objects per Clip Classes per Object Class Mask Size Per Video (%)
MIVE Dataset (full set) 200 1246124612-4612 - 46 3-12 110 1-20 0.0198.68similar-to0.0198.680.01\sim 98.680.01 ∼ 98.68
For Editing (Things without Stuff) 200 1246124612-4612 - 46 1-9 54 1-17 0.0277.35similar-to0.0277.350.02\sim 77.350.02 ∼ 77.35
For User Study 50 1346134613-4613 - 46 2-9 38 1-16 0.0575.62similar-to0.0575.620.05\sim 75.620.05 ∼ 75.62
For Demo 40 1346134613-4613 - 46 2-9 35 1-16 0.0569.74similar-to0.0569.740.05\sim 69.740.05 ∼ 69.74
表4: 様々なユースケースにおける我々のマルチインスタンスビデオ編集データセットの統計。 (i) MIVEデータセットは、「stuff」と「thing」カテゴリの両方を含む我々のデータセットの完全なセットである。 (ii) 編集については、「thing」カテゴリのオブジェクトのみを編集するため、一部の統計が減少している。 (iii) ユーザースタディについては、多様なシナリオをカバーする50本のビデオのみを選択している。 (iv) デモについては、多様なシナリオをカバーする40本のビデオのみを選択している。
Refer to caption
図8: 各ビデオに対するMIVEデータセットのキャプション生成パイプライン。 黄色のボックス: プロセスは、LLaVA [31] にビデオ内のすべてのインスタンスを含むキャプションを生成するようプロンプトを与えることから始まる。 LLaVaは画像のみを受け付けるため、各フレームに対してプロンプトを実行し、最も多くのインスタンスを含む代表的なキャプションを選択する。 赤いボックス: Llama 3 [14] を使用して、LLaVaが生成した初期キャプションを要約する。 青いボックス: キャプションに含まれていない関心のあるすべてのインスタンスを手動で含め、インスタンスキャプションを対応するセグメンテーションマスクにマッピングするためのタグを手動で追加する。 紫のボックス: [71] と同様に、各インスタンスのテクスチャ変更やスワップによるターゲットキャプションを生成するためにLlama 3を使用する。
Refer to caption
図9: 我々のMIVEデータセットからのサンプルフレームとキャプション(パート1)。色付きのテキストはインスタンスターゲットキャプションである。各ビデオについて、インスタンスマスクはグローバルターゲットキャプション内のインスタンスターゲットキャプションに対応するように色分けされている。
Refer to caption
図10: 我々のMIVEデータセットからのサンプルフレームとキャプション(パート2)。色付きのテキストはインスタンスターゲットキャプションである。各ビデオについて、インスタンスマスクはグローバルターゲットキャプション内のインスタンスターゲットキャプションに対応するように色分けされている。

C.1 MIVE Dataset Construction

我々のMIVEデータセットを作成するために、VIPSegの各動画から512×512512512512\times 512512 × 512の領域を中央クロップした[37]。 我々は、すべてのインスタンスがフレーム間で可視である動画のみを選択した。 また、12フレーム未満の動画は除外した。 多様性を確保するため、最も頻繁に出現する40のオブジェクトクラスのうち1つのみを含む動画(例えば、人物のみ)を削除した。 このプロセスにより、VIPSegから最終的に200の動画のサブセットが得られた。

VIPSegにはソースキャプションが含まれていないため、視覚言語モデル(LLaVA [31])とLLM(Llama 3 [14])を使用して動画キャプションを生成した。 我々のキャプション生成パイプラインを本補足資料 8に示す。 まず、LLaVAに動画の各フレームのシーンを説明し、動画から既知のオブジェクトをキャプションに含めるよう指示した。 すべてのフレームキャプションから、最も多くのインスタンスを含むものを動画の代表的なキャプションとして選択した。 次に、Llama 3 [14]に、この初期キャプションをより簡潔な形式に要約し、トークン数を減らしてJSON形式で出力するよう指示した( 8では視覚化を簡略化するために省略)。 LLaVAとLlamaは各動画に対して有用な初期キャプションを提供するが、すべてのオブジェクトが各動画で正確に捉えられているわけではない。 そのため、我々は手動でキャプションを精緻化し、各インスタンストークンの開始タグと終了タグを追加して、対応するセグメンテーションマスクの参照として機能させた。

各インスタンスのターゲットキャプションを生成するために、[71]と同様に、Llama 3を使用してテクスチャの再適用やインスタンスの交換などの編集を促した。 Llama 3に各インスタンスのターゲットキャプションの候補を5つ生成するよう指示し、そのうちの1つをランダムに選択して最終的なインスタンスキャプションを作成した。 最後に、元のソースキャプションを修正し、ソースインスタンスキャプションを最終的なターゲットインスタンスキャプションに置き換えて、グローバルターゲットキャプションを生成した。 我々のタスクでは「thing」インスタンスのみを使用しているが、「stuff」オブジェクトと背景要素のキャプションも生成した。 この設定により、将来的にデータセットを拡張し、LLMを使用してこれらのオブジェクトのターゲット編集を作成することが可能となる。 サンプルフレームとキャプションを図9および10に示す。

C.2 Cross-Instance Accuracy (CIA) Score

Refer to caption
図11: クロスインスタンス精度(CIA)スコアの計算の可視化。我々は、各切り取られたインスタンスとすべてのインスタンスキャプションの間のローカルテキスト忠実度(LTF)を計算する。各行において、最大のLTF(で表示)に1を、残りに0を割り当てる。CIAスコアは対角要素(で表示)の平均として計算される。

我々のクロスインスタンス精度(CIA)スコアは、既存の動画編集メトリクスの欠点、特に潜在的な編集漏れ(文献では一般に注意漏れと呼ばれる)を考慮できない点に対処するために提案された。 グローバルテキスト忠実度(GTF)とフレーム精度(FA)メトリクスは、グローバルキャプションとフレーム内の個々のインスタンスのニュアンスを捉えることができないため、あるインスタンスのテキストプロンプトが別のインスタンスに漏れるケースを考慮できない。 インスタンス精度(IA)は、切り取られたインスタンスがソースキャプションと比較してターゲットキャプションにより適合しているかどうかのみを判断し、別のインスタンスキャプションが切り取られたインスタンスに影響を与えているかどうかを考慮していない。 ローカルテキスト忠実度(LTF)は、インスタンスのターゲットキャプションと対応する切り取られたインスタンスの整合性のみを定量化するが、他のインスタンスキャプションからの潜在的な注意漏れも見過ごしている。 背景保存(BP)は背景の修正と注意漏れを測定できるが、特定のインスタンスキャプションの影響を受けるべきではないインスタンスにおける漏れを考慮していない。 我々はさらに、切り取られたインスタンスと、それに影響を与えるべきではない別のターゲットインスタンスキャプションとのローカルテキスト忠実度が、切り取られたインスタンスとそれに対応するターゲットインスタンスキャプションとのスコアよりも高くなることがあることを観察した(赤字 11に示す)。

我々の問題の性質と、上記の制限事項および観察結果から、動画編集タスクにおけるインスタンス間の注意漏れを考慮できる新しい評価メトリクスとして、クロスインスタンス精度(CIA)スコアを提案するに至った。 我々のCIAスコアの計算を 11で可視化し、本稿の主要部分の4.2節でCIAスコアの計算方法の詳細な説明を提供している。

C.3 Local Metrics Computation

局所的スコアを計算するために、我々はマスクから推論された境界ボックスを使用して各インスタンスをクロップし、アスペクト比を保持するためにパディングを追加する。 局所的テキスト忠実度(LTF)は、[41]に従い、各クロップされたインスタンスのCLIP画像埋め込みとそのインスタンスキャプションのテキスト埋め込み間の平均コサイン類似度として計算される。 局所的時間的一貫性(LTC)は、同様に連続するフレーム間でクロップされたインスタンス間の平均コサイン類似度として測定される。 インスタンス精度(IA)は、ソースインスタンスキャプションよりもターゲットインスタンスキャプションに対する類似度が高いインスタンスの割合である。

D Comparison with State-of-the-Art Methods

D.1 Qualitative Comparison

Refer to caption
図12: 最先端の動画編集手法との定性的比較(パート1)。 (a)は、対応するインスタンスキャプションに合わせて入力フレームに重ねられたカラーコードのマスクを示している。 (b)-(f)は編集にグローバルターゲットキャプションを使用している。 (g)はグローバルおよびインスタンスターゲットキャプションとバウンディングボックスを使用している(より良い可視化のため(a)では省略)。 我々のMIVE (h)はインスタンスキャプションとマスクを使用している。 忠実でない編集例は赤い矢印で、注意の漏れは緑の矢印で示されている。
Refer to caption
図13: 最先端の動画編集手法との定性的比較(パート2)。 (a)は、対応するインスタンスキャプションに合わせて入力フレームに重ねられたカラーコードのマスクを示している。 (b)-(f)は編集にグローバルターゲットキャプションを使用している。 (g)はグローバルおよびインスタンスターゲットキャプションとバウンディングボックスを使用している(より良い可視化のため(a)では省略)。 我々のMIVE (h)はインスタンスキャプションとマスクを使用している。 忠実でない編集例は赤い矢印で、注意の漏れは緑の矢印で示されている。
Refer to caption
図14: 最先端の動画編集手法との定性的比較(パート3)。 (a)は、対応するインスタンスキャプションに合わせて入力フレームに重ねられたカラーコードのマスクを示している。 (b)-(f)は編集にグローバルターゲットキャプションを使用している。 (g)はグローバルおよびインスタンスターゲットキャプションとバウンディングボックスを使用している(より良い可視化のため(a)では省略)。 我々のMIVE (h)はインスタンスキャプションとマスクを使用している。 忠実でない編集例は赤い矢印で、注意の漏れは緑の矢印で示されている。

我々は図1213、および14でさらなる視覚的比較を提示している。 これらの動画は、編集するインスタンスの数に基づいて難易度が増加するように選択されている。

D.2 Quantitative Results Based on Instance Sizes and Numbers of Instances

Method Venue Editing Local Scores (Small) Local Scores (Medium) Local Scores (Large)
Scope LTC \uparrow LTF \uparrow IA \uparrow CIA \uparrow LTC \uparrow LTF \uparrow IA \uparrow CIA \uparrow LTC \uparrow LTF \uparrow IA \uparrow CIA \uparrow
ControlVideo [70] ICLR’24 Global 0.9546 0.1684 0.3479 0.3875 0.9516 0.1852 0.3248 0.5220 0.9580 0.2048 0.5845 0.5003
FLATTEN [11] ICLR’24 Global 0.9519 0.1789 0.4230 0.4215 0.9457 0.1902 0.2338 0.5766 0.9547 0.1876 0.2371 0.4949
RAVE [26] CVPR’24 Global 0.9547 0.1752 0.3953 0.4310 0.9527 0.1830 0.2932 0.5444 0.9581 0.1910 0.3684 0.4815
TokenFlow [16] ICLR’24 Global 0.9486 0.1783 0.4517 0.4434 0.9406 0.1876 0.3297 0.6085 0.9522 0.1880 0.3536 0.5090
FreSCo [62] CVPR’24 Global 0.9288 0.1790 0.4044 0.4283 0.9226 0.1892 0.2937 0.5945 0.9383 0.1852 0.2709 0.4958
GAV [25] ICLR’24 Local, Multiple 0.9529 0.1803 0.4224 0.4680 0.9498 0.1932 0.3298 0.5913 0.9550 0.1889 0.3740 0.5420
MIVE (Ours) - Local, Multiple 0.9537 0.1794 0.4051 0.6059 0.9441 0.1997 0.4647 0.6883 0.9509 0.2243 0.7414 0.7331
表5: インスタンスサイズに基づく定量的比較。インスタンスサイズに応じて計算できるのはローカルスコアのみであるため、ここではローカルスコアのみを示す。 我々はCOCOデータセット[30]のインスタンスサイズの分類に従い、以下のように定義する:(i) 小さいインスタンスは面積が<322absentsuperscript322<32^{2}< 32 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT、(ii) 中程度のインスタンスは面積が322 and 962superscript322 and superscript96232^{2}\text{ and }96^{2}32 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT and 96 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTの間、(iii) 大きいインスタンスは面積が>962absentsuperscript962>96^{2}> 96 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT。 最良および2番目に良いスコアはそれぞれで示されている。
Method Venue Editing Global Scores Local Scores Leakage Scores
Scope GTC \uparrow GTF \uparrow FA \uparrow LTC \uparrow LTF \uparrow IA \uparrow CIA (Ours) \uparrow BP \downarrow
Editing on 1-3 Instances (Easy Video) - 116 Videos
ControlVideo [70] ICLR’24 Global 0.9729 0.2724 0.8839 0.9513 0.2020 0.5374 0.6192 79.3548
FLATTEN [11] ICLR’24 Global 0.9661 0.2415 0.2924 0.9484 0.1893 0.2568 0.6060 67.1713
RAVE [26] CVPR’24 Global 0.9661 0.2698 0.5452 0.9533 0.1886 0.3620 0.5964 71.2598
TokenFlow [16] ICLR’24 Global 0.9686 0.2578 0.5710 0.9465 0.1880 0.3480 0.6248 74.2420
FreSCo [62] CVPR’24 Global 0.9534 0.2491 0.4138 0.9327 0.1877 0.2841 0.6085 92.0291
GAV [25] ICLR’24 Local, Multiple 0.9643 0.2518 0.5583 0.9477 0.1915 0.3851 0.6466 63.3588
MIVE (Ours) - Local, Multiple 0.9583 0.2738 0.8589 0.9441 0.2203 0.6932 0.7983 58.4894
Editing on 4-7 Instances (Medium Video) - 66 Videos
ControlVideo [70] ICLR’24 Global 0.9757 0.2775 0.8834 0.9579 0.1875 0.4543 0.3704 65.3667
FLATTEN [11] ICLR’24 Global 0.9700 0.2373 0.2305 0.9526 0.1853 0.2288 0.4199 56.7246
RAVE [26] CVPR’24 Global 0.9689 0.2777 0.5819 0.9570 0.1842 0.3396 0.3951 57.2210
TokenFlow [16] ICLR’24 Global 0.9686 0.2559 0.5425 0.9486 0.1845 0.3631 0.4498 62.3709
FreSCo [62] CVPR’24 Global 0.9555 0.2589 0.4276 0.9318 0.1835 0.3177 0.4389 76.8818
GAV [25] ICLR’24 Local, Multiple 0.9674 0.2648 0.5549 0.9549 0.1859 0.3660 0.4676 57.8612
MIVE (Ours) - Local, Multiple 0.9614 0.2763 0.8397 0.9501 0.2060 0.5872 0.6483 48.2502
Editing on >>>7 Instances (Hard Video) - 18 Videos
ControlVideo [70] ICLR’24 Global 0.9781 0.2692 0.9051 0.9651 0.1885 0.3602 0.1698 58.5803
FLATTEN [11] ICLR’24 Global 0.9717 0.2274 0.2007 0.9584 0.1898 0.2499 0.2339 57.0569
RAVE [26] CVPR’24 Global 0.9711 0.2735 0.7714 0.9602 0.1857 0.3242 0.2026 51.7408
TokenFlow [16] ICLR’24 Global 0.9682 0.2552 0.5778 0.9529 0.1878 0.3162 0.2212 55.8445
FreSCo [62] CVPR’24 Global 0.9538 0.2536 0.4339 0.9322 0.1844 0.2954 0.2156 71.5167
GAV [25] ICLR’24 Local, Multiple 0.9715 0.2580 0.4825 0.9628 0.1870 0.2911 0.2210 47.0554
MIVE (Ours) - Local, Multiple 0.9697 0.2784 0.8937 0.9626 0.2002 0.5118 0.3669 49.9864
表6: 様々な数のインスタンスに対するマルチインスタンスビデオ編集の定量的比較。MIVEデータセットの200本のビデオを編集されたインスタンスの数に応じて以下のように分類する:(i) 簡単なビデオ(EV):1-3個の編集されたインスタンスを含むビデオ、(ii) 中程度のビデオ(MV):4-7個の編集されたインスタンスを含むビデオ、(iii) 難しいビデオ(HV):>>> 7個以上の編集されたインスタンスを含むビデオ。最良および2番目に良いスコアはそれぞれで示されている。

この部分では、ベースライン手法と我々のMIVEが以下に基づいてバイアスを示すかどうかを分析する:(i) インスタンスサイズ、または (ii) インスタンス数。

インスタンスサイズに基づく定量的結果。5は、様々なインスタンスサイズにおける我々の手法とベースラインの比較を示している。 インスタンスサイズの分類には、COCOデータセット[30]に従い、以下のように定義する:(i) 小さいインスタンスは面積が<322absentsuperscript322<32^{2}< 32 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT、(ii) 中程度のインスタンスは面積が322superscript32232^{2}32 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT962superscript96296^{2}96 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTの間、(iii) 大きいインスタンスは面積が>962absentsuperscript962>96^{2}> 96 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTである。 全ビデオにおいて、69個の小さいインスタンス、297個の中程度のインスタンス、434個の大きいインスタンスがある。 ビデオ内の各インスタンスの面積を計算するために、我々はすべてのフレームにわたってその面積の平均を取る。

5に示されているように、ローカル時間的一貫性スコアは本稿(セクション5.1)の結果と一致しており、RAVEとControlVideoがそれぞれ最良および2番目の性能を達成し、我々のMIVE手法は競争力のある結果を示している。

中程度および大きいインスタンスサイズにおいて、我々の手法はテキストの忠実性(LTFとIA)と注意漏れ(CIA)で最良の性能を達成している。 中程度のインスタンスサイズのシナリオでは、我々のMIVEは2番目に良い手法と比較して、LTF、IA、CIAでそれぞれ約0.006、13.5%、8%の改善を示している。同様に、大きいインスタンスサイズのシナリオでは、MIVEは2番目に良い手法と比較して、それぞれ約0.02、16%、19%の改善を達成している。 大きいインスタンスでの改善が大きいことは、我々の手法が編集の条件としてマスクを使用しているため、より大きな物体でより良い性能を発揮することを示している。 この理由付けは、GAVの結果によってさらに裏付けられる。 バウンディングボックスを使用するGAVは、大きいインスタンスのシナリオでより多くの重複が発生する傾向があり、グローバル編集のベースラインと比較して性能が低下する。 これらの発見は、マルチインスタンスビデオ編集の条件としてバウンディングボックスよりもマスクを使用することの利点を強調している。

小さいインスタンスサイズのシナリオでは、すべての手法のLTFスコアが中程度および大きいインスタンスと比較して低くなる傾向がある。 これは、LDMのVAEにおけるダウンサンプリングによって引き起こされる、拡散ベースのビデオ編集手法における小さいインスタンスの編集の課題を浮き彫りにしている[44]。 小さいインスタンスに対して、我々のMIVEは注意漏れ(CIA)で最良の性能を達成し、編集の忠実性(LTFとIA)で競争力のある性能を示している。 LTFについては、我々の手法と最良の性能を示す手法(GAV)との差はわずか(0.001)である。 小さいインスタンスに対する我々の手法のLTFは、インスタンス中心確率再分配(IPR)におけるλ𝜆\lambdaitalic_λの値を増やすことで潜在的に改善できる可能性があることは注目に値する。 しかし、IAについては、我々のMIVEは最良の手法よりも5%低いスコアを示しているにもかかわらず、より高いLTFを達成している。 この問題をよりよく理解するために、我々はTokenFlowの定性的結果を分析した。これは我々のデモと 12 13、および 14に示されている。 TokenFlowはマルチインスタンス編集のシナリオでしばしばアーティファクトを生成する。 例えば、 13のビデオ2(中央の列)では、ターゲットインスタンスのキャプションが「野球ボール」(ソースインスタンスのキャプション:ゴルフボール)である場合、TokenFlowはゴルフボールを草地に変換しているが、他の手法はこの領域の編集に失敗し、元のゴルフボールを保持している。 興味深いことに、このように編集されたゴルフボールに対するTokenFlowのIAスコアは0.87であるのに対し、我々のMIVEは結果がより野球ボールに見えるにもかかわらず0.5のスコアを示している。 この観察は、IAメトリクスが小さいサイズのインスタンスのシナリオにおける性能評価に適していない可能性があることを示唆している。

インスタンス数に基づく定量的結果。様々なインスタンスサイズに関する定量的比較に加えて、我々は各ビデオにおける異なる数の編集されたインスタンスに対するさらなる分析を 6に示す。 ビデオは3つのグループに分類される:(i) 簡単なビデオ(EV):1-3個の編集されたインスタンスを含む、(ii) 中程度のビデオ(MV):4-7個の編集されたインスタンスを含む、(iii) 難しいビデオ(HV):7個以上の編集されたインスタンスを含む。 漏れスコアについては、本稿の定量的比較(表2)からの大きな逸脱はない。 ほとんどの場合、我々のMIVEが最良の漏れスコアの性能を達成し、GAVまたはFLATTENが2番目に良い性能を示している。 これは本稿のユーザースタディで強調された選好と一致している。 ローカルスコアについては、結果は本稿と一致しており、我々のMIVEが最良のLTFとIAスコアを達成し、競争力のあるLTC性能を示している。 同様に、グローバルスコアについても、GTCとFAメトリクスは本稿と一致しており、我々の手法は競争力のあるGTCと2番目に良いFA結果を達成している。 本稿からの注目すべき逸脱はGTFスコアにある。 我々のMIVEは本稿で最良のGTFスコアを達成しているが、これはEVとHVのシナリオでのみ当てはまる。 MVシナリオでは、RAVEが最良の結果を達成し、ControlVideoが続き、我々のMIVEは3位となっている。 我々の手法と最高性能の手法との差は小さい(0.0014)。 このGTFの逸脱は、CLIPの構成的推論の限界[23, 36]によるものであり、これがグローバルキャプションとフレーム間のインスタンス間の複雑な関係を捉える能力を妨げている可能性がある。 これはさらに、マルチインスタンスビデオ編集の性能を定量化する上でのローカルスコアの重要性を示している。

要約すると、本稿の定量的結果と比較していくつかのスコアにわずかな逸脱があるものの、我々のMIVEの性能は様々なシナリオにわたって一貫している。 これは、インスタンスサイズや編集されたインスタンス数の変動に対する我々のアプローチの堅牢性を示している。

D.3 User Study Details

Refer to caption
図15: 我々のユーザー調査インターフェースとアンケートフォーム。 参加者には、ソースキャプション付きの入力ビデオ、ターゲットキャプション付きの注釈付きビデオ、そして我々のMIVEと他の6つの最先端ビデオ編集手法を用いて編集された7つのランダムに並べられたビデオが提示される。 注釈付きビデオの各インスタンスマスクは、そのインスタンスのターゲットキャプションに対応するよう色分けされている。 参加者は、最高の時間的一貫性最高のテキスト忠実度、および最小の編集漏れを持つビデオを選択するよう求められる。

ユーザー調査を実施するために、我々はデータセットから多様なシナリオ(クリップごとのオブジェクト数、オブジェクトクラスごとのインスタンス数、インスタンスサイズの変化)をカバーする50のビデオを選択した。 ユーザー調査で使用したビデオの統計を 4に示す。 我々はMIVEフレームワークと他の6つの最先端ビデオ編集手法、すなわちControlVideo [70]、FLATTEN [11]、RAVE [26]、TokenFlow [16]、FreSCo [62]、およびGAV [25]を用いてビデオを編集した。 31名の参加者に以下の点で最も優れた手法を選択するよう依頼した:

  • 最高の時間的一貫性:最も滑らかな遷移を持つビデオを選択する;

  • 最高のテキスト忠実度:テキストとオブジェクトの整合性が最も正確なビデオを選択する。全体的なターゲットキャプションと個々のインスタンスキャプションとの整合性を必ず確認すること;

  • 最小の編集漏れ:他のオブジェクトや背景へのテキスト漏れが最も少ないビデオを選択する。

ユーザー調査を開始する前に、我々は参加者に各基準についての良い例と悪い例を指針として提供した。 15に我々のユーザー調査インターフェースとアンケートフォームを示す。

D.4 Video-P2P Results

Refer to caption
図16: 再帰的な複数インスタンス編集におけるVideo-P2Pの結果。 Video-P2Pを複数インスタンス編集に繰り返し使用した際に蓄積される人工物を赤い矢印で示している。 我々のMIVEはフレームを再帰的に編集しないため、このようなエラーの蓄積を防ぐことができる。

最近の研究であるVideo-P2P [32]はローカルな動画編集が可能であるが、その設計上、一度に1つのオブジェクトしか編集できない制限がある。 この手法を用いて複数のオブジェクトを再帰的に編集しようとすると、 16に示すように人工物が生じる。 したがって、我々はVideo-P2Pを最先端手法の比較から除外した。

E Additional Analysis and Ablation Studies

Methods GTC GTF FA LTC \uparrow LTF \uparrow IA \uparrow CIA \uparrow BP \downarrow
DMS Only NPS 0.9591 0.2667 0.7907 0.9460 0.2072 0.5587 0.6663 54.6597
Only LPS 0.9602 0.2645 0.7690 0.9483 0.2068 0.5716 0.6688 50.8549
LPS + NPS w/o Re-Inversion 0.9615 0.2674 0.7810 0.9485 0.2080 0.5776 0.6783 52.3240
Ours, Full 0.9604 0.2750 0.8557 0.9478 0.2138 0.6419 0.7100 54.3452
IPR No Modulation [44] 0.9642 0.2642 0.7468 0.9535 0.2060 0.5225 0.6553 50.1319
Dense Diffusion [28] 0.9611 0.2760 0.9029 0.9482 0.2136 0.6215 0.6891 59.2100
Ours, Full 0.9604 0.2750 0.8557 0.9478 0.2138 0.6419 0.7100 54.3452
表7: Disentangled Multi-instance Sampling (DMS)とInstance-centric Probability Redistribution (IPR)に関する我々の削減実験の全結果(グローバルスコアとローカルスコア)。 LPSとNPSはそれぞれLatent Parallel SamplingとNoise Parallel Samplingを表す。 最良および2番目に良いスコアはそれぞれで示されている。

ここでは、本稿の削減実験で紙面の制約により含めることができなかったグローバルスコアを提示する。 DMSの削減実験において、我々の完全な手法は、ローカルな忠実性(LTFとIA)の向上に加えて、グローバルな編集忠実性(GTFとFA)も向上させている。 また、本稿で報告された観察結果と一致して、競争力のある時間的一貫性スコア(GTCとLTC)も達成している。 IPRの削減実験については、グローバルスコアがローカルスコアとは若干異なる傾向を示し、Dense Diffusionがより良いグローバルな編集忠実性能を達成している。 しかし、本稿の図7に示されているように、Dense Diffusionは平滑化アーティファクトを示す可能性がある。 これらの平滑化アーティファクトはローカルスコアを低下させるが、グローバルスコアには影響を与えない。 場合によっては、グローバルスコアを向上させることさえある。これは、グローバルスコアがキャプションの全単語トークンを用いて各フレームを評価するためである。 各トークンがフレームのいずれかの位置で可視化されていれば、CLIPの構成的推論の限界により、グローバルスコアが高くなる可能性がある[23, 36]

E.1 DMS Ablations

Refer to caption
図17: DMSに関する詳細な分析: (a) すべてのサンプリングステップでLPSとNPSを交互に行う分析(T=50𝑇50T=50italic_T = 50)。 NPSのステップ数を1に固定し、LPSのステップ数を増やすと、(1)〜(4)に示すようにより詳細な結果が得られる。 LPSのステップ数を1に固定し、NPSのステップ数を増やすと、(5)に示すように曇ったようなアーティファクトが生じ、詳細さが失われる。 LPSのステップ数を9に設定することが、定性的および定量的性能のバランスが取れた良い選択となる。 定量的結果については 8-(a)を参照。
Refer to caption
図18: DMSに関する詳細な分析: (b) 交互サンプリング後の最後のNPSに関する分析。 初期サンプリング段階でのLPS-NPS交互ステップ数を減らし、最終段階でのNPSステップ数を増やすことで、MIVEの定量的性能が向上する。 定量的結果は 8-(b)に示されている。 しかし、我々は(3)と(4)に示すように物体のエッジの劣化を避けるため、最終NPSステップ数を10に設定している。
Refer to caption
図19: DMSに関する詳細な分析: (c) 交互サンプリングにおける再逆変換ステップに関する分析。 LPS-NPS交互ステップにおける再逆変換ステップ数L𝐿Litalic_Lを増やすことで、 8-(c)に示すように定量的性能が向上する。 また、L𝐿Litalic_Lの値が高いほど、より詳細な結果が得られることも観察された。 最終的に、我々はLPS-NPS交互段階での再逆変換にL=3𝐿3L=3italic_L = 3を設定した。
Refer to caption
図20: DMSに関する詳細な分析: (d) LPS=9、NPS=1、再逆変換L=3の交互サンプリングの後、最後のNPS=10における再逆変換ステップに関する分析。 サンプリングの最後のNPSステップにおける再逆変換ステップ数L𝐿Litalic_Lを増やすことで、定量的性能が向上する( 8-(d)参照)。 しかし、NPSステップ数が多すぎると、編集された物体がアニメーションのような外観になる。 そのため、我々は最終NPSステージでの再逆変換ステップ数をL=2𝐿2L=2italic_L = 2に制限している。
Refer to caption
図21: DMSに関する詳細な分析: (e) 2Dモデルと3Dモデルを使用した再逆変換ステップの比較。 再逆変換に3Dモデルを使用することで、我々のフレームワークの定量的性能が向上する( 8-(e)参照)。 さらに、3Dモデルを使用することで、上図に示すようにより鮮明なエッジが得られる。 したがって、我々は再逆変換ステップで3Dモデルを使用している。
Refer to caption
図22: DMSに関する詳細な分析: (f) 別の代替構成に関する分析。 LPS-NPS交互段階でのLPSステップ数を4に減らすことで、FAとIAの性能が向上する( 8-(f)参照)。 しかし、LPSステップ数を9に設定することで、(2)に示すように微細な詳細がより良く保持される。
Method Global Scores Local Scores Leakage Scores
GTC \uparrow GTF \uparrow FA \uparrow LTC \uparrow LTF \uparrow IA \uparrow CIA (Ours) \uparrow BP \downarrow
(a) Ablation on Alternating LPS and NPS on All Sampling Steps (50)
(1) Alternate (50): LPS = 1 + NPS = 1 0.9608 0.2691 0.8098 0.9472 0.2090 0.5883 0.6851 55.1253
(2) Alternate (50): LPS = 4 + NPS = 1 0.9610 0.2667 0.7908 0.9481 0.2080 0.5914 0.6809 52.4647
(3) Alternate (50): LPS = 9 + NPS = 1 0.9605 0.2654 0.7779 0.9483 0.2075 0.5748 0.6713 51.4300
(4) Alternate (50): LPS = 14 + NPS = 1 0.9604 0.2649 0.7706 0.9483 0.2073 0.5743 0.6697 51.1941
(5) Alternate (50): NPS = 4 + LPS = 1 0.9598 0.2690 0.8181 0.9465 0.2081 0.5804 0.6727 54.8790
(b) Ablation on Last NPS after Alternating Sampling
(1) Alternate (50): LPS = 9 + NPS = 1; NPS = 0 0.9605 0.2654 0.7779 0.9483 0.2075 0.5748 0.6713 51.4300
(2) Alternate (40): LPS = 9 + NPS = 1; NPS = 10 0.9613 0.2673 0.7824 0.9485 0.2081 0.5786 0.6792 52.3441
(3) Alternate (30): LPS = 9 + NPS = 1; NPS = 20 0.9614 0.2688 0.7890 0.9483 0.2083 0.5752 0.6739 52.9035
(4) Alternate (20): LPS = 9 + NPS = 1; NPS = 30 0.9614 0.2680 0.7990 0.9485 0.2084 0.5743 0.6734 53.4412
(c) Ablation on Re-Inversion Step only on Alternating Sampling
(1) Alternate (40): LPS = 9 + Re-Inv L = 1 + NPS = 1; NPS = 10 0.9607 0.2697 0.8012 0.9479 0.2094 0.5930 0.6867 52.8582
(2) Alternate (40): LPS = 9 + Re-Inv L = 2 + NPS = 1; NPS = 10 0.9603 0.2712 0.8162 0.9475 0.2107 0.6180 0.6970 53.2689
(3) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 0.9599 0.2724 0.8305 0.9471 0.2114 0.6233 0.6989 53.7494
(d) Ablation on Re-Inversion Step of Last NPS=10 with Alternating LPS=9 & NPS=1 & Re-Inversion L=3
(1) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv L = 1 0.9603 0.2740 0.8413 0.9477 0.2129 0.6315 0.7068 53.9953
(2) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv L = 2 (Ours, Full) 0.9604 0.2750 0.8557 0.9478 0.2138 0.6419 0.7100 54.3452
(3) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv L = 3 0.9606 0.2751 0.8591 0.9476 0.2143 0.6401 0.7090 54.7422
(e) Ablation on Re-Inversion Step using 2D vs 3D Model
(1) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv (2D) L = 2 0.9638 0.2749 0.8497 0.9505 0.2138 0.6385 0.7078 54.9499
(2) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv (3D) L = 2 (Ours, Full) 0.9604 0.2750 0.8557 0.9478 0.2138 0.6419 0.7100 54.3452
(f) Ablation on Another Alternative Configuration
(1) Alternate (40): LPS = 4 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv (3D) L = 2 0.9597 0.2775