MIVE: New Design and Benchmark for Multi-Instance Video Editing
Abstract
近年のAIベースの動画編集により、ユーザーは単純なテキストプロンプトを通じて動画を編集できるようになり、編集プロセスが大幅に簡素化された。 しかし、最近のゼロショット動画編集技術は主にグローバルな編集や単一オブジェクトの編集に焦点を当てており、これは動画の他の部分に意図しない変更をもたらす可能性がある。 複数のオブジェクトに局所的な編集が必要な場合、既存の手法は、忠実でない編集、編集の漏れ、適切な評価データセットとメトリクスの欠如といった課題に直面している。 これらの制限を克服するため、我々はMIVE(Multi-Instance Video Editing)と呼ばれるゼロショットマルチインスタンス動画編集フレームワークを提案する。 MIVEは、特定のオブジェクト(例:人物)に特化せず、汎用的なマスクベースのフレームワークである。 MIVEは2つの重要なモジュールを導入している:(i) 編集の漏れを防ぐための分離マルチインスタンスサンプリング(DMS)、および (ii) 正確な局所化と忠実な編集を確保するためのインスタンス中心確率再分配(IPR)である。 さらに、我々は多様な動画シナリオを特徴とする新しいMIVEデータセットを提示し、マルチインスタンス動画編集タスクにおける編集の漏れを評価するためのクロスインスタンス精度(CIA)スコアを導入する。 我々の広範な定性的、定量的、およびユーザースタディ評価は、MIVEが編集の忠実性、精度、および漏れ防止の面で最近の最先端手法を大きく上回り、マルチインスタンス動画編集の新しいベンチマークを設定していることを示している。 プロジェクトページはhttps://kaist-viclab.github.io/mive-site/で利用可能である。
1 Introduction
ソーシャルメディア上の短尺動画の人気は著しく成長している [52, 27]。 しかし、これらの動画の編集は多くの場合、時間がかかり [48]、専門家の支援を必要とすることがある [33]。 これらの課題が、生成モデル [44, 66, 4] および視覚言語モデル [41] の進歩に支えられ、AI基盤の動画編集(VE)ツールの開発を促進してきた [27]。 これらのツールにより、ユーザーは簡単なテキストプロンプトで望む編集を指定できるようになり [2, 40]、編集プロセスがより迅速かつアクセスしやすくなっている。
最近のVE手法は、事前学習済みのテキストから画像への変換(T2I)モデルを活用することが多い[44]。 大規模データセットでモデルを訓練する[71, 10]や単一の動画でファインチューニングする[58, 32, 2]といった代替アプローチと比較して、ゼロショット手法[70, 11, 26, 62, 16, 40, 25, 7]は、その効率性と事前学習済みT2Iモデルの利用可能性により、引き続き注目を集めている。 ほとんどのゼロショットアプローチは、シーン全体を修正するグローバル編集[70, 62]や、意図せずに動画の他の部分に影響を与える可能性のある単一オブジェクト編集[6, 32]に焦点を当てている。 しかし、場合によっては、ユーザーが動画の他の部分を変更せずに特定のオブジェクトを正確に編集する必要がある場合がある。例えば、家族向けバージョンを作成するために露骨なコンテンツ(例えば、タバコ)を置き換えるなどである[68]。
局所的VEは、動画内の特定のオブジェクトを正確に操作することでこの問題に対処することを目指している。 しかし、事前学習済みのT2Iモデルをこのタスクに適応させることは困難である。なぜなら、これらのモデルは細かな制御が欠如しており、空間的制御を可能にするために追加の学習[71]や注意機構の操作[63, 32]が必要となるためである。 この問題は、図 2-(a)のControlVideo[70]で見られるように、モデルが単一の長いキャプションを使用して複数の局所的編集を同時に実行する必要がある場合にさらに悪化する。 このアプローチは多くの場合、以下の問題を引き起こす:(i) 忠実でない編集(例えば、赤いバッグが黄色の財布に変換されない)、(ii) 注意漏れ[61]、つまり特定のオブジェクトに対する意図した編集が意図せずに他のオブジェクト領域に影響を与える(例えば、壁と像の両方が黄色になる)。
最近、Ground-A-Video (GAV)[25]は、グラウンディング条件[29]で微調整されたT2Iモデル[44]を使用して、同時に複数のオブジェクトのVEが可能であることを示した。 しかし、GAVは依然として注意漏れ[61]に悩まされており、特にオブジェクトのバウンディングボックスが重なる場合に問題が生じる(例えば、図 2-(b)では像もフラワークラウンを獲得している)。 並行して開発されたEVA[63]は、編集プロンプトをオブジェクトマスクに割り当てることで漏れに対処しようとしている。 しかし、EVAは人間中心の動画[63]向けに設計されており、多様なオブジェクト(例えば、車両)の編集能力を実証していない。
さらに、GAV [25] と EVA [63] の両方とも、限られたデータセットでのみテストされており、多様な視点、インスタンスサイズ、インスタンス数にわたる多インスタンスVEの包括的なテストには不十分である。 これらの手法で使用されているグローバル編集メトリクスは、多インスタンスVEに不可欠なローカル編集品質を正確に測定することができない。
上記より、多インスタンスVEには以下の4つの重要な課題が残されている: (i) 注意の漏洩。 事前学習されたT2Iモデルにおけるローカル制御の欠如、不正確な入力条件 [25]、単一のグローバル編集キャプションの使用 [70] により、従来の手法は編集プロンプトを効果的に分離することができない; (ii) 汎用的な多インスタンスVE手法の欠如。 EVA [63] はオブジェクトごとの編集機能を示すが、汎用的なVEフレームワークではない; (iii) 忠実でない編集。 多インスタンスVEタスクにおいて編集の忠実性を向上させる技術の欠如が、しばしば不正確な編集をもたらす; (iv) 評価データセットとメトリクスの欠如。 最近の手法 [63, 25] は、ローカルVE品質の評価に不適切なメトリクスを用いて限られたデータセットでテストされている。
これらの課題を克服するため、我々は汎用的なゼロショットマルチインスタンスビデオ編集フレームワークであるMIVEを提案する。これは、マルチインスタンス編集を分離することで、忠実な編集を実現し、注意の漏洩を軽減するものである。 MIVEは既存のT2Iモデルに容易に統合でき、2つの主要モジュールを通じてマルチインスタンス編集機能を実現する: (i) 先行研究[55, 46]にインスパイアされ、注意の漏洩を大幅に軽減する分離マルチインスタンスサンプリング(DMS)を設計した。 (ii) 編集の忠実性を高め、オブジェクトがそのマスク内に出現する可能性を増加させるため、クロスアテンション層にインスタンス中心確率再分配(IPR)を導入した。 さらに、我々は提案するMIVEデータセットを用いてMIVEを評価した。このデータセットは200本のビデオからなり、標準的な評価指標と、注意の漏洩を定量化するための新しい指標であるクロスインスタンス精度(CIA)スコアを使用している。 本稿の貢献は以下の通りである:
-
•
我々は、ビデオのマルチインスタンス編集を可能にする新しい汎用マスクベースのゼロショットマルチインスタンスビデオ編集フレームワークであるMIVEを提案する;
-
•
我々は、(i)編集の漏洩を軽減する分離マルチインスタンスサンプリング(DMS)と、(ii)編集の局所化と忠実性を高めるインスタンス中心確率再分配(IPR)を通じて、マルチインスタンスビデオ編集を分離することを提案する;
-
•
我々は、クロスインスタンス精度(CIA)スコアと呼ばれる新しい評価指標と、新しいデータセットであるMIVEデータセットを含む新しい評価ベンチマークを提案する。MIVEデータセットは、インスタンスレベルのキャプションとマスクを伴う、様々な数と大きさのインスタンスを含む200本のビデオで構成されている。CIAスコアは、マルチインスタンス編集タスクにおける注意の漏洩を定量化するために設計されている;
-
•
我々の広範な実験により、複数のインスタンスにわたる編集の分離と忠実な編集の達成におけるMIVEの有効性が検証され、最新のSOTAビデオ編集手法を大幅に上回る性能を示している。
2 Related Works
ゼロショットのテキストガイド付きビデオ編集。 拡散モデルの最近の進歩 [20, 49, 50] により、テキストから画像への変換(T2I)[42, 38, 45, 12, 44] およびテキストから動画への変換(T2V)[4, 67, 57, 21, 17, 15, 53] モデルの生成タスクにおける進化が加速している。 これらのブレークスルーにより、事前学習済みモデルをバックボーンとして使用する多数のビデオ編集(VE)フレームワークの開発が進んでいる。 ほとんどのVE手法 [40, 58, 16, 11, 26, 25, 70] は、事前学習済みのT2Iモデル [44, 29, 69] に依存している。これは、T2Vモデルが一般に公開されていないか [5]、計算コストが高いためである [53]。 VEを促進するために、最近の手法では、大規模な動画データセットでT2Iモデルを微調整したり [71, 56, 15]、単一の入力動画で最適化したり [58, 32]、あるいはゼロショット推論を活用したりしている [70, 11, 26, 62, 16, 25, 40]。 我々の研究はゼロショットVEに分類され、追加の学習なしで編集を可能にするものである。
ゼロショットVE手法は、しばしば時間的一貫性を優先し、様々な技術を用いる。例えば、U-Netの自己注意層の修正[58, 54, 11, 62, 6]、最適化戦略の適用[62, 6]、入力潜在変数の平滑化[25, 70]、特徴の線形結合[16]、または入力潜在変数の変換[26]などである。 我々のアプローチは、忠実な編集の実現と注意漏れの低減により重点を置いており、時間的一貫性を達成するために先行研究[11]の手法を採用している。
ローカルビデオ編集と画像生成からの技術。 画像生成や編集と同様に、ビデオにおける細かな制御の必要性により、いくつかのローカルVE手法が開発されてきた[71, 32, 25, 63]。 これらの手法は通常、追加のアダプターを訓練する[69, 1, 29, 64, 55]や、ゼロショット技術を採用する、例えば、最適化[3, 8, 9, 60]、注意機構の変調[28]、マルチブランチサンプリング[46]など、画像生成からの空間制御技術を採用している。 特に、AVID[71]はマスクを使用し、Stable Diffusion (SD)のインペインティングモデル[44]を再訓練する一方、Video-P2P[32]は注意制御手法[18]を活用しており、両者ともより細かな制御を実現している。
複数インスタンスのVEシナリオに対するローカル制御の拡張は比較的未開拓の分野であり、この課題に取り組む研究はわずかである[25, 63]。これらの研究は、同様に画像生成技術[29, 28]を採用して複数インスタンスのVEをローカライズしている。 GAV[25]は、バウンディングボックスを使用し、トランスフォーマーブロック内にゲート付き自己注意層を統合することで空間制御を可能にするフレームワークであるGLIGEN[29]を活用している。 しかし、GLIGENは新しいT2Iモデル(例えばSDv1.5やSDv2.1)ごとにゲート付き自己注意層を再訓練する必要があり、柔軟性が低下する。 EVA[63]は、空間制御のためにマスクと離散的なテキスト埋め込みを使用し、時空間注意(STA)に対して注意モジュレーション[28]を適用している。 しかし、STAにおける不正確な特徴対応[65]は、注意モジュレーションが適切に制御されない場合にアーティファクトを引き起こすため[28]、ちらつきを増幅させる。 我々の研究では、同様に注意値をモジュレートするが、クロス注意層内のみで行うことで、STAに影響を与えずに空間制御を可能にしている。
3 Proposed Method
3.1 Overall Framework
本稿では、複数のインスタンスに対する編集を分離することにより、マルチインスタンスビデオ編集(VE)に取り組む。 個の入力フレームと個のインスタンスターゲット編集が与えられ、各ターゲット編集はインスタンスマスクと対応する編集キャプションから構成される。我々は各インスタンスをに基づいて修正し、マスク外の領域が編集されないようにする。
図3はMIVEの全体的なフレームワークを示している。 MIVEは反転ベースのVEカテゴリーに属する[40](予備知識については補足資料セクションAを参照)。 VAEエンコーダー[44]を用いて生成された初期潜在変数から始め、我々は非インフレーションU-Netを使用してDDIM反転[49]により潜在変数を反転させる。 これにより、反転された潜在変数のシーケンスが得られ、後で使用するために保存する。ここではノイズ除去ステップ数を表す。
サンプリングについては、画像生成手法[55, 46]にインスパイアされた分離マルチインスタンスサンプリング(DMS、セクション3.2)を導入し、マルチインスタンスVEプロセスを分離し、注意の漏洩を最小限に抑える。 各インスタンスは潜在並列サンプリング(青色のボックス)を用いて独立に修正され、複数のノイズ除去されたインスタンス潜在変数は、潜在融合と再反転(それぞれ緑、黄、赤のボックス)に続くノイズ並列サンプリングを通じて調和される。 我々は[25, 70]に従い、サンプリング中に3D U-Net[58]と3D ControlNet[69]を使用し、MiDas[43]によって得られた深度マップを条件として用いる。
3.2 Disentangled Multi-instance Sampling
マルチインスタンスVEプロセスを分離し、注意の漏洩を減少させるために、我々は分離型マルチインスタンスサンプリング(DMS)を提案する。 図 3に示すように、DMSは2つのサンプリング戦略から構成される:(1) 青枠で示される潜在並列サンプリング(LPS)と、(2) 潜在融合(黄色枠)と再逆変換(赤枠)に続く緑枠で示されるノイズ並列サンプリング(NPS)である。 LPSでは、各インスタンスを、そのターゲットキャプションとマスクを用いて、DDIM [49]ノイズ除去を通じて独立して編集する:
(1) |
次に、ノイズ除去されたインスタンス潜在変数を逆変換された潜在変数と融合し、マスキングを用いて編集されたインスタンス潜在変数を得る:
(2) |
LPSでは、各ステップで背景を逆変換された潜在変数で置き換えているため、編集されたインスタンスが内に現れることが要求される。 これは、我々が提案するIPR(セクション 3.3)によって達成され、必要な空間制御が提供される。
ノイズ除去の終了まで単にLPSを用いてマルチインスタンスVEを実行することも可能であるが、結果として得られるインスタンスは独立にサンプリングされるため、アーティファクトを含む(図6-(c)参照)。 したがって、我々は中間サンプリングステップ中にLPSから得られた複数のインスタンス潜在変数を以下のように融合することを提案する:
(3) |
ここで、は背景マスクを表す。 その後、NPS(詳細は次の段落)を実行して中間潜在変数を生成する。 を使用し、ノイズ除去の終了まで、LPSと潜在融合およびNPSを交互に続けることができる。 しかし、結果はまだアーティファクト、例えばノイズやぼかしを含んでいる(図 6-(d)参照)。 したがって、我々は潜在融合後にステップのDDIMを用いて再逆変換を実行し、を得た後、タイムステップからまでNPSを実行して最終的な融合潜在変数を生成することを提案する。 初期の逆変換とは異なり、我々の再逆変換は追加のアーティファクトを引き起こすのを避けるために3D U-NetとControlNetを使用する(補足資料参照)。
我々のNPSの目的は、LPSから得られた独立したインスタンス潜在変数を調和させることである。 このサンプリング戦略では、再逆変換された融合潜在変数を使用して、インスタンスキャプションを用いて各インスタンスノイズを推定する。 また、逆変換された潜在変数と空のキャプションを用いて背景のノイズを推定する。 次に、とをマスキングを通じて単一のノイズに結合し、1回のDDIMステップを実行して潜在変数を得る:
(4) |
3.3 Instance-centric Probability Redistribution
我々のサンプリングでは、編集されたオブジェクトがそのマスク内に現れる必要があり、U-Netにおける空間制御の重要性が強調される。これは、通常のクロスアテンション [44] が編集の局所化に苦戦するためである(図 7-(b)参照)。 この問題に対処するため、我々はアテンション変調 [28] にインスパイアされたインスタンス中心の確率再分配(IPR)を提案する。 我々のIPRは、最大化-最小化を使用する [28] とは異なり、初期アテンションスコアの空間分布を乱す可能性があり、アーティファクトを引き起こす可能性がある(図 7-(c)参照)が、忠実な編集とアーティファクトの少ない結果を実現する。 図 4 は我々のIPR(下部)と他の手法との比較図(上部)を示している。
図 4 の下部では、ターゲットキャプション を用いた単一インスタンスの編集に焦点を当てている。 キャプション は、 のテキストトークンを持ち、事前学習済みのCLIPモデル [41] を使用してテキスト埋め込みにエンコードされ、これらはクロスアテンションのキー として使用される。 キー の各値は、シーケンスの開始 、複数のテキスト 、シーケンスの終了 、および複数のパディング トークンのいずれかに対応する。 クエリ画像特徴 と の間のクロスアテンションマップ は以下のように表現できる:
(5) |
ここで、、 は 画像特徴に、 は テキストトークン に対応する。 我々は、編集を局所化し、アーティファクトの少ない忠実な編集を実現するために、再分配を通じて各アテンションマップ を操作することを提案する。
我々のIPRでは、インスタンスの をマスク に応じて2つのセットに分割する:インスタンスの外側 とインスタンスの内側 である。 我々のIPRは、いくつかの実験的観察に基づいている(詳細は補足資料 セクション E.2 参照): (i) パディングトークン のアテンション確率を操作するとアーティファクトが生じる可能性があるため、これらの変更は避ける; (ii) トークンの確率を増加させると編集の忠実性が低下するが、それを減少させ、その値を および トークンに再配分すると編集の忠実性が向上する。 したがって、 に対しては、 および トークンの確率をゼロにし、マスク外での編集を防ぐために に再配分する(図 4 下部の青い点線ボックス)。 さらに、マスク内のオブジェクト領域に対するアテンション確率を、 の値を減少させ、 および に再分配することで再配分する(図 4 下部の赤い点線ボックス)。 我々は を だけ減少させる。これは から まで線形に0に減衰し、以下のように定式化される:
(6) |
ここで、 はウォームアップ値であり、特に小さく困難なオブジェクトの編集忠実性を高めるために、初期のサンプリングステップ で から0まで線形に減衰する。 を増加させると忠実性が向上する傾向があるが、アーティファクトが導入される可能性がある。 我々は経験的に、 が忠実性とアーティファクトのない結果のバランスが最も良いことを見出した。 次に、 を および にそれぞれ および の比率で再分配する。 および のアテンション確率 および は以下のように更新される:
(7) |
ここで、 はテキストトークンの数を表す。 を増加させると、特定のトークンの編集詳細が強化される可能性があるが、減少させると全体的な編集忠実性が向上する可能性がある。 はすべての実験で経験的に設定される。
Dataset Name | Number | Number of | Number of | Number of Object | Number of Instances | Instance | Instance | Range of Average Instance |
---|---|---|---|---|---|---|---|---|
of Clips | Frames per Clip | Objects per Clip | Classes | per Object Class | Captions | Masks | Mask Size Per Video (%) | |
TGVE [59] & TGVE+ [47] | 76 | 1-2 | No Info | 1-2 | No Masks | |||
EVA [63] | 26 | 1-2 | No Info | 1-2 | ✓ | ✓ | No Info | |
MIVE Dataset (Ours) | 200 | 3-12 | 110 | 1-20 | ✓ | ✓ |
4 Evaluation Data and Metric
4.1 MIVE Dataset Construction
既存のデータセットは、マルチインスタンスビデオ編集(VE)タスクには適していない。 TGVE [59] とTGVE+ [47] は、ビデオ数が限られており、オブジェクトの種類が少なく、各オブジェクトクラスのインスタンス数も少ない上、インスタンスマスクがない。 GAV [25] とEVA [63] で使用されているデータセット(DAVISのサブセット [39]、TGVE [59]、またはインターネット上のビデオ)は、部分的にアクセス可能であるか、入手不可能である。 DAVIS [39] は同じオブジェクトクラスの複数のインスタンスを単一のエンティティとして扱うため、マルチインスタンスVEには適していない。
この課題に対処するため、我々はマルチインスタンスVEタスクのための新しい評価データセットであるMIVEデータセットを導入する。 我々のMIVEデータセットは、ビデオパノプティックセグメンテーションデータセットであるVIPSeg [37] から多様な200のビデオを特徴とし、各ビデオは の領域に中央クロップされている。 VIPSegにはソースキャプションがないため、我々はLLaVA [31] を使用してキャプションを生成し、Llama 3 [14] を使用してキャプションをより少ないトークンに要約する。 次に、オブジェクトとマスクの対応関係を確立するために、キャプションに手動でタグを挿入する。 最後に、Llama 3を使用して、[71] と同様に各インスタンスを入れ替えたりリテクスチャリングしたりすることで、ターゲット編集キャプションを生成する。
4.2 Cross-Instance Accuracy Score
SpaText [1] とInstanceDiffusion [55] は、ローカルテキスト忠実度を用いてローカルなテキストの整合性を評価している。これは、インスタンスキャプションのCLIP [41] テキスト埋め込みと、切り取られたインスタンスの画像埋め込みとのコサイン類似度である。 この方法はテキストとインスタンスの整合性を測定するが、あるインスタンスのキャプションが他のインスタンスに影響を与える可能性があるクロスインスタンス情報漏洩を見落としている。 我々は、インスタンスキャプションの影響を受けるべきではないインスタンスに対してもこのスコアが時として高くなることを観察している(補足資料 セクション C.2参照)。
この問題に対処するため、我々はクロスインスタンス精度(CIA)スコアと呼ぶ新しい指標を提案する。これは以下のように定義される: 各切り取られたインスタンス に対して、そのCLIP画像埋め込み と、全ての インスタンスキャプション のテキスト埋め込み とのコサイン類似度 を計算する。これにより、 に対して で表される の類似度行列が生成される。 Sの各行において、最も高い類似度スコアを1に、他をすべて0に設定する。理想的には、対角線上に1、それ以外に0が並ぶ行列となり、各切り取られたインスタンスが自身のキャプションと最もよく整合していることを示す。 CIAは対角要素の平均として以下のように計算される:
(8) |
5 Experiments
Method | Venue | Editing | Global Scores | Local Scores | Leakage Scores | User Study | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Scope | GTC | GTF | FA | LTC | LTF | IA | CIA (Ours) | BP | TC | TF | Leakage | ||
ControlVideo [70] | ICLR’24 | Global | 0.9743 | 0.2738 | 0.8856 | 0.9548 | 0.1960 | 0.4941 | 0.4967 | 72.8690 | 6.97 | 14.00 | 6.26 |
FLATTEN [11] | ICLR’24 | Global | 0.9679 | 0.2388 | 0.2637 | 0.9507 | 0.1881 | 0.2469 | 0.5111 | 62.8136 | 32.32 | 2.45 | 9.74 |
RAVE [26] | CVPR’24 | Global | 0.9675 | 0.2727 | 0.5777 | 0.9551 | 0.1869 | 0.3512 | 0.4945 | 64.8703 | 10.45 | 3.61 | 4.52 |
TokenFlow [16] | ICLR’24 | Global | 0.9686 | 0.2569 | 0.5622 | 0.9478 | 0.1868 | 0.3501 | 0.5307 | 68.6688 | 7.61 | 3.16 | 4.26 |
FreSCo [62] | CVPR’24 | Global | 0.9541 | 0.2527 | 0.4202 | 0.9324 | 0.1860 | 0.2962 | 0.5172 | 85.1843 | 3.55 | 1.81 | 3.42 |
GAV [25] | ICLR’24 | Local, Multiple | 0.9660 | 0.2566 | 0.5504 | 0.9514 | 0.1893 | 0.3703 | 0.5492 | 60.0773 | 8.90 | 7.74 | 9.74 |
MIVE (Ours) | - | Local, Multiple | 0.9604 | 0.2750 | 0.8557 | 0.9478 | 0.2138 | 0.6419 | 0.7100 | 54.3452 | 30.20 | 67.23 | 62.06 |
実装の詳細。 我々は単一のNVIDIA RTX A6000 GPUで実験を行った。 Stable Diffusion [44] v1.5をControlNet [69]および深度 [43]を条件として使用した。 [11]に従い、空のテキストで100ステップの反転を行った後、ステップのDDIM逆ノイズ化を実行した。 我々のCFG [19]スケールは12.5である。 我々のフレームワークで採用しているFLATTEN [11]のために、RAFT [51]を使用してオプティカルフローを推定した。 我々のIPRを適用し、最初の40ステップではLPSとNPSを交互に行い、最後の10ステップではNPSのみに切り替えた。 具体的には、最初の40ステップでは、9ステップのLPSと1ステップのNPSを回の再反転ステップで行い、このサイクルを4回繰り返した。 最後の10ステップでは、IPRを無効にし、回の再反転ステップでNPSを実行した。
評価指標。 編集されたフレームを評価するために、我々は標準的な指標を報告する:(i) グローバル時間的一貫性(GTC) [63, 26, 11, 62]:連続するフレーム間のCLIP [41]画像埋め込みのコサイン類似度の平均、(ii) グローバルテキスト忠実度(GTF) [63, 26, 11, 16]:フレームとグローバル編集プロンプト間の平均類似度、および (iii) フレーム精度(FA) [63, 62]:ソースプロンプトよりもターゲットプロンプトとの類似度が高いフレームの割合である。
グローバルな評価指標は全体的なフレーム品質を評価するが、マルチインスタンスタスクに不可欠な個々のインスタンス編集の細かな違いを見落としている。 この問題に対処するため、我々は局所的時間一貫性(LTC)、局所的テキスト忠実度(LTF)[55, 1]、および切り取られた編集済みインスタンスを用いて計算されるインスタンス精度(IA)を使用する。 評価指標の計算詳細は補足資料のセクションC.3に記載されている。 我々はまた、提案するCIA(セクション4.2)を通じてインスタンス間の漏洩を定量化し、背景保存(BP)[71]を通じて背景の漏洩を定量化する。背景保存は入力フレームと編集されたフレームの背景間の距離である。
5.1 Experimental Results
我々は、最近のゼロショットビデオ編集(VE)手法と我々のフレームワークを比較する:(i) 5つのグローバル編集:ControlVideo [70]、FLATTEN [11]、RAVE [26]、FreSCo [62]、TokenFlow [16]、および (ii) 1つの複数オブジェクト編集:GAV [25]。 グローバル編集手法には、単一のグローバルソースおよび編集キャプションを使用する。 GAVには、グローバルおよびローカルのソースとターゲットキャプションの組み合わせと、バウンディングボックス条件を使用する。 コードがまだ公開されていないため、同時期の研究であるEVA [63]は除外し、Video-P2P [32]は一度に1つのインスタンスを編集し、複数インスタンス編集シナリオで使用すると誤差が蓄積するため除外する(補足資料 セクション D.4参照)。 各ベースラインについて、すべてのビデオでデフォルト設定を使用する。
定性的比較。 図 5に定性的比較を示す。 示されているように、ControlVideoとGAVは注意の漏れに悩まされている(例えば、図 5-(b)と-(g)のビデオ1で"黄色"が"エイリアン"に影響している)一方、FLATTEN、RAVE、TokenFlow、FreSCo、およびGAVはすべての例で不忠実な編集を示している(図 5-(c)から図 5-(g))。 さらに、ControlVideoとFreSCoはインスタンス編集のミスマッチを示している。これは図 5-(b)のビデオ2(左側の男性を誤って"赤いドレスの女性"に変更)と図 5-(f)のビデオ1(左側の洗濯機を誤って"黄色い洗濯機"に変更)にそれぞれ示されている。 対照的に、我々の手法は編集をインスタンスマスク内に限定し、インスタンスキャプションに忠実に従い、インスタンス編集のミスマッチを示さない。
定量的比較。 表2に定量的比較を示す。 最先端の手法は、(i) LTFとIAスコアが低く、インスタンスレベルの編集の精度が低いこと、および (ii) CIAスコアが低く、注意の漏れが著しいことを示している。 しかし、時間的一貫性関連のメトリクス(GTCとLTC)では、(i) テクスチャや詳細が少ない滑らかな結果(図 5-(b)、ビデオ2)または (ii) 不忠実な編集(図 5-(c)から図 5-(g))により、インスタンスを変更せずに入力ビデオの構造と動きを保持しているため、より良いスコアを示している。 対照的に、我々のMIVEはGTFと主要な複数インスタンスVEメトリクス(LTF、IA、CIA、およびBP)で最高スコアを達成し、競争力のあるLTCスコアを維持している。 我々のFAはControlVideoに次いで2位であるが、これはCLIPの構成的推論の限界 [23, 36]に起因すると考えられ、グローバルキャプションとフレーム内のインスタンス間の複雑な関係を捉えることができない。 これにより、インスタンス編集のミスマッチにもかかわらず(例えば、図 5-(b)のビデオ2で2人の編集が入れ替わっている)、より高いFAスコアにつながる可能性がある。 なお、我々のMIVEはGAVのようにインペインティングモデルを使用せずに最高のBPパフォーマンスを示しており、インスタンス編集を分離しながら背景を保持し、漏れを防ぐ効果を示している。 追加のデモビデオは補足資料で利用可能である。
Methods | LTC | LTF | IA | CIA | BP | |
---|---|---|---|---|---|---|
DMS | Only NPS | 0.9460 | 0.2072 | 0.5587 | 0.6663 | 54.6597 |
Only LPS | 0.9483 | 0.2068 | 0.5716 | 0.6688 | 50.8549 | |
LPS + NPS w/o Re-Inversion | 0.9485 | 0.2080 | 0.5776 | 0.6783 | 52.3240 | |
Ours, Full | 0.9478 | 0.2138 | 0.6419 | 0.7100 | 54.3452 | |
IPR | No Modulation [44] | 0.9535 | 0.2060 | 0.5225 | 0.6553 | 50.1319 |
Dense Diffusion [28] | 0.9482 | 0.2136 | 0.6215 | 0.6891 | 59.2100 | |
Ours, Full | 0.9478 | 0.2138 | 0.6419 | 0.7100 | 54.3452 |
ユーザー調査。 我々はベースラインと我々の手法を比較するユーザー調査を実施し、結果を表 2に報告する。 我々のデータセットから、多様なシナリオ(クリップあたりのオブジェクト数、オブジェクトクラスあたりのインスタンス数、インスタンスサイズの変化)をカバーする50のビデオを選択した。 31人の参加者に、時間的一貫性(TC)、テキストの忠実性(TF)、および編集の漏れの最小化(Leakage)において最良の手法を選択するタスクを課した。 我々の手法はベースラインを上回り、TFで67.23%、漏れの最小化で62.06%の確率で最良として選択された。 MIVEはまた、30.20%の選択率で2番目に良いTCを達成した。 これは我々のGTCおよびLTCスコアとの不一致であるが、CLIPが連続するフレームの一貫性に焦点を当てているのに対し、人間の評価者はインスタンスとフレーム全体の視覚的安定性を優先しているためかもしれない。 ユーザー調査の詳細は補足資料に記載されている。
5.2 Ablation Studies
我々のアブレーション実験では、主要なマルチインスタンスVE指標を表 3に報告し、グローバルスコアを補足資料に提供している。
DMSに関するアブレーション実験。 我々はDMSに関するアブレーション実験を実施し、定性的結果を図 6に、定量的結果を表 3に示す。 図 6から、以下のことが観察される: (b) NPSのみを使用すると、最適ではなく忠実でない編集結果となる;(c) LPSのみを使用すると、ノイズの多い、ぼやけたテクスチャで詳細が乏しくなる;(d) LPSとNPSを交互に実行すると、(c)と同様のアーティファクトが生じるが、エッジがやや鮮明になり、LPSとNPSの交互実行の重要性が強調される; そして(e) 再逆変換を追加すると、アーティファクトが少なく、境界がより鮮明で、詳細が強化された忠実な編集が生成され、我々の再逆変換技術の有効性が実証される。 表3はこれらの発見を裏付けており、我々の完全な手法がLTF、IA、CIAに反映されるように、最高の編集忠実度を達成しているが、BPとLTCがわずかに低下している。 全体として、我々の最終モデルは忠実度、BP、LTCの間でバランスの取れたトレードオフを実現している。
IPRに関するアブレーション実験。 我々はIPRに関するアブレーション実験も実施し、定性的結果を図 7に、定量的結果を表 3に示す。 図 7-(b)に示されるように、変調を省略するとモデルは入力フレームを再構成する傾向がある。 この再構成により、入力の高いLTCは保持されるが、忠実でない編集(低いLTFとIA)と漏洩(低いCIA)が大きく生じる。 DenseDiffusion [28]を通じて変調を導入すると(図 7-(c))、LTCがわずかに低下するが、忠実度が向上し、漏洩が減少する。ただし、注意マップの空間分布の変化により、深刻なぼかしと平滑化のアーティファクトが生じる。 これらのアーティファクトは、結果としてBPを悪化させる。 対照的に、我々のIPRは忠実な編集(最高のLTFとIA)と少ない漏洩(最高のCIA)を生成し、DenseDiffusionよりもアーティファクトが少なく(より良いBP)、LTCのわずかな低下で済んでいる。
6 Conclusion
本稿では、Disentangled Multi-instance Sampling (DMS) とInstance-centric Probability Redistribution (IPR) を特徴とする新しい汎用マスクベースの多インスタンスビデオ編集フレームワークであるMIVEを紹介する。 我々の手法は、注意の漏れを最小限に抑えつつ、忠実で分離された編集を実現し、我々が新たに提案するMIVEデータセットにおける定性的および定量的分析の両面で、既存の最先端手法を凌駕している。 さらに、注意の漏れを定量化するための新しいCross-Instance Accuracy (CIA) スコアを提案する。 我々のユーザー調査は、MIVEの堅牢性と有効性を支持しており、参加者は我々の手法を好んでいる。
References
- Avrahami et al. [2023] Omri Avrahami, Thomas Hayes, Oran Gafni, Sonal Gupta, Yaniv Taigman, Devi Parikh, Dani Lischinski, Ohad Fried, and Xi Yin. Spatext: Spatio-textual representation for controllable image generation. In CVPR. IEEE, 2023.
- Bar-Tal et al. [2022] Omer Bar-Tal, Dolev Ofri-Amar, Rafail Fridman, Yoni Kasten, and Tali Dekel. Text2live: Text-driven layered image and video editing. In ECCV, pages 707–723. Springer, 2022.
- Bar-Tal et al. [2023] Omer Bar-Tal, Lior Yariv, Yaron Lipman, and Tali Dekel. MultiDiffusion: Fusing diffusion paths for controlled image generation. In ICML, pages 1737–1752, 2023.
- Blattmann et al. [2023] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In CVPR, pages 22563–22575, 2023.
- Brooks et al. [2024] Tim Brooks, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, et al. Video generation models as world simulators, 2024.
- Ceylan et al. [2023] Duygu Ceylan, Chun-Hao P Huang, and Niloy J Mitra. Pix2video: Video editing using image diffusion. In ICCV, pages 23206–23217, 2023.
- Chai et al. [2023] Wenhao Chai, Xun Guo, Gaoang Wang, and Yan Lu. Stablevideo: Text-driven consistency-aware diffusion video editing. In ICCV, pages 23040–23050, 2023.
- Chefer et al. [2023] Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, and Daniel Cohen-Or. Attend-and-excite: Attention-based semantic guidance for text-to-image diffusion models. ACM Trans. Graph., 42(4):1–10, 2023.
- Chen et al. [2024] Minghao Chen, Iro Laina, and Andrea Vedaldi. Training-free layout control with cross-attention guidance. In WACV, pages 5343–5353, 2024.
- Cheng et al. [2024] Jiaxin Cheng, Tianjun Xiao, and Tong He. Consistent video-to-video transfer using synthetic dataset. In ICLR, 2024.
- Cong et al. [2024] Yuren Cong, Mengmeng Xu, christian simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, and Sen He. FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing. In ICLR, 2024.
- Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. NeurIPS, 34:8780–8794, 2021.
- Dhiman et al. [2024] Ankit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, and R Venkatesh Babu. Reflecting reality: Enabling diffusion models to produce faithful mirror reflections. arXiv preprint arXiv:2409.14677, 2024.
- Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
- Esser et al. [2023] Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, and Anastasis Germanidis. Structure and content-guided video synthesis with diffusion models. In ICCV, pages 7346–7356, 2023.
- Geyer et al. [2024] Michal Geyer, Omer Bar-Tal, Shai Bagon, and Tali Dekel. Tokenflow: Consistent diffusion features for consistent video editing. In ICLR, 2024.
- He et al. [2022] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, and Qifeng Chen. Latent video diffusion models for high-fidelity long video generation. arXiv preprint arXiv:2211.13221, 2022.
- Hertz et al. [2022] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Prompt-to-prompt image editing with cross attention control. arXiv preprint arXiv:2208.01626, 2022.
- Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. NeurIPS, 33:6840–6851, 2020.
- Ho et al. [2022] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben Poole, Mohammad Norouzi, David J Fleet, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022.
- Hong et al. [2024] Seongmin Hong, Kyeonghyun Lee, Suh Yoon Jeon, Hyewon Bae, and Se Young Chun. On exact inversion of dpm-solvers. In CVPR, pages 7069–7078, 2024.
- Hu et al. [2023] Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, and Noah A Smith. Tifa: Accurate and interpretable text-to-image faithfulness evaluation with question answering. In ICCV, pages 20406–20417, 2023.
- Jamriška et al. [2019] Ondřej Jamriška, Šárka Sochorová, Ondřej Texler, Michal Lukáč, Jakub Fišer, Jingwan Lu, Eli Shechtman, and Daniel Sỳkora. Stylizing video by example. ACM Transactions on Graphics (TOG), 38(4):1–11, 2019.
- Jeong and Ye [2024] Hyeonho Jeong and Jong Chul Ye. Ground-a-video: Zero-shot grounded video editing using text-to-image diffusion models. In ICLR, 2024.
- Kara et al. [2024] Ozgur Kara, Bariscan Kurtkaya, Hidir Yesiltepe, James M Rehg, and Pinar Yanardag. Rave: Randomized noise shuffling for fast and consistent video editing with diffusion models. In CVPR, pages 6507–6516, 2024.
- Kim and Kim [2024] Jini Kim and Hajun Kim. Unlocking creator-ai synergy: Challenges, requirements, and design opportunities in ai-powered short-form video production. In Proceedings of the CHI Conference on Human Factors in Computing Systems, pages 1–23, 2024.
- Kim et al. [2023] Yunji Kim, Jiyoung Lee, Jin-Hwa Kim, Jung-Woo Ha, and Jun-Yan Zhu. Dense text-to-image generation with attention modulation. In ICCV, pages 7701–7711, 2023.
- Li et al. [2023] Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, and Yong Jae Lee. Gligen: Open-set grounded text-to-image generation. In CVPR, pages 22511–22521, 2023.
- Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, pages 740–755. Springer, 2014.
- Liu et al. [2024a] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. In CVPR, pages 26296–26306, 2024a.
- Liu et al. [2024b] Shaoteng Liu, Yuechen Zhang, Wenbo Li, Zhe Lin, and Jiaya Jia. Video-p2p: Video editing with cross-attention control. In CVPR, pages 8599–8608, 2024b.
- Liu et al. [2023] Ying Liu, Dickson KW Chiu, and Kevin KW Ho. Short-form videos for public library marketing: performance analytics of douyin in china. Applied Sciences, 13(6):3386, 2023.
- Lu et al. [2022a] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models. arXiv preprint arXiv:2211.01095, 2022a.
- Lu et al. [2022b] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver: A fast ode solver for diffusion probabilistic model sampling in around 10 steps. NeurIPS, 35:5775–5787, 2022b.
- Ma et al. [2023] Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, and Ranjay Krishna. Crepe: Can vision-language foundation models reason compositionally? In CVPR, pages 10910–10921, 2023.
- Miao et al. [2022] Jiaxu Miao, Xiaohan Wang, Yu Wu, Wei Li, Xu Zhang, Yunchao Wei, and Yi Yang. Large-scale video panoptic segmentation in the wild: A benchmark. In CVPR, pages 21033–21043, 2022.
- Nichol et al. [2022] Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob Mcgrew, Ilya Sutskever, and Mark Chen. GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models. In ICML, pages 16784–16804, 2022.
- Pont-Tuset et al. [2017] Jordi Pont-Tuset, Federico Perazzi, Sergi Caelles, Pablo Arbeláez, Alex Sorkine-Hornung, and Luc Van Gool. The 2017 davis challenge on video object segmentation. arXiv preprint arXiv:1704.00675, 2017.
- Qi et al. [2023] Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying Shan, and Qifeng Chen. Fatezero: Fusing attentions for zero-shot text-based video editing. In ICCV, pages 15932–15942, 2023.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, pages 8748–8763. PMLR, 2021.
- Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
- Ranftl et al. [2020] René Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, and Vladlen Koltun. Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. IEEE TPAMI, 44(3):1623–1637, 2020.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, pages 10684–10695, 2022.
- Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. NeurIPS, 35:36479–36494, 2022.
- Shirakawa and Uchida [2024] Takahiro Shirakawa and Seiichi Uchida. Noisecollage: A layout-aware text-to-image diffusion model based on noise cropping and merging. In CVPR, pages 8921–8930, 2024.
- Singer et al. [2024] Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, and Yaniv Taigman. Video editing via factorized diffusion distillation. In ECCV, pages 450–466. Springer, 2024.
- Soe [2021] Than Htut Soe. Automation in video editing: Assisted workflows in video editing. In AutomationXP@ CHI, 2021.
- Song et al. [2021a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR, 2021a.
- Song et al. [2021b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR, 2021b.
- Teed and Deng [2020] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow. In ECCV, pages 402–419. Springer, 2020.
- Vandersmissen et al. [2014] Baptist Vandersmissen, Fréderic Godin, Abhineshwar Tomar, Wesley De Neve, and Rik Van de Walle. The rise of mobile and social short-form video: an in-depth measurement study of vine. In Workshop on Social Multimedia and Storytelling (SoMuS 2014), pages 1–10, 2014.
- Wang et al. [2023a] Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, and Shiwei Zhang. Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571, 2023a.
- Wang et al. [2024a] Jiangshan Wang, Yue Ma, Jiayi Guo, Yicheng Xiao, Gao Huang, and Xiu Li. Cove: Unleashing the diffusion feature correspondence for consistent video editing. arXiv preprint arXiv:2406.08850, 2024a.
- Wang et al. [2024b] Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, and Ishan Misra. Instancediffusion: Instance-level control for image generation. In CVPR, pages 6232–6242, 2024b.
- Wang et al. [2024c] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. Videocomposer: Compositional video synthesis with motion controllability. NeurIPS, 36, 2024c.
- Wang et al. [2023b] Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, et al. Lavie: High-quality video generation with cascaded latent diffusion models. arXiv preprint arXiv:2309.15103, 2023b.
- Wu et al. [2023a] Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, and Mike Zheng Shou. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation. In ICCV, pages 7623–7633, 2023a.
- Wu et al. [2023b] Jay Zhangjie Wu, Xiuyu Li, Difei Gao, Zhen Dong, Jinbin Bai, Aishani Singh, Xiaoyu Xiang, Youzeng Li, Zuwei Huang, Yuanxi Sun, et al. Cvpr 2023 text guided video editing competition. arXiv preprint arXiv:2310.16003, 2023b.
- Xie et al. [2023] Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng, and Mike Zheng Shou. Boxdiff: Text-to-image synthesis with training-free box-constrained diffusion. In ICCV, pages 7452–7461, 2023.
- Yang et al. [2023a] Fei Yang, Shiqi Yang, Muhammad Atif Butt, Joost van de Weijer, et al. Dynamic prompt learning: Addressing cross-attention leakage for text-based image editing. NeurIPS, 36:26291–26303, 2023a.
- Yang et al. [2024a] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Fresco: Spatial-temporal correspondence for zero-shot video translation. In CVPR, pages 8703–8712, 2024a.
- Yang et al. [2024b] Xiangpeng Yang, Linchao Zhu, Hehe Fan, and Yi Yang. Eva: Zero-shot accurate attributes and multi-object video editing. arXiv preprint arXiv:2403.16111, 2024b.
- Yang et al. [2023b] Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, et al. Reco: Region-controlled text-to-image generation. In CVPR, pages 14246–14255, 2023b.
- Yeh et al. [2024] Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, and Yu-Lun Liu. Diffir2vr-zero: Zero-shot video restoration with diffusion-based image restoration models. arXiv preprint arXiv:2407.01519, 2024.
- Yu et al. [2023a] Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, et al. Magvit: Masked generative video transformer. In CVPR, pages 10459–10469, 2023a.
- Yu et al. [2023b] Sihyun Yu, Kihyuk Sohn, Subin Kim, and Jinwoo Shin. Video probabilistic diffusion models in projected latent space. In CVPR, pages 18456–18466, 2023b.
- Yuksel and Tan [2023] Asim Sinan Yuksel and Fatma Gulsah Tan. Deepcens: A deep learning-based system for real-time image and video censorship. Expert Systems, 40(10):e13436, 2023.
- Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, pages 3836–3847, 2023.
- Zhang et al. [2024a] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, and Qi Tian. Controlvideo: Training-free controllable text-to-video generation. In ICLR, 2024a.
- Zhang et al. [2024b] Zhixing Zhang, Bichen Wu, Xiaoyan Wang, Yaqiao Luo, Luxin Zhang, Yinan Zhao, Peter Vajda, Dimitris Metaxas, and Licheng Yu. Avid: Any-length video inpainting with diffusion model. In CVPR, pages 7162–7172, 2024b.
A Preliminaries
我々は本節で、反転ベースの動画編集がどのように達成されるかを簡潔に紹介する。 入力フレームの集合 が与えられた場合、各フレーム は潜在拡散モデル(LDM)のエンコーダー を用いてクリーンな潜在コード にエンコードされる [44]。 DDIM反転 [49, 12] が適用され、クリーンな潜在 をノイズのある潜在 に、LDMのU-Net を用いて逆拡散タイムステップ を通じてマッピングする:
(9) |
ここで、 はノイズスケジューリングパラメータを表し [44]、 はテキストプロンプト を入力としたタイムステップ におけるノイズのある潜在を表す。 反転後、 における潜在 が編集を実行するためのDDIMノイズ除去プロセス [49] への入力として使用される:
(10) |
ControlNet [69] 条件 は、サンプリングの追加ガイダンスとして加えることができ、任意の構造化情報(例えば、深度マップ)から得ることができる。 編集されたフレーム は、LDMのデコーダー を用いて得られる。 分類器フリーガイダンス [19] スケール と、より大きなスケール が、それぞれ反転とノイズ除去の際に使用される。
B Demo Videos
我々の手法および比較対象となる基準手法のサンプル入力動画と編集後の動画を、プロジェクトページにて提供している: https://kaist-viclab.github.io/mive-site/。
C Dataset and Metrics Additional Details
Use Case | Number | Number of | Number of | Number of Object | Number of Instances | Range of Average Instance |
---|---|---|---|---|---|---|
of Clips | Frames per Clip | Objects per Clip | Classes | per Object Class | Mask Size Per Video (%) | |
MIVE Dataset (full set) | 200 | 3-12 | 110 | 1-20 | ||
For Editing (Things without Stuff) | 200 | 1-9 | 54 | 1-17 | ||
For User Study | 50 | 2-9 | 38 | 1-16 | ||
For Demo | 40 | 2-9 | 35 | 1-16 |
C.1 MIVE Dataset Construction
我々のMIVEデータセットを作成するために、VIPSegの各動画からの領域を中央クロップした[37]。 我々は、すべてのインスタンスがフレーム間で可視である動画のみを選択した。 また、12フレーム未満の動画は除外した。 多様性を確保するため、最も頻繁に出現する40のオブジェクトクラスのうち1つのみを含む動画(例えば、人物のみ)を削除した。 このプロセスにより、VIPSegから最終的に200の動画のサブセットが得られた。
VIPSegにはソースキャプションが含まれていないため、視覚言語モデル(LLaVA [31])とLLM(Llama 3 [14])を使用して動画キャプションを生成した。 我々のキャプション生成パイプラインを本補足資料の図 8に示す。 まず、LLaVAに動画の各フレームのシーンを説明し、動画から既知のオブジェクトをキャプションに含めるよう指示した。 すべてのフレームキャプションから、最も多くのインスタンスを含むものを動画の代表的なキャプションとして選択した。 次に、Llama 3 [14]に、この初期キャプションをより簡潔な形式に要約し、トークン数を減らしてJSON形式で出力するよう指示した(図 8では視覚化を簡略化するために省略)。 LLaVAとLlamaは各動画に対して有用な初期キャプションを提供するが、すべてのオブジェクトが各動画で正確に捉えられているわけではない。 そのため、我々は手動でキャプションを精緻化し、各インスタンストークンの開始タグと終了タグを追加して、対応するセグメンテーションマスクの参照として機能させた。
各インスタンスのターゲットキャプションを生成するために、[71]と同様に、Llama 3を使用してテクスチャの再適用やインスタンスの交換などの編集を促した。 Llama 3に各インスタンスのターゲットキャプションの候補を5つ生成するよう指示し、そのうちの1つをランダムに選択して最終的なインスタンスキャプションを作成した。 最後に、元のソースキャプションを修正し、ソースインスタンスキャプションを最終的なターゲットインスタンスキャプションに置き換えて、グローバルターゲットキャプションを生成した。 我々のタスクでは「thing」インスタンスのみを使用しているが、「stuff」オブジェクトと背景要素のキャプションも生成した。 この設定により、将来的にデータセットを拡張し、LLMを使用してこれらのオブジェクトのターゲット編集を作成することが可能となる。 サンプルフレームとキャプションを図9および10に示す。
C.2 Cross-Instance Accuracy (CIA) Score
我々のクロスインスタンス精度(CIA)スコアは、既存の動画編集メトリクスの欠点、特に潜在的な編集漏れ(文献では一般に注意漏れと呼ばれる)を考慮できない点に対処するために提案された。 グローバルテキスト忠実度(GTF)とフレーム精度(FA)メトリクスは、グローバルキャプションとフレーム内の個々のインスタンスのニュアンスを捉えることができないため、あるインスタンスのテキストプロンプトが別のインスタンスに漏れるケースを考慮できない。 インスタンス精度(IA)は、切り取られたインスタンスがソースキャプションと比較してターゲットキャプションにより適合しているかどうかのみを判断し、別のインスタンスキャプションが切り取られたインスタンスに影響を与えているかどうかを考慮していない。 ローカルテキスト忠実度(LTF)は、インスタンスのターゲットキャプションと対応する切り取られたインスタンスの整合性のみを定量化するが、他のインスタンスキャプションからの潜在的な注意漏れも見過ごしている。 背景保存(BP)は背景の修正と注意漏れを測定できるが、特定のインスタンスキャプションの影響を受けるべきではないインスタンスにおける漏れを考慮していない。 我々はさらに、切り取られたインスタンスと、それに影響を与えるべきではない別のターゲットインスタンスキャプションとのローカルテキスト忠実度が、切り取られたインスタンスとそれに対応するターゲットインスタンスキャプションとのスコアよりも高くなることがあることを観察した(赤字で図 11に示す)。
我々の問題の性質と、上記の制限事項および観察結果から、動画編集タスクにおけるインスタンス間の注意漏れを考慮できる新しい評価メトリクスとして、クロスインスタンス精度(CIA)スコアを提案するに至った。 我々のCIAスコアの計算を図 11で可視化し、本稿の主要部分の4.2節でCIAスコアの計算方法の詳細な説明を提供している。
C.3 Local Metrics Computation
局所的スコアを計算するために、我々はマスクから推論された境界ボックスを使用して各インスタンスをクロップし、アスペクト比を保持するためにパディングを追加する。 局所的テキスト忠実度(LTF)は、[41]に従い、各クロップされたインスタンスのCLIP画像埋め込みとそのインスタンスキャプションのテキスト埋め込み間の平均コサイン類似度として計算される。 局所的時間的一貫性(LTC)は、同様に連続するフレーム間でクロップされたインスタンス間の平均コサイン類似度として測定される。 インスタンス精度(IA)は、ソースインスタンスキャプションよりもターゲットインスタンスキャプションに対する類似度が高いインスタンスの割合である。
D Comparison with State-of-the-Art Methods
D.1 Qualitative Comparison
D.2 Quantitative Results Based on Instance Sizes and Numbers of Instances
Method | Venue | Editing | Local Scores (Small) | Local Scores (Medium) | Local Scores (Large) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Scope | LTC | LTF | IA | CIA | LTC | LTF | IA | CIA | LTC | LTF | IA | CIA | ||
ControlVideo [70] | ICLR’24 | Global | 0.9546 | 0.1684 | 0.3479 | 0.3875 | 0.9516 | 0.1852 | 0.3248 | 0.5220 | 0.9580 | 0.2048 | 0.5845 | 0.5003 |
FLATTEN [11] | ICLR’24 | Global | 0.9519 | 0.1789 | 0.4230 | 0.4215 | 0.9457 | 0.1902 | 0.2338 | 0.5766 | 0.9547 | 0.1876 | 0.2371 | 0.4949 |
RAVE [26] | CVPR’24 | Global | 0.9547 | 0.1752 | 0.3953 | 0.4310 | 0.9527 | 0.1830 | 0.2932 | 0.5444 | 0.9581 | 0.1910 | 0.3684 | 0.4815 |
TokenFlow [16] | ICLR’24 | Global | 0.9486 | 0.1783 | 0.4517 | 0.4434 | 0.9406 | 0.1876 | 0.3297 | 0.6085 | 0.9522 | 0.1880 | 0.3536 | 0.5090 |
FreSCo [62] | CVPR’24 | Global | 0.9288 | 0.1790 | 0.4044 | 0.4283 | 0.9226 | 0.1892 | 0.2937 | 0.5945 | 0.9383 | 0.1852 | 0.2709 | 0.4958 |
GAV [25] | ICLR’24 | Local, Multiple | 0.9529 | 0.1803 | 0.4224 | 0.4680 | 0.9498 | 0.1932 | 0.3298 | 0.5913 | 0.9550 | 0.1889 | 0.3740 | 0.5420 |
MIVE (Ours) | - | Local, Multiple | 0.9537 | 0.1794 | 0.4051 | 0.6059 | 0.9441 | 0.1997 | 0.4647 | 0.6883 | 0.9509 | 0.2243 | 0.7414 | 0.7331 |
Method | Venue | Editing | Global Scores | Local Scores | Leakage Scores | |||||
---|---|---|---|---|---|---|---|---|---|---|
Scope | GTC | GTF | FA | LTC | LTF | IA | CIA (Ours) | BP | ||
Editing on 1-3 Instances (Easy Video) - 116 Videos | ||||||||||
ControlVideo [70] | ICLR’24 | Global | 0.9729 | 0.2724 | 0.8839 | 0.9513 | 0.2020 | 0.5374 | 0.6192 | 79.3548 |
FLATTEN [11] | ICLR’24 | Global | 0.9661 | 0.2415 | 0.2924 | 0.9484 | 0.1893 | 0.2568 | 0.6060 | 67.1713 |
RAVE [26] | CVPR’24 | Global | 0.9661 | 0.2698 | 0.5452 | 0.9533 | 0.1886 | 0.3620 | 0.5964 | 71.2598 |
TokenFlow [16] | ICLR’24 | Global | 0.9686 | 0.2578 | 0.5710 | 0.9465 | 0.1880 | 0.3480 | 0.6248 | 74.2420 |
FreSCo [62] | CVPR’24 | Global | 0.9534 | 0.2491 | 0.4138 | 0.9327 | 0.1877 | 0.2841 | 0.6085 | 92.0291 |
GAV [25] | ICLR’24 | Local, Multiple | 0.9643 | 0.2518 | 0.5583 | 0.9477 | 0.1915 | 0.3851 | 0.6466 | 63.3588 |
MIVE (Ours) | - | Local, Multiple | 0.9583 | 0.2738 | 0.8589 | 0.9441 | 0.2203 | 0.6932 | 0.7983 | 58.4894 |
Editing on 4-7 Instances (Medium Video) - 66 Videos | ||||||||||
ControlVideo [70] | ICLR’24 | Global | 0.9757 | 0.2775 | 0.8834 | 0.9579 | 0.1875 | 0.4543 | 0.3704 | 65.3667 |
FLATTEN [11] | ICLR’24 | Global | 0.9700 | 0.2373 | 0.2305 | 0.9526 | 0.1853 | 0.2288 | 0.4199 | 56.7246 |
RAVE [26] | CVPR’24 | Global | 0.9689 | 0.2777 | 0.5819 | 0.9570 | 0.1842 | 0.3396 | 0.3951 | 57.2210 |
TokenFlow [16] | ICLR’24 | Global | 0.9686 | 0.2559 | 0.5425 | 0.9486 | 0.1845 | 0.3631 | 0.4498 | 62.3709 |
FreSCo [62] | CVPR’24 | Global | 0.9555 | 0.2589 | 0.4276 | 0.9318 | 0.1835 | 0.3177 | 0.4389 | 76.8818 |
GAV [25] | ICLR’24 | Local, Multiple | 0.9674 | 0.2648 | 0.5549 | 0.9549 | 0.1859 | 0.3660 | 0.4676 | 57.8612 |
MIVE (Ours) | - | Local, Multiple | 0.9614 | 0.2763 | 0.8397 | 0.9501 | 0.2060 | 0.5872 | 0.6483 | 48.2502 |
Editing on 7 Instances (Hard Video) - 18 Videos | ||||||||||
ControlVideo [70] | ICLR’24 | Global | 0.9781 | 0.2692 | 0.9051 | 0.9651 | 0.1885 | 0.3602 | 0.1698 | 58.5803 |
FLATTEN [11] | ICLR’24 | Global | 0.9717 | 0.2274 | 0.2007 | 0.9584 | 0.1898 | 0.2499 | 0.2339 | 57.0569 |
RAVE [26] | CVPR’24 | Global | 0.9711 | 0.2735 | 0.7714 | 0.9602 | 0.1857 | 0.3242 | 0.2026 | 51.7408 |
TokenFlow [16] | ICLR’24 | Global | 0.9682 | 0.2552 | 0.5778 | 0.9529 | 0.1878 | 0.3162 | 0.2212 | 55.8445 |
FreSCo [62] | CVPR’24 | Global | 0.9538 | 0.2536 | 0.4339 | 0.9322 | 0.1844 | 0.2954 | 0.2156 | 71.5167 |
GAV [25] | ICLR’24 | Local, Multiple | 0.9715 | 0.2580 | 0.4825 | 0.9628 | 0.1870 | 0.2911 | 0.2210 | 47.0554 |
MIVE (Ours) | - | Local, Multiple | 0.9697 | 0.2784 | 0.8937 | 0.9626 | 0.2002 | 0.5118 | 0.3669 | 49.9864 |
この部分では、ベースライン手法と我々のMIVEが以下に基づいてバイアスを示すかどうかを分析する:(i) インスタンスサイズ、または (ii) インスタンス数。
インスタンスサイズに基づく定量的結果。 表5は、様々なインスタンスサイズにおける我々の手法とベースラインの比較を示している。 インスタンスサイズの分類には、COCOデータセット[30]に従い、以下のように定義する:(i) 小さいインスタンスは面積が、(ii) 中程度のインスタンスは面積がとの間、(iii) 大きいインスタンスは面積がである。 全ビデオにおいて、69個の小さいインスタンス、297個の中程度のインスタンス、434個の大きいインスタンスがある。 ビデオ内の各インスタンスの面積を計算するために、我々はすべてのフレームにわたってその面積の平均を取る。
表 5に示されているように、ローカル時間的一貫性スコアは本稿(セクション5.1)の結果と一致しており、RAVEとControlVideoがそれぞれ最良および2番目の性能を達成し、我々のMIVE手法は競争力のある結果を示している。
中程度および大きいインスタンスサイズにおいて、我々の手法はテキストの忠実性(LTFとIA)と注意漏れ(CIA)で最良の性能を達成している。 中程度のインスタンスサイズのシナリオでは、我々のMIVEは2番目に良い手法と比較して、LTF、IA、CIAでそれぞれ約0.006、13.5%、8%の改善を示している。同様に、大きいインスタンスサイズのシナリオでは、MIVEは2番目に良い手法と比較して、それぞれ約0.02、16%、19%の改善を達成している。 大きいインスタンスでの改善が大きいことは、我々の手法が編集の条件としてマスクを使用しているため、より大きな物体でより良い性能を発揮することを示している。 この理由付けは、GAVの結果によってさらに裏付けられる。 バウンディングボックスを使用するGAVは、大きいインスタンスのシナリオでより多くの重複が発生する傾向があり、グローバル編集のベースラインと比較して性能が低下する。 これらの発見は、マルチインスタンスビデオ編集の条件としてバウンディングボックスよりもマスクを使用することの利点を強調している。
小さいインスタンスサイズのシナリオでは、すべての手法のLTFスコアが中程度および大きいインスタンスと比較して低くなる傾向がある。 これは、LDMのVAEにおけるダウンサンプリングによって引き起こされる、拡散ベースのビデオ編集手法における小さいインスタンスの編集の課題を浮き彫りにしている[44]。 小さいインスタンスに対して、我々のMIVEは注意漏れ(CIA)で最良の性能を達成し、編集の忠実性(LTFとIA)で競争力のある性能を示している。 LTFについては、我々の手法と最良の性能を示す手法(GAV)との差はわずか(0.001)である。 小さいインスタンスに対する我々の手法のLTFは、インスタンス中心確率再分配(IPR)におけるの値を増やすことで潜在的に改善できる可能性があることは注目に値する。 しかし、IAについては、我々のMIVEは最良の手法よりも5%低いスコアを示しているにもかかわらず、より高いLTFを達成している。 この問題をよりよく理解するために、我々はTokenFlowの定性的結果を分析した。これは我々のデモと図 12、図 13、および図 14に示されている。 TokenFlowはマルチインスタンス編集のシナリオでしばしばアーティファクトを生成する。 例えば、図 13のビデオ2(中央の列)では、ターゲットインスタンスのキャプションが「野球ボール」(ソースインスタンスのキャプション:ゴルフボール)である場合、TokenFlowはゴルフボールを草地に変換しているが、他の手法はこの領域の編集に失敗し、元のゴルフボールを保持している。 興味深いことに、このように編集されたゴルフボールに対するTokenFlowのIAスコアは0.87であるのに対し、我々のMIVEは結果がより野球ボールに見えるにもかかわらず0.5のスコアを示している。 この観察は、IAメトリクスが小さいサイズのインスタンスのシナリオにおける性能評価に適していない可能性があることを示唆している。
インスタンス数に基づく定量的結果。様々なインスタンスサイズに関する定量的比較に加えて、我々は各ビデオにおける異なる数の編集されたインスタンスに対するさらなる分析を表 6に示す。 ビデオは3つのグループに分類される:(i) 簡単なビデオ(EV):1-3個の編集されたインスタンスを含む、(ii) 中程度のビデオ(MV):4-7個の編集されたインスタンスを含む、(iii) 難しいビデオ(HV):7個以上の編集されたインスタンスを含む。 漏れスコアについては、本稿の定量的比較(表2)からの大きな逸脱はない。 ほとんどの場合、我々のMIVEが最良の漏れスコアの性能を達成し、GAVまたはFLATTENが2番目に良い性能を示している。 これは本稿のユーザースタディで強調された選好と一致している。 ローカルスコアについては、結果は本稿と一致しており、我々のMIVEが最良のLTFとIAスコアを達成し、競争力のあるLTC性能を示している。 同様に、グローバルスコアについても、GTCとFAメトリクスは本稿と一致しており、我々の手法は競争力のあるGTCと2番目に良いFA結果を達成している。 本稿からの注目すべき逸脱はGTFスコアにある。 我々のMIVEは本稿で最良のGTFスコアを達成しているが、これはEVとHVのシナリオでのみ当てはまる。 MVシナリオでは、RAVEが最良の結果を達成し、ControlVideoが続き、我々のMIVEは3位となっている。 我々の手法と最高性能の手法との差は小さい(0.0014)。 このGTFの逸脱は、CLIPの構成的推論の限界[23, 36]によるものであり、これがグローバルキャプションとフレーム間のインスタンス間の複雑な関係を捉える能力を妨げている可能性がある。 これはさらに、マルチインスタンスビデオ編集の性能を定量化する上でのローカルスコアの重要性を示している。
要約すると、本稿の定量的結果と比較していくつかのスコアにわずかな逸脱があるものの、我々のMIVEの性能は様々なシナリオにわたって一貫している。 これは、インスタンスサイズや編集されたインスタンス数の変動に対する我々のアプローチの堅牢性を示している。
D.3 User Study Details
ユーザー調査を実施するために、我々はデータセットから多様なシナリオ(クリップごとのオブジェクト数、オブジェクトクラスごとのインスタンス数、インスタンスサイズの変化)をカバーする50のビデオを選択した。 ユーザー調査で使用したビデオの統計を表 4に示す。 我々はMIVEフレームワークと他の6つの最先端ビデオ編集手法、すなわちControlVideo [70]、FLATTEN [11]、RAVE [26]、TokenFlow [16]、FreSCo [62]、およびGAV [25]を用いてビデオを編集した。 31名の参加者に以下の点で最も優れた手法を選択するよう依頼した:
-
•
最高の時間的一貫性:最も滑らかな遷移を持つビデオを選択する;
-
•
最高のテキスト忠実度:テキストとオブジェクトの整合性が最も正確なビデオを選択する。全体的なターゲットキャプションと個々のインスタンスキャプションとの整合性を必ず確認すること;
-
•
最小の編集漏れ:他のオブジェクトや背景へのテキスト漏れが最も少ないビデオを選択する。
ユーザー調査を開始する前に、我々は参加者に各基準についての良い例と悪い例を指針として提供した。 図 15に我々のユーザー調査インターフェースとアンケートフォームを示す。
D.4 Video-P2P Results
E Additional Analysis and Ablation Studies
Methods | GTC | GTF | FA | LTC | LTF | IA | CIA | BP | |
---|---|---|---|---|---|---|---|---|---|
DMS | Only NPS | 0.9591 | 0.2667 | 0.7907 | 0.9460 | 0.2072 | 0.5587 | 0.6663 | 54.6597 |
Only LPS | 0.9602 | 0.2645 | 0.7690 | 0.9483 | 0.2068 | 0.5716 | 0.6688 | 50.8549 | |
LPS + NPS w/o Re-Inversion | 0.9615 | 0.2674 | 0.7810 | 0.9485 | 0.2080 | 0.5776 | 0.6783 | 52.3240 | |
Ours, Full | 0.9604 | 0.2750 | 0.8557 | 0.9478 | 0.2138 | 0.6419 | 0.7100 | 54.3452 | |
IPR | No Modulation [44] | 0.9642 | 0.2642 | 0.7468 | 0.9535 | 0.2060 | 0.5225 | 0.6553 | 50.1319 |
Dense Diffusion [28] | 0.9611 | 0.2760 | 0.9029 | 0.9482 | 0.2136 | 0.6215 | 0.6891 | 59.2100 | |
Ours, Full | 0.9604 | 0.2750 | 0.8557 | 0.9478 | 0.2138 | 0.6419 | 0.7100 | 54.3452 |
ここでは、本稿の削減実験で紙面の制約により含めることができなかったグローバルスコアを提示する。 DMSの削減実験において、我々の完全な手法は、ローカルな忠実性(LTFとIA)の向上に加えて、グローバルな編集忠実性(GTFとFA)も向上させている。 また、本稿で報告された観察結果と一致して、競争力のある時間的一貫性スコア(GTCとLTC)も達成している。 IPRの削減実験については、グローバルスコアがローカルスコアとは若干異なる傾向を示し、Dense Diffusionがより良いグローバルな編集忠実性能を達成している。 しかし、本稿の図7に示されているように、Dense Diffusionは平滑化アーティファクトを示す可能性がある。 これらの平滑化アーティファクトはローカルスコアを低下させるが、グローバルスコアには影響を与えない。 場合によっては、グローバルスコアを向上させることさえある。これは、グローバルスコアがキャプションの全単語トークンを用いて各フレームを評価するためである。 各トークンがフレームのいずれかの位置で可視化されていれば、CLIPの構成的推論の限界により、グローバルスコアが高くなる可能性がある[23, 36]。
E.1 DMS Ablations
Method | Global Scores | Local Scores | Leakage Scores | |||||
GTC | GTF | FA | LTC | LTF | IA | CIA (Ours) | BP | |
(a) Ablation on Alternating LPS and NPS on All Sampling Steps (50) | ||||||||
(1) Alternate (50): LPS = 1 + NPS = 1 | 0.9608 | 0.2691 | 0.8098 | 0.9472 | 0.2090 | 0.5883 | 0.6851 | 55.1253 |
(2) Alternate (50): LPS = 4 + NPS = 1 | 0.9610 | 0.2667 | 0.7908 | 0.9481 | 0.2080 | 0.5914 | 0.6809 | 52.4647 |
(3) Alternate (50): LPS = 9 + NPS = 1 | 0.9605 | 0.2654 | 0.7779 | 0.9483 | 0.2075 | 0.5748 | 0.6713 | 51.4300 |
(4) Alternate (50): LPS = 14 + NPS = 1 | 0.9604 | 0.2649 | 0.7706 | 0.9483 | 0.2073 | 0.5743 | 0.6697 | 51.1941 |
(5) Alternate (50): NPS = 4 + LPS = 1 | 0.9598 | 0.2690 | 0.8181 | 0.9465 | 0.2081 | 0.5804 | 0.6727 | 54.8790 |
(b) Ablation on Last NPS after Alternating Sampling | ||||||||
(1) Alternate (50): LPS = 9 + NPS = 1; NPS = 0 | 0.9605 | 0.2654 | 0.7779 | 0.9483 | 0.2075 | 0.5748 | 0.6713 | 51.4300 |
(2) Alternate (40): LPS = 9 + NPS = 1; NPS = 10 | 0.9613 | 0.2673 | 0.7824 | 0.9485 | 0.2081 | 0.5786 | 0.6792 | 52.3441 |
(3) Alternate (30): LPS = 9 + NPS = 1; NPS = 20 | 0.9614 | 0.2688 | 0.7890 | 0.9483 | 0.2083 | 0.5752 | 0.6739 | 52.9035 |
(4) Alternate (20): LPS = 9 + NPS = 1; NPS = 30 | 0.9614 | 0.2680 | 0.7990 | 0.9485 | 0.2084 | 0.5743 | 0.6734 | 53.4412 |
(c) Ablation on Re-Inversion Step only on Alternating Sampling | ||||||||
(1) Alternate (40): LPS = 9 + Re-Inv L = 1 + NPS = 1; NPS = 10 | 0.9607 | 0.2697 | 0.8012 | 0.9479 | 0.2094 | 0.5930 | 0.6867 | 52.8582 |
(2) Alternate (40): LPS = 9 + Re-Inv L = 2 + NPS = 1; NPS = 10 | 0.9603 | 0.2712 | 0.8162 | 0.9475 | 0.2107 | 0.6180 | 0.6970 | 53.2689 |
(3) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 | 0.9599 | 0.2724 | 0.8305 | 0.9471 | 0.2114 | 0.6233 | 0.6989 | 53.7494 |
(d) Ablation on Re-Inversion Step of Last NPS=10 with Alternating LPS=9 & NPS=1 & Re-Inversion L=3 | ||||||||
(1) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv L = 1 | 0.9603 | 0.2740 | 0.8413 | 0.9477 | 0.2129 | 0.6315 | 0.7068 | 53.9953 |
(2) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv L = 2 (Ours, Full) | 0.9604 | 0.2750 | 0.8557 | 0.9478 | 0.2138 | 0.6419 | 0.7100 | 54.3452 |
(3) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv L = 3 | 0.9606 | 0.2751 | 0.8591 | 0.9476 | 0.2143 | 0.6401 | 0.7090 | 54.7422 |
(e) Ablation on Re-Inversion Step using 2D vs 3D Model | ||||||||
(1) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv (2D) L = 2 | 0.9638 | 0.2749 | 0.8497 | 0.9505 | 0.2138 | 0.6385 | 0.7078 | 54.9499 |
(2) Alternate (40): LPS = 9 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv (3D) L = 2 (Ours, Full) | 0.9604 | 0.2750 | 0.8557 | 0.9478 | 0.2138 | 0.6419 | 0.7100 | 54.3452 |
(f) Ablation on Another Alternative Configuration | ||||||||
(1) Alternate (40): LPS = 4 + Re-Inv L = 3 + NPS = 1; NPS = 10 + Re-Inv (3D) L = 2 | 0.9597 | 0.2775 |