JaLMS
最新の AI 研究を日本語で解読

VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval

Dhiman Paul\orcidlink0009000515046911absent\orcidlink0009000515046911{}^{*\orcidlink{0009-0005-1504-6911}}start_FLOATSUPERSCRIPT ∗ 0009 - 0005 - 1504 - 6911 end_FLOATSUPERSCRIPT, Md Rizwan Parvez\orcidlink0000000237087803absent\orcidlink0000000237087803{}^{*\orcidlink{0000-0002-3708-7803}}start_FLOATSUPERSCRIPT ∗ 0000 - 0002 - 3708 - 7803 end_FLOATSUPERSCRIPT, Nabeel Mohammed\orcidlink0000000276613570\orcidlink0000000276613570{}^{\orcidlink{0000-0002-7661-3570}}start_FLOATSUPERSCRIPT 0000 - 0002 - 7661 - 3570 end_FLOATSUPERSCRIPT and Shafin Rahman\orcidlink0000000171690318\orcidlink0000000171690318{}^{\orcidlink{0000-0001-7169-0318}}start_FLOATSUPERSCRIPT 0000 - 0001 - 7169 - 0318 end_FLOATSUPERSCRIPT Manuscript received December 1, 2024. (Corresponding author: Shafin Rahman)Dhiman Paul, Nabeel Mohammed, and Shafin Rahman are with the Department of Electrical and Computer Engineering, North South University, Dhaka, Bangladesh (email: [email protected]; [email protected]; [email protected] ).Md Rizwan Parvez is with Qatar Computing Research Institute (QCRI), Qatar (email: [email protected]). Equal contribution.
Abstract

ビデオハイライト検出とモーメント検索(HD/MR)は、ビデオ分析において不可欠である。最近の結合予測トランスフォーマーモデルは、しばしばそれらのクロスタスクダイナミクスとビデオ-テキストのアラインメントおよび洗練を見過ごしている。さらに、ほとんどのモデルは通常、限定的な一方向の注意メカニズムを使用しており、その結果、弱く統合された表現と、ビデオとテキストのモダリティ間の相互依存性を捉える上で最適ではないパフォーマンスをもたらしている。大規模言語モデルおよびビジョン言語モデル(LLM/LVLM)が様々な分野で注目を集めているにもかかわらず、この分野におけるそれらの応用は比較的未探索のままである。ここで我々は、VideoLightsを提案する。これは、これらの制限に対処する新しいHD/MRフレームワークであり、以下の特徴を持つ:(i) より良いビデオ-テキスト特徴アラインメントのための畳み込み投影と特徴洗練モジュール(アラインメント損失を伴う)、(ii) 強く結合されたクエリ認識クリップ表現のための双方向クロスモーダル融合ネットワーク、(iii) 相関を通じて両タスクを強化する一方向結合タスクフィードバックメカニズム。さらに、(iv) 適応的エラーペナルティと改善された学習のための困難な正例/負例損失を導入し、(v) LVLMから生成された合成データを使用したインテリジェントな事前学習と、強化されたマルチモーダル特徴統合のためにBLIP-2のようなLVLMを活用する。QVHighlights、TVSum、Charades-STAベンチマークにおける包括的な実験により、最先端のパフォーマンスが実証された。コードとモデルは以下で入手可能である:https://github.com/dpaul06/VideoLights

I Introduction

デジタルデバイス、プラットフォーム、およびインターネット利用の急増により、オンラインビデオコンテンツが豊富に存在するようになった[1, 2]。しかし、このような膨大なコンテンツを閲覧することは、ユーザーにとって非常に困難な課題であり、録画内の特定の関心点を特定する能力を妨げている[3, 1]。その結果、ビデオクリップの顕著性スコアを評価するビデオハイライト検出(HD;[4, 5, 6, 7, 8])と、ユーザークエリに対して重要な瞬間(すなわち、最も高い顕著性スコアを持つクリップ)を自動的に特定する瞬間検索(MR; [3, 9, 10, 11, 12, 13, 14, 15])は、ビデオ分析において不可欠なツールとなっている。これらは、コンテンツ管理、推奨、作成、編集、およびイベント検出プロセスを効率化している。ユーザークエリに基づいて関連するビデオクリップをランク付け/ローカライズするという共通の目的と、マルチモーダルモデルとデータプロパティの共通性を考慮し、転移モデルを使用した最近の研究では、ビデオハイライト検出と瞬間検索(HD/MR)を共同でモデル化し始めている[16, 17, 18, 19, 20, 21, 22, 23]

CLIP [24] やBLIP [25] などのビジョン言語モデル(VLM)から得られるテキストと動画の特徴埋め込みは、テキストと動画のモダリティの微妙かつ根本的な理解を促進する。事前学習された埋め込みを活用することで、これらのモデルは意味的整合性やマルチモーダル推論に関連する複雑な課題に取り組む上で顕著な効果を示し、マルチモーダルデータの統合と解釈可能性を向上させている。MR-HDの共同タスクにおいて、ほとんどの研究 [16, 17, 18, 19, 20, 21, 22] は主にKinetics 400 [26] で事前学習されたCLIPからのテキストおよび視覚特徴を使用している。しかし、CLIPは主に静止画像とテキストで学習されているため、動画理解に不可欠な時間的情報が欠けている。この制限に対処するため、視覚的側面と時間的側面の両方を組み込んだSlowFast [27] からの追加の視覚埋め込みが統合されている [16]。CLIPがテキストと画像間の共同表現を学習する一方で、GPT-4V [28]、LLaVA [29]、BLIP-2 [30] などの大規模ビジョン言語モデル(LVLM)は、より複雑な推論能力を持ち、視覚と言語領域の様々なタスクで成功を証明したより強力なツールとして登場している [31]。したがって、HD/MR予測の共同タスクに関する我々の研究の根幹として、CLIP、SlowFast、そしてLVLMのBLIP-2 [30] のすべてから強化された視覚的およびテキスト埋め込みを導入する。これらはHD/MR文献ではほとんど探求されていない。我々は、CLIPなどの既存の埋め込みに対するその有効性を検証する(IV-A節およびIV-B節で)。

それにもかかわらず、HDとMRの共同予測は、テキストと動画の両モダリティ、およびそれらのクロスモーダルおよびクロスタスクの相乗効果についてより深い理解を必要とする挑戦的なタスクである。共存し相関しているにもかかわらず、我々は、ほとんどのアプローチが共同でモデル化する際に、クロスタスク(すなわちHD対MR)またはクロスモーダル(すなわちテキスト対動画)のダイナミクスのいずれかを軽視していることを観察している。これにより、潜在的な利益と堅牢性が制限されている。例えば、エンコーダ-デコーダトランスフォーマーモデルに基づく初期の研究Moment-DETR [16]は、動画とテキストの表現に事前学習された視覚-言語モデル特徴の連結を採用している。UMT [17]のような後続の研究は、エンコーダに音声入力を、デコーダにテキストを追加しながら、分離されたテキストと動画の特徴を使用している。QD-DETR [19]は、テキストを動画と整列させるクエリ依存の動画表現モジュールを開発している。UniVTG [20]はさらに、統一されたファインチューニングと事前学習方法を用いたマルチタスク学習アプローチを提示している。これらの手法は、クロスタスクの相互作用に対処せずに、共有層の後に2つの分離されたタスクヘッドをカスケード接続している。一方、最近提案されたTaskWeave [18]とTR-DETR [22]モデルは、まずHDとMRを独立して計算し、その後それらを協調させて(HDをMRに、およびその逆)結果を再計算することで、(双方向の)クロスタスク関係に対処しているが、依然としてテキストから動画への注意がないか一方向(クロスモーダル)であることに依存している。これらの課題に対処するため、本稿では、クロスモーダルおよびクロスタスクの相互作用から学習を可能にする新しいHD/MR共同予測フレームワークVideoLightsを提案する。さらに、多くの場合、テキストクエリはより簡潔である傾向があるのに対し、動画フレームはしばしばノイズや無関係な情報を含んでいる。結果として、動画全体に直接注意を適用しても、関連するクリップと無関係なクリップを効果的に区別することはできない。TR-DETRは、クエリトークンに関連して視覚トークンを強化することでこの課題に対処している。この問題に取り組むため、我々は特徴精製および整列(FRA)モジュールを開発した。これは、テキスト特徴に従って視覚特徴を巧みに精製し、局所的および大域的レベルで整列させる。図1は、自己注意または交差注意のみではクエリと動画を効果的に整列できないことを視覚的に示している。

Refer to caption
図1: ビデオ理解モデル間のマルチモーダルアライメントダイナミクスを示す関連性ヒートマップ。色の強度(青から赤)はクエリとビデオクリップの対応関係を定量化し、の線はクリップごとの真の顕著性を示している。比較可視化により、VideoLightsが投影、特徴精製、双方向クロスアテンションの段階を通じてクエリとクリップの関連性を段階的に精緻化していく様子が明らかになっており、これはMoment-DETR [16]やQD-DETR [19]の限定的なマルチモーダル相互作用と対照的である。

我々のフレームワークの核心には、以下のモジュールと原則がある:

  1. 1.

    特徴精製とアライメント(FRA)モジュール:CNNベースのモーダル内およびモーダル間の特徴相互作用と精製を実装し、テキストとビデオの対応関係のためのモーダル間アライメント損失を含む。

  2. 2.

    双方向クロスモーダル融合(Bi-CMF)ネットワーク:テキストとビデオの双方向アテンションのための多段階階層的プロセスを採用し、強く結合されたクエリ認識型クリップ表現を生成する。

  3. 3.

    単方向結合タスクフィードバックメカニズム(Uni-JFM):タスク固有およびタスク結合損失を通じてタスク相関を強化し、HDとMRからの特徴ベクトルにコサイン類似度を利用してクロスタスク学習効率を向上させる。

  4. 4.

    適応的誤差修正:クリップの顕著性予測におけるモデルの誤りを適応的にペナルティ化するために、ハードポジティブおよびハードネガティブ損失を組み込み、改善された学習を促進する。

  5. 5.

    インテリジェントモデル事前学習:大規模ビジョン言語モデル(LVLM)、特にBLIP-2の画像からテキストへの生成能力を活用し、ビデオコーパスと言語-画像モデルから生成された合成データを利用して、モデルの事前学習のための高品質のペアとなるテキストクエリを作成する。

我々は、広く認知されているベンチマークであるQVHighlights [16]、TVSum [32]、およびCharades-STA [9]において包括的な評価を実施した。結果は、両タスクにおいてVideoLightsが強力な性能を示し、すべての先行するベースラインを大幅に上回り(QVHighlightsで平均1.4%、TVSumで0.7%、Charades-STAで0.3%)、新たな最先端の結果を達成したことを示している。我々はまた、QVHighlightsの開発セットにおける我々のモデルの詳細な削減実験を提供し、定性的な例を視覚化し、異なる合成事前学習コーパスの効果とフィーチャーアンサンブルの影響を分析する。我々は、これに応じて我々の実装をオープンソース化する予定である。

II Related Work

モーメント検索(MR)とハイライト検出(HD)は、動画理解における密接に関連したタスクである。MRは与えられた自然言語クエリに関連する動画モーメントを検索することを目的とし、HDは動画内の最も重要または顕著なモーメントを検出することに焦点を当てる。初期のMRアプローチには、二段階手法[3, 33, 9, 34, 35, 36]と一段階手法[37, 38, 39, 40, 41, 42, 43, 44, 45, 35, 46, 47, 48, 49, 50, 51]が含まれる。しかし、MRとHDに関する最近の研究は主にトランスフォーマーベースのアーキテクチャを発展させている[52]。検出トランスフォーマーモデル(DETR)[53]は、ビジョントランスフォーマーを活用してアンカー生成と非最大抑制の必要性を排除し、予測を簡素化している。初期の収束の遅れにもかかわらず、その後の進歩によりDETRはHDとMRで広く適用されるようになった。注目すべき貢献の一つはMoment-DETR[16]であり、これは同時HD/MRのためのQVHighlightsデータセットを導入した。Moment-DETRはDETRモデルの改良版であり、クエリに関連するモーメントとそれに対応する顕著性スコアの特定に優れている。別の最近の研究であるUMT[17]は、MRとHDのためのマルチモーダルデータ(動画と音声)を処理する統一アーキテクチャを提案した。しかし、UMTはMoment-DETRからモーメントデコーダーと二部マッチングを削除しており、MRの性能が劣る結果となっている。さらに、一部の研究ではMRとHDに対する代替アプローチを探求している。例えば、TVT[54]は関連するモーメントを捉えるために追加データ(字幕)を利用し、FVMR[55]は効率的なMRのための推論速度を改善した。新しいReversed Recurrent Tuning(R²-Tuning)[56]フレームワークは、CLIPのマルチレイヤー特徴を活用して、多様なタスクとベンチマークにわたる効率的かつパラメータの少ない動画時間的グラウンディングを実現している。MRとHDタスクは互いに関連しているため、最近の一部の手法(TaskWeave[18]、TR-DETR[22])はタスク間の依存関係を効果的に探求している。しかし、本稿では、クロスモーダルおよびクロスタスクの相互作用に焦点を当てた共同予測HD/MRモデルを開発する。我々は開

Refer to caption
図2: VideoLightsの全体アーキテクチャ。FRAは投影された埋め込みからビデオ-テキスト間のクロスモーダル相関をモデル化し、それらをエンコーダーのBi-CMFに渡す。学習可能な顕著性ベクトルが出力顕著性レベルを予測する。クラスと瞬間予測ヘッドがロジットとビデオの瞬間を予測し、顕著性コサイン類似度とタスク結合HD/MR損失が一緒にクロスタスクフィードバックUni-JFMを提供する。提案された新しい損失は紫色で示されている。

クロスモーダル学習は、視覚的画像やテキストデータなど、異なるモダリティからの情報を統合し同期させることに依存している。TERAN [57]、HGSPN [58]、AVS [59][60]などのいくつかのモデルがこのトピックを探求している。最近の取り組みであるUnloc [61]は、CLIP [24]のテキストとビデオトークンのクロスモーダル融合を使用して、瞬間検索、時間的局在化、アクションセグメンテーションのためのCNN予測層を採用した特徴ピラミッドを単一ステージモデルで作成している。しかし、これらは主にテキストからビデオへの異なる注意に限定されている。我々は異なるアプローチを取り、カスタムクロスモーダル融合モジュールを使用してテキストクエリとビデオクリップ間の双方向の相互関係を見出し、これをデコーダーで追加のクロスタスク監視と共に活用している。

近年、複数の研究が様々なモダリティからのデータを用いた弱教師あり事前学習アプローチの使用を探求し、モデルの性能向上を実証している[16, 62, 20, 17, 61]。その中には、自動音声認識(ASR)のキャプションをクエリテキストとして利用したものもある[16, 62, 17]。我々と同様に、[61]はCLIPバックエンドをKinetics-700データセット[63]で初期的に訓練し、その後下流タスクのためにモデルを微調整する事前学習戦略を採用している。 一方、UniVTG[20]は、Ego4Dデータセット[64]とVideoCC[65]を組み合わせた大規模な訓練コーパスを収集しているが、我々のアプローチはそのようなデータの多様性なしでもより堅牢性を示している。 テキストのみのコンテキストにおいては、[66]が異なるエンコーダーを組み合わせることで、強化された教師あり学習を促進できることを示している。

III Proposed VideoLights Model

我々はVideoLightsを提示する。これは、クロスモーダル(テキスト対ビデオ)およびクロスタスク(HDとMR)の相互作用から学習を可能にする統合予測HD/MRモデルである。VideoLights は、双方向クロスモーダル融合ネットワーク、単方向結合タスクフィードバックモジュール、高度な appetite 損失関数、および知的モデルトレーニングの独自の複合体を特徴としている。VideoLights のパイプラインは図2に描かれている。

III-A Model Overview

Refer to caption
図3: (a)は入力動画、(b)と(c)はそれぞれ線形層と畳み込み層を用いたクエリと動画トークンの対応マップであり、畳み込み層、動画、テキストの方がクエリがより整列していることを示している。(d)特徴精製モジュールの効果を示しており、各ヒートマップの顕著性レベルにおいて、地上真値の顕著性レベル(緑線)と一致する動画とテキストトークンを効果的に整列させている。

ハイライト検出(HD)とモーメント検索(MR)は、動画クリップの顕著性を推定し、与えられたテキストクエリに対して重要な瞬間を特定することを目的としている。L𝐿Litalic_Lクリップからなる動画が与えられた場合、我々は動画クリップをFL×3×W×H𝐹superscript𝐿3𝑊𝐻F\in\mathbb{R}^{L\times 3\times W\times H}italic_F ∈ blackboard_R start_POSTSUPERSCRIPT italic_L × 3 × italic_W × italic_H end_POSTSUPERSCRIPTと定義する。ここで、W𝑊Witalic_WH𝐻Hitalic_Hは動画の幅と高さを表し、3333は色チャンネル数を表す。動画の特徴表現はVL×dv𝑉superscript𝐿subscript𝑑𝑣V\in\mathbb{R}^{L\times d_{v}}italic_V ∈ blackboard_R start_POSTSUPERSCRIPT italic_L × italic_d start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT end_POSTSUPERSCRIPTと表され、dvsubscript𝑑𝑣d_{v}italic_d start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPTは凍結された動画エンコーダーによって抽出される特徴次元である。N𝑁Nitalic_Nトークンからなるテキストクエリが与えられた場合、テキストの表現はTN×dt𝑇superscript𝑁subscript𝑑𝑡T\in\mathbb{R}^{N\times d_{t}}italic_T ∈ blackboard_R start_POSTSUPERSCRIPT italic_N × italic_d start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUPERSCRIPTと表され、dtsubscript𝑑𝑡d_{t}italic_d start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTは凍結されたテキストエンコーダーによって抽出される特徴次元である。これらの表現と与えられた動画およびテキストを用いて、我々の目標は二つある:モーメント検索(MR)では、すべてのモーメントM2×m𝑀superscript2𝑚M\in\mathbb{R}^{2\times m}italic_M ∈ blackboard_R start_POSTSUPERSCRIPT 2 × italic_m end_POSTSUPERSCRIPTを決定することを目指す。各モーメントは中心座標mcsubscript𝑚𝑐m_{c}italic_m start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPTと幅mσsubscript𝑚𝜎m_{\sigma}italic_m start_POSTSUBSCRIPT italic_σ end_POSTSUBSCRIPTからなり、動画内でm𝑚mitalic_m個のそのようなモーメントを特定する。ハイライト検出(HD)では、動画内の各クリップの顕著性スコアSL𝑆superscript𝐿S\in\mathbb{R}^{L}italic_S ∈ blackboard_R start_POSTSUPERSCRIPT italic_L end_POSTSUPERSCRIPTをランク付けしてハイライトを検出することを目指す。

埋め込み:我々は、複数の異なるVLPから初期特徴セットV𝑉Vitalic_VT𝑇Titalic_Tを以下のように計算する:

T=clip(Q)blip(Q)𝑇direct-sumclip𝑄blip𝑄T=\text{clip}(Q)\oplus\text{blip}(Q)italic_T = clip ( italic_Q ) ⊕ blip ( italic_Q )
V=clip(F)slowfast(F)blip(F)𝑉direct-sumclip𝐹slowfast𝐹blip𝐹V=\text{clip}(F)\oplus\text{slowfast}(F)\oplus\text{blip}(F)italic_V = clip ( italic_F ) ⊕ slowfast ( italic_F ) ⊕ blip ( italic_F )

ここで、direct-sum\oplus演算子は特徴の連結を表し、clipblipslowfastはそれぞれ凍結されたCLIP [24]、BLIP-2 [30]、Slow-Fastモデル [27]を指す。

投影と整列:V𝑉Vitalic_VT𝑇Titalic_Tを更なる処理のために結合する際、それらの異なる隠れ次元が統合を困難にする可能性がある。我々は、畳み込み層からなるフィードフォワードネットワーク(FFCNN)を用いて、動画とテキスト表現の特徴次元を整列させることでこの問題に対処する。この段階の後、VL×dv𝑉superscript𝐿subscript𝑑𝑣V\in\mathbb{R}^{L\times d_{v}}italic_V ∈ blackboard_R start_POSTSUPERSCRIPT italic_L × italic_d start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT end_POSTSUPERSCRIPTV¯L×d¯𝑉superscript𝐿𝑑\overline{V}\in\mathbb{R}^{L\times d}over¯ start_ARG italic_V end_ARG ∈ blackboard_R start_POSTSUPERSCRIPT italic_L × italic_d end_POSTSUPERSCRIPTとなり、TN×dt𝑇superscript𝑁subscript𝑑𝑡T\in\mathbb{R}^{N\times d_{t}}italic_T ∈ blackboard_R start_POSTSUPERSCRIPT italic_N × italic_d start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUPERSCRIPTT¯N×d¯𝑇superscript𝑁𝑑\overline{T}\in\mathbb{R}^{N\times d}over¯ start_ARG italic_T end_ARG ∈ blackboard_R start_POSTSUPERSCRIPT italic_N × italic_d end_POSTSUPERSCRIPTとなる。ここで、d𝑑ditalic_dは隠れ層の次元である。

V¯=relu(FFCNN(V)),T¯=relu(FFCNN(T))formulae-sequence¯𝑉reluFFCNN𝑉¯𝑇reluFFCNN𝑇\displaystyle\overline{V}=\text{relu}(\text{FFCNN}(V)),\qquad\overline{T}=% \text{relu}(\text{FFCNN}(T))over¯ start_ARG italic_V end_ARG = relu ( FFCNN ( italic_V ) ) , over¯ start_ARG italic_T end_ARG = relu ( FFCNN ( italic_T ) )

その後、動画とテキストの表現は両方とも動画-クエリ精製モジュールに渡され、クエリに注目した動画表現を学習し、関連する動画トークンを強調する。詳細はIII-B節で議論される。

クロスモーダル相互作用を伴うエンコーダー 精製された動画トークンとクエリトークンは、我々のクロスモーダル相互作用モジュールBi-CMFIII-C節で議論)に送られる。このモジュールは動画とテキストの特徴を融合して、それらの相互関連性を学習し、強く結合されたクエリ注入動画表現を学習する。その後、多層エンコーダーにおいて、Bi-CMFの出力に自己注意が適用される。そして、その出力は各クリップの顕著性レベルを予測するために使用される。

クロスタスクダイナミクスを伴うデコーダー さらに、融合された表現は[19]の研究に従ってデコーダーモジュールに送られる。このモジュールの出力は、クラス予測ヘッドと位置特定予測ヘッドで使用され、前景-背景クラスと動画内のモーメントを予測する。[19]で行われたように、無関係な動画-テキストクエリ間の負の関係を用いて応答を微調整する。我々は新しい学習モジュールである一方向クロスタスクフィードバックネットワークUni-JFMを提案する。Uni-JFMはHDを参照タスクとして取り、その追加の損失:タスク固有(HDから)とクロスタスク(MRから)の損失を計算する。これらはIII-E節で議論される。

適応学習と損失関数 VideoLightsはモーメント検索とハイライト識別に異なる損失を利用する。我々は[16]のように、モーメント検索を行うためにL1、gIoU [67] gIoU(m,m¯)subscript𝑔𝐼𝑜𝑈𝑚¯𝑚\mathcal{L}_{gIoU}(m,\overline{m})caligraphic_L start_POSTSUBSCRIPT italic_g italic_I italic_o italic_U end_POSTSUBSCRIPT ( italic_m , over¯ start_ARG italic_m end_ARG )、およびクロスエントロピーclssubscript𝑐𝑙𝑠\mathcal{L}_{cls}caligraphic_L start_POSTSUBSCRIPT italic_c italic_l italic_s end_POSTSUBSCRIPT目的関数を利用する。さらに、[19]のようにマージンランキング損失ranksubscript𝑟𝑎𝑛𝑘\mathcal{L}_{rank}caligraphic_L start_POSTSUBSCRIPT italic_r italic_a italic_n italic_k end_POSTSUBSCRIPT、ランク対比損失contsubscript𝑐𝑜𝑛𝑡\mathcal{L}_{cont}caligraphic_L start_POSTSUBSCRIPT italic_c italic_o italic_n italic_t end_POSTSUBSCRIPT、およびハイライト識別のためのエントロピー損失を使用した。そして、総損失はハイライト損失とモーメント損失の合計である。整列のために、FRAから対称整列損失symsubscriptsym\mathcal{L}_{\text{sym}}caligraphic_L start_POSTSUBSCRIPT sym end_POSTSUBSCRIPTを使用した。顕著性予測(すなわちHD)のために、我々は2つの適応的ハードネガティブ損失hardnegsubscript𝑎𝑟subscript𝑑𝑛𝑒𝑔\mathcal{L}_{hard_{neg}}caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPT、ハードポジティブ損失hardpossubscript𝑎𝑟subscript𝑑𝑝𝑜𝑠\mathcal{L}_{hard_{pos}}caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_p italic_o italic_s end_POSTSUBSCRIPT end_POSTSUBSCRIPTを導入した(III-D節で議論)。これらの損失は、反復とともに持続する顕著性予測の誤差にペナルティを与える。

要約すると、モーメント損失mrsubscript𝑚𝑟\mathcal{L}_{mr}caligraphic_L start_POSTSUBSCRIPT italic_m italic_r end_POSTSUBSCRIPTの定式化は以下のように表現できる:

mr=λL1mm¯+λgIoUgIoU(m,m¯)+λclsclssubscript𝑚𝑟subscript𝜆𝐿1norm𝑚¯𝑚subscript𝜆𝑔𝐼𝑜𝑈subscript𝑔𝐼𝑜𝑈𝑚¯𝑚subscript𝜆𝑐𝑙𝑠subscript𝑐𝑙𝑠\mathcal{L}_{mr}=\lambda_{L1}||m-\overline{m}||+\lambda_{gIoU}\mathcal{L}_{% gIoU}(m,\overline{m})+\lambda_{cls}\mathcal{L}_{cls}caligraphic_L start_POSTSUBSCRIPT italic_m italic_r end_POSTSUBSCRIPT = italic_λ start_POSTSUBSCRIPT italic_L 1 end_POSTSUBSCRIPT | | italic_m - over¯ start_ARG italic_m end_ARG | | + italic_λ start_POSTSUBSCRIPT italic_g italic_I italic_o italic_U end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_g italic_I italic_o italic_U end_POSTSUBSCRIPT ( italic_m , over¯ start_ARG italic_m end_ARG ) + italic_λ start_POSTSUBSCRIPT italic_c italic_l italic_s end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_c italic_l italic_s end_POSTSUBSCRIPT (1)

顕著性予測において追加のhardnegsubscript𝑎𝑟subscript𝑑𝑛𝑒𝑔\mathcal{L}_{hard_{neg}}caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPThardpossubscript𝑎𝑟subscript𝑑𝑝𝑜𝑠\mathcal{L}_{hard_{pos}}caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_p italic_o italic_s end_POSTSUBSCRIPT end_POSTSUBSCRIPT、およびUniJFMsubscript𝑈𝑛𝑖𝐽𝐹𝑀\mathcal{L}_{Uni-JFM}caligraphic_L start_POSTSUBSCRIPT italic_U italic_n italic_i - italic_J italic_F italic_M end_POSTSUBSCRIPT損失が計算されるため、我々は全体的な顕著性損失を以下のように表す:

hl=subscript𝑙absent\displaystyle\mathcal{L}_{hl}=caligraphic_L start_POSTSUBSCRIPT italic_h italic_l end_POSTSUBSCRIPT = λrankrank+λcontcontsubscript𝜆𝑟𝑎𝑛𝑘subscript𝑟𝑎𝑛𝑘subscript𝜆𝑐𝑜𝑛𝑡subscript𝑐𝑜𝑛𝑡\displaystyle\lambda_{rank}\mathcal{L}_{rank}+\lambda_{cont}\mathcal{L}_{cont}italic_λ start_POSTSUBSCRIPT italic_r italic_a italic_n italic_k end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_r italic_a italic_n italic_k end_POSTSUBSCRIPT + italic_λ start_POSTSUBSCRIPT italic_c italic_o italic_n italic_t end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_c italic_o italic_n italic_t end_POSTSUBSCRIPT
+hardneg+hardpos+UniJFMsubscript𝑎𝑟subscript𝑑𝑛𝑒𝑔subscript𝑎𝑟subscript𝑑𝑝𝑜𝑠subscript𝑈𝑛𝑖𝐽𝐹𝑀\displaystyle+\mathcal{L}_{hard_{neg}}+\mathcal{L}_{hard_{pos}}+\mathcal{L}_{% Uni-JFM}+ caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPT + caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_p italic_o italic_s end_POSTSUBSCRIPT end_POSTSUBSCRIPT + caligraphic_L start_POSTSUBSCRIPT italic_U italic_n italic_i - italic_J italic_F italic_M end_POSTSUBSCRIPT (2)

さらに、FRAを支援するために、我々はIII-B節で議論される整列損失alignsubscriptalign\mathcal{L}_{\text{align}}caligraphic_L start_POSTSUBSCRIPT align end_POSTSUBSCRIPTを導入した。したがって、最終的な総損失は:

total=λsalhl+mr+λalalignsubscript𝑡𝑜𝑡𝑎𝑙subscript𝜆𝑠𝑎𝑙subscript𝑙subscript𝑚𝑟subscript𝜆𝑎𝑙subscriptalign\mathcal{L}_{total}=\lambda_{sal}\mathcal{L}_{hl}+\mathcal{L}_{mr}+\lambda_{al% }\mathcal{L}_{\text{align}}caligraphic_L start_POSTSUBSCRIPT italic_t italic_o italic_t italic_a italic_l end_POSTSUBSCRIPT = italic_λ start_POSTSUBSCRIPT italic_s italic_a italic_l end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_h italic_l end_POSTSUBSCRIPT + caligraphic_L start_POSTSUBSCRIPT italic_m italic_r end_POSTSUBSCRIPT + italic_λ start_POSTSUBSCRIPT italic_a italic_l end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT align end_POSTSUBSCRIPT (3)

ここで、ハイパーパラメータλsalsubscript𝜆𝑠𝑎𝑙\lambda_{sal}italic_λ start_POSTSUBSCRIPT italic_s italic_a italic_l end_POSTSUBSCRIPTλalsubscript𝜆𝑎𝑙\lambda_{al}italic_λ start_POSTSUBSCRIPT italic_a italic_l end_POSTSUBSCRIPTはこれらの損失間のバランスを取るために使用される。以下では、Bi-CMFUni-JFMモジュール、適応的hardnegsubscript𝑎𝑟subscript𝑑𝑛𝑒𝑔\mathcal{L}_{hard_{neg}}caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPThardpossubscript𝑎𝑟subscript𝑑𝑝𝑜𝑠\mathcal{L}_{hard_{pos}}caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_p italic_o italic_s end_POSTSUBSCRIPT end_POSTSUBSCRIPT損失、および我々の事前学習手順について議論する。

III-B Feature Refinement and Alignment Network: FRA

Refer to caption
図4: Bi-CMFはtext2video、video2text、そしてtext2videoの注意機構を通じてクエリ指向の動画を学習する。このプロセスでは、各ステップの後にドロップアウトと正規化が適用され、最終段階で活性化が適用される。

テキストクエリは通常簡潔で情報量が多いのに対し、動画クリップはしばしば大量のノイズや無関係な情報を含んでいる。自己注意機構や交差注意機構を動画トークンに直接適用すると、すべてのトークンが等しく重み付けされ、真に関連性のあるトークンに十分な重点が置かれない可能性がある。この制限に対処するため、我々は特徴精製および整列ネットワーク(FRA)を提案する。FRAは2段階のプロセスを通じて、動画とクエリトークン間のローカル(クリップまたは単語レベル)およびグローバル(動画または文レベル)の整列を促進する。

第一段階では、畳み込み投影層がローカルな表現を捉え、動画とテキストの特徴を整列させると同時にトークンの次元を調整する。第二段階では、特徴精製層が調整された対応マップの計算、文レベルの特徴の抽出、類似度行列の生成、結果の集約を行うことでグローバルな整列を促進する。この精製プロセスは、文レベルと単語レベルの両方の特徴と意味的に整列した動画トークンを強調する。

3は、標準的な線形投影と畳み込み投影および精製ネットワークの違いを示しており、関連する動画トークンへの焦点の強化を強調している。これにより、真の顕著性スコアに整列した改善された類似度スコアが得られる。

この精製プロセスは以下のように表される:

VQ=subscript𝑉𝑄absent\displaystyle V_{Q}=italic_V start_POSTSUBSCRIPT italic_Q end_POSTSUBSCRIPT = V¯T¯T,S=pool(T¯),¯𝑉superscript¯𝑇𝑇𝑆pool¯𝑇\displaystyle\overline{V}\cdot\overline{T}^{T},\qquad S=\text{pool}(\overline{% T}),over¯ start_ARG italic_V end_ARG ⋅ over¯ start_ARG italic_T end_ARG start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT , italic_S = pool ( over¯ start_ARG italic_T end_ARG ) ,
VS=subscript𝑉𝑆absent\displaystyle V_{S}=italic_V start_POSTSUBSCRIPT italic_S end_POSTSUBSCRIPT = V¯ST,Sv=S11×V×1,¯𝑉superscript𝑆𝑇subscript𝑆𝑣𝑆subscript11𝑉1\displaystyle\overline{V}\cdot S^{T},\qquad S_{v}=S\cdot 1_{1\times V\times 1},over¯ start_ARG italic_V end_ARG ⋅ italic_S start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT , italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT = italic_S ⋅ 1 start_POSTSUBSCRIPT 1 × italic_V × 1 end_POSTSUBSCRIPT ,
V=𝑉absent\displaystyle V=italic_V = conv(V¯VQVSSv)convdirect-sum¯𝑉subscript𝑉𝑄subscript𝑉𝑆subscript𝑆𝑣\displaystyle\text{conv}(\overline{V}\oplus V_{Q}\oplus V_{S}\oplus S_{v})conv ( over¯ start_ARG italic_V end_ARG ⊕ italic_V start_POSTSUBSCRIPT italic_Q end_POSTSUBSCRIPT ⊕ italic_V start_POSTSUBSCRIPT italic_S end_POSTSUBSCRIPT ⊕ italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT )

ここで.は行列乗算を意味する。

クエリテキストレベルでの整列を確保するため、我々は[16]に従って、クエリトークンと投影されたクエリスパン間の対比的整列損失を計算する。この損失は、投影されたクエリスパンとそれに対応するテキスト埋め込み間の類似度スコアを高めることを促進する。これは以下のように定義される:

qt_align=1Bb=1B(mlogitsbm𝟙posnum_posb+logmexp(logitsbm))subscriptqt_align1𝐵superscriptsubscript𝑏1𝐵subscript𝑚subscriptlogits𝑏𝑚subscript1possubscriptnum_pos𝑏subscript𝑚subscriptlogits𝑏𝑚\begin{split}\mathcal{L}_{\text{qt\_align}}=\frac{1}{B}\sum_{b=1}^{B}\Bigg{(}-% \frac{\sum_{m}\text{logits}_{bm}\cdot\mathbb{1}_{\text{pos}}}{\text{num\_pos}_% {b}}\\ +\log\sum_{m}\exp(\text{logits}_{bm})\Bigg{)}\end{split}start_ROW start_CELL caligraphic_L start_POSTSUBSCRIPT qt_align end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG italic_B end_ARG ∑ start_POSTSUBSCRIPT italic_b = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_B end_POSTSUPERSCRIPT ( - divide start_ARG ∑ start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT logits start_POSTSUBSCRIPT italic_b italic_m end_POSTSUBSCRIPT ⋅ blackboard_1 start_POSTSUBSCRIPT pos end_POSTSUBSCRIPT end_ARG start_ARG num_pos start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT end_ARG end_CELL end_ROW start_ROW start_CELL + roman_log ∑ start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT roman_exp ( logits start_POSTSUBSCRIPT italic_b italic_m end_POSTSUBSCRIPT ) ) end_CELL end_ROW (4)

ここでlogitsbm=n(𝐪bm𝐭bn)τsubscriptlogits𝑏𝑚subscript𝑛subscript𝐪𝑏𝑚subscript𝐭𝑏𝑛𝜏\text{logits}_{bm}=\frac{\sum_{n}(\mathbf{q}_{bm}\cdot\mathbf{t}_{bn})}{\tau}logits start_POSTSUBSCRIPT italic_b italic_m end_POSTSUBSCRIPT = divide start_ARG ∑ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( bold_q start_POSTSUBSCRIPT italic_b italic_m end_POSTSUBSCRIPT ⋅ bold_t start_POSTSUBSCRIPT italic_b italic_n end_POSTSUBSCRIPT ) end_ARG start_ARG italic_τ end_ARG𝟙possubscript1pos\mathbb{1}_{\text{pos}}blackboard_1 start_POSTSUBSCRIPT pos end_POSTSUBSCRIPTは正の一致を示す指標であり、τ𝜏\tauitalic_τは温度パラメータ、B𝐵Bitalic_Bはバッチサイズである。

動画クリップを対応する文レベルのテキスト埋め込みと整列させるため、我々は顕著性スコア間のコサイン類似度誤差を最小化することで動画テキスト整列損失を計算する。

𝐬^b=𝐭¯.V𝐭¯Vsubscript^𝐬𝑏formulae-sequence¯𝐭𝑉delimited-∥∥¯𝐭delimited-∥∥𝑉\hat{\mathbf{s}}_{b}=\frac{\bar{\mathbf{t}}.V}{\lVert\bar{\mathbf{t}}\rVert% \lVert V\rVert}over^ start_ARG bold_s end_ARG start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT = divide start_ARG over¯ start_ARG bold_t end_ARG . italic_V end_ARG start_ARG ∥ over¯ start_ARG bold_t end_ARG ∥ ∥ italic_V ∥ end_ARG (5)

ここで 𝐭¯=1Nt=1N𝐭t¯𝐭1𝑁superscriptsubscript𝑡1𝑁subscript𝐭𝑡\bar{\mathbf{t}}=\frac{1}{N}\sum_{t=1}^{N}\mathbf{t}_{t}over¯ start_ARG bold_t end_ARG = divide start_ARG 1 end_ARG start_ARG italic_N end_ARG ∑ start_POSTSUBSCRIPT italic_t = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT bold_t start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT。 ここで𝐭¯¯𝐭\bar{\mathbf{t}}over¯ start_ARG bold_t end_ARGはプールされた文レベルのテキスト埋め込み、𝐯𝐯\mathbf{v}bold_vはクリップレベルの動画埋め込み、𝐬^bsubscript^𝐬𝑏\hat{\mathbf{s}}_{b}over^ start_ARG bold_s end_ARG start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPTは計算された類似度スコアである。

vt_align=1Bb=1B(1norm(𝐬b).norm(𝐬^b)norm(𝐬b)norm(𝐬^b))subscriptvt_align1𝐵superscriptsubscript𝑏1𝐵1formulae-sequencenormsubscript𝐬𝑏normsubscript^𝐬𝑏delimited-∥∥normsubscript𝐬𝑏delimited-∥∥normsubscript^𝐬𝑏\mathcal{L}_{\text{vt\_align}}=\frac{1}{B}\sum_{b=1}^{B}\left(1-\frac{\text{% norm}(\mathbf{s}_{b}).\text{norm}(\hat{\mathbf{s}}_{b})}{\lVert\text{norm}(% \mathbf{s}_{b})\rVert\lVert\text{norm}(\hat{\mathbf{s}}_{b})\rVert}\right)caligraphic_L start_POSTSUBSCRIPT vt_align end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG italic_B end_ARG ∑ start_POSTSUBSCRIPT italic_b = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_B end_POSTSUPERSCRIPT ( 1 - divide start_ARG norm ( bold_s start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT ) . norm ( over^ start_ARG bold_s end_ARG start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT ) end_ARG start_ARG ∥ norm ( bold_s start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT ) ∥ ∥ norm ( over^ start_ARG bold_s end_ARG start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT ) ∥ end_ARG ) (6)

ここで𝐬bsubscript𝐬𝑏\mathbf{s}_{b}bold_s start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPTは真の顕著性スコアである。 総損失は以下のように定義される:

align=qt_align+vt_alignsubscriptalignsubscriptqt_alignsubscriptvt_align\mathcal{L}_{\text{align}}=\mathcal{L}_{\text{qt\_align}}+\mathcal{L}_{\text{% vt\_align}}caligraphic_L start_POSTSUBSCRIPT align end_POSTSUBSCRIPT = caligraphic_L start_POSTSUBSCRIPT qt_align end_POSTSUBSCRIPT + caligraphic_L start_POSTSUBSCRIPT vt_align end_POSTSUBSCRIPT (7)

III-C Bi-Directional Cross-Modal Fusion Network: Bi-CMF

強く結合されたクエリ指向の動画表現を学習するために、我々は双方向クロスモーダル融合ネットワークBi-CMFを導入する。 これは、クロスアテンションのための3つのマルチヘッドアテンション層を特徴とする。 最初に、クロスアテンション層は、投影された動画特徴をクエリとして使用し、位置埋め込みを伴うテキストデータをキーと値として使用し、テキストトークンによって条件付けられた動画トークンを識別する。 同様に、もう一つのクロスアテンション層は、投影されたテキストトークン(クエリ)特徴を、位置埋め込みと融合された動画トークン(キーと値)によって条件付けられたものとして識別するために使用され、動画に関連するテキスト特徴の識別を可能にする。

その後、条件付けられた動画トークンがクエリとして使用され、条件付けられたテキストトークンが最終的なクロスアテンション層でキーと値として機能し、クエリに関連する動画トークンを強調する融合された文脈情報を生成する。さらなる洗練は、この融合された文脈に自己アテンションメカニズムを適用することで達成され、より微妙な動画文脈の抽出が可能となる。

VT=attn(V¯,T¯,T¯),TV=attn(T¯,V¯,V¯),formulae-sequencesubscript𝑉𝑇𝑎𝑡𝑡𝑛¯𝑉¯𝑇¯𝑇subscript𝑇𝑉𝑎𝑡𝑡𝑛¯𝑇¯𝑉¯𝑉\displaystyle V_{T}=attn(\overline{V},\overline{T},\overline{T}),\qquad T_{V}=% attn(\overline{T},\overline{V},\overline{V}),\qquaditalic_V start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT = italic_a italic_t italic_t italic_n ( over¯ start_ARG italic_V end_ARG , over¯ start_ARG italic_T end_ARG , over¯ start_ARG italic_T end_ARG ) , italic_T start_POSTSUBSCRIPT italic_V end_POSTSUBSCRIPT = italic_a italic_t italic_t italic_n ( over¯ start_ARG italic_T end_ARG , over¯ start_ARG italic_V end_ARG , over¯ start_ARG italic_V end_ARG ) ,
Vattn=attn(V¯T,T¯V,T¯V)subscript𝑉𝑎𝑡𝑡𝑛𝑎𝑡𝑡𝑛subscript¯𝑉𝑇subscript¯𝑇𝑉subscript¯𝑇𝑉\displaystyle V_{attn}=attn(\overline{V}_{T},\overline{T}_{V},\overline{T}_{V})italic_V start_POSTSUBSCRIPT italic_a italic_t italic_t italic_n end_POSTSUBSCRIPT = italic_a italic_t italic_t italic_n ( over¯ start_ARG italic_V end_ARG start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT , over¯ start_ARG italic_T end_ARG start_POSTSUBSCRIPT italic_V end_POSTSUBSCRIPT , over¯ start_ARG italic_T end_ARG start_POSTSUBSCRIPT italic_V end_POSTSUBSCRIPT )

残差接続[68]、レイヤー正規化[69]、およびドロップアウト[70]メカニズムが各段階で実装され、モデルの堅牢性を向上させ、学習可能な位置のエンコーディングが各アテンション層の入力に組み込まれる。 Bi-CMFは図4に示されている。

III-D Adaptive Loss Functions

我々は、持続的なモデルの誤りを特定し修正することで学習を向上させることを目指している。これを達成するために、我々は新規の適応的損失関数を設計し、特にハードポジティブとハードネガティブを対象としている。ハードネガティブ損失については、関連するクリップが存在しないネガティブ領域における予測の数を最小化する。顕著性スコアS¯isubscript¯𝑆𝑖\bar{S}_{i}over¯ start_ARG italic_S end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTと非関連クリップiVneg𝑖subscript𝑉𝑛𝑒𝑔i\in V_{neg}italic_i ∈ italic_V start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPTの真の顕著性スコア𝒮isubscript𝒮𝑖\mathcal{S}_{i}caligraphic_S start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTが与えられた場合、我々は以下の損失を定義する。

hardneg=WjΣiVnegabs(𝒮iS¯i)subscript𝑎𝑟subscript𝑑𝑛𝑒𝑔subscript𝑊𝑗subscriptΣ𝑖subscript𝑉𝑛𝑒𝑔𝑎𝑏𝑠subscript𝒮𝑖subscript¯𝑆𝑖\mathcal{L}_{hard_{neg}}=W_{j}\Sigma_{i\in V_{neg}}abs(\mathcal{S}_{i}-\bar{S}% _{i})caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPT = italic_W start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT roman_Σ start_POSTSUBSCRIPT italic_i ∈ italic_V start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_a italic_b italic_s ( caligraphic_S start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT - over¯ start_ARG italic_S end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) (8)

ここで、Wjsubscript𝑊𝑗W_{j}italic_W start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPTj𝑗jitalic_j番目のエポックの関数であり、エポック数が高いほどより大きなペナルティを与える。一般的に𝒮isubscript𝒮𝑖\mathcal{S}_{i}caligraphic_S start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTiVneg𝑖subscript𝑉𝑛𝑒𝑔i\in V_{neg}italic_i ∈ italic_V start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPTに対してゼロであるため、損失は以下のように定義できる:

hardneg=WjΣiVnegabs(S¯i)subscript𝑎𝑟subscript𝑑𝑛𝑒𝑔subscript𝑊𝑗subscriptΣ𝑖subscript𝑉𝑛𝑒𝑔𝑎𝑏𝑠subscript¯𝑆𝑖\mathcal{L}_{hard_{neg}}=W_{j}\Sigma_{i\in V_{neg}}abs(\bar{S}_{i})caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPT = italic_W start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT roman_Σ start_POSTSUBSCRIPT italic_i ∈ italic_V start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_a italic_b italic_s ( over¯ start_ARG italic_S end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) (9)

ハードポジティブの場合、我々は平均二乗誤差を使用し、同様に損失を以下のように定義する:

hardneg=WjΣiVposMSE(𝒮i,S¯i)subscript𝑎𝑟subscript𝑑𝑛𝑒𝑔subscript𝑊𝑗subscriptΣ𝑖subscript𝑉𝑝𝑜𝑠𝑀𝑆𝐸subscript𝒮𝑖subscript¯𝑆𝑖\mathcal{L}_{hard_{neg}}=W_{j}\Sigma_{i\in V_{pos}}MSE(\mathcal{S}_{i},\bar{S}% _{i})caligraphic_L start_POSTSUBSCRIPT italic_h italic_a italic_r italic_d start_POSTSUBSCRIPT italic_n italic_e italic_g end_POSTSUBSCRIPT end_POSTSUBSCRIPT = italic_W start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT roman_Σ start_POSTSUBSCRIPT italic_i ∈ italic_V start_POSTSUBSCRIPT italic_p italic_o italic_s end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_M italic_S italic_E ( caligraphic_S start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , over¯ start_ARG italic_S end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) (10)

III-E Unidirection Joint-Task Feedback Module (Uni-JFM)

HD/MRを同時に予測する際にクロスタスクの相乗効果を活用するため、我々はタスク固有の損失とタスク結合の損失から成る単方向結合タスクフィードバックメカニズムを考案した。HDを参照タスクとして、そのタスク固有の損失tssubscript𝑡𝑠\mathcal{L}_{ts}caligraphic_L start_POSTSUBSCRIPT italic_t italic_s end_POSTSUBSCRIPTを計算する。これを行うために、予測された顕著性レベルから顕著性コサイン類似度損失を計算する。ここで、顕著性スコアS¯¯𝑆\bar{S}over¯ start_ARG italic_S end_ARGと真の顕著性スコア𝒮𝒮\mathcal{S}caligraphic_Sに対して、顕著性コサイン類似度損失tssubscript𝑡𝑠\mathcal{L}_{ts}caligraphic_L start_POSTSUBSCRIPT italic_t italic_s end_POSTSUBSCRIPTは以下のように定義できる:

ts=1S¯.𝒮S¯𝒮subscript𝑡𝑠1formulae-sequence¯𝑆𝒮delimited-∥∥¯𝑆delimited-∥∥𝒮\mathcal{L}_{ts}=1-\frac{\bar{S}.\mathcal{S}}{\lVert\bar{S}\rVert\lVert% \mathcal{S}\rVert}caligraphic_L start_POSTSUBSCRIPT italic_t italic_s end_POSTSUBSCRIPT = 1 - divide start_ARG over¯ start_ARG italic_S end_ARG . caligraphic_S end_ARG start_ARG ∥ over¯ start_ARG italic_S end_ARG ∥ ∥ caligraphic_S ∥ end_ARG (11)

次に、タスク結合損失tcsubscript𝑡𝑐\mathcal{L}_{tc}caligraphic_L start_POSTSUBSCRIPT italic_t italic_c end_POSTSUBSCRIPTについて、まずMRの特徴ベクトルM𝑀Mitalic_Mを使用して、[22]のMR2HD技術に従いGRUユニットを用いて顕著性スコアS¯mrsubscript¯𝑆𝑚𝑟\bar{S}_{mr}over¯ start_ARG italic_S end_ARG start_POSTSUBSCRIPT italic_m italic_r end_POSTSUBSCRIPTを計算する。そして、異なる方法として、真の顕著性𝒮𝒮\mathcal{S}caligraphic_Sとこの計算された顕著性S¯mrsubscript¯𝑆𝑚𝑟\bar{S}_{mr}over¯ start_ARG italic_S end_ARG start_POSTSUBSCRIPT italic_m italic_r end_POSTSUBSCRIPTの間の類似度を計算する。この類似度スコアは損失関数tcsubscript𝑡𝑐\mathcal{L}_{tc}caligraphic_L start_POSTSUBSCRIPT italic_t italic_c end_POSTSUBSCRIPTとして使用され、以下のようになる:

tc=1S¯mr.𝒮S¯mr𝒮subscript𝑡𝑐1formulae-sequencesubscript¯𝑆𝑚𝑟𝒮delimited-∥∥subscript¯𝑆𝑚𝑟delimited-∥∥𝒮\mathcal{L}_{tc}=1-\frac{\bar{S}_{mr}.\mathcal{S}}{\lVert\bar{S}_{mr}\rVert% \lVert\mathcal{S}\rVert}caligraphic_L start_POSTSUBSCRIPT italic_t italic_c end_POSTSUBSCRIPT = 1 - divide start_ARG over¯ start_ARG italic_S end_ARG start_POSTSUBSCRIPT italic_m italic_r end_POSTSUBSCRIPT . caligraphic_S end_ARG start_ARG ∥ over¯ start_ARG italic_S end_ARG start_POSTSUBSCRIPT italic_m italic_r end_POSTSUBSCRIPT ∥ ∥ caligraphic_S ∥ end_ARG (12)

このモジュールに対応する総損失は以下のようになる:

UniJFM=ts+tcsubscript𝑈𝑛𝑖𝐽𝐹𝑀subscript𝑡𝑠subscript𝑡𝑐\mathcal{L}_{Uni-JFM}=\mathcal{L}_{ts}+\mathcal{L}_{tc}caligraphic_L start_POSTSUBSCRIPT italic_U italic_n italic_i - italic_J italic_F italic_M end_POSTSUBSCRIPT = caligraphic_L start_POSTSUBSCRIPT italic_t italic_s end_POSTSUBSCRIPT + caligraphic_L start_POSTSUBSCRIPT italic_t italic_c end_POSTSUBSCRIPT (13)
アルゴリズム1 合成データ生成プロセス
0: 入力動画𝒱𝒱\mathcal{V}caligraphic_V(持続時間T𝑇Titalic_T
0: 合成データセット𝒟syntheticsubscript𝒟synthetic\mathcal{D}_{\text{synthetic}}caligraphic_D start_POSTSUBSCRIPT synthetic end_POSTSUBSCRIPT
1: 動画𝒱𝒱\mathcal{V}caligraphic_Vn=T/10𝑛𝑇10n=\lceil T/10\rceilitalic_n = ⌈ italic_T / 10 ⌉個の重複しない区間{I1,I2,,In}subscript𝐼1subscript𝐼2subscript𝐼𝑛\{I_{1},I_{2},\dots,I_{n}\}{ italic_I start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_I start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_I start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT }に分割する。各区間Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT𝒱𝒱\mathcal{V}caligraphic_Vの10秒セグメントに対応する。
2: 各区間Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTについて
3: Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTから代表的なフレームfisubscript𝑓𝑖f_{i}italic_f start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを選択する(例:中間フレームまたはヒューリスティックによってサンプリングされたもの)。
4: BLIP-2モデルBLIPsubscriptBLIP\mathcal{M}_{\text{BLIP}}caligraphic_M start_POSTSUBSCRIPT BLIP end_POSTSUBSCRIPTを使用して、fisubscript𝑓𝑖f_{i}italic_f start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの内容を説明するキャプションci=BLIP(fi)subscript𝑐𝑖subscriptBLIPsubscript𝑓𝑖c_{i}=\mathcal{M}_{\text{BLIP}}(f_{i})italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = caligraphic_M start_POSTSUBSCRIPT BLIP end_POSTSUBSCRIPT ( italic_f start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT )を生成する。
5: 終了
6: 各区間Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTについて
7: 各フレームfijIisubscript𝑓𝑖𝑗subscript𝐼𝑖f_{ij}\in I_{i}italic_f start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT ∈ italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTについて
8: キャプションcisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTとフレームfijsubscript𝑓𝑖𝑗f_{ij}italic_f start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPTの特徴表現ϕ(ci)italic-ϕsubscript𝑐𝑖\phi(c_{i})italic_ϕ ( italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT )およびϕ(fij)italic-ϕsubscript𝑓𝑖𝑗\phi(f_{ij})italic_ϕ ( italic_f start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT )を用いてコサイン類似度Sim(ci,fij)Simsubscript𝑐𝑖subscript𝑓𝑖𝑗\text{Sim}(c_{i},f_{ij})Sim ( italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_f start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT )を計算する。
9: 終了
10: 各ビデオフレームfijsubscript𝑓𝑖𝑗f_{ij}italic_f start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPTに対するsi=Sim(ci,fij)subscript𝑠𝑖Simsubscript𝑐𝑖subscript𝑓𝑖𝑗s_{i}=\text{Sim}(c_{i},f_{ij})italic_s start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = Sim ( italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_f start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT )を区間Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTのフレームごとのハイライトスコアとして使用する。
11: 終了
12: 合成データセット𝒟synthetic={(ci,Ii,si)i[1,n]}subscript𝒟syntheticconditional-setsubscript𝑐𝑖subscript𝐼𝑖subscript𝑠𝑖𝑖1𝑛\mathcal{D}_{\text{synthetic}}=\{(c_{i},I_{i},s_{i})\mid i\in[1,n]\}caligraphic_D start_POSTSUBSCRIPT synthetic end_POSTSUBSCRIPT = { ( italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_s start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ∣ italic_i ∈ [ 1 , italic_n ] }を構築する。ここで、cisubscript𝑐𝑖c_{i}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTは生成されたキャプション、Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTは対応する区間、sisubscript𝑠𝑖s_{i}italic_s start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTは顕著性スコアである。
13: 𝒟syntheticsubscript𝒟synthetic\mathcal{D}_{\text{synthetic}}caligraphic_D start_POSTSUBSCRIPT synthetic end_POSTSUBSCRIPTを使用してハイライト検出または関連タスクのためのターゲットモデルを訓練する。

III-F Pretraining

表 I: 本研究で使用したデータセットの比較。
Dataset Domain Annotations Videos Task Used in pt Synthetic data
QVHighlights Vlog / News 10.3K 12.5K MR, HD 187682
Charades-STA Activity 16.1K 6.7K MR 23193
TVSum Web 50 50 HD

我々は、ASRキャプションベースの弱教師あり学習における制限に対処するため、注意機構ベースのネットワークの性能を向上させる新規の多段階方法論を提案する[16, 62]。ASRは必ずしもその時間枠の動画の内容と一致したり、それを説明したりするわけではない。我々のアプローチでは、動画を10秒間隔で分割し、代表的なフレームに対してBLIPモデルを使用して説明的なキャプションを生成し、QVHighlightsとCharades-STAデータセットから合成データペアを作成する。フレームとクエリの類似性に基づいて顕著性スコアを計算し、得られたキャプション-クエリペアをモデル学習に使用する。このプロセスはノイズの多い事前学習データを生成する可能性があるが、その後の微調整により無関係な情報がフィルタリングされ、汎化性能の向上につながる[71]。詳細なデータ統計と手順は表Iとアルゴリズム1に示されている。

IV Experiments

表II: QVHighlightsのテスト分割における結果。{\dagger}は音声モダリティの使用を表す。太字は最良の結果を、下線は2番目に良い結果を示す。
Method MR HD
R1 mAP >=Very Good
@0.5 @0.7 @0.5 @0.75 Avg mAP HIT@1
Moment-DETR [16] 52.89 33.02 54.82 29.4 30.73 35.69 55.6
UMT [17] {\dagger} 56.23 41.18 53.83 37.01 36.12 38.18 59.99
MH-DETR  [72] 60.05 42.48 60.75 38.13 38.38 38.22 60.51
EaTR [21] 61.36 45.79 61.86 41.91 41.74 37.15 58.65
QD-DETR [19] 62.40 44.98 63.17 42.05 41.44 39.13 63.1
UVCOM [62] 63.55 47.47 63.37 42.67 43.18 39.74 64.20
TR-DETR  [22] 64.66 48.96 63.98 43.73 42.62 39.91 63.42
UniVTG [20] 58.86 40.86 57.60 35.59 35.47 38.20 60.96
VideoLights 63.36 48.70 63.81 42.87 43.38 40.57 65.30
Moment-DETR(pt) [16] 59.78 40.33 60.51 35.36 36.14 37.43 60.17
UMT(pt) [17] 60.83 43.26 57.33 39.12 38.08 39.12 62.39
QD-DETR (pt) [19] 64.10 46.10 64.30 40.50 40.62 38.52 62.27
UVCOM(pt) [62] 64.53 48.31 64.78 43.65 43.80 39.98 65.58
UniVTG(pt) [20] 65.43 50.06 64.06 45.02 43.63 40.54 66.28
VideoLights-pt 68.48 52.53 67.31 46.76 45.01 41.48 65.89
VideoLights-B 68.29 52.79 67.58 47.30 46.53 42.43 68.94
VideoLights-B-pt 70.36 55.25 69.53 49.17 47.94 42.84 70.56

データセット: 我々は、包括的かつ厳密な評価を確実にするために、3つの広く認知されたベンチマークを用いてVideoLightsを評価する。まず、QVHighlightsデータセット[16]は、モーメントとハイライト検出タスクを独自に組み合わせ、広範なビデオアノテーションを提供し、オンラインサーバーを通じて評価の公平性を維持している。このデータセットには12,562のYouTubeビデオと10,310のアノテーションが含まれており、確立された研究に従って標準化されたデータ分割が行われている。さらに、我々はモーメント検索(MR)のためにCharades-STA[9]データセットを、ハイライト検出(HD)のためにTVSum[32]データセットを使用する。TVSumは、各5つのビデオを含む10カテゴリーを網羅している。我々は[17, 72, 19]のデータ分割に従い、データセットの80%を訓練に、20%をテストに使用する。Charades-STAは、9,848のビデオと16,128のクエリテキストを特徴としている。我々は先行研究QD-DETR[19]のデータ分割を採用し、12,408サンプルを訓練に、3,720をテストに使用する。これらの標準化された分割への準拠とデータセットの多様性は、VideoLightsの堅牢かつ公正な評価への我々のコミットメントを強調するものである。

評価指標: 我々は[16, 17, 19, 72, 21]から確立された評価指標基準に従う。モーメント検索については、0.5と0.7の事前設定された閾値でのRecall@1、0.5と0.75のIntersection over Union(IoU)閾値での平均精度(mAP)、および0.50から0.95までの複数のIoU閾値にわたる平均mAPを計算する。同じ基準がQVHighlightsデータセットにも適用される。ハイライト識別については、我々の評価にはmAPと最高スコアのクリップのヒット率を示すHIT@1の測定が含まれる。

実装の詳細: 我々は各データセットに対して4つのモデルを訓練した:CLIPとSlowFastの特徴を利用するVideoLightsVideoLights-pt、そしてCLIP、BLIP、SlowFastの特徴を組み込むVideoLights-BVideoLights-B-ptである。TVSumについては、TR-DETRなどの先行研究[22]に倣い、Kinetics 400[26]で事前訓練されたI3D[73]を使用して視覚特徴を抽出し、他の手法との比較のためにVideoLightsの変種を作成した。モデルは隠れユニットサイズd=256𝑑256d=256italic_d = 256、1つのBi-CMF層(図7参照)、3つのエンコーダ層、3つのデコーダ層、シード値2018、10個のモーメントクエリで構成された。トランスフォーマー層にはドロップアウト率0.1を、入力投影層には0.5を適用した[16]。損失のハイパーパラメータはλL1=10subscript𝜆𝐿110\lambda_{L1}=10italic_λ start_POSTSUBSCRIPT italic_L 1 end_POSTSUBSCRIPT = 10λgIoU=1subscript𝜆𝑔𝐼𝑜𝑈1\lambda_{gIoU}=1italic_λ start_POSTSUBSCRIPT italic_g italic_I italic_o italic_U end_POSTSUBSCRIPT = 1λcls=4subscript𝜆𝑐𝑙𝑠4\lambda_{cls}=4italic_λ start_POSTSUBSCRIPT italic_c italic_l italic_s end_POSTSUBSCRIPT = 4λsal=1subscript𝜆𝑠𝑎𝑙1\lambda_{sal}=1italic_λ start_POSTSUBSCRIPT italic_s italic_a italic_l end_POSTSUBSCRIPT = 1λrank=1subscript𝜆𝑟𝑎𝑛𝑘1\lambda_{rank}=1italic_λ start_POSTSUBSCRIPT italic_r italic_a italic_n italic_k end_POSTSUBSCRIPT = 1λcont=1subscript𝜆𝑐𝑜𝑛𝑡1\lambda_{cont}=1italic_λ start_POSTSUBSCRIPT italic_c italic_o italic_n italic_t end_POSTSUBSCRIPT = 1Δ=0.2Δ0.2\Delta=0.2roman_Δ = 0.2に設定した。モデルの重みはXavier初期化[74]を用いて初期化し、モデルのパラメータは初期学習率1e-4、重み減衰1e-4のAdamW[75]を用いて最適化した。[16]に従い、モデルはバッチサイズ32で200エポック訓練した。Charades-STAとTVSumについては、それぞれバッチサイズ32と4、学習率1e-4と1e-3を使用した。すべての実験はT4およびRTX 3050 Ti GPUを使用して実施された。

表III:Top-5 mAPを用いたTVSumにおけるハイライト検出手法の評価。{\dagger}は音声モダリティの使用を表す。{\ddagger}は視覚特徴にI3Dを使用したことを示す。太字は最良の結果を、下線は2番目に良い結果を表す。
Methods VT VU GA MS PK PR FM BK BT DS Avg.
sLSTM [7]{\ddagger} 41.1 46.2 46.3 47.7 44.8 46.1 45.2 40.6 47.1 45.5 45.1
SG [5]{\ddagger} 42.3 47.2 47.5 48.9 45.6 47.3 46.4 41.7 48.3 46.6 46.2
LIM-S [76]{\ddagger} 55.9 42.9 61.2 54.0 60.3 47.5 43.2 66.3 69.1 62.6 56.3
Trailer [77]{\ddagger} 61.3 54.6 65.7 60.8 59.1 70.1 58.2 64.7 65.6 68.1 62.8
SL-Module [78]{\ddagger} 86.5 68.7 74.9 86.2 79 63.2 58.9 72.6 78.9 64.0 73.3
UMT [17]{\dagger}{\ddagger} 87.5 81.5 81.5 81.5 81.4 87.0 76.0 86.9 84.4 79.6 83.1
QD-DETR [19]{\ddagger} 88.2 87.4 85.6 85.0 85.8 86.9 76.4 91.3 89.2 73.7 85.0
UVCOM [62]{\ddagger} 87.6 91.6 91.4 86.7 86.9 86.9 76.9 92.3 87.4 75.6 86.3
TR-DETR [22]{\ddagger} 89.3 93.0 94.3 85.1 88.0 88.6 80.4 91.3 89.5 81.6 88.1
VideoLights {\ddagger} 89.8 88.7 95.0 88.0 83.6 90.1 79.4 94.2 88.6 81.2 87.9
UniVTG  [20] 83.9 85.1 89.0 80.1 84.6 81.4 70.9 91.7 73.5 69.3 81.0
VideoLights 89.1 92.7 92.3 86.7 89.8 88.9 78.5 94.0 87.4 78.3 87.8
UniVTG (pt)  [20] 92.0 77.8 89.8 83.8 82.2 85.8 74.3 91.8 90.5 77.6 84.6
VideoLights-pt 90.8 91.8 95.0 85.3 88.6 89.6 76.7 94.0 88.5 78.6 87.9
VideoLights-B 91.3 92.5 93.3 84.3 88.0 88.3 77.3 92.7 88.2 81.6 87.75
VideoLights-B-pt 91.4 88.2 93.0 95.2 87.2 89.1 76.1 95.1 88.6 81.3 88.52

IV-A Main Results

QVHighlightsにおけるパフォーマンス: IIにおいて、我々はQVHighlightsテスト分割におけるモーメント検索(MR)とハイライト検出(HD)タスクの両方で、様々な手法のパフォーマンスを比較している。我々の提案フレームワークであるVideoLights は、ほとんどの指標で最先端の結果を達成し、その堅牢性と有効性を実証している。具体的には、MRタスクにおいて、我々のVideoLights-B-ptモデルは、[email protected](70.36)、[email protected](55.25)、[email protected](69.53)、[email protected](49.17)、平均mAP(47.94)で最高値を達成し、すべての先行手法を上回っている。事前学習なしでも、VideoLights-B[email protected](68.29)、[email protected](52.79)、[email protected](67.58)、[email protected](47.30)、平均mAP(46.53)で強力なパフォーマンスを示している。これらの結果は、UVCOMやTR-DETRなどの先行最先端手法に対して大幅な改善を示しており、[email protected](UVCOMに対して6.81%、TR-DETRに対して5.70%の増加)と平均mAP(UVCOMに対して4.76%、TR-DETRに対して4.94%の増加)で顕著な向上が見られる。HDタスクでは、VideoLights-B-ptがmAP 42.84とHIT@1 70.56を達成し、他の手法を大幅に上回っている。同様に、VideoLights-BもmAP 42.43とHIT@1 68.94の強力な結果を示し、UVCOMとUniVTGの両方に対してリードを維持している。特徴量が少ない場合でも、我々のモデル(VideoLightsVideoLights-pt)は競争力のある結果を達成しており、我々のアプローチの柔軟性とスケーラビリティを強調している。例えば、VideoLights-ptは2番目に高い[email protected](68.48)と[email protected](52.53)、および競争力のあるmAPスコアを達成し、事前学習微調整設定でもその有効性を実証している。これらの改善は、様々な指標で2.76%から7.07%の範囲に及び、モーメント検索とハイライト検出タスクの両方における我々のフレームワークの優位性を強調している。追加の特徴量(例:BLIP)の統合により、パフォーマンスがさらに向上し、ビデオ言語理解タスクにおける我々のフレームワークの可能性を示している。

表IV: Charades-STAテストセットの結果。太字は最良の結果を、下線は2番目に良い結果を表す。
Method [email protected] [email protected] [email protected] mIoU
2D-TAN [35] 58.76 46.02 27.5 41.25
VSLNet [48] 60.30 42.69 24.14 41.58
Moment-DETR [16] 65.83 52.07 30.59 45.54
QD-DETR [19] - 57.31 32.55 -
TR-DETR [22] - 57.61 33.52 -
UniVTG [20] 70.81 58.01 35.65 50.10
VideoLights 70.67 58.04 36.88 50.20
UniVTG (pt) [20] 72.63 60.19 38.55 52.17
VideoLights-pt 72.26 60.11 37.80 51.44
VideoLights-B 71.72 60.30 37.23 51.25
VideoLights-B-pt 73.33 61.96 41.05 52.94
表V: QVHighlights検証分割におけるアブレーション研究。fraはFRAモジュール、biはBi-CMFモジュール、bfはBlip特徴量、ptはBlipバックエンドを使用した合成データセットでの事前学習、hlは適応的ハードポジティブ・ネガティブ損失、tclはタスク結合損失、scslは顕著性コサイン類似度損失、alはアライメント損失を表す。異なる事前学習データの効果は、新しい損失なしの下部ブロックに示されている。
Modules Losses MR HD
R1 mAP >=Very Good
sl. fra bi bf pt hl tcl scsl al @0.5 @0.7 @0.5 @0.75 Avg mAP HIT@1
1. 61.42 46.77 60.82 41.36 41.28 38.08 60.45
2. 64.45 49.48 63.69 43.08 43.28 39.98 64.13
3. 66.77 51.23 65.83 45.38 45.12 40.74 66.9
4. 65.42 52.84 64.89 46.67 45.69 40.75 65.55
5. 69.55 53.94 67.53 47.86 47.14 42.09 68.77
6. 70.06 55.35 68.75 49.22 48.44 42.84 70.71
7. 69.55 54.39 68.34 49.0 47.32 41.96 68.06
8. 70.19 54.77 68.59 49.00 48.35 42.73 69.10
9. 69.55 54.00 68.37 47.80 47.63 41.85 69.61
10. 69.81 54.39 69.06 49.21 48.56 42.76 69.74
11. 69.68 54.71 67.80 47.80 54.71 41.79 68.26
12. 71.03 54.84 68.07 47.36 46.06 42.16 69.16
13. 72.06 57.94 70.38 51.12 49.71 43.12 71.48
No Pretraining 66.77 51.23 65.83 45.38 45.12 40.74 66.9
ASR Pretraining  [16] 67.94 51.48 65.84 44.03 43.74 40.71 67.03
Our BLIP Pretraining 71.03 54.84 68.07 47.36 46.06 42.16 69.16

Charades-STAにおけるパフォーマンス: 我々の提案モデルであるVideoLights VideoLights-pt VideoLights-B 、およびVideoLights-B-pt は、Charades-STAテストセットにおいて強力なパフォーマンスを示している(表IV)。事前学習なしで、VideoLights は4つの指標のうち3つで最先端の結果を達成している。[email protected]ではUniVTGを0.03%上回り(58.04対58.01)、[email protected]では1.23%上回っている(36.88対35.65)。また、mIoUでは0.1%の改善を達成している(50.20対50.10)。ただし、[email protected]ではVideoLights がUniVTGをわずかに0.14%下回っている(70.67対70.81)。 事前学習設定では、VideoLights-pt が競争力のある結果を示し、すべての指標でUniVTG(pt)に僅差で迫っている。VideoLights-pt [email protected]で72.26、[email protected]で60.11、[email protected]で37.80、mIoUで51.44を達成しており、UniVTG(pt)の72.63、60.19、38.55、52.17にそれぞれ近い値を示している。 さらに、BLIP特徴量を組み込んだ我々の新しいモデルであるVideoLights-B VideoLights-B-pt は、優れたパフォーマンスを示している。事前学習なしで、VideoLights-B [email protected](60.30対58.01)とmIoU(51.25対50.10)でUniVTGを上回っているが、[email protected](71.72対70.81)と[email protected](37.23対35.65)ではわずかに劣っている。事前学習ありでは、VideoLights-B-pt がすべての指標で新たな最先端を確立し、[email protected]で73.33、[email protected]で61.96、[email protected]で41.05、mIoUで52.94を達成し、UniVTG(pt)をそれぞれ0.70%、1.77%、2.50%、0.77%上回っている。これらの結果は、特にBLIP特徴量の統合と事前学習シナリオにおいて、我々のアプローチの有効性を強調し、すべての評価基準にわたってパフォーマンスを大幅に向上させている。

Refer to caption
図5: (a)と(b)はビデオ-クエリ対応マップを示している:(a)テキストからビデオへの(t2v)注意後、(b)Bi-CMF層後。緑の線は真のサリエンシースコアを表している。Bi-CMFはt2vよりも正しいビデオ領域に注意を向けている(マゼンタのボックスで強調表示)。「Is」という単語は、「is not」とは異なり、「a」が1つのバスケットを指していることを主張している。

TVSumにおけるパフォーマンス: 我々の提案モデルであるVideoLightsは、表IIIに示すように、TVSumデータセットの様々なドメインにおいて競争力のあるパフォーマンスを示している。VideoLightsは10のドメインのうち5つと全体平均で最先端の結果を達成している。具体的には、VT(89.8%対TR-DETRの89.3%、0.56%の改善)、GA(95.0%対TR-DETRの94.3%、0.74%の増加)、MS(88.0%対TR-DETRの85.1%、3.41%の向上)、PR(90.1%対TR-DETRの88.6%、1.69%の改善)、BK(94.2%対TR-DETRの91.3%、3.18%の改善)で先行手法を上回っている。他のドメインでも、VideoLightsは非常に競争力のあるパフォーマンスを示している:VU(88.7%対TR-DETRの93.0%、-4.62%)、PK(83.6%対TR-DETRの88.0%、-5.00%)、FM(79.4%対TR-DETRの80.4%、-1.24%)、BT(88.6%対TR-DETRの89.5%、-1.01%)、DS(81.2%対TR-DETRの81.6%、-0.49%)。特筆すべきは、VideoLightsが全体平均で87.9%を達成し、TR-DETRの88.1%に0.23%の差で迫っていることである。UniVTGと比較すると、SlowFastとCLIPで訓練された我々のモデルVideoLightsVideoLights-ptは、ほとんどのドメインで大幅な改善を示している。VideoLightsは全体平均で87.9%を達成し、UniVTGの81.0%を6.9%上回っている。すべてのドメインでUniVTGを一貫して上回っており、特にVU(92.7%対85.1%、7.6%の改善)、GA(92.3%対89.0%、3.7%の改善)、MS(86.7%対80.1%、6.6%の改善)で顕著な向上が見られる。同様に、VideoLights-ptはUniVTG(pt)を上回るパフォーマンスを示し、全体平均で87.9%を達成し、84.6%と比較して3.3%の改善を示している。10のドメインのうち7つで最先端の結果を達成しており、GA(95.0%対UniVTG(pt)の89.8%、5.8%の向上)、MS(85.3%対83.8%、1.5%の向上)、BK(94.0%対91.8%、2.2%の改善)などが含まれる。BLIP特徴量を組み込んだモデルを比較すると、VideoLights-Bは競争力のある結果を達成し、特にVU(92.5%)、BK(92.7%)、DS(81.6%)などのドメインで優れており、平均87.75%を達成している。さらに、事前学習を強化したバージョンであるVideoLights-ptは、87.9%の最高の全体平均パフォーマンスを達成し、UniVTG(pt)の84.6%を3.3%上回っている。VU(91.8%)、GA(95.0%)、MS(85.3%)、PK(88.6%)、PR(89.6%)、BK(94.0%)、DS(78.6%)を含む7つのドメインで最先端の結果を確保している。これらの結果は、ビデオハイライト検出タスクにおけるVideoLights とそのバリアントの有効性を強調しており、主要なドメインで最先端のパフォーマンスを達成しながら、他のドメインでも競争力のある結果を維持している。

要約すると、VideoLightsは他の最先端手法のパフォーマンスに匹敵するだけでなく、しばしばそれを上回り、ビデオハイライト検出とモーメント検索の共同タスクにおけるその有効性を実証している。定量的結果に加えて、図6はQVHighlightsデータセットにおける定性的結果を示している。

Refer to caption
(a)
Refer to caption

IV-B Ablation Studies

モジュールの影響を理解するために、我々はQVHighlightsの検証分割におけるモデルのアブレーション結果を表Vに示す。

表VI: QVHighlights検証セットにおけるVideoLights に対するBi-CMFとUni-CMFの効果
Cross-Attention Type MR HD
[email protected] [email protected] mAP@Avg mAP HIT@1
Bi-CMF 70.06 55.35 48.44 42.84 70.71
Uni-CMF 69.55 53.94 47.14 42.09 68.77
表VII: QVHighlights検証セットにおける異なる手法に対するFRAの効果。{\dagger}はFRAモジュールの使用を表す
Method MR HD
[email protected] [email protected] mAP@Avg mAP HIT@1
Moment-DETR [16] 53.94 34.84 32.2 35.36 55.55
Moment-DETR {\dagger} 61.48 40.26 35.17 38.88 63.16
QD-DETR [19] 62.68 46.66 41.22 39.13 63.03
QD-DETR {\dagger} 63.81 46.84 41.71 39.77 63.87
TR-DETR [22] 67.1 51.48 45.09 40.55 64.77
TR-DETR {\dagger} 67.81 51.68 45.19 41.37 67.03
表VIII: QVHighlights検証セットにおけるVideoLights に対する異なるVLMからの特徴統合の効果。ここでSFはSlowFast、CはCLIP、BはBLIP-2を表す。
Feature type MR HD
[email protected] [email protected] mAP@Avg mAP HIT@1
SF + C 66.77 51.23 45.12 40.74 66.9
SF + B 69.23 53.42 46.86 42.20 69.68
SF + C + B 70.06 55.35 48.44 42.84 70.71
Refer to caption
図7: 経験的分析により、Bi-CMFの最適なパフォーマンスがデータセットによって異なることが明らかになった:あるベンチマークでは3層が優れた結果を示し、別のベンチマークでは1層が最高のパフォーマンスを示した。結果として、我々は両データセットにおいてBi-CMFの層数を1に統一し、一貫したクロスモーダルアラインメントを確保した。

FRAの効果:Vの2行目と5行目を比較すると、Bi-CMFを無効にしたままFRAモジュールを追加することで、全ての指標において平均7.93%のパフォーマンス向上が見られ、最小で5.28%、最大で11.09%の改善が確認された。また、図3はこのモジュールの定性的な有効性を示している。我々は他の既存手法にFRAを追加する追加実験を行い、その結果を表VIIに示した。FRAモジュールは手法全体で一貫してパフォーマンスを向上させ、Moment-DETRのような弱いベースラインでは大幅な改善が見られ、QD-DETRやTR-DETRのような強力なモデルでは段階的な向上が見られた。

Bi-CMFの効果:Vの2行目と4行目は、我々のBi-CMFモジュールの有効性を示しており、全ての指標において平均4.03%のパフォーマンス向上が見られ、[email protected]で最も顕著な改善(8.33%)が確認された。図5の特徴ヒートマップ可視化による定性的分析では、Bi-CMFがベースライン(クロスモーダルなし)や、QD-DETRのような一方向(テキストから動画への)クロスモーダル融合(Uni-CMF)アプローチと比較して、よりスパースなスペクトル密度を達成しており、クエリの関連性の区別が改善されていることを示している。表VIから、Bi-CMFが全ての指標においてUni-CMFを一貫して上回っていることがわかり、特にHIT@1(+1.94)と[email protected](+1.41)で最も顕著な改善が見られた。これはBi-CMFがUni-CMFよりも効果的であることを示している。

新しい損失関数の効果:Vの6行目から11行目は、我々が提案する損失関数(適応的ハードポジティブ・ネガティブ損失(hl)、タスク結合損失(tcl)、顕著性コサイン類似度損失(scsl)、アラインメント損失(al))の統合によって達成されたパフォーマンスの向上を示している。各損失関数は独立して、モーメント検索(MR)とハイライト検出(HD)の両タスクの改善に寄与している。特に、hlはMR [email protected]やHD HIT@1などの指標で進歩をもたらし、tclはMR [email protected]のパフォーマンスを向上させ、scslは全ての指標にわたってバランスの取れた向上を生み出している。alの導入はさらに結果を改善し、特にHD HIT@1で顕著である。各損失は個別に使用した場合でもその有効性を示しているが、6行目の全ての損失の組み合わせが最良の全体的なパフォーマンスを達成しており、全ての損失関数を集合的に採用することの相乗的な利点を強調している。

BLIP-2特徴量と事前学習の効果:特に表Vの上部ブロックの6行目と11行目の差に示されているように、事前学習もパフォーマンスの向上に寄与している。標準的なCLIPとSlowFastに加えてBLIP-2特徴量を使用することも改善をもたらしている。我々は各特徴量の有効性を確認するための追加実験を行った。表VIIIから、CLIPの代わりにBLIP-2特徴量を使用するとパフォーマンスが向上することがわかる。しかし、SlowFast、CLIP、BLIP-2を一緒に使用した場合に最良の結果が得られる。表Vの下部ブロックは、異なる事前学習コーパスを用いた結果を示しており、事前学習の有効性を示している。この実験では、SlowFastとCLIP特徴量が使用され、全てのモジュールと損失が維持された。ここでは、BLIP事前学習がASR事前学習と比較して最小3.18%から最大7.57%のパフォーマンス向上をもたらしていることがわかる。

V Limitation and Conclusion

結論:本稿では、ビデオハイライト検出(HD)とモーメント検索(MR)の課題を共同で取り組む新しいフレームワークであるVideoLightsを紹介する。革新的なクロスタスクおよびクロスモーダルの相互作用を通じてテキストと動画のモダリティ間の相互作用を活用することで、VideoLightsはQVHighlights、TVSum、Charades-STAなどのベンチマークデータセットで最先端の性能を達成している。このフレームワークの主要な貢献には、効果的なローカルおよびグローバルな特徴の整列を促進する特徴精製・整列(FRA)モジュール、クエリを意識した表現を強化する双方向クロスモーダル融合(Bi-CMF)ネットワーク、そしてタスク固有および交差タスクの学習効率を最適化する単方向結合タスクフィードバックメカニズム(Uni-JFM)が含まれる。我々は、時間的認識を向上させ、意味的整列を確保し、マルチモーダル特徴を効果的に統合するために、BLIP-2のような大規模ビジョン言語モデル(LVLM)からの特徴を活用している。さらに、LVLMを用いたインテリジェントな合成データ生成と事前学習技術を採用し、性能と堅牢性を向上させている。適応型エラー修正メカニズムにより、クリップの顕著性の正確な予測がさらに確保される。包括的な評価と削減実験により、VideoLightsの有効性が裏付けられ、様々な指標において従来のベースラインを一貫して上回ることが示されている。将来の研究では、マルチモーダル融合技術の進歩、特徴整列と精製方法の改善、実世界の動画プラットフォームにおけるより広範な応用に焦点を当てることができるだろう。LVLMはマルチモーダル推論において大きな可能性を示しているが、モーメント検索タスクにおけるその有効性についてはさらなる探求が必要である。我々は、VideoLightsが共同HD/MR予測を進展させるための堅固な基盤を確立し、スケーラブルで精密な動画理解システムへの道を開くものであると主張する。

限界: 視覚-言語事前学習モデルを活用した弱教師あり事前学習に関する我々の提案は、学習プロセスを簡素化するものの、キャプション生成におけるバイアスや不正確さの影響を受ける可能性がある。同時に、キャプション生成と特徴抽出のための事前学習モデルへの依存は、計算上のオーバーヘッドと外部リソースへの依存をもたらし、我々のアプローチのスケーラビリティを潜在的に制限する可能性がある。さらに、我々のBi-CMFモジュールの性能は、入力特徴の品質と注意機構の有効性に大きく依存しており、これらは動画コンテンツの複雑さや多様性によって変動する可能性がある。実世界のアプリケーションにおいて本稿で提案したアプローチの可能性を十分に引き出すためには、さらなる研究と改良を通じてこれらの限界に対処することが不可欠である。

References

  • [1] E. Apostolidis, E. Adamantidou, A. I. Metsai, V. Mezaris, and I. Patras, “Video summarization using deep neural networks: A survey,” Proceedings of the IEEE, vol. 109, no. 11, pp. 1838–1863, 2021.
  • [2] Z. Wu, T. Yao, Y. Fu, and Y.-G. Jiang, Deep learning for video classification and captioning.   Kentfield, CA: Association for Computing Machinery and Morgan & Claypool, Dec. 2017, p. 3–29.
  • [3] L. Anne Hendricks, O. Wang, E. Shechtman, J. Sivic, T. Darrell, and B. Russell, “Localizing moments in video with natural language,” in Proceedings of the IEEE international conference on computer vision.   Venice, Italy: IEEE, 2017, pp. 5803–5812.
  • [4] T. Badamdorj, M. Rochan, Y. Wang, and L. Cheng, “Contrastive learning for unsupervised video highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.   New Orleans, Louisiana, USA: IEEE/CVF, 2022, pp. 14 042–14 052.
  • [5] B. Mahasseni, M. Lam, and S. Todorovic, “Unsupervised video summarization with adversarial lstm networks,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition.   Honolulu, Hawaii, USA: IEEE, 2017, pp. 202–211.
  • [6] F. Wei, B. Wang, T. Ge, Y. Jiang, W. Li, and L. Duan, “Learning pixel-level distinctions for video highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.   New Orleans, Louisiana, USA: IEEE/CVF, 2022, pp. 3073–3082.
  • [7] K. Zhang, W.-L. Chao, F. Sha, and K. Grauman, “Video summarization with long short-term memory,” in Computer Vision–ECCV 2016: 14th European Conference, October 11–14, 2016, Proceedings, Part VII 14, Springer.   Amsterdam, The Netherlands: Springer International Publishing, 2016, pp. 766–782.
  • [8] J. Chen, J. Wang, X. Wang, X. Wang, Z. Feng, R. Liu, and M. Song, “Coevo-net: Coevolution network for video highlight detection,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 6, pp. 3788–3797, 2022.
  • [9] J. Gao, C. Sun, Z. Yang, and R. Nevatia, “Tall: Temporal activity localization via language query,” in Proceedings of the IEEE international conference on computer vision.   Venice, Italy: IEEE, 2017, pp. 5267–5275.
  • [10] W. Liu, T. Mei, Y. Zhang, C. Che, and J. Luo, “Multi-task deep visual-semantic embedding for video thumbnail selection,” in Proceedings of the IEEE conference on computer vision and pattern recognition.   Boston, Massachusetts, USA: IEEE, 2015, pp. 3707–3715.
  • [11] V. Escorcia, M. Soldan, J. Sivic, B. Ghanem, and B. Russell, “Finding moments in video collections using natural language,” 2022.
  • [12] D. Han, X. Cheng, N. Guo, X. Ye, B. Rainer, and P. Priller, “Momentum cross-modal contrastive learning for video moment retrieval,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 34, no. 7, pp. 5977–5994, 2024.
  • [13] X. Sun, J. Gao, Y. Zhu, X. Wang, and X. Zhou, “Video moment retrieval via comprehensive relation-aware network,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 33, no. 9, pp. 5281–5295, 2023.
  • [14] J. Gao and C. Xu, “Learning video moment retrieval without a single annotated video,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 3, pp. 1646–1657, 2022.
  • [15] H. Tang, J. Zhu, M. Liu, Z. Gao, and Z. Cheng, “Frame-wise cross-modal matching for video moment retrieval,” IEEE Transactions on Multimedia, vol. 24, pp. 1338–1349, 2022.
  • [16] J. Lei, T. L. Berg, and M. Bansal, “Detecting moments and highlights in videos via natural language queries,” Advances in Neural Information Processing Systems, vol. 34, pp. 11 846–11 858, 2021.
  • [17] Y. Liu, S. Li, Y. Wu, C.-W. Chen, Y. Shan, and X. Qie, “Umt: Unified multi-modal transformers for joint video moment retrieval and highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).   New Orleans, Louisiana, USA: IEEE/CVF, June 2022, pp. 3042–3051.
  • [18] J. Yang, P. Wei, H. Li, and Z. Ren, “Task-driven exploration: Decoupling and inter-task feedback for joint moment retrieval and highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2024, pp. 18 308–18 318.
  • [19] W. Moon, S. Hyun, S. Park, D. Park, and J.-P. Heo, “Query-dependent video representation for moment retrieval and highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).   Vancouver Canada: IEEE/CVF, June 2023, pp. 23 023–23 033.
  • [20] K. Q. Lin, P. Zhang, J. Chen, S. Pramanick, D. Gao, A. J. Wang, R. Yan, and M. Z. Shou, “Univtg: Towards unified video-language temporal grounding,” in Proceedings of the IEEE/CVF International Conference on Computer Vision.   Paris, France: IEEE/CVF, 2023, pp. 2794–2804.
  • [21] J. Jang, J. Park, J. Kim, H. Kwon, and K. Sohn, “Knowing where to focus: Event-aware transformer for video grounding,” in Proceedings of the IEEE/CVF International Conference on Computer Vision.   Paris, France: IEEE/CVF, 2023, pp. 13 846–13 856.
  • [22] H. Sun, M. Zhou, W. Chen, and W. Xie, “Tr-detr: Task-reciprocal transformer for joint moment retrieval and highlight detection,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 5, pp. 4998–5007, Mar. 2024.
  • [23] R. Wang, J. Feng, F. Zhang, X. Luo, and Y. Luo, “Modality-aware heterogeneous graph for joint video moment retrieval and highlight detection,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 34, no. 9, pp. 8896–8911, 2024.
  • [24] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning, PMLR.   Virtual: PMLR, 2021, pp. 8748–8763.
  • [25] J. Li, D. Li, C. Xiong, and S. Hoi, “Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation,” in International conference on machine learning, PMLR.   Baltimore MD: PMLR, 2022, pp. 12 888–12 900.
  • [26] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, M. Suleyman, and A. Zisserman, “The kinetics human action video dataset,” 2017.
  • [27] C. Feichtenhofer, H. Fan, J. Malik, and K. He, “Slowfast networks for video recognition,” in Proceedings of the IEEE/CVF international conference on computer vision.   Seoul, Korea: IEEE/CVF, 2019, pp. 6202–6211.
  • [28] Z. Yang, L. Li, K. Lin, J. Wang, C. Lin, Z. Liu, and L. Wang, “The dawn of lmms: Preliminary explorations with gpt-4v(ision),” CoRR, vol. abs/2309.17421, 2023.
  • [29] H. Liu, C. Li, Q. Wu, and Y. J. Lee, “Visual instruction tuning,” Advances in neural information processing systems, vol. 36, 2024.
  • [30] J. Li, D. Li, S. Savarese, and S. Hoi, “Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models,” in International conference on machine learning, PMLR.   Honolulu, HI: PMLR, 2023, pp. 19 730–19 742.
  • [31] Y. Jiang, X. Yan, G.-P. Ji, K. Fu, M. Sun, H. Xiong, D.-P. Fan, and F. S. Khan, “Effectiveness assessment of recent large vision-language models,” Visual Intelligence, vol. 2, no. 1, Jun. 2024.
  • [32] Y. Song, J. Vallmitjana, A. Stent, and A. Jaimes, “Tvsum: Summarizing web videos using titles,” in Proceedings of the IEEE conference on computer vision and pattern recognition.   Boston, Massachusetts, USA: IEEE, 2015, pp. 5179–5187.
  • [33] L. A. Hendricks, O. Wang, E. Shechtman, J. Sivic, T. Darrell, and B. Russell, “Localizing moments in video with temporal language,” in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.   Brussels, Belgium: Association for Computational Linguistics, Oct.-Nov. 2018, pp. 1380–1390.
  • [34] Y. Zeng, D. Cao, X. Wei, M. Liu, Z. Zhao, and Z. Qin, “Multi-modal relational graph for cross-modal video moment retrieval,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021, pp. 2215–2224.
  • [35] S. Zhang, H. Peng, J. Fu, and J. Luo, “Learning 2d temporal adjacent networks for moment localization with natural language,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, no. 07, pp. 12 870–12 877, Apr. 2020.
  • [36] S. Xiao, L. Chen, S. Zhang, W. Ji, J. Shao, L. Ye, and J. Xiao, “Boundary proposal network for two-stage natural language video localization,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, 2021, pp. 2986–2994.
  • [37] J. Chen, X. Chen, L. Ma, Z. Jie, and T.-S. Chua, “Temporally grounding natural sentence in video,” in Proceedings of the 2018 conference on empirical methods in natural language processing, 2018, pp. 162–171.
  • [38] D. Liu, X. Qu, J. Dong, and P. Zhou, “Reasoning step-by-step: Temporal sentence localization in videos via deep rectification-modulation network,” in Proceedings of the 28th International Conference on Computational Linguistics, 2020, pp. 1841–1851.
  • [39] X. Qu, P. Tang, Z. Zou, Y. Cheng, J. Dong, P. Zhou, and Z. Xu, “Fine-grained iterative attention network for temporal language localization in videos,” in Proceedings of the 28th ACM International Conference on Multimedia, 2020, pp. 4280–4288.
  • [40] K. Ning, L. Xie, J. Liu, F. Wu, and Q. Tian, “Interaction-integrated network for natural language moment localization,” IEEE Transactions on Image Processing, vol. 30, pp. 2538–2548, 2021.
  • [41] Y. Yuan, L. Ma, J. Wang, W. Liu, and W. Zhu, “Semantic conditioned dynamic modulation for temporal sentence grounding in videos,” Advances in Neural Information Processing Systems, vol. 32, 2019.
  • [42] D. Zhang, X. Dai, X. Wang, Y.-F. Wang, and L. S. Davis, “Man: Moment alignment network for natural language moment retrieval via iterative graph adjustment,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 1247–1257.
  • [43] Y. Zhao, Z. Zhao, Z. Zhang, and Z. Lin, “Cascaded prediction network via segment tree for temporal video grounding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 4197–4206.
  • [44] S. Xiao, L. Chen, J. Shao, Y. Zhuang, and J. Xiao, “Natural language video localization with learnable moment proposals,” in Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.   Online and Punta Cana, Dominican Republic: Association for Computational Linguistics, Nov. 2021, pp. 4008–4017.
  • [45] B. Liu, S. Yeung, E. Chou, D.-A. Huang, L. Fei-Fei, and J. C. Niebles, “Temporal modular networks for retrieving complex compositional activities in videos,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 552–568.
  • [46] M. Zhang, Y. Yang, X. Chen, Y. Ji, X. Xu, J. Li, and H. T. Shen, “Multi-stage aggregated transformer network for temporal language localization in videos,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 12 669–12 678.
  • [47] H. Wang, Z.-J. Zha, L. Li, D. Liu, and J. Luo, “Structured multi-level interaction network for video moment localization via language query,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 7026–7035.
  • [48] H. Zhang, A. Sun, W. Jing, and J. T. Zhou, “Span-based localizing network for natural language video localization,” in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.   Online: Association for Computational Linguistics, Jul. 2020, pp. 6543–6554.
  • [49] J. Mun, M. Cho, and B. Han, “Local-global video-text interactions for temporal grounding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 810–10 819.
  • [50] D. Liu, X. Qu, J. Dong, P. Zhou, Y. Cheng, W. Wei, Z. Xu, and Y. Xie, “Context-aware biaffine localizing network for temporal sentence grounding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 11 235–11 244.
  • [51] R. Zeng, H. Xu, W. Huang, P. Chen, M. Tan, and C. Gan, “Dense regression network for video grounding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 287–10 296.
  • [52] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. u. Kaiser, and I. Polosukhin, “Attention is all you need,” in Advances in Neural Information Processing Systems, vol. 30.   Long Beach, California: Curran Associates, Inc., 2017.
  • [53] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, “End-to-end object detection with transformers,” in European conference on computer vision, Springer.   Tel Aviv, Israel: Springer International Publishing, 2020, pp. 213–229.
  • [54] J. Lei, L. Yu, T. L. Berg, and M. Bansal, “Tvr: A large-scale dataset for video-subtitle moment retrieval,” in Computer Vision–ECCV 2020: 16th European Conference, August 23–28, 2020, Proceedings, Part XXI 16, Springer.   Glasgow, UK: Springer International Publishing, 2020, pp. 447–463.
  • [55] J. Gao and C. Xu, “Fast video moment retrieval,” in Proceedings of the IEEE/CVF International Conference on Computer Vision.   Virtual: IEEE/CVF, 2021, pp. 1523–1532.
  • [56] Y. Liu, J. He, W. Li, J. Kim, D. Wei, H. Pfister, and C. W. Chen, “r2superscript𝑟2r^{2}italic_r start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT-tuning: Efficient image-to-video transfer learning for video temporal grounding,” in Proceedings of the European Conference on Computer Vision (ECCV), 2024.
  • [57] N. Messina, G. Amato, A. Esuli, F. Falchi, C. Gennaro, and S. Marchand-Maillet, “Fine-grained visual textual alignment for cross-modal retrieval using transformer encoders,” ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), vol. 17, no. 4, pp. 1–23, 2021.
  • [58] J. Hu, S. Qian, Q. Fang, and C. Xu, “Hierarchical graph semantic pooling network for multi-modal community question answer matching,” in Proceedings of the 27th ACM International Conference on Multimedia.   Nice, France: ACM, 2019, pp. 1157–1165.
  • [59] P. Morgado, Y. Li, and N. Nvasconcelos, “Learning representations from audio-visual spatial alignment,” Advances in Neural Information Processing Systems, vol. 33, pp. 4733–4744, 2020.
  • [60] T. Badamdorj, M. Rochan, Y. Wang, and L. Cheng, “Joint visual and audio learning for video highlight detection,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 8127–8137.
  • [61] S. Yan, X. Xiong, A. Nagrani, A. Arnab, Z. Wang, W. Ge, D. Ross, and C. Schmid, “Unloc: A unified framework for video localization tasks,” in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV).   Paris, France: IEEE/CVF, October 2023, pp. 13 623–13 633.
  • [62] Y. Xiao, Z. Luo, Y. Liu, Y. Ma, H. Bian, Y. Ji, Y. Yang, and X. Li, “Bridging the gap: A unified video comprehension framework for moment retrieval and highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 18 709–18 719.
  • [63] J. Carreira, E. Noland, C. Hillier, and A. Zisserman, “A short note on the kinetics-700 human action dataset,” 2022.
  • [64] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.   New Orleans, Louisiana, USA: IEEE/CVF, 2022, pp. 18 995–19 012.
  • [65] A. Nagrani, P. H. Seo, B. Seybold, A. Hauth, S. Manen, C. Sun, and C. Schmid, “Learning audio-video modalities from image captions,” in European Conference on Computer Vision, Springer.   Tel Aviv: Springer, 2022, pp. 407–426.
  • [66] M. R. Parvez, J. Chi, W. U. Ahmad, Y. Tian, and K.-W. Chang, “Retrieval enhanced data augmentation for question answering on privacy policies,” in Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics.   Dubrovnik, Croatia: Association for Computational Linguistics, May 2023, pp. 201–210.
  • [67] G. I. O. Union, “A metric and a loss for bounding box regression,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).   Long Beach, CA, USA: IEEE/CVF, 2019, pp. 658–666.
  • [68] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition.   LAS VEGAS, USA: IEEE, 2016, pp. 770–778.
  • [69] J. L. Ba, J. R. Kiros, and G. E. Hinton, “Layer normalization,” 2016.
  • [70] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: a simple way to prevent neural networks from overfitting,” The journal of machine learning research, vol. 15, no. 1, pp. 1929–1958, 2014.
  • [71] C. Wu, F. Wu, T. Qi, and Y. Huang, “NoisyTune: A little noise can help you finetune pretrained language models better,” in Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).   Dublin, Ireland: Association for Computational Linguistics, May 2022, pp. 680–685.
  • [72] Y. Xu, Y. Sun, Y. Li, Y. Shi, X. Zhu, and S. Du, “Mh-detr: Video moment and highlight detection with cross-modal transformer,” 2023.
  • [73] J. Carreira and A. Zisserman, “Quo vadis, action recognition? a new model and the kinetics dataset,” in proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6299–6308.
  • [74] X. Glorot and Y. Bengio, “Understanding the difficulty of training deep feedforward neural networks,” in Proceedings of the thirteenth international conference on artificial intelligence and statistics, JMLR Workshop and Conference Proceedings.   Sardinia, Italy: JMLR, 2010, pp. 249–256.
  • [75] I. Loshchilov and F. Hutter, “Decoupled weight decay regularization,” 2019.
  • [76] B. Xiong, Y. Kalantidis, D. Ghadiyaram, and K. Grauman, “Less is more: Learning highlight detection from video duration,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.   Long Beach, CA, USA: IEEE/CVF, 2019, pp. 1258–1267.
  • [77] L. Wang, D. Liu, R. Puri, and D. N. Metaxas, “Learning trailer moments in full-length movies with co-contrastive attention,” in Computer Vision–ECCV 2020: 16th European Conference, August 23–28, 2020, Proceedings, Part XVIII 16, Springer.   Glasgow, UK: Springer International Publishing, 2020, pp. 300–316.
  • [78] M. Xu, H. Wang, B. Ni, R. Zhu, Z. Sun, and C. Wang, “Cross-category video highlight detection via set-based learning,” in Proceedings of the IEEE/CVF International Conference on Computer Vision.   Virtual: IEEE/CVF, 2021, pp. 7970–7979.