arXiv	https://arxiv.org/abs/2412.01558
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval

Dhiman Paul

{}^{*\orcidlink{0009-0005-1504-6911}}

, Md Rizwan Parvez

{}^{*\orcidlink{0000-0002-3708-7803}}

, Nabeel Mohammed

{}^{\orcidlink{0000-0002-7661-3570}}

and Shafin Rahman

{}^{\orcidlink{0000-0001-7169-0318}}

Manuscript received December 1, 2024. (Corresponding author: Shafin Rahman)Dhiman Paul, Nabeel Mohammed, and Shafin Rahman are with the Department of Electrical and Computer Engineering, North South University, Dhaka, Bangladesh (email: [email protected]; [email protected]; [email protected] ).Md Rizwan Parvez is with Qatar Computing Research Institute (QCRI), Qatar (email: [email protected]). ^∗ Equal contribution.

Abstract

ビデオハイライト検出とモーメント検索（HD/MR）は、ビデオ分析において不可欠である。最近の結合予測トランスフォーマーモデルは、しばしばそれらのクロスタスクダイナミクスとビデオ-テキストのアラインメントおよび洗練を見過ごしている。さらに、ほとんどのモデルは通常、限定的な一方向の注意メカニズムを使用しており、その結果、弱く統合された表現と、ビデオとテキストのモダリティ間の相互依存性を捉える上で最適ではないパフォーマンスをもたらしている。大規模言語モデルおよびビジョン言語モデル（LLM/LVLM）が様々な分野で注目を集めているにもかかわらず、この分野におけるそれらの応用は比較的未探索のままである。ここで我々は、VideoLightsを提案する。これは、これらの制限に対処する新しいHD/MRフレームワークであり、以下の特徴を持つ：(i) より良いビデオ-テキスト特徴アラインメントのための畳み込み投影と特徴洗練モジュール（アラインメント損失を伴う）、(ii) 強く結合されたクエリ認識クリップ表現のための双方向クロスモーダル融合ネットワーク、(iii) 相関を通じて両タスクを強化する一方向結合タスクフィードバックメカニズム。さらに、(iv) 適応的エラーペナルティと改善された学習のための困難な正例/負例損失を導入し、(v) LVLMから生成された合成データを使用したインテリジェントな事前学習と、強化されたマルチモーダル特徴統合のためにBLIP-2のようなLVLMを活用する。QVHighlights、TVSum、Charades-STAベンチマークにおける包括的な実験により、最先端のパフォーマンスが実証された。コードとモデルは以下で入手可能である：https://github.com/dpaul06/VideoLights。

I Introduction

デジタルデバイス、プラットフォーム、およびインターネット利用の急増により、オンラインビデオコンテンツが豊富に存在するようになった[1, 2]。しかし、このような膨大なコンテンツを閲覧することは、ユーザーにとって非常に困難な課題であり、録画内の特定の関心点を特定する能力を妨げている[3, 1]。その結果、ビデオクリップの顕著性スコアを評価するビデオハイライト検出（HD;[4, 5, 6, 7, 8]）と、ユーザークエリに対して重要な瞬間（すなわち、最も高い顕著性スコアを持つクリップ）を自動的に特定する瞬間検索（MR; [3, 9, 10, 11, 12, 13, 14, 15]）は、ビデオ分析において不可欠なツールとなっている。これらは、コンテンツ管理、推奨、作成、編集、およびイベント検出プロセスを効率化している。ユーザークエリに基づいて関連するビデオクリップをランク付け/ローカライズするという共通の目的と、マルチモーダルモデルとデータプロパティの共通性を考慮し、転移モデルを使用した最近の研究では、ビデオハイライト検出と瞬間検索（HD/MR）を共同でモデル化し始めている[16, 17, 18, 19, 20, 21, 22, 23]。

CLIP [24] やBLIP [25] などのビジョン言語モデル（VLM）から得られるテキストと動画の特徴埋め込みは、テキストと動画のモダリティの微妙かつ根本的な理解を促進する。事前学習された埋め込みを活用することで、これらのモデルは意味的整合性やマルチモーダル推論に関連する複雑な課題に取り組む上で顕著な効果を示し、マルチモーダルデータの統合と解釈可能性を向上させている。MR-HDの共同タスクにおいて、ほとんどの研究 [16, 17, 18, 19, 20, 21, 22] は主にKinetics 400 [26] で事前学習されたCLIPからのテキストおよび視覚特徴を使用している。しかし、CLIPは主に静止画像とテキストで学習されているため、動画理解に不可欠な時間的情報が欠けている。この制限に対処するため、視覚的側面と時間的側面の両方を組み込んだSlowFast [27] からの追加の視覚埋め込みが統合されている [16]。CLIPがテキストと画像間の共同表現を学習する一方で、GPT-4V [28]、LLaVA [29]、BLIP-2 [30] などの大規模ビジョン言語モデル（LVLM）は、より複雑な推論能力を持ち、視覚と言語領域の様々なタスクで成功を証明したより強力なツールとして登場している [31]。したがって、HD/MR予測の共同タスクに関する我々の研究の根幹として、CLIP、SlowFast、そしてLVLMのBLIP-2 [30] のすべてから強化された視覚的およびテキスト埋め込みを導入する。これらはHD/MR文献ではほとんど探求されていない。我々は、CLIPなどの既存の埋め込みに対するその有効性を検証する（IV-A節およびIV-B節で）。

それにもかかわらず、HDとMRの共同予測は、テキストと動画の両モダリティ、およびそれらのクロスモーダルおよびクロスタスクの相乗効果についてより深い理解を必要とする挑戦的なタスクである。共存し相関しているにもかかわらず、我々は、ほとんどのアプローチが共同でモデル化する際に、クロスタスク（すなわちHD対MR）またはクロスモーダル（すなわちテキスト対動画）のダイナミクスのいずれかを軽視していることを観察している。これにより、潜在的な利益と堅牢性が制限されている。例えば、エンコーダ-デコーダトランスフォーマーモデルに基づく初期の研究Moment-DETR [16]は、動画とテキストの表現に事前学習された視覚-言語モデル特徴の連結を採用している。UMT [17]のような後続の研究は、エンコーダに音声入力を、デコーダにテキストを追加しながら、分離されたテキストと動画の特徴を使用している。QD-DETR [19]は、テキストを動画と整列させるクエリ依存の動画表現モジュールを開発している。UniVTG [20]はさらに、統一されたファインチューニングと事前学習方法を用いたマルチタスク学習アプローチを提示している。これらの手法は、クロスタスクの相互作用に対処せずに、共有層の後に2つの分離されたタスクヘッドをカスケード接続している。一方、最近提案されたTaskWeave [18]とTR-DETR [22]モデルは、まずHDとMRを独立して計算し、その後それらを協調させて（HDをMRに、およびその逆）結果を再計算することで、（双方向の）クロスタスク関係に対処しているが、依然としてテキストから動画への注意がないか一方向（クロスモーダル）であることに依存している。これらの課題に対処するため、本稿では、クロスモーダルおよびクロスタスクの相互作用から学習を可能にする新しいHD/MR共同予測フレームワークVideoLightsを提案する。さらに、多くの場合、テキストクエリはより簡潔である傾向があるのに対し、動画フレームはしばしばノイズや無関係な情報を含んでいる。結果として、動画全体に直接注意を適用しても、関連するクリップと無関係なクリップを効果的に区別することはできない。TR-DETRは、クエリトークンに関連して視覚トークンを強化することでこの課題に対処している。この問題に取り組むため、我々は特徴精製および整列（FRA）モジュールを開発した。これは、テキスト特徴に従って視覚特徴を巧みに精製し、局所的および大域的レベルで整列させる。図1は、自己注意または交差注意のみではクエリと動画を効果的に整列できないことを視覚的に示している。

Refer to caption — 図1: ビデオ理解モデル間のマルチモーダルアライメントダイナミクスを示す関連性ヒートマップ。色の強度（青から赤）はクエリとビデオクリップの対応関係を定量化し、緑の線はクリップごとの真の顕著性を示している。比較可視化により、VideoLightsが投影、特徴精製、双方向クロスアテンションの段階を通じてクエリとクリップの関連性を段階的に精緻化していく様子が明らかになっており、これはMoment-DETR [16]やQD-DETR [19]の限定的なマルチモーダル相互作用と対照的である。

我々のフレームワークの核心には、以下のモジュールと原則がある：

1.

特徴精製とアライメント（FRA）モジュール：CNNベースのモーダル内およびモーダル間の特徴相互作用と精製を実装し、テキストとビデオの対応関係のためのモーダル間アライメント損失を含む。
2.

双方向クロスモーダル融合（Bi-CMF）ネットワーク：テキストとビデオの双方向アテンションのための多段階階層的プロセスを採用し、強く結合されたクエリ認識型クリップ表現を生成する。
3.

単方向結合タスクフィードバックメカニズム（Uni-JFM）：タスク固有およびタスク結合損失を通じてタスク相関を強化し、HDとMRからの特徴ベクトルにコサイン類似度を利用してクロスタスク学習効率を向上させる。
4.

適応的誤差修正：クリップの顕著性予測におけるモデルの誤りを適応的にペナルティ化するために、ハードポジティブおよびハードネガティブ損失を組み込み、改善された学習を促進する。
5.

インテリジェントモデル事前学習：大規模ビジョン言語モデル（LVLM）、特にBLIP-2の画像からテキストへの生成能力を活用し、ビデオコーパスと言語-画像モデルから生成された合成データを利用して、モデルの事前学習のための高品質のペアとなるテキストクエリを作成する。

我々は、広く認知されているベンチマークであるQVHighlights [16]、TVSum [32]、およびCharades-STA [9]において包括的な評価を実施した。結果は、両タスクにおいてVideoLightsが強力な性能を示し、すべての先行するベースラインを大幅に上回り（QVHighlightsで平均1.4%、TVSumで0.7%、Charades-STAで0.3%）、新たな最先端の結果を達成したことを示している。我々はまた、QVHighlightsの開発セットにおける我々のモデルの詳細な削減実験を提供し、定性的な例を視覚化し、異なる合成事前学習コーパスの効果とフィーチャーアンサンブルの影響を分析する。我々は、これに応じて我々の実装をオープンソース化する予定である。

II Related Work

モーメント検索（MR）とハイライト検出（HD）は、動画理解における密接に関連したタスクである。MRは与えられた自然言語クエリに関連する動画モーメントを検索することを目的とし、HDは動画内の最も重要または顕著なモーメントを検出することに焦点を当てる。初期のMRアプローチには、二段階手法[3, 33, 9, 34, 35, 36]と一段階手法[37, 38, 39, 40, 41, 42, 43, 44, 45, 35, 46, 47, 48, 49, 50, 51]が含まれる。しかし、MRとHDに関する最近の研究は主にトランスフォーマーベースのアーキテクチャを発展させている[52]。検出トランスフォーマーモデル（DETR）[53]は、ビジョントランスフォーマーを活用してアンカー生成と非最大抑制の必要性を排除し、予測を簡素化している。初期の収束の遅れにもかかわらず、その後の進歩によりDETRはHDとMRで広く適用されるようになった。注目すべき貢献の一つはMoment-DETR[16]であり、これは同時HD/MRのためのQVHighlightsデータセットを導入した。Moment-DETRはDETRモデルの改良版であり、クエリに関連するモーメントとそれに対応する顕著性スコアの特定に優れている。別の最近の研究であるUMT[17]は、MRとHDのためのマルチモーダルデータ（動画と音声）を処理する統一アーキテクチャを提案した。しかし、UMTはMoment-DETRからモーメントデコーダーと二部マッチングを削除しており、MRの性能が劣る結果となっている。さらに、一部の研究ではMRとHDに対する代替アプローチを探求している。例えば、TVT[54]は関連するモーメントを捉えるために追加データ（字幕）を利用し、FVMR[55]は効率的なMRのための推論速度を改善した。新しいReversed Recurrent Tuning（R²-Tuning）[56]フレームワークは、CLIPのマルチレイヤー特徴を活用して、多様なタスクとベンチマークにわたる効率的かつパラメータの少ない動画時間的グラウンディングを実現している。MRとHDタスクは互いに関連しているため、最近の一部の手法（TaskWeave[18]、TR-DETR[22]）はタスク間の依存関係を効果的に探求している。しかし、本稿では、クロスモーダルおよびクロスタスクの相互作用に焦点を当てた共同予測HD/MRモデルを開発する。我々は開

クロスモーダル学習は、視覚的画像やテキストデータなど、異なるモダリティからの情報を統合し同期させることに依存している。TERAN [57]、HGSPN [58]、AVS [59]、[60]などのいくつかのモデルがこのトピックを探求している。最近の取り組みであるUnloc [61]は、CLIP [24]のテキストとビデオトークンのクロスモーダル融合を使用して、瞬間検索、時間的局在化、アクションセグメンテーションのためのCNN予測層を採用した特徴ピラミッドを単一ステージモデルで作成している。しかし、これらは主にテキストからビデオへの異なる注意に限定されている。我々は異なるアプローチを取り、カスタムクロスモーダル融合モジュールを使用してテキストクエリとビデオクリップ間の双方向の相互関係を見出し、これをデコーダーで追加のクロスタスク監視と共に活用している。

近年、複数の研究が様々なモダリティからのデータを用いた弱教師あり事前学習アプローチの使用を探求し、モデルの性能向上を実証している[16, 62, 20, 17, 61]。その中には、自動音声認識（ASR）のキャプションをクエリテキストとして利用したものもある[16, 62, 17]。我々と同様に、[61]はCLIPバックエンドをKinetics-700データセット[63]で初期的に訓練し、その後下流タスクのためにモデルを微調整する事前学習戦略を採用している。一方、UniVTG[20]は、Ego4Dデータセット[64]とVideoCC[65]を組み合わせた大規模な訓練コーパスを収集しているが、我々のアプローチはそのようなデータの多様性なしでもより堅牢性を示している。テキストのみのコンテキストにおいては、[66]が異なるエンコーダーを組み合わせることで、強化された教師あり学習を促進できることを示している。

III Proposed VideoLights Model

我々はVideoLightsを提示する。これは、クロスモーダル（テキスト対ビデオ）およびクロスタスク（HDとMR）の相互作用から学習を可能にする統合予測HD/MRモデルである。VideoLights は、双方向クロスモーダル融合ネットワーク、単方向結合タスクフィードバックモジュール、高度な appetite 損失関数、および知的モデルトレーニングの独自の複合体を特徴としている。VideoLights のパイプラインは図2に描かれている。

III-A Model Overview

ハイライト検出（HD）とモーメント検索（MR）は、動画クリップの顕著性を推定し、与えられたテキストクエリに対して重要な瞬間を特定することを目的としている。 $L$ クリップからなる動画が与えられた場合、我々は動画クリップを $F\in\mathbb{R}^{L\times 3\times W\times H}$ と定義する。ここで、 $W$ と $H$ は動画の幅と高さを表し、 $3$ は色チャンネル数を表す。動画の特徴表現は $V\in\mathbb{R}^{L\times d_{v}}$ と表され、 $d_{v}$ は凍結された動画エンコーダーによって抽出される特徴次元である。 $N$ トークンからなるテキストクエリが与えられた場合、テキストの表現は $T\in\mathbb{R}^{N\times d_{t}}$ と表され、 $d_{t}$ は凍結されたテキストエンコーダーによって抽出される特徴次元である。これらの表現と与えられた動画およびテキストを用いて、我々の目標は二つある：モーメント検索（MR）では、すべてのモーメント $M\in\mathbb{R}^{2\times m}$ を決定することを目指す。各モーメントは中心座標 $m_{c}$ と幅 $m_{\sigma}$ からなり、動画内で $m$ 個のそのようなモーメントを特定する。ハイライト検出（HD）では、動画内の各クリップの顕著性スコア $S\in\mathbb{R}^{L}$ をランク付けしてハイライトを検出することを目指す。

埋め込み：我々は、複数の異なるVLPから初期特徴セット $V$ と $T$ を以下のように計算する：

T=\text{clip}(Q)\oplus\text{blip}(Q)

V=\text{clip}(F)\oplus\text{slowfast}(F)\oplus\text{blip}(F)

ここで、 $\oplus$ 演算子は特徴の連結を表し、clip、blip、slowfastはそれぞれ凍結されたCLIP [24]、BLIP-2 [30]、Slow-Fastモデル [27]を指す。

投影と整列： $V$ と $T$ を更なる処理のために結合する際、それらの異なる隠れ次元が統合を困難にする可能性がある。我々は、畳み込み層からなるフィードフォワードネットワーク（FFCNN）を用いて、動画とテキスト表現の特徴次元を整列させることでこの問題に対処する。この段階の後、 $V\in\mathbb{R}^{L\times d_{v}}$ は $\overline{V}\in\mathbb{R}^{L\times d}$ となり、 $T\in\mathbb{R}^{N\times d_{t}}$ は $\overline{T}\in\mathbb{R}^{N\times d}$ となる。ここで、 $d$ は隠れ層の次元である。

\displaystyle\overline{V}=\text{relu}(\text{FFCNN}(V)),\qquad\overline{T}=% \text{relu}(\text{FFCNN}(T))

その後、動画とテキストの表現は両方とも動画-クエリ精製モジュールに渡され、クエリに注目した動画表現を学習し、関連する動画トークンを強調する。詳細はIII-B節で議論される。

クロスモーダル相互作用を伴うエンコーダー精製された動画トークンとクエリトークンは、我々のクロスモーダル相互作用モジュールBi-CMF（III-C節で議論）に送られる。このモジュールは動画とテキストの特徴を融合して、それらの相互関連性を学習し、強く結合されたクエリ注入動画表現を学習する。その後、多層エンコーダーにおいて、Bi-CMFの出力に自己注意が適用される。そして、その出力は各クリップの顕著性レベルを予測するために使用される。

クロスタスクダイナミクスを伴うデコーダーさらに、融合された表現は[19]の研究に従ってデコーダーモジュールに送られる。このモジュールの出力は、クラス予測ヘッドと位置特定予測ヘッドで使用され、前景-背景クラスと動画内のモーメントを予測する。[19]で行われたように、無関係な動画-テキストクエリ間の負の関係を用いて応答を微調整する。我々は新しい学習モジュールである一方向クロスタスクフィードバックネットワークUni-JFMを提案する。Uni-JFMはHDを参照タスクとして取り、その追加の損失：タスク固有（HDから）とクロスタスク（MRから）の損失を計算する。これらはIII-E節で議論される。

適応学習と損失関数 VideoLightsはモーメント検索とハイライト識別に異なる損失を利用する。我々は[16]のように、モーメント検索を行うためにL1、gIoU [67] $\mathcal{L}_{gIoU}(m,\overline{m})$ 、およびクロスエントロピー $\mathcal{L}_{cls}$ 目的関数を利用する。さらに、[19]のようにマージンランキング損失 $\mathcal{L}_{rank}$ 、ランク対比損失 $\mathcal{L}_{cont}$ 、およびハイライト識別のためのエントロピー損失を使用した。そして、総損失はハイライト損失とモーメント損失の合計である。整列のために、FRAから対称整列損失 $\mathcal{L}_{\text{sym}}$ を使用した。顕著性予測（すなわちHD）のために、我々は2つの適応的ハードネガティブ損失 $\mathcal{L}_{hard_{neg}}$ 、ハードポジティブ損失 $\mathcal{L}_{hard_{pos}}$ を導入した（III-D節で議論）。これらの損失は、反復とともに持続する顕著性予測の誤差にペナルティを与える。

要約すると、モーメント損失 $\mathcal{L}_{mr}$ の定式化は以下のように表現できる：

\mathcal{L}_{mr}=\lambda_{L1}||m-\overline{m}||+\lambda_{gIoU}\mathcal{L}_{% gIoU}(m,\overline{m})+\lambda_{cls}\mathcal{L}_{cls}

(1)

顕著性予測において追加の $\mathcal{L}_{hard_{neg}}$ 、 $\mathcal{L}_{hard_{pos}}$ 、および $\mathcal{L}_{Uni-JFM}$ 損失が計算されるため、我々は全体的な顕著性損失を以下のように表す：

	$\displaystyle\mathcal{L}_{hl}=$	$\displaystyle\lambda_{rank}\mathcal{L}_{rank}+\lambda_{cont}\mathcal{L}_{cont}$
		$\displaystyle+\mathcal{L}_{hard_{neg}}+\mathcal{L}_{hard_{pos}}+\mathcal{L}_{% Uni-JFM}$		(2)

さらに、FRAを支援するために、我々はIII-B節で議論される整列損失 $\mathcal{L}_{\text{align}}$ を導入した。したがって、最終的な総損失は：

\mathcal{L}_{total}=\lambda_{sal}\mathcal{L}_{hl}+\mathcal{L}_{mr}+\lambda_{al% }\mathcal{L}_{\text{align}}

(3)

ここで、ハイパーパラメータ $\lambda_{sal}$ 、 $\lambda_{al}$ はこれらの損失間のバランスを取るために使用される。以下では、Bi-CMFとUni-JFMモジュール、適応的 $\mathcal{L}_{hard_{neg}}$ 、 $\mathcal{L}_{hard_{pos}}$ 損失、および我々の事前学習手順について議論する。

III-B Feature Refinement and Alignment Network: FRA

テキストクエリは通常簡潔で情報量が多いのに対し、動画クリップはしばしば大量のノイズや無関係な情報を含んでいる。自己注意機構や交差注意機構を動画トークンに直接適用すると、すべてのトークンが等しく重み付けされ、真に関連性のあるトークンに十分な重点が置かれない可能性がある。この制限に対処するため、我々は特徴精製および整列ネットワーク（FRA）を提案する。FRAは2段階のプロセスを通じて、動画とクエリトークン間のローカル（クリップまたは単語レベル）およびグローバル（動画または文レベル）の整列を促進する。

第一段階では、畳み込み投影層がローカルな表現を捉え、動画とテキストの特徴を整列させると同時にトークンの次元を調整する。第二段階では、特徴精製層が調整された対応マップの計算、文レベルの特徴の抽出、類似度行列の生成、結果の集約を行うことでグローバルな整列を促進する。この精製プロセスは、文レベルと単語レベルの両方の特徴と意味的に整列した動画トークンを強調する。

図3は、標準的な線形投影と畳み込み投影および精製ネットワークの違いを示しており、関連する動画トークンへの焦点の強化を強調している。これにより、真の顕著性スコアに整列した改善された類似度スコアが得られる。

この精製プロセスは以下のように表される：

	$\displaystyle V_{Q}=$	$\displaystyle\overline{V}\cdot\overline{T}^{T},\qquad S=\text{pool}(\overline{% T}),$
	$\displaystyle V_{S}=$	$\displaystyle\overline{V}\cdot S^{T},\qquad S_{v}=S\cdot 1_{1\times V\times 1},$
	$\displaystyle V=$	$\displaystyle\text{conv}(\overline{V}\oplus V_{Q}\oplus V_{S}\oplus S_{v})$

ここで.は行列乗算を意味する。

クエリテキストレベルでの整列を確保するため、我々は[16]に従って、クエリトークンと投影されたクエリスパン間の対比的整列損失を計算する。この損失は、投影されたクエリスパンとそれに対応するテキスト埋め込み間の類似度スコアを高めることを促進する。これは以下のように定義される：

\begin{split}\mathcal{L}_{\text{qt\_align}}=\frac{1}{B}\sum_{b=1}^{B}\Bigg{(}-% \frac{\sum_{m}\text{logits}_{bm}\cdot\mathbb{1}_{\text{pos}}}{\text{num\_pos}_% {b}}\\ +\log\sum_{m}\exp(\text{logits}_{bm})\Bigg{)}\end{split}

(4)

ここで $\text{logits}_{bm}=\frac{\sum_{n}(\mathbf{q}_{bm}\cdot\mathbf{t}_{bn})}{\tau}$ 、 $\mathbb{1}_{\text{pos}}$ は正の一致を示す指標であり、 $\tau$ は温度パラメータ、 $B$ はバッチサイズである。

動画クリップを対応する文レベルのテキスト埋め込みと整列させるため、我々は顕著性スコア間のコサイン類似度誤差を最小化することで動画テキスト整列損失を計算する。

\hat{\mathbf{s}}_{b}=\frac{\bar{\mathbf{t}}.V}{\lVert\bar{\mathbf{t}}\rVert% \lVert V\rVert}

(5)

ここで $\bar{\mathbf{t}}=\frac{1}{N}\sum_{t=1}^{N}\mathbf{t}_{t}$ 。ここで $\bar{\mathbf{t}}$ はプールされた文レベルのテキスト埋め込み、 $\mathbf{v}$ はクリップレベルの動画埋め込み、 $\hat{\mathbf{s}}_{b}$ は計算された類似度スコアである。

\mathcal{L}_{\text{vt\_align}}=\frac{1}{B}\sum_{b=1}^{B}\left(1-\frac{\text{% norm}(\mathbf{s}_{b}).\text{norm}(\hat{\mathbf{s}}_{b})}{\lVert\text{norm}(% \mathbf{s}_{b})\rVert\lVert\text{norm}(\hat{\mathbf{s}}_{b})\rVert}\right)

(6)

ここで $\mathbf{s}_{b}$ は真の顕著性スコアである。総損失は以下のように定義される：

\mathcal{L}_{\text{align}}=\mathcal{L}_{\text{qt\_align}}+\mathcal{L}_{\text{% vt\_align}}

(7)

III-C Bi-Directional Cross-Modal Fusion Network: Bi-CMF

強く結合されたクエリ指向の動画表現を学習するために、我々は双方向クロスモーダル融合ネットワークBi-CMFを導入する。これは、クロスアテンションのための3つのマルチヘッドアテンション層を特徴とする。最初に、クロスアテンション層は、投影された動画特徴をクエリとして使用し、位置埋め込みを伴うテキストデータをキーと値として使用し、テキストトークンによって条件付けられた動画トークンを識別する。同様に、もう一つのクロスアテンション層は、投影されたテキストトークン（クエリ）特徴を、位置埋め込みと融合された動画トークン（キーと値）によって条件付けられたものとして識別するために使用され、動画に関連するテキスト特徴の識別を可能にする。

その後、条件付けられた動画トークンがクエリとして使用され、条件付けられたテキストトークンが最終的なクロスアテンション層でキーと値として機能し、クエリに関連する動画トークンを強調する融合された文脈情報を生成する。さらなる洗練は、この融合された文脈に自己アテンションメカニズムを適用することで達成され、より微妙な動画文脈の抽出が可能となる。

	$\displaystyle V_{T}=attn(\overline{V},\overline{T},\overline{T}),\qquad T_{V}=% attn(\overline{T},\overline{V},\overline{V}),\qquad$
	$\displaystyle V_{attn}=attn(\overline{V}_{T},\overline{T}_{V},\overline{T}_{V})$

残差接続[68]、レイヤー正規化[69]、およびドロップアウト[70]メカニズムが各段階で実装され、モデルの堅牢性を向上させ、学習可能な位置のエンコーディングが各アテンション層の入力に組み込まれる。 Bi-CMFは図4に示されている。

III-D Adaptive Loss Functions

我々は、持続的なモデルの誤りを特定し修正することで学習を向上させることを目指している。これを達成するために、我々は新規の適応的損失関数を設計し、特にハードポジティブとハードネガティブを対象としている。ハードネガティブ損失については、関連するクリップが存在しないネガティブ領域における予測の数を最小化する。顕著性スコア $\bar{S}_{i}$ と非関連クリップ $i\in V_{neg}$ の真の顕著性スコア $\mathcal{S}_{i}$ が与えられた場合、我々は以下の損失を定義する。

\mathcal{L}_{hard_{neg}}=W_{j}\Sigma_{i\in V_{neg}}abs(\mathcal{S}_{i}-\bar{S}% _{i})

(8)

ここで、 $W_{j}$ は $j$ 番目のエポックの関数であり、エポック数が高いほどより大きなペナルティを与える。一般的に $\mathcal{S}_{i}$ は $i\in V_{neg}$ に対してゼロであるため、損失は以下のように定義できる：

\mathcal{L}_{hard_{neg}}=W_{j}\Sigma_{i\in V_{neg}}abs(\bar{S}_{i})

(9)

ハードポジティブの場合、我々は平均二乗誤差を使用し、同様に損失を以下のように定義する：

\mathcal{L}_{hard_{neg}}=W_{j}\Sigma_{i\in V_{pos}}MSE(\mathcal{S}_{i},\bar{S}% _{i})

(10)

III-E Unidirection Joint-Task Feedback Module (Uni-JFM)

HD/MRを同時に予測する際にクロスタスクの相乗効果を活用するため、我々はタスク固有の損失とタスク結合の損失から成る単方向結合タスクフィードバックメカニズムを考案した。HDを参照タスクとして、そのタスク固有の損失 $\mathcal{L}_{ts}$ を計算する。これを行うために、予測された顕著性レベルから顕著性コサイン類似度損失を計算する。ここで、顕著性スコア $\bar{S}$ と真の顕著性スコア $\mathcal{S}$ に対して、顕著性コサイン類似度損失 $\mathcal{L}_{ts}$ は以下のように定義できる：

\mathcal{L}_{ts}=1-\frac{\bar{S}.\mathcal{S}}{\lVert\bar{S}\rVert\lVert% \mathcal{S}\rVert}

(11)

次に、タスク結合損失 $\mathcal{L}_{tc}$ について、まずMRの特徴ベクトル $M$ を使用して、[22]のMR2HD技術に従いGRUユニットを用いて顕著性スコア $\bar{S}_{mr}$ を計算する。そして、異なる方法として、真の顕著性 $\mathcal{S}$ とこの計算された顕著性 $\bar{S}_{mr}$ の間の類似度を計算する。この類似度スコアは損失関数 $\mathcal{L}_{tc}$ として使用され、以下のようになる：

\mathcal{L}_{tc}=1-\frac{\bar{S}_{mr}.\mathcal{S}}{\lVert\bar{S}_{mr}\rVert% \lVert\mathcal{S}\rVert}

(12)

このモジュールに対応する総損失は以下のようになる：

\mathcal{L}_{Uni-JFM}=\mathcal{L}_{ts}+\mathcal{L}_{tc}

(13)

アルゴリズム1 合成データ生成プロセス

0: 入力動画

\mathcal{V}

（持続時間

T

）

0: 合成データセット

\mathcal{D}_{\text{synthetic}}

1: 動画

\mathcal{V}

を

n=\lceil T/10\rceil

個の重複しない区間

\{I_{1},I_{2},\dots,I_{n}\}

に分割する。各区間

I_{i}

は

\mathcal{V}

の10秒セグメントに対応する。

2: 各区間

I_{i}

について

I_{i}

から代表的なフレーム

f_{i}

を選択する（例：中間フレームまたはヒューリスティックによってサンプリングされたもの）。

4: BLIP-2モデル

\mathcal{M}_{\text{BLIP}}

を使用して、

f_{i}

の内容を説明するキャプション

c_{i}=\mathcal{M}_{\text{BLIP}}(f_{i})

を生成する。

5: 終了

6: 各区間

I_{i}

について

7: 各フレーム

f_{ij}\in I_{i}

について

8: キャプション

c_{i}

とフレーム

f_{ij}

の特徴表現

\phi(c_{i})

および

\phi(f_{ij})

を用いてコサイン類似度

\text{Sim}(c_{i},f_{ij})

を計算する。

9: 終了

10: 各ビデオフレーム

f_{ij}

に対する

s_{i}=\text{Sim}(c_{i},f_{ij})

を区間

I_{i}

のフレームごとのハイライトスコアとして使用する。

11: 終了

12: 合成データセット

\mathcal{D}_{\text{synthetic}}=\{(c_{i},I_{i},s_{i})\mid i\in[1,n]\}

を構築する。ここで、

c_{i}

は生成されたキャプション、

I_{i}

は対応する区間、

s_{i}

は顕著性スコアである。

13:

\mathcal{D}_{\text{synthetic}}

を使用してハイライト検出または関連タスクのためのターゲットモデルを訓練する。

III-F Pretraining

表 I: 本研究で使用したデータセットの比較。

Dataset	Domain	Annotations	Videos	Task	Used in pt	Synthetic data
QVHighlights	Vlog / News	10.3K	12.5K	MR, HD	✓	187682
Charades-STA	Activity	16.1K	6.7K	MR	✓	23193
TVSum	Web	50	50	HD

我々は、ASRキャプションベースの弱教師あり学習における制限に対処するため、注意機構ベースのネットワークの性能を向上させる新規の多段階方法論を提案する[16, 62]。ASRは必ずしもその時間枠の動画の内容と一致したり、それを説明したりするわけではない。我々のアプローチでは、動画を10秒間隔で分割し、代表的なフレームに対してBLIPモデルを使用して説明的なキャプションを生成し、QVHighlightsとCharades-STAデータセットから合成データペアを作成する。フレームとクエリの類似性に基づいて顕著性スコアを計算し、得られたキャプション-クエリペアをモデル学習に使用する。このプロセスはノイズの多い事前学習データを生成する可能性があるが、その後の微調整により無関係な情報がフィルタリングされ、汎化性能の向上につながる[71]。詳細なデータ統計と手順は表Iとアルゴリズム1に示されている。

IV Experiments

表II: QVHighlightsのテスト分割における結果。

{\dagger}

は音声モダリティの使用を表す。太字は最良の結果を、下線は2番目に良い結果を示す。

Method	MR					HD
	R1		mAP			>=Very Good
	@0.5	@0.7	@0.5	@0.75	Avg	mAP	HIT@1
Moment-DETR [16]	52.89	33.02	54.82	29.4	30.73	35.69	55.6
UMT [17] ${\dagger}$	56.23	41.18	53.83	37.01	36.12	38.18	59.99
MH-DETR [72]	60.05	42.48	60.75	38.13	38.38	38.22	60.51
EaTR [21]	61.36	45.79	61.86	41.91	41.74	37.15	58.65
QD-DETR [19]	62.40	44.98	63.17	42.05	41.44	39.13	63.1
UVCOM [62]	63.55	47.47	63.37	42.67	43.18	39.74	64.20
TR-DETR [22]	64.66	48.96	63.98	43.73	42.62	39.91	63.42
UniVTG [20]	58.86	40.86	57.60	35.59	35.47	38.20	60.96
VideoLights	63.36	48.70	63.81	42.87	43.38	40.57	65.30
Moment-DETR(pt) [16]	59.78	40.33	60.51	35.36	36.14	37.43	60.17
UMT(pt) [17]	60.83	43.26	57.33	39.12	38.08	39.12	62.39
QD-DETR (pt) [19]	64.10	46.10	64.30	40.50	40.62	38.52	62.27
UVCOM(pt) [62]	64.53	48.31	64.78	43.65	43.80	39.98	65.58
UniVTG(pt) [20]	65.43	50.06	64.06	45.02	43.63	40.54	66.28
VideoLights-pt	68.48	52.53	67.31	46.76	45.01	41.48	65.89
VideoLights-B	68.29	52.79	67.58	47.30	46.53	42.43	68.94
VideoLights-B-pt	70.36	55.25	69.53	49.17	47.94	42.84	70.56

データセット：我々は、包括的かつ厳密な評価を確実にするために、3つの広く認知されたベンチマークを用いてVideoLightsを評価する。まず、QVHighlightsデータセット[16]は、モーメントとハイライト検出タスクを独自に組み合わせ、広範なビデオアノテーションを提供し、オンラインサーバーを通じて評価の公平性を維持している。このデータセットには12,562のYouTubeビデオと10,310のアノテーションが含まれており、確立された研究に従って標準化されたデータ分割が行われている。さらに、我々はモーメント検索（MR）のためにCharades-STA[9]データセットを、ハイライト検出（HD）のためにTVSum[32]データセットを使用する。TVSumは、各5つのビデオを含む10カテゴリーを網羅している。我々は[17, 72, 19]のデータ分割に従い、データセットの80%を訓練に、20%をテストに使用する。Charades-STAは、9,848のビデオと16,128のクエリテキストを特徴としている。我々は先行研究QD-DETR[19]のデータ分割を採用し、12,408サンプルを訓練に、3,720をテストに使用する。これらの標準化された分割への準拠とデータセットの多様性は、VideoLightsの堅牢かつ公正な評価への我々のコミットメントを強調するものである。

評価指標：我々は[16, 17, 19, 72, 21]から確立された評価指標基準に従う。モーメント検索については、0.5と0.7の事前設定された閾値でのRecall@1、0.5と0.75のIntersection over Union（IoU）閾値での平均精度（mAP）、および0.50から0.95までの複数のIoU閾値にわたる平均mAPを計算する。同じ基準がQVHighlightsデータセットにも適用される。ハイライト識別については、我々の評価にはmAPと最高スコアのクリップのヒット率を示すHIT@1の測定が含まれる。

実装の詳細：我々は各データセットに対して4つのモデルを訓練した：CLIPとSlowFastの特徴を利用するVideoLightsとVideoLights-pt、そしてCLIP、BLIP、SlowFastの特徴を組み込むVideoLights-BとVideoLights-B-ptである。TVSumについては、TR-DETRなどの先行研究[22]に倣い、Kinetics 400[26]で事前訓練されたI3D[73]を使用して視覚特徴を抽出し、他の手法との比較のためにVideoLightsの変種を作成した。モデルは隠れユニットサイズ $d=256$ 、1つのBi-CMF層（図7参照）、3つのエンコーダ層、3つのデコーダ層、シード値2018、10個のモーメントクエリで構成された。トランスフォーマー層にはドロップアウト率0.1を、入力投影層には0.5を適用した[16]。損失のハイパーパラメータは $\lambda_{L1}=10$ 、 $\lambda_{gIoU}=1$ 、 $\lambda_{cls}=4$ 、 $\lambda_{sal}=1$ 、 $\lambda_{rank}=1$ 、 $\lambda_{cont}=1$ 、 $\Delta=0.2$ に設定した。モデルの重みはXavier初期化[74]を用いて初期化し、モデルのパラメータは初期学習率1e-4、重み減衰1e-4のAdamW[75]を用いて最適化した。[16]に従い、モデルはバッチサイズ32で200エポック訓練した。Charades-STAとTVSumについては、それぞれバッチサイズ32と4、学習率1e-4と1e-3を使用した。すべての実験はT4およびRTX 3050 Ti GPUを使用して実施された。

表III：Top-5 mAPを用いたTVSumにおけるハイライト検出手法の評価。

{\dagger}

は音声モダリティの使用を表す。

{\ddagger}

は視覚特徴にI3Dを使用したことを示す。太字は最良の結果を、下線は2番目に良い結果を表す。

Methods	VT	VU	GA	MS	PK	PR	FM	BK	BT	DS	Avg.
sLSTM [7] ${\ddagger}$	41.1	46.2	46.3	47.7	44.8	46.1	45.2	40.6	47.1	45.5	45.1
SG [5] ${\ddagger}$	42.3	47.2	47.5	48.9	45.6	47.3	46.4	41.7	48.3	46.6	46.2
LIM-S [76] ${\ddagger}$	55.9	42.9	61.2	54.0	60.3	47.5	43.2	66.3	69.1	62.6	56.3
Trailer [77] ${\ddagger}$	61.3	54.6	65.7	60.8	59.1	70.1	58.2	64.7	65.6	68.1	62.8
SL-Module [78] ${\ddagger}$	86.5	68.7	74.9	86.2	79	63.2	58.9	72.6	78.9	64.0	73.3
UMT [17] ${\dagger}$ ${\ddagger}$	87.5	81.5	81.5	81.5	81.4	87.0	76.0	86.9	84.4	79.6	83.1
QD-DETR [19] ${\ddagger}$	88.2	87.4	85.6	85.0	85.8	86.9	76.4	91.3	89.2	73.7	85.0
UVCOM [62] ${\ddagger}$	87.6	91.6	91.4	86.7	86.9	86.9	76.9	92.3	87.4	75.6	86.3
TR-DETR [22] ${\ddagger}$	89.3	93.0	94.3	85.1	88.0	88.6	80.4	91.3	89.5	81.6	88.1
VideoLights ${\ddagger}$	89.8	88.7	95.0	88.0	83.6	90.1	79.4	94.2	88.6	81.2	87.9
UniVTG [20]	83.9	85.1	89.0	80.1	84.6	81.4	70.9	91.7	73.5	69.3	81.0
VideoLights	89.1	92.7	92.3	86.7	89.8	88.9	78.5	94.0	87.4	78.3	87.8
UniVTG (pt) [20]	92.0	77.8	89.8	83.8	82.2	85.8	74.3	91.8	90.5	77.6	84.6
VideoLights-pt	90.8	91.8	95.0	85.3	88.6	89.6	76.7	94.0	88.5	78.6	87.9
VideoLights-B	91.3	92.5	93.3	84.3	88.0	88.3	77.3	92.7	88.2	81.6	87.75
VideoLights-B-pt	91.4	88.2	93.0	95.2	87.2	89.1	76.1	95.1	88.6	81.3	88.52

IV-A Main Results

QVHighlightsにおけるパフォーマンス: 表IIにおいて、我々はQVHighlightsテスト分割におけるモーメント検索（MR）とハイライト検出（HD）タスクの両方で、様々な手法のパフォーマンスを比較している。我々の提案フレームワークであるVideoLights は、ほとんどの指標で最先端の結果を達成し、その堅牢性と有効性を実証している。具体的には、MRタスクにおいて、我々のVideoLights-B-ptモデルは、[email protected]（70.36）、[email protected]（55.25）、[email protected]（69.53）、[email protected]（49.17）、平均mAP（47.94）で最高値を達成し、すべての先行手法を上回っている。事前学習なしでも、VideoLights-Bは[email protected]（68.29）、[email protected]（52.79）、[email protected]（67.58）、[email protected]（47.30）、平均mAP（46.53）で強力なパフォーマンスを示している。これらの結果は、UVCOMやTR-DETRなどの先行最先端手法に対して大幅な改善を示しており、[email protected]（UVCOMに対して6.81%、TR-DETRに対して5.70%の増加）と平均mAP（UVCOMに対して4.76%、TR-DETRに対して4.94%の増加）で顕著な向上が見られる。HDタスクでは、VideoLights-B-ptがmAP 42.84とHIT@1 70.56を達成し、他の手法を大幅に上回っている。同様に、VideoLights-BもmAP 42.43とHIT@1 68.94の強力な結果を示し、UVCOMとUniVTGの両方に対してリードを維持している。特徴量が少ない場合でも、我々のモデル（VideoLightsとVideoLights-pt）は競争力のある結果を達成しており、我々のアプローチの柔軟性とスケーラビリティを強調している。例えば、VideoLights-ptは2番目に高い[email protected]（68.48）と[email protected]（52.53）、および競争力のあるmAPスコアを達成し、事前学習微調整設定でもその有効性を実証している。これらの改善は、様々な指標で2.76%から7.07%の範囲に及び、モーメント検索とハイライト検出タスクの両方における我々のフレームワークの優位性を強調している。追加の特徴量（例：BLIP）の統合により、パフォーマンスがさらに向上し、ビデオ言語理解タスクにおける我々のフレームワークの可能性を示している。

表IV: Charades-STAテストセットの結果。太字は最良の結果を、下線は2番目に良い結果を表す。

Method	[email protected]	[email protected]	[email protected]	mIoU
2D-TAN [35]	58.76	46.02	27.5	41.25
VSLNet [48]	60.30	42.69	24.14	41.58
Moment-DETR [16]	65.83	52.07	30.59	45.54
QD-DETR [19]	-	57.31	32.55	-
TR-DETR [22]	-	57.61	33.52	-
UniVTG [20]	70.81	58.01	35.65	50.10
VideoLights	70.67	58.04	36.88	50.20
UniVTG (pt) [20]	72.63	60.19	38.55	52.17
VideoLights-pt	72.26	60.11	37.80	51.44
VideoLights-B	71.72	60.30	37.23	51.25
VideoLights-B-pt	73.33	61.96	41.05	52.94

表V: QVHighlights検証分割におけるアブレーション研究。fraはFRAモジュール、biはBi-CMFモジュール、bfはBlip特徴量、ptはBlipバックエンドを使用した合成データセットでの事前学習、hlは適応的ハードポジティブ・ネガティブ損失、tclはタスク結合損失、scslは顕著性コサイン類似度損失、alはアライメント損失を表す。異なる事前学習データの効果は、新しい損失なしの下部ブロックに示されている。

Modules					Losses				MR					HD
Modules					Losses				R1		mAP			>=Very Good
sl.	fra	bi	bf	pt	hl	tcl	scsl	al	@0.5	@0.7	@0.5	@0.75	Avg	mAP	HIT@1
1.	✗	✗	✗	✗	✓	✓	✓	✓	61.42	46.77	60.82	41.36	41.28	38.08	60.45
2.	✗	✗	✓	✗	✓	✓	✓	✓	64.45	49.48	63.69	43.08	43.28	39.98	64.13
3.	✓	✓	✗	✗	✓	✓	✓	✓	66.77	51.23	65.83	45.38	45.12	40.74	66.9
4.	✗	✓	✓	✗	✓	✓	✓	✓	65.42	52.84	64.89	46.67	45.69	40.75	65.55
5.	✓	✗	✓	✗	✓	✓	✓	✓	69.55	53.94	67.53	47.86	47.14	42.09	68.77
6.	✓	✓	✓	✗	✓	✓	✓	✓	70.06	55.35	68.75	49.22	48.44	42.84	70.71
7.	✓	✓	✓	✗	✗	✗	✗	✗	69.55	54.39	68.34	49.0	47.32	41.96	68.06
8.	✓	✓	✓	✗	✓	✗	✗	✗	70.19	54.77	68.59	49.00	48.35	42.73	69.10
9.	✓	✓	✓	✗	✗	✓	✗	✗	69.55	54.00	68.37	47.80	47.63	41.85	69.61
10.	✓	✓	✓	✗	✗	✗	✓	✗	69.81	54.39	69.06	49.21	48.56	42.76	69.74
11.	✓	✓	✓	✗	✗	✗	✗	✓	69.68	54.71	67.80	47.80	54.71	41.79	68.26
12.	✓	✓	✗	✓	✓	✓	✓	✓	71.03	54.84	68.07	47.36	46.06	42.16	69.16
13.	✓	✓	✓	✓	✓	✓	✓	✓	72.06	57.94	70.38	51.12	49.71	43.12	71.48
No Pretraining									66.77	51.23	65.83	45.38	45.12	40.74	66.9
ASR Pretraining [16]									67.94	51.48	65.84	44.03	43.74	40.71	67.03
Our BLIP Pretraining									71.03	54.84	68.07	47.36	46.06	42.16	69.16

Charades-STAにおけるパフォーマンス: 我々の提案モデルであるVideoLights 、VideoLights-pt 、VideoLights-B 、およびVideoLights-B-pt は、Charades-STAテストセットにおいて強力なパフォーマンスを示している（表IV）。事前学習なしで、VideoLights は4つの指標のうち3つで最先端の結果を達成している。[email protected]ではUniVTGを0.03%上回り（58.04対58.01）、[email protected]では1.23%上回っている（36.88対35.65）。また、mIoUでは0.1%の改善を達成している（50.20対50.10）。ただし、[email protected]ではVideoLights がUniVTGをわずかに0.14%下回っている（70.67対70.81）。事前学習設定では、VideoLights-pt が競争力のある結果を示し、すべての指標でUniVTG（pt）に僅差で迫っている。VideoLights-pt は[email protected]で72.26、[email protected]で60.11、[email protected]で37.80、mIoUで51.44を達成しており、UniVTG（pt）の72.63、60.19、38.55、52.17にそれぞれ近い値を示している。さらに、BLIP特徴量を組み込んだ我々の新しいモデルであるVideoLights-B とVideoLights-B-pt は、優れたパフォーマンスを示している。事前学習なしで、VideoLights-B は[email protected]（60.30対58.01）とmIoU（51.25対50.10）でUniVTGを上回っているが、[email protected]（71.72対70.81）と[email protected]（37.23対35.65）ではわずかに劣っている。事前学習ありでは、VideoLights-B-pt がすべての指標で新たな最先端を確立し、[email protected]で73.33、[email protected]で61.96、[email protected]で41.05、mIoUで52.94を達成し、UniVTG（pt）をそれぞれ0.70%、1.77%、2.50%、0.77%上回っている。これらの結果は、特にBLIP特徴量の統合と事前学習シナリオにおいて、我々のアプローチの有効性を強調し、すべての評価基準にわたってパフォーマンスを大幅に向上させている。

TVSumにおけるパフォーマンス: 我々の提案モデルであるVideoLightsは、表IIIに示すように、TVSumデータセットの様々なドメインにおいて競争力のあるパフォーマンスを示している。VideoLightsは10のドメインのうち5つと全体平均で最先端の結果を達成している。具体的には、VT（89.8%対TR-DETRの89.3%、0.56%の改善）、GA（95.0%対TR-DETRの94.3%、0.74%の増加）、MS（88.0%対TR-DETRの85.1%、3.41%の向上）、PR（90.1%対TR-DETRの88.6%、1.69%の改善）、BK（94.2%対TR-DETRの91.3%、3.18%の改善）で先行手法を上回っている。他のドメインでも、VideoLightsは非常に競争力のあるパフォーマンスを示している：VU（88.7%対TR-DETRの93.0%、-4.62%）、PK（83.6%対TR-DETRの88.0%、-5.00%）、FM（79.4%対TR-DETRの80.4%、-1.24%）、BT（88.6%対TR-DETRの89.5%、-1.01%）、DS（81.2%対TR-DETRの81.6%、-0.49%）。特筆すべきは、VideoLightsが全体平均で87.9%を達成し、TR-DETRの88.1%に0.23%の差で迫っていることである。UniVTGと比較すると、SlowFastとCLIPで訓練された我々のモデルVideoLightsとVideoLights-ptは、ほとんどのドメインで大幅な改善を示している。VideoLightsは全体平均で87.9%を達成し、UniVTGの81.0%を6.9%上回っている。すべてのドメインでUniVTGを一貫して上回っており、特にVU（92.7%対85.1%、7.6%の改善）、GA（92.3%対89.0%、3.7%の改善）、MS（86.7%対80.1%、6.6%の改善）で顕著な向上が見られる。同様に、VideoLights-ptはUniVTG（pt）を上回るパフォーマンスを示し、全体平均で87.9%を達成し、84.6%と比較して3.3%の改善を示している。10のドメインのうち7つで最先端の結果を達成しており、GA（95.0%対UniVTG（pt）の89.8%、5.8%の向上）、MS（85.3%対83.8%、1.5%の向上）、BK（94.0%対91.8%、2.2%の改善）などが含まれる。BLIP特徴量を組み込んだモデルを比較すると、VideoLights-Bは競争力のある結果を達成し、特にVU（92.5%）、BK（92.7%）、DS（81.6%）などのドメインで優れており、平均87.75%を達成している。さらに、事前学習を強化したバージョンであるVideoLights-ptは、87.9%の最高の全体平均パフォーマンスを達成し、UniVTG（pt）の84.6%を3.3%上回っている。VU（91.8%）、GA（95.0%）、MS（85.3%）、PK（88.6%）、PR（89.6%）、BK（94.0%）、DS（78.6%）を含む7つのドメインで最先端の結果を確保している。これらの結果は、ビデオハイライト検出タスクにおけるVideoLights とそのバリアントの有効性を強調しており、主要なドメインで最先端のパフォーマンスを達成しながら、他のドメインでも競争力のある結果を維持している。

要約すると、VideoLightsは他の最先端手法のパフォーマンスに匹敵するだけでなく、しばしばそれを上回り、ビデオハイライト検出とモーメント検索の共同タスクにおけるその有効性を実証している。定量的結果に加えて、図6はQVHighlightsデータセットにおける定性的結果を示している。

Cross-Attention Type	MR	HD
Bi-CMF	70.06	55.35	48.44	42.84	70.71
Uni-CMF	69.55	53.94	47.14	42.09	68.77

Method	MR	HD
Moment-DETR [16]	53.94	34.84	32.2	35.36	55.55
Moment-DETR ${\dagger}$	61.48	40.26	35.17	38.88	63.16
QD-DETR [19]	62.68	46.66	41.22	39.13	63.03
QD-DETR ${\dagger}$	63.81	46.84	41.71	39.77	63.87
TR-DETR [22]	67.1	51.48	45.09	40.55	64.77
TR-DETR ${\dagger}$	67.81	51.68	45.19	41.37	67.03

Feature type	MR	HD
SF + C	66.77	51.23	45.12	40.74	66.9
SF + B	69.23	53.42	46.86	42.20	69.68
SF + C + B	70.06	55.35	48.44	42.84	70.71

V Limitation and Conclusion

結論：本稿では、ビデオハイライト検出（HD）とモーメント検索（MR）の課題を共同で取り組む新しいフレームワークであるVideoLightsを紹介する。革新的なクロスタスクおよびクロスモーダルの相互作用を通じてテキストと動画のモダリティ間の相互作用を活用することで、VideoLightsはQVHighlights、TVSum、Charades-STAなどのベンチマークデータセットで最先端の性能を達成している。このフレームワークの主要な貢献には、効果的なローカルおよびグローバルな特徴の整列を促進する特徴精製・整列（FRA）モジュール、クエリを意識した表現を強化する双方向クロスモーダル融合（Bi-CMF）ネットワーク、そしてタスク固有および交差タスクの学習効率を最適化する単方向結合タスクフィードバックメカニズム（Uni-JFM）が含まれる。我々は、時間的認識を向上させ、意味的整列を確保し、マルチモーダル特徴を効果的に統合するために、BLIP-2のような大規模ビジョン言語モデル（LVLM）からの特徴を活用している。さらに、LVLMを用いたインテリジェントな合成データ生成と事前学習技術を採用し、性能と堅牢性を向上させている。適応型エラー修正メカニズムにより、クリップの顕著性の正確な予測がさらに確保される。包括的な評価と削減実験により、VideoLightsの有効性が裏付けられ、様々な指標において従来のベースラインを一貫して上回ることが示されている。将来の研究では、マルチモーダル融合技術の進歩、特徴整列と精製方法の改善、実世界の動画プラットフォームにおけるより広範な応用に焦点を当てることができるだろう。LVLMはマルチモーダル推論において大きな可能性を示しているが、モーメント検索タスクにおけるその有効性についてはさらなる探求が必要である。我々は、VideoLightsが共同HD/MR予測を進展させるための堅固な基盤を確立し、スケーラブルで精密な動画理解システムへの道を開くものであると主張する。

限界: 視覚-言語事前学習モデルを活用した弱教師あり事前学習に関する我々の提案は、学習プロセスを簡素化するものの、キャプション生成におけるバイアスや不正確さの影響を受ける可能性がある。同時に、キャプション生成と特徴抽出のための事前学習モデルへの依存は、計算上のオーバーヘッドと外部リソースへの依存をもたらし、我々のアプローチのスケーラビリティを潜在的に制限する可能性がある。さらに、我々のBi-CMFモジュールの性能は、入力特徴の品質と注意機構の有効性に大きく依存しており、これらは動画コンテンツの複雑さや多様性によって変動する可能性がある。実世界のアプリケーションにおいて本稿で提案したアプローチの可能性を十分に引き出すためには、さらなる研究と改良を通じてこれらの限界に対処することが不可欠である。

References

[1] E. Apostolidis, E. Adamantidou, A. I. Metsai, V. Mezaris, and I. Patras, “Video summarization using deep neural networks: A survey,” Proceedings of the IEEE, vol. 109, no. 11, pp. 1838–1863, 2021.
[2] Z. Wu, T. Yao, Y. Fu, and Y.-G. Jiang, Deep learning for video classification and captioning. Kentfield, CA: Association for Computing Machinery and Morgan & Claypool, Dec. 2017, p. 3–29.
[3] L. Anne Hendricks, O. Wang, E. Shechtman, J. Sivic, T. Darrell, and B. Russell, “Localizing moments in video with natural language,” in Proceedings of the IEEE international conference on computer vision. Venice, Italy: IEEE, 2017, pp. 5803–5812.
[4] T. Badamdorj, M. Rochan, Y. Wang, and L. Cheng, “Contrastive learning for unsupervised video highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, Louisiana, USA: IEEE/CVF, 2022, pp. 14 042–14 052.
[5] B. Mahasseni, M. Lam, and S. Todorovic, “Unsupervised video summarization with adversarial lstm networks,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017, pp. 202–211.
[6] F. Wei, B. Wang, T. Ge, Y. Jiang, W. Li, and L. Duan, “Learning pixel-level distinctions for video highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, Louisiana, USA: IEEE/CVF, 2022, pp. 3073–3082.
[7] K. Zhang, W.-L. Chao, F. Sha, and K. Grauman, “Video summarization with long short-term memory,” in Computer Vision–ECCV 2016: 14th European Conference, October 11–14, 2016, Proceedings, Part VII 14, Springer. Amsterdam, The Netherlands: Springer International Publishing, 2016, pp. 766–782.
[8] J. Chen, J. Wang, X. Wang, X. Wang, Z. Feng, R. Liu, and M. Song, “Coevo-net: Coevolution network for video highlight detection,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 6, pp. 3788–3797, 2022.
[9] J. Gao, C. Sun, Z. Yang, and R. Nevatia, “Tall: Temporal activity localization via language query,” in Proceedings of the IEEE international conference on computer vision. Venice, Italy: IEEE, 2017, pp. 5267–5275.
[10] W. Liu, T. Mei, Y. Zhang, C. Che, and J. Luo, “Multi-task deep visual-semantic embedding for video thumbnail selection,” in Proceedings of the IEEE conference on computer vision and pattern recognition. Boston, Massachusetts, USA: IEEE, 2015, pp. 3707–3715.
[11] V. Escorcia, M. Soldan, J. Sivic, B. Ghanem, and B. Russell, “Finding moments in video collections using natural language,” 2022.
[12] D. Han, X. Cheng, N. Guo, X. Ye, B. Rainer, and P. Priller, “Momentum cross-modal contrastive learning for video moment retrieval,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 34, no. 7, pp. 5977–5994, 2024.
[13] X. Sun, J. Gao, Y. Zhu, X. Wang, and X. Zhou, “Video moment retrieval via comprehensive relation-aware network,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 33, no. 9, pp. 5281–5295, 2023.
[14] J. Gao and C. Xu, “Learning video moment retrieval without a single annotated video,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 3, pp. 1646–1657, 2022.
[15] H. Tang, J. Zhu, M. Liu, Z. Gao, and Z. Cheng, “Frame-wise cross-modal matching for video moment retrieval,” IEEE Transactions on Multimedia, vol. 24, pp. 1338–1349, 2022.
[16] J. Lei, T. L. Berg, and M. Bansal, “Detecting moments and highlights in videos via natural language queries,” Advances in Neural Information Processing Systems, vol. 34, pp. 11 846–11 858, 2021.
[17] Y. Liu, S. Li, Y. Wu, C.-W. Chen, Y. Shan, and X. Qie, “Umt: Unified multi-modal transformers for joint video moment retrieval and highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, Louisiana, USA: IEEE/CVF, June 2022, pp. 3042–3051.
[18] J. Yang, P. Wei, H. Li, and Z. Ren, “Task-driven exploration: Decoupling and inter-task feedback for joint moment retrieval and highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2024, pp. 18 308–18 318.
[19] W. Moon, S. Hyun, S. Park, D. Park, and J.-P. Heo, “Query-dependent video representation for moment retrieval and highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver Canada: IEEE/CVF, June 2023, pp. 23 023–23 033.
[20] K. Q. Lin, P. Zhang, J. Chen, S. Pramanick, D. Gao, A. J. Wang, R. Yan, and M. Z. Shou, “Univtg: Towards unified video-language temporal grounding,” in Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris, France: IEEE/CVF, 2023, pp. 2794–2804.
[21] J. Jang, J. Park, J. Kim, H. Kwon, and K. Sohn, “Knowing where to focus: Event-aware transformer for video grounding,” in Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris, France: IEEE/CVF, 2023, pp. 13 846–13 856.
[22] H. Sun, M. Zhou, W. Chen, and W. Xie, “Tr-detr: Task-reciprocal transformer for joint moment retrieval and highlight detection,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 5, pp. 4998–5007, Mar. 2024.
[23] R. Wang, J. Feng, F. Zhang, X. Luo, and Y. Luo, “Modality-aware heterogeneous graph for joint video moment retrieval and highlight detection,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 34, no. 9, pp. 8896–8911, 2024.
[24] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning, PMLR. Virtual: PMLR, 2021, pp. 8748–8763.
[25] J. Li, D. Li, C. Xiong, and S. Hoi, “Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation,” in International conference on machine learning, PMLR. Baltimore MD: PMLR, 2022, pp. 12 888–12 900.
[26] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, M. Suleyman, and A. Zisserman, “The kinetics human action video dataset,” 2017.
[27] C. Feichtenhofer, H. Fan, J. Malik, and K. He, “Slowfast networks for video recognition,” in Proceedings of the IEEE/CVF international conference on computer vision. Seoul, Korea: IEEE/CVF, 2019, pp. 6202–6211.
[28] Z. Yang, L. Li, K. Lin, J. Wang, C. Lin, Z. Liu, and L. Wang, “The dawn of lmms: Preliminary explorations with gpt-4v(ision),” CoRR, vol. abs/2309.17421, 2023.
[29] H. Liu, C. Li, Q. Wu, and Y. J. Lee, “Visual instruction tuning,” Advances in neural information processing systems, vol. 36, 2024.
[30] J. Li, D. Li, S. Savarese, and S. Hoi, “Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models,” in International conference on machine learning, PMLR. Honolulu, HI: PMLR, 2023, pp. 19 730–19 742.
[31] Y. Jiang, X. Yan, G.-P. Ji, K. Fu, M. Sun, H. Xiong, D.-P. Fan, and F. S. Khan, “Effectiveness assessment of recent large vision-language models,” Visual Intelligence, vol. 2, no. 1, Jun. 2024.
[32] Y. Song, J. Vallmitjana, A. Stent, and A. Jaimes, “Tvsum: Summarizing web videos using titles,” in Proceedings of the IEEE conference on computer vision and pattern recognition. Boston, Massachusetts, USA: IEEE, 2015, pp. 5179–5187.
[33] L. A. Hendricks, O. Wang, E. Shechtman, J. Sivic, T. Darrell, and B. Russell, “Localizing moments in video with temporal language,” in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, Oct.-Nov. 2018, pp. 1380–1390.
[34] Y. Zeng, D. Cao, X. Wei, M. Liu, Z. Zhao, and Z. Qin, “Multi-modal relational graph for cross-modal video moment retrieval,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021, pp. 2215–2224.
[35] S. Zhang, H. Peng, J. Fu, and J. Luo, “Learning 2d temporal adjacent networks for moment localization with natural language,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, no. 07, pp. 12 870–12 877, Apr. 2020.
[36] S. Xiao, L. Chen, S. Zhang, W. Ji, J. Shao, L. Ye, and J. Xiao, “Boundary proposal network for two-stage natural language video localization,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, 2021, pp. 2986–2994.
[37] J. Chen, X. Chen, L. Ma, Z. Jie, and T.-S. Chua, “Temporally grounding natural sentence in video,” in Proceedings of the 2018 conference on empirical methods in natural language processing, 2018, pp. 162–171.
[38] D. Liu, X. Qu, J. Dong, and P. Zhou, “Reasoning step-by-step: Temporal sentence localization in videos via deep rectification-modulation network,” in Proceedings of the 28th International Conference on Computational Linguistics, 2020, pp. 1841–1851.
[39] X. Qu, P. Tang, Z. Zou, Y. Cheng, J. Dong, P. Zhou, and Z. Xu, “Fine-grained iterative attention network for temporal language localization in videos,” in Proceedings of the 28th ACM International Conference on Multimedia, 2020, pp. 4280–4288.
[40] K. Ning, L. Xie, J. Liu, F. Wu, and Q. Tian, “Interaction-integrated network for natural language moment localization,” IEEE Transactions on Image Processing, vol. 30, pp. 2538–2548, 2021.
[41] Y. Yuan, L. Ma, J. Wang, W. Liu, and W. Zhu, “Semantic conditioned dynamic modulation for temporal sentence grounding in videos,” Advances in Neural Information Processing Systems, vol. 32, 2019.
[42] D. Zhang, X. Dai, X. Wang, Y.-F. Wang, and L. S. Davis, “Man: Moment alignment network for natural language moment retrieval via iterative graph adjustment,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 1247–1257.
[43] Y. Zhao, Z. Zhao, Z. Zhang, and Z. Lin, “Cascaded prediction network via segment tree for temporal video grounding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 4197–4206.
[44] S. Xiao, L. Chen, J. Shao, Y. Zhuang, and J. Xiao, “Natural language video localization with learnable moment proposals,” in Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online and Punta Cana, Dominican Republic: Association for Computational Linguistics, Nov. 2021, pp. 4008–4017.
[45] B. Liu, S. Yeung, E. Chou, D.-A. Huang, L. Fei-Fei, and J. C. Niebles, “Temporal modular networks for retrieving complex compositional activities in videos,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 552–568.
[46] M. Zhang, Y. Yang, X. Chen, Y. Ji, X. Xu, J. Li, and H. T. Shen, “Multi-stage aggregated transformer network for temporal language localization in videos,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 12 669–12 678.
[47] H. Wang, Z.-J. Zha, L. Li, D. Liu, and J. Luo, “Structured multi-level interaction network for video moment localization via language query,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 7026–7035.
[48] H. Zhang, A. Sun, W. Jing, and J. T. Zhou, “Span-based localizing network for natural language video localization,” in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, Jul. 2020, pp. 6543–6554.
[49] J. Mun, M. Cho, and B. Han, “Local-global video-text interactions for temporal grounding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 810–10 819.
[50] D. Liu, X. Qu, J. Dong, P. Zhou, Y. Cheng, W. Wei, Z. Xu, and Y. Xie, “Context-aware biaffine localizing network for temporal sentence grounding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 11 235–11 244.
[51] R. Zeng, H. Xu, W. Huang, P. Chen, M. Tan, and C. Gan, “Dense regression network for video grounding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 287–10 296.
[52] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. u. Kaiser, and I. Polosukhin, “Attention is all you need,” in Advances in Neural Information Processing Systems, vol. 30. Long Beach, California: Curran Associates, Inc., 2017.
[53] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, “End-to-end object detection with transformers,” in European conference on computer vision, Springer. Tel Aviv, Israel: Springer International Publishing, 2020, pp. 213–229.
[54] J. Lei, L. Yu, T. L. Berg, and M. Bansal, “Tvr: A large-scale dataset for video-subtitle moment retrieval,” in Computer Vision–ECCV 2020: 16th European Conference, August 23–28, 2020, Proceedings, Part XXI 16, Springer. Glasgow, UK: Springer International Publishing, 2020, pp. 447–463.
[55] J. Gao and C. Xu, “Fast video moment retrieval,” in Proceedings of the IEEE/CVF International Conference on Computer Vision. Virtual: IEEE/CVF, 2021, pp. 1523–1532.
[56] Y. Liu, J. He, W. Li, J. Kim, D. Wei, H. Pfister, and C. W. Chen, “ $r^{2}$ -tuning: Efficient image-to-video transfer learning for video temporal grounding,” in Proceedings of the European Conference on Computer Vision (ECCV), 2024.
[57] N. Messina, G. Amato, A. Esuli, F. Falchi, C. Gennaro, and S. Marchand-Maillet, “Fine-grained visual textual alignment for cross-modal retrieval using transformer encoders,” ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), vol. 17, no. 4, pp. 1–23, 2021.
[58] J. Hu, S. Qian, Q. Fang, and C. Xu, “Hierarchical graph semantic pooling network for multi-modal community question answer matching,” in Proceedings of the 27th ACM International Conference on Multimedia. Nice, France: ACM, 2019, pp. 1157–1165.
[59] P. Morgado, Y. Li, and N. Nvasconcelos, “Learning representations from audio-visual spatial alignment,” Advances in Neural Information Processing Systems, vol. 33, pp. 4733–4744, 2020.
[60] T. Badamdorj, M. Rochan, Y. Wang, and L. Cheng, “Joint visual and audio learning for video highlight detection,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 8127–8137.
[61] S. Yan, X. Xiong, A. Nagrani, A. Arnab, Z. Wang, W. Ge, D. Ross, and C. Schmid, “Unloc: A unified framework for video localization tasks,” in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE/CVF, October 2023, pp. 13 623–13 633.
[62] Y. Xiao, Z. Luo, Y. Liu, Y. Ma, H. Bian, Y. Ji, Y. Yang, and X. Li, “Bridging the gap: A unified video comprehension framework for moment retrieval and highlight detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 18 709–18 719.
[63] J. Carreira, E. Noland, C. Hillier, and A. Zisserman, “A short note on the kinetics-700 human action dataset,” 2022.
[64] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, Louisiana, USA: IEEE/CVF, 2022, pp. 18 995–19 012.
[65] A. Nagrani, P. H. Seo, B. Seybold, A. Hauth, S. Manen, C. Sun, and C. Schmid, “Learning audio-video modalities from image captions,” in European Conference on Computer Vision, Springer. Tel Aviv: Springer, 2022, pp. 407–426.
[66] M. R. Parvez, J. Chi, W. U. Ahmad, Y. Tian, and K.-W. Chang, “Retrieval enhanced data augmentation for question answering on privacy policies,” in Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. Dubrovnik, Croatia: Association for Computational Linguistics, May 2023, pp. 201–210.
[67] G. I. O. Union, “A metric and a loss for bounding box regression,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE/CVF, 2019, pp. 658–666.
[68] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition. LAS VEGAS, USA: IEEE, 2016, pp. 770–778.
[69] J. L. Ba, J. R. Kiros, and G. E. Hinton, “Layer normalization,” 2016.
[70] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: a simple way to prevent neural networks from overfitting,” The journal of machine learning research, vol. 15, no. 1, pp. 1929–1958, 2014.
[71] C. Wu, F. Wu, T. Qi, and Y. Huang, “NoisyTune: A little noise can help you finetune pretrained language models better,” in Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Dublin, Ireland: Association for Computational Linguistics, May 2022, pp. 680–685.
[72] Y. Xu, Y. Sun, Y. Li, Y. Shi, X. Zhu, and S. Du, “Mh-detr: Video moment and highlight detection with cross-modal transformer,” 2023.
[73] J. Carreira and A. Zisserman, “Quo vadis, action recognition? a new model and the kinetics dataset,” in proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6299–6308.
[74] X. Glorot and Y. Bengio, “Understanding the difficulty of training deep feedforward neural networks,” in Proceedings of the thirteenth international conference on artificial intelligence and statistics, JMLR Workshop and Conference Proceedings. Sardinia, Italy: JMLR, 2010, pp. 249–256.
[75] I. Loshchilov and F. Hutter, “Decoupled weight decay regularization,” 2019.
[76] B. Xiong, Y. Kalantidis, D. Ghadiyaram, and K. Grauman, “Less is more: Learning highlight detection from video duration,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Long Beach, CA, USA: IEEE/CVF, 2019, pp. 1258–1267.
[77] L. Wang, D. Liu, R. Puri, and D. N. Metaxas, “Learning trailer moments in full-length movies with co-contrastive attention,” in Computer Vision–ECCV 2020: 16th European Conference, August 23–28, 2020, Proceedings, Part XVIII 16, Springer. Glasgow, UK: Springer International Publishing, 2020, pp. 300–316.
[78] M. Xu, H. Wang, B. Ni, R. Zhu, Z. Sun, and C. Wang, “Cross-category video highlight detection via set-based learning,” in Proceedings of the IEEE/CVF International Conference on Computer Vision. Virtual: IEEE/CVF, 2021, pp. 7970–7979.

VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval

Abstract

I Introduction

II Related Work

III Proposed VideoLights Model

III-A Model Overview

III-B Feature Refinement and Alignment Network: FRA

III-C Bi-Directional Cross-Modal Fusion Network: Bi-CMF

III-D Adaptive Loss Functions

III-E Unidirection Joint-Task Feedback Module (Uni-JFM)

III-F Pretraining

IV Experiments

IV-A Main Results

IV-B Ablation Studies

V Limitation and Conclusion

References