JaLMS
最新の AI 研究を日本語で解読

FineCaption: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Hang Hua1, Qing Liu2, Lingzhi Zhang2, Jing Shi2, Soo Ye Kim2, Zhifei Zhang2,
Yilin Wang2,  Jianming Zhang2,  Zhe Lin2,  Jiebo Luo1
1University of Rochester, 2Adobe Research
{hhua2,jluo}@cs.rochester.edu, {qingl,lingzzha,jingshi,sooyek,zzhang,yilwang,zlin}@adobe.com
Abstract

大規模な視覚言語モデル(VLM)の出現により、マルチモーダルタスクが大きく進歩し、画像や動画のキャプション生成、視覚的質問応答、クロスモーダル検索など、様々なアプリケーションにおいてより高度で正確な推論が可能になった。 しかし、VLMは優れた能力を持つにもかかわらず、画像の詳細な領域構成情報の認識に苦戦している。具体的には、セグメンテーションマスクと対応する意味を正確に整合させ、参照領域の構成的側面を精密に記述することが困難である。しかし、構成性—既知の視覚的および言語的要素の新しい組み合わせを理解し生成する能力—は、VLMによるモダリティ間の一貫した推論と理解を促進するために重要である。この問題に対処するため、我々はFineCaptionを提案する。これは、任意のマスクを参照入力として認識し、高解像度画像を処理して異なる粒度レベルで構成的画像キャプション生成を行うことができる新しいVLMである。この取り組みを支援するため、我々はCompositionCapを導入する。これは、マルチグレイン領域構成的画像キャプション生成のための新しいデータセットであり、構成的属性認識型領域画像キャプション生成タスクを導入する。実験結果は、他の最先端VLMと比較して、我々の提案モデルの有効性を示している。さらに、我々は現在のVLMの構成的領域画像キャプション生成のための様々な視覚的プロンプトを認識する能力を分析し、VLMの設計とトレーニングにおける改善の余地を強調している。https://hanghuacs.github.io/FineCaption/

1 Introduction

GPT-4o [1]、LLaVA [27]、InternVL [5]、BLIP [21]、VILA [24]などの事前学習済み視覚言語モデルは、複雑な推論において印象的な能力を示し、様々な視覚言語(VL)タスクで顕著な結果を達成している。これらのタスクの中で、一つの基本的な課題は、詳細な画像内容の認識とキャプション生成であり、これは視覚入力を理解し、説明的なテキスト出力を生成することを含む。この能力は、支援技術、コンテンツのアクセシビリティ、および強化された人間とコンピュータの相互作用などのアプリケーションにとって不可欠である。一般的な画像キャプション生成 [51, 46, 22, 40, 44]、密な画像キャプション生成 [31, 16, 42]、参照画像キャプション生成 [55, 45, 35, 50, 32]などの分野でVLMのキャプション生成能力を向上させることに広範な研究が集中してきたが、領域構成的キャプション生成や詳細な領域レベルのキャプション生成タスクにはあまり注意が払われていない。これらのタスクは、モデルが構成的属性プロンプトと領域プロンプトの両方を認識し、関心のある属性と領域に特化したキャプションを生成することを要求する。

これまでの研究では、VLMにおける領域レベルの理解を可能にすることを目指してきた。Kosmos-2 [32]、Shikra [4]、GPT4RoI [53]などの手法は、バウンディングボックスで指定された領域を処理することを試み、オブジェクトレベルの空間特徴を活用した視覚的指示チューニングを利用している。他のアプローチでは、重ね合わせた画像や視覚的プロンプトを入力として組み込むことで、VLMが任意の視覚的プロンプトを認識し、参照された領域に焦点を当てることを可能にすることを目指している [3, 45]。しかしながら、これらの手法には限界がある。先行研究 [35, 34, 54, 50] や図 1 の例で示されているように、バウンディングボックスは画像領域への正確な参照を提供するには不十分である(我々のデータでは、マスクとそのバウンディングボックスのIoUは56.11である)。さらに、自由形式の重ね合わせ視覚的プロンプトは、領域レベルの理解タスクには最適ではない。なぜなら、それらはしばしばVLMを混乱させ、モデルが視覚的プロンプトを画像の意味内容の不可欠な部分として解釈してしまうからである。したがって、領域参照にマスクを使用することが、地域理解タスクにとって理想的な解決策である。

本研究では、モデル設計とデータセット構築の両面からこれらの制限に対処する。具体的には、多粒度の領域構成属性キャプショニングが可能な新しいVLMであるFineCaptionを提案する。詳細な構成情報をより良く捉え、マスクで参照される領域を正確に認識するために、マスク認識低解像度エンコーダと複数の高解像度エンコーダを統合した新しいアーキテクチャを設計した。表1は、領域画像理解のための既存モデルと比較した我々のモデルの独自の能力をまとめたものである。マスク認識エンコーディングについては、Alpha-CLIP [35]の手法に従い、CLIP画像エンコーダに追加の畳み込み層を導入し、RGB画像のアルファチャンネルとしてバイナリマスクを組み込んでいる。我々の実験により、複数の高解像度エンコーダを集約することで、画像領域の詳細情報を認識するモデルの能力が向上することが示された。そのため、我々はConvNeXT [28]とSAMエンコーダ [18]を高解像度エンコーダとして使用し、1024 x 1024の解像度での画像エンコーディングをサポートしている。さらに、属性認識領域キャプショニング(AARC)領域密集キャプショニング(RDC)、および包括的全体画像キャプショニング(CGIC)におけるモデルの能力を向上させるために、新しい人手によるアノテーションを施した高品質データセットCompositionCapを導入する。我々のデータセットは多様なシーンを網羅し、構成的側面認識領域画像キャプショニングのタスクを導入しており、18の異なる構成属性を含んでいる。これらの側面の詳細な説明は付録に記載されている。

参照表現生成(REG)タスク - 画像内の特定のオブジェクトを同じシーン内の他のオブジェクトと区別して一意に識別する参照表現を自動生成することを含む - とは異なり、CompositionCapは関心領域に対する多粒度の構成的表現の生成を重視している。このタスクでは、モデルはマスクされた領域を詳細かつ包括的な構成情報で記述することが求められる。我々の目的は、オブジェクトを互いに区別することではなく、指定された領域に対して豊かな属性を意識した記述を提供することである[47, 17]。目標は、オブジェクトや領域を単に言及するだけでなく、それらの構成的側面や、より広いシーンとどのように相互作用または関連しているかを詳述するキャプションを作成することである。

Model Mask Referencing High Resolution Region Attribute Captioning Region Dense Captioning
ViP-LLaVA [3]
Ferret [45]
Ferret-v2 [52]
GPT4RoI [53]
VCoder [15]
Osprey [50]
Alpha-CLIP [35]
GLaMM [34]
RegionGPT [9]
OMG-LLaVA [54]
FineCaption (ours)
表1: FineCaptionと他の関連するVLMの能力の比較:「マスク参照」はモデルのエンコーダーがマスク入力を参照として受け入れることができるかどうかを示し、「高解像度」はモデルが高解像度画像エンコーディングをサポートしているかどうかを指定している。

経験的結果は、FineCaptionが領域構成的画像キャプショニングタスクにおいて、他の強力なVLM、特にGPT-4 [1]や、幅広いタスクにわたって強力な能力で知られるLLaMA-3.2 [8]と比較して、優れた性能を示していることを実証している。

要約すると、我々の貢献は以下の3点である:

  • 我々はFineCaptionを提案する。これは、マスク参照型の多粒度画像構成キャプショニングのための強化された能力を持つ新しいビジョン言語モデルである。FineCaptionは、マスク参照のためのマスク認識画像エンコーダーと、構成情報の細粒度認識のための高解像度エンコーダーを備えている。実証的結果は、マスク参照型画像構成キャプショニングタスクにおいて、我々のモデルが他の強力なVLMと比較して優れた性能を示すことを実証している。

  • 我々はCompositionCapを提案する。これは、多粒度マスク参照型画像構成キャプショニングのための新しい、人間によってアノテーションされた高品質なベンチマークである。CompositionCapは18の異なる構成的側面を包含し、3つのレベルのキャプショニング粒度を提供する:属性認識地域キャプショニング、地域密集キャプショニング、包括的全体画像キャプショニングである。

  • 我々は、詳細な領域記述のための構成的側面を意識したキャプションの生成と、領域参照タスクを含む入力画像の処理におけるVLMの能力を分析する。この分析は、色、身体ジェスチャー、材質、テクスチャなどの構成的属性の捉え方や、特定の領域を正確に区別する能力など、モデルが改善できる重要な領域を浮き彫りにする。これらの洞察は、キャプション生成と認識タスクの両方において、将来の開発の方向性を提供する。

2 Related Work

2.1 Pre-trained Vision-Language Models

視覚言語モデル[33, 27, 13, 43, 37, 5, 20, 38, 6]は、視覚情報と言語情報を共同で処理することによりマルチモーダル知能の実現を目指している。近年の大規模言語モデル(LLM)の顕著な成功[39, 7, 11]に触発され、研究者らは現在、複雑なマルチモーダルタスクに取り組むために事前学習済みの視覚エンコーダーと言語デコーダーを組み合わせた大規模VLMを探求している。Flamingo[2]とBLIP-2[21]は、視覚言語の事前学習にLLMを統合することを探求した初期の研究の2つである。これらのモデルはVL基盤モデルとして訓練されている。LLaVA[27]以降、研究者らはLLMで合成された指示に従うチャットデータをVQA形式で指示チューニングに使用し、大幅に改善された結果を達成している[12, 14, 48, 36]。その後の研究では、マルチモーダルLLMのより広範な能力[10, 14, 23, 49]を探求することに拡大している。しかしながら、これらの取り組みは、特定の領域や属性に焦点を当てて画像内容を記述するモデルの能力を向上させることにはあまり重点を置いていない。

2.2 Vision-Language Models for Region-level Image Understanding

Kosmos-2 [32]、Shikra [4]、GPT4RoI [53]、Ferret [45]、Sphinx [25]などの最近の研究は、ビジョン言語モデル(VLM)において領域特有のインタラクションを可能にすることを目指している。直接的なアプローチとしては、Kosmos-2、Shikra、RegionGPT [9]、Sphinxで採用されているように、モデルにバウンディングボックスの座標を提供する方法がある。ViP-LLaVA [3]やFerretなどの手法は、画像上に視覚的プロンプトを重ねることで、任意の自由形式の視覚的プロンプトを認識することを探求している。しかし、この入力形式はVLMを混乱させる可能性がある。なぜなら、モデルがしばしば視覚的プロンプトを画像の意味内容の一部として解釈してしまうからである。Alpha-CLIP [35]、OMG-LLaVA [54]、GLaMM [34]、Osprey [50]、VCoder [15]を含む一部のモデルは、領域参照にマスクを使用しており、より細かい制御を可能にしている。しかし、これらは224×\times×224から448×\times×448の範囲の解像度で画像を処理しており、細かな構成の詳細を捉える能力が制限されている。高解像度の画像エンコーディングは、モデルの詳細な知覚能力を向上させ、これは複雑な視覚情報を正確に理解し記述するために重要である。

3 The CompositionCap Dataset

視覚言語モデル(VLM)の属性認識型領域キャプショニング、領域密集キャプショニング、および全体密集キャプショニングの能力を向上させるため、我々はCompositionCapと名付けた新しい人手によるアノテーション付きの高品質データセットを構築した。まず、Adobe Stock ImagesやiStockなどの様々なストック画像ソースから高品質な画像を収集した。次に、SAMモデル[18]を使用してエンティティマスクを取得した。人間のアノテーターは、これらのエンティティの属性を記述し、対応する領域の構成属性記述を生成する作業を行った。この過程で、5,392枚の画像にわたる14,590のエンティティと、合計186,490の属性記述が得られた。モデルの包括的な全体画像キャプショニング能力を向上させるため、我々はまた、15,000枚の画像に対する長文の人手によるアノテーション付き英語記述を含むDOCCI[31]データセットに基づいて指示調整データを構築した。

さらに、我々はOpen Imagesデータセット[19]からCompositionCapのドメイン外テストセットを構築した。多様で複雑なシーンを特徴とする1,000枚の画像をアノテーション用に選択した。テストセットには7,215のマスクされたエンティティと19,326の属性特定の領域キャプションが含まれている。CompositionCapの属性には以下が含まれる: 1) カテゴリ名、2) 体型、3) 肌のテクスチャと色、4) 衣服、靴、アクセサリー、5) 他の物体との相互作用、6) 体の姿勢/ジェスチャー、7) その他の属性、8) 他の物体との相対的位置、9) 、10) 材質/テクスチャ、11) カメラの視点、12) 連想的視覚効果、13) 形状、14) 表情、15) 、16) 年齢層、17) 変形可能な物体の姿勢、18) スタイル。図2CompositionCapの解像度分布を示し、図3は我々のデータセットにおける各属性の割合を示している。より詳細な統計結果と例は付録に含まれており、そこではこれらの属性についての詳細な説明も提供している。

Refer to caption
図2: CompositionCapにおけるデータポイント全体の画像解像度分布は、全体的に高品質な画像であることを示している。
Refer to caption
図3: CompositionCapにおける属性の分布。

4 Methodology

Refer to caption
図4: FineCaption の概要: このモデルは、マスク対応の視覚エンコーダーと2つの高解像度エンコーダー(ConvNextとSAM)を組み込んでおり、マスク参照の正確な認識と、画像の詳細な構成および空間情報の認識を可能にしている。

我々が提案するモデルは、図4に示すように、マルチ解像度画像エンコーディングフレームワークを通じてマスク対応および高解像度の特徴を統合している。本節では、マスク対応エンコーダー、高解像度エンコーダー、チャンネル単位の特徴融合、およびアダプターモジュールを介した大規模言語モデルとの統合を含む各コンポーネントについて詳述する。

4.1 Input Representation

FineCaption エンコーダーの入力には以下が含まれる:

  1. 1.

    低解像度画像: ILRHLR×WLR×3subscript𝐼LRsuperscriptsubscript𝐻LRsubscript𝑊LR3I_{\text{LR}}\in\mathbb{R}^{H_{\text{LR}}\times W_{\text{LR}}\times 3}italic_I start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_H start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT × italic_W start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT × 3 end_POSTSUPERSCRIPT、ここで HLR=WLR=336subscript𝐻LRsubscript𝑊LR336H_{\text{LR}}=W_{\text{LR}}=336italic_H start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT = italic_W start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT = 336

  2. 2.

    高解像度画像: IHRHHR×WHR×3subscript𝐼HRsuperscriptsubscript𝐻HRsubscript𝑊HR3I_{\text{HR}}\in\mathbb{R}^{H_{\text{HR}}\times W_{\text{HR}}\times 3}italic_I start_POSTSUBSCRIPT HR end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_H start_POSTSUBSCRIPT HR end_POSTSUBSCRIPT × italic_W start_POSTSUBSCRIPT HR end_POSTSUBSCRIPT × 3 end_POSTSUPERSCRIPT、ここで HHR=WHR=1024subscript𝐻HRsubscript𝑊HR1024H_{\text{HR}}=W_{\text{HR}}=1024italic_H start_POSTSUBSCRIPT HR end_POSTSUBSCRIPT = italic_W start_POSTSUBSCRIPT HR end_POSTSUBSCRIPT = 1024

  3. 3.

    バイナリマスク: MHLR×WLR×1𝑀superscriptsubscript𝐻LRsubscript𝑊LR1M\in\mathbb{R}^{H_{\text{LR}}\times W_{\text{LR}}\times 1}italic_M ∈ blackboard_R start_POSTSUPERSCRIPT italic_H start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT × italic_W start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT × 1 end_POSTSUPERSCRIPTILRsubscript𝐼LRI_{\text{LR}}italic_I start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT 内の関心領域を示す。

4.2 Mask-Aware Encoding

マスクで参照される領域を入力画像と整合させるため、我々はAlpha-CLIP [35]のアプローチに従い、CLIPエンコーダーの埋め込み層ConvαsubscriptConv𝛼\text{Conv}_{\alpha}Conv start_POSTSUBSCRIPT italic_α end_POSTSUBSCRIPTに追加のアルファチャンネルを導入する。この方法により、画像の元のコンテンツを保持しつつ、マスクを独立してエンコードすることが可能となる。

まず、低解像度画像ILRsubscript𝐼LRI_{\text{LR}}italic_I start_POSTSUBSCRIPT LR end_POSTSUBSCRIPTをエンコーダーの標準パッチ埋め込み層に通す:

𝐄patch=ConvRGB(ILR),subscript𝐄patchsubscriptConvRGBsubscript𝐼LR\mathbf{E}_{\text{patch}}=\text{Conv}_{\text{RGB}}(I_{\text{LR}}),bold_E start_POSTSUBSCRIPT patch end_POSTSUBSCRIPT = Conv start_POSTSUBSCRIPT RGB end_POSTSUBSCRIPT ( italic_I start_POSTSUBSCRIPT LR end_POSTSUBSCRIPT ) , (1)

ここで、Convpatch()subscriptConvpatch\text{Conv}_{\text{patch}}(\cdot)Conv start_POSTSUBSCRIPT patch end_POSTSUBSCRIPT ( ⋅ )ILRsubscript𝐼LRI_{\text{LR}}italic_I start_POSTSUBSCRIPT LR end_POSTSUBSCRIPTをパッチ埋め込み𝐄patchC×H×Wsubscript𝐄patchsuperscript𝐶superscript𝐻superscript𝑊\mathbf{E}_{\text{patch}}\in\mathbb{R}^{C\times H^{\prime}\times W^{\prime}}bold_E start_POSTSUBSCRIPT patch end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_C × italic_H start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_W start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_POSTSUPERSCRIPTにマッピングする(C𝐶Citalic_Cは出力チャンネル数、Hsuperscript𝐻H^{\prime}italic_H start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTWsuperscript𝑊W^{\prime}italic_W start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTはパッチ埋め込みの空間次元である)。

同時に、マスクM𝑀Mitalic_Mは追加の畳み込み層で処理される:

𝐄mask=Convα(M),subscript𝐄masksubscriptConv𝛼𝑀\mathbf{E}_{\text{mask}}=\text{Conv}_{\alpha}(M),bold_E start_POSTSUBSCRIPT mask end_POSTSUBSCRIPT = Conv start_POSTSUBSCRIPT italic_α end_POSTSUBSCRIPT ( italic_M ) , (2)

ここで、Convα()subscriptConv𝛼\text{Conv}_{\alpha}(\cdot)Conv start_POSTSUBSCRIPT italic_α end_POSTSUBSCRIPT ( ⋅ )ConvRGBsubscriptConvRGB\text{Conv}_{\text{RGB}}Conv start_POSTSUBSCRIPT RGB end_POSTSUBSCRIPTと同じパラメータを持つ畳み込み層であるが、入力チャンネルはマスク用に1に設定されている。この層はマスク埋め込み𝐄maskC×H×Wsubscript𝐄masksuperscript𝐶superscript𝐻superscript𝑊\mathbf{E}_{\text{mask}}\in\mathbb{R}^{C\times H^{\prime}\times W^{\prime}}bold_E start_POSTSUBSCRIPT mask end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_C × italic_H start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_W start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_POSTSUPERSCRIPTを出力する。

パッチ埋め込みとマスク埋め込みは結合され、平坦化されて入力シーケンスを形成する:

𝐄seq=Flatten(𝐄patch+𝐄mask)N×C,subscript𝐄seqFlattensuperscriptsubscript𝐄patchsubscript𝐄masktopsuperscript𝑁𝐶\mathbf{E}_{\text{seq}}=\text{Flatten}(\mathbf{E}_{\text{patch}}+\mathbf{E}_{% \text{mask}})^{\top}\in\mathbb{R}^{N\times C},bold_E start_POSTSUBSCRIPT seq end_POSTSUBSCRIPT = Flatten ( bold_E start_POSTSUBSCRIPT patch end_POSTSUBSCRIPT + bold_E start_POSTSUBSCRIPT mask end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_N × italic_C end_POSTSUPERSCRIPT , (3)

ここで、N=H×W𝑁superscript𝐻superscript𝑊N=H^{\prime}\times W^{\prime}italic_N = italic_H start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_W start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTはパッチの数である。

次に、クラス埋め込み𝐄classsubscript𝐄class\mathbf{E}_{\text{class}}bold_E start_POSTSUBSCRIPT class end_POSTSUBSCRIPTと位置埋め込み𝐄possubscript𝐄pos\mathbf{E}_{\text{pos}}bold_E start_POSTSUBSCRIPT pos end_POSTSUBSCRIPTを加える:

𝐄=[𝐄class;𝐄seq]+𝐄pos,𝐄subscript𝐄classsubscript𝐄seqsubscript𝐄pos\mathbf{E}=[\mathbf{E}_{\text{class}};\mathbf{E}_{\text{seq}}]+\mathbf{E}_{% \text{pos}},bold_E = [ bold_E start_POSTSUBSCRIPT class end_POSTSUBSCRIPT ; bold_E start_POSTSUBSCRIPT seq end_POSTSUBSCRIPT ] + bold_E start_POSTSUBSCRIPT pos end_POSTSUBSCRIPT , (4)

これにより、エンコーダーの入力埋め込みが得られる。

マスク認識特徴マップ𝐅Msubscript𝐅𝑀\mathbf{F}_{M}bold_F start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPTは、𝐄𝐄\mathbf{E}bold_Eをマスク認識CLIPエンコーダーに通すことで得られる:

𝐅M=EncoderM(𝐄),subscript𝐅𝑀subscriptEncoder𝑀𝐄\mathbf{F}_{M}=\text{Encoder}_{M}(\mathbf{E}),bold_F start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT = Encoder start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT ( bold_E ) , (5)

ここで、𝐅MN+1×CMsubscript𝐅𝑀superscript𝑁1subscript𝐶𝑀\mathbf{F}_{M}\in\mathbb{R}^{N+1\times C_{M}}bold_F start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_N + 1 × italic_C start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT end_POSTSUPERSCRIPTは低解像度画像とマスクの領域情報を捉えている。

4.3 High-Resolution Encoding

言語モデルのためのより詳細な空間情報を捉えるために、我々は2つの高解像度エンコーダーを使用して細粒度の特徴を抽出する:ConvNext [28] およびSAM [18] エンコーダーである。

𝐅HR1subscript𝐅HR1\displaystyle\mathbf{F}_{\text{HR1}}bold_F start_POSTSUBSCRIPT HR1 end_POSTSUBSCRIPT =EncoderConvNeXT(IHR),absentsubscriptEncoderConvNeXTsubscript𝐼HR\displaystyle=\text{Encoder}_{\text{ConvNeXT}}(I_{\text{HR}}),= Encoder start_POSTSUBSCRIPT ConvNeXT end_POSTSUBSCRIPT ( italic_I start_POSTSUBSCRIPT HR end_POSTSUBSCRIPT ) , (6)
𝐅HR2subscript𝐅HR2\displaystyle\mathbf{F}_{\text{HR2}}bold_F start_POSTSUBSCRIPT HR2 end_POSTSUBSCRIPT =EncoderSAM(IHR),absentsubscriptEncoderSAMsubscript𝐼HR\displaystyle=\text{Encoder}_{\text{SAM}}(I_{\text{HR}}),= Encoder start_POSTSUBSCRIPT SAM end_POSTSUBSCRIPT ( italic_I start_POSTSUBSCRIPT HR end_POSTSUBSCRIPT ) , (7)

ここで、𝐅HR1N×CHR1subscript𝐅HR1superscriptsuperscript𝑁subscript𝐶HR1\mathbf{F}_{\text{HR1}}\in\mathbb{R}^{N^{\prime}\times C_{\text{HR1}}}bold_F start_POSTSUBSCRIPT HR1 end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_N start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_C start_POSTSUBSCRIPT HR1 end_POSTSUBSCRIPT end_POSTSUPERSCRIPTおよび𝐅HR2N×CHR2subscript𝐅HR2superscriptsuperscript𝑁subscript𝐶HR2\mathbf{F}_{\text{HR2}}\in\mathbb{R}^{N^{\prime}\times C_{\text{HR2}}}bold_F start_POSTSUBSCRIPT HR2 end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_N start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_C start_POSTSUBSCRIPT HR2 end_POSTSUBSCRIPT end_POSTSUPERSCRIPTN=H′′×W′′superscript𝑁superscript𝐻′′superscript𝑊′′N^{\prime}=H^{\prime\prime}\times W^{\prime\prime}italic_N start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_H start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPT × italic_W start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPT)は各エンコーダーから得られる特徴マップである。

4.4 Feature Fusion

マスク認識および高解像度の特徴は、チャンネル方向の融合モジュールを通じて統合される。まず、マスク認識特徴マップ𝐅Msubscript𝐅𝑀\mathbf{F}_{M}bold_F start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPTのサイズを𝐅¯Msubscript¯𝐅𝑀\mathbf{\overline{F}}_{M}over¯ start_ARG bold_F end_ARG start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPTに変更し、その後高解像度特徴マップの空間次元に合わせて補間し、最後にシーケンスに平坦化する:

𝐅M=Flatten(Interpolate(𝐅¯M)),superscriptsubscript𝐅𝑀FlattenInterpolatesubscript¯𝐅𝑀\mathbf{F}_{M}^{\prime}=\text{Flatten}(\text{Interpolate}(\mathbf{\overline{F}% }_{M})),bold_F start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = Flatten ( Interpolate ( over¯ start_ARG bold_F end_ARG start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT ) ) , (8)

ここで、𝐅MN×CMsuperscriptsubscript𝐅𝑀superscriptsuperscript𝑁subscript𝐶𝑀\mathbf{F}_{M}^{\prime}\in\mathbb{R}^{N^{\prime}\times C_{M}}bold_F start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_N start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_C start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT end_POSTSUPERSCRIPTである。

3つの特徴マップはチャンネル次元に沿って連結される:

𝐅fusion=[𝐅M;𝐅HR1;𝐅HR2],subscript𝐅fusionsuperscriptsubscript𝐅𝑀subscript𝐅HR1subscript𝐅HR2\mathbf{F}_{\text{fusion}}=[\mathbf{F}_{M}^{\prime};\mathbf{F}_{\text{HR1}};% \mathbf{F}_{\text{HR2}}],bold_F start_POSTSUBSCRIPT fusion end_POSTSUBSCRIPT = [ bold_F start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ; bold_F start_POSTSUBSCRIPT HR1 end_POSTSUBSCRIPT ; bold_F start_POSTSUBSCRIPT HR2 end_POSTSUBSCRIPT ] , (9)

結果として𝐅fusionH′′×W′′×Cfusionsubscript𝐅fusionsuperscriptsuperscript𝐻′′superscript𝑊′′subscript𝐶fusion\mathbf{F}_{\text{fusion}}\in\mathbb{R}^{H^{\prime\prime}\times W^{\prime% \prime}\times C_{\text{fusion}}}bold_F start_POSTSUBSCRIPT fusion end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_H start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPT × italic_W start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPT × italic_C start_POSTSUBSCRIPT fusion end_POSTSUBSCRIPT end_POSTSUPERSCRIPTとなり、ここでCfusion=CM+CHR1+CHR2subscript𝐶fusionsubscript𝐶𝑀subscript𝐶HR1subscript𝐶HR2C_{\text{fusion}}=C_{M}+C_{\text{HR1}}+C_{\text{HR2}}italic_C start_POSTSUBSCRIPT fusion end_POSTSUBSCRIPT = italic_C start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT + italic_C start_POSTSUBSCRIPT HR1 end_POSTSUBSCRIPT + italic_C start_POSTSUBSCRIPT HR2 end_POSTSUBSCRIPTである。

4.5 Adapter and Language Model Integration

融合された特徴マップは、その後アダプターによってLLMの単語埋め込み空間にマッピングされる:

𝐅adapted=Adapter(𝐅fusion),subscript𝐅adaptedAdaptersubscript𝐅fusion\mathbf{F}_{\text{adapted}}=\text{Adapter}(\mathbf{F}_{\text{fusion}}),bold_F start_POSTSUBSCRIPT adapted end_POSTSUBSCRIPT = Adapter ( bold_F start_POSTSUBSCRIPT fusion end_POSTSUBSCRIPT ) , (10)

ここで𝐅adaptedN×Dsubscript𝐅adaptedsuperscriptsuperscript𝑁superscript𝐷\mathbf{F}_{\text{adapted}}\in\mathbb{R}^{N^{\prime}\times D^{\prime}}bold_F start_POSTSUBSCRIPT adapted end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_N start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_D start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_POSTSUPERSCRIPTであり、Nsuperscript𝑁N^{\prime}italic_N start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTおよびDsuperscript𝐷D^{\prime}italic_D start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTはLLMのための適応されたシーケンス長と埋め込み次元を表す。これらの適応された特徴は、指示𝐈𝐈\mathbf{I}bold_Iとともに、LLMの応答生成を導く:

y=LLM(𝐅adapted,𝐈),𝑦LLMsubscript𝐅adapted𝐈y=\text{LLM}(\mathbf{F}_{\text{adapted}},\mathbf{I}),italic_y = LLM ( bold_F start_POSTSUBSCRIPT adapted end_POSTSUBSCRIPT , bold_I ) , (11)

ここでy𝑦yitalic_yは、視覚的特徴とタスク固有の指示に条件付けられてLLMによって生成される出力である。

4.6 Training Objective

我々は、その後、負の対数尤度損失を用いてモデルをエンドツーエンドで学習する:

=𝒟i=1Nlogp(yi𝐅adapted,𝐈,y<i),subscript𝒟superscriptsubscript𝑖1𝑁𝑝conditionalsubscript𝑦𝑖subscript𝐅adapted𝐈subscript𝑦absent𝑖\mathcal{L}=-\sum_{\mathcal{D}}\sum_{i=1}^{N}\log p(y_{i}\mid\mathbf{F}_{\text% {adapted}},\mathbf{I},y_{<i}),caligraphic_L = - ∑ start_POSTSUBSCRIPT caligraphic_D end_POSTSUBSCRIPT ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT roman_log italic_p ( italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∣ bold_F start_POSTSUBSCRIPT adapted end_POSTSUBSCRIPT , bold_I , italic_y start_POSTSUBSCRIPT < italic_i end_POSTSUBSCRIPT ) , (12)

ここで𝒟𝒟\mathcal{D}caligraphic_Dは学習データセットを表し、N𝑁Nitalic_Nは各シーケンスにおけるトークンまたは特徴の総数であり、yisubscript𝑦𝑖y_{i}italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTは生成された出力における言語トークンを表す。

4.7 Training Strategy

ステージ1: 事前訓練。 LLaVA [27]と同様に、このステージは視覚特徴を言語モデル(LLM)の単語埋め込みと整合させるためにプロジェクターを最適化することを目的としている。したがって、事前訓練中は画像エンコーダーとLLMは凍結されたままである。我々は LLaVA-Pretrain [27]データセットを訓練に使用し、このステージでのマスクは画像のすべての領域を強調している。

ステージ2: 画像-マスク整合事前訓練。 このステージの目的は、マスク認識エンコーダーのための画像とマスクの特徴を整合させることである。我々はCompositionCap、GranD [34]、RefCOCO、RefCOCO+ [17]、およびRefCOCOg [47]を含むデータを訓練に使用する。このステージでは、マスク認識エンコーダーのみが訓練可能である。

Model Region Referral Semantic Evaluation
Visual Prompt Resolution # Image Token ROUGE-L\uparrow BLEU-4\uparrow METEOR\uparrow CIDEr\uparrow BERT Score\uparrow
Zero-Shot Learning
Kosmos-2 [32] Bbox 224 256 9.21 0.14 1.98 1.07 37.69
Alpha-CLIP-13B [35] Mask 336 576 13.89 0.51 5.94 2.68 42.01
Qwen2-VL-7B [41] Bbox AnyRes - 14.12 0.57 6.18 2.74 42.97
Ferret-13B [45] MContour 336 576 15.01 1.06 5.86 3.12 43.82
ViP-LLaVA-13B [3] MContour 336 576 15.47 1.48 5.76 3.84 44.29
LLaMA-3.2-11B-Vision-Instruction [8] Bbox - - 15.64 1.59 9.73 3.95 44.53
LLaMA-3.2-90B-Vision-Instruction [8] Bbox - - 16.21 1.75 11.70 4.53 48.29
InternVL-2-40B [8] Bbox 1792 4096 16.21 1.79 11.91 4.63 48.38
GPT-4o [1] Bbox - - 17.87 3.21 12.87 6.49 49.85
Supervised Learning
Qwen2-VL-7B [41] Bbox AnyRes - 31.59 9.11 13.56 90.32 75.86
LLaVA-1.6-13B [27] Bbox AnyRes 576 31.72 9.35 13.64 90.71 75.89
VILA1.5-8B [24] Bbox 336 144 31.87 9.03 13.79 90.01 75.95
ViP-LLaVA-13B [3] MContour 336 576 32.42 9.97 14.82 91.44 76.77
Alpha-CLIP-13B [35] Mask 336 576 35.68 10.96 16.11 93.85 77.66
LLaVA-HR-X [29] Bbox 1024 1024 35.97 11.25 16.57 95.12 78.08
LLaMA-3.2-11B-Vision [8] Bbox - - 38.14 12.87 18.31 99.11 78.94
FineCaption-8B (ours) Mask 1024 1024 41.05 14.46 22.01 127.95 80.97
表2: FineCaptionと、オープンソースモデルとAPIベースのモデルの両方を含む他の関連VLMの能力の比較。「Visual Prompt」列は入力領域参照のフォーマットを示し、「Resolution」列は入力画像のエンコーディング解像度を示している。我々は、ゼロショット設定と教師あり学習設定の両方でモデルの性能を評価している。

ステージ3: 領域属性認識指示調整。 最終ステージでは、我々はCompositionCap訓練セットを使用し、すべてのパラメータを訓練可能にしている。このステージは、複合的な参照表現を正確に扱うようにモデルを微調整し、詳細で属性を認識したキャプションを生成する能力を向上させる。

5 Experiments

本節では、我々のモデルであるFineCaptionの包括的な評価を、マスク参照型の多粒度画像構成キャプション生成タスクにおいて、様々な最先端VLMとの比較を通じて提示する。

5.1 Baseline Models

我々は、ゼロショット学習と教師あり学習の両設定において、FineCaptionのマスク参照型の多粒度画像構成キャプション生成における性能を強調するために、一連の強力なVLMをベースラインとして選択した。これらには以下が含まれる:Kosmos-2 [32]、Alpha-CLIP [35]、Qwen2-VL [41]、Ferret [45]、ViP-LLaVA [3]、LLaMA-3.2[8]、GPT-4o [1]、ViP-LLaVA [3]、LLaVA-1.6 [26]、LLaVA-HR [29]、そしてAPIベースのモデルであるGPT-4o [1]である。

5.2 Implementation Details

我々のエンコーダ混合アーキテクチャでは、CLIP-ViT-L/14@336p [33] に追加のアルファチャンネルを組み込んでいる。これはAlpha-CLIP [35] と同様であり、マスクを考慮した低解像度エンコーディングを行う。高解像度画像エンコーディングには、ConvNeXt-XXL@1024p [28] とSAM [18] エンコーダを使用している。言語モデルデコーダとしては、LLaMA-3.1-8B-Instruction [39] を採用している。すべてのエンコーダとデコーダのパラメータは学習可能であり、LLaVA-1.6 [26] のデフォルトのハイパーパラメータを採用している。我々のモデルは8台のNvidia-A100 GPUで学習され、全学習過程は38時間を要した。

Model AARC RDC
GPT4-as-a-Judge \uparrow Grounding Score ([email protected]) \uparrow
ViP-LLaVA-13B [3] 38.46 74.37
Alpha-CLIP-13B [35] 43.89 77.61
LLaVA-HR-X [29] 45.76 79.15
LLaMA-3.2-11B-Vision [8] 50.26 81.01
FineCaption-8B (ours) 56.84 83.49
表3: 属性認識領域キャプション生成(AARC)と領域密キャプション生成(RDC)タスクにおけるGPT-4-as-a-Judgeスコアとグラウンディングスコア。GPT-4-as-a-Judgeスコアは属性記述の正確さに関する二値精度を示し、グラウンディングスコアはIoU [email protected]である。

5.3 Experimental Results on CompositionCap

我々は、ゼロショット学習と教師あり学習の両設定において、複数の評価指標でモデルを評価した。 表2は、ベースラインモデルと共にFineCaptionの主要な結果を示している。ゼロショット学習の結果から、ほとんどのモデルが領域参照と属性指示の両方を正確に認識することに苦戦していることがわかる。InternVL-2-40BやLLaMA-3.2-90Bのような強力なオープンソースモデルでさえ、CompositionCapで導入されたタスクにおいて最適とは言えない性能を示し、METEORではそれぞれ11.7と11.9、CIDErでは5.5と4.63にとどまっている。さらに、APIベースのモデルであるGPT-4の性能もこの文脈では不十分である。対照的に、教師あり学習の結果は、我々のデータで学習されたモデルが著しく強い性能を示すことを実証している。FineCaptionは、マスクを考慮したエンコーダと複数の高解像度エンコーダを組み込むことで、領域参照と属性特有の指示を効果的に認識する能力を向上させ、他のすべてのモデルを凌駕している。

5.4 Fine-Grained Evaluation

従来の画像キャプション生成評価手法に加えて、我々は属性認識型領域キャプション生成(AARC)および領域密集キャプション生成(RDC)タスクのための詳細な評価技術を設計した。先行研究[45, 26]に倣い、AARCタスクではGPT-4を審査員として使用し、モデルの予測、画像、および正解データを入力として、モデルが参照領域の属性を適切に記述しているかを評価する。RDCタスクのパフォーマンスをより良く評価するために、我々はCompositionCapテストセットを使用してLLaVA-1.6-13Bモデルを訓練し、領域記述のバウンディングボックスを予測させた。予測された領域密集キャプションの品質を評価するために、[email protected]を計算する。表3から、FineCaptionがAARCタスクで56.84、RDCタスクで83.49を達成し、ベースラインモデルを大幅に上回り、これらのタスクにおける我々のモデルの優れた能力を示していることがわかる。評価の詳細は付録に記載している。

5.5 Results on Referring Expression Generation Tasks

我々のモデルの領域参照認識能力をさらに評価するために、従来のREGタスクで実験を行った。先行研究[32, 50]の評価フレームワークに従い、RefCOCOgテストセットを使用し、評価にはMETEORとCIDErスコアを計算した。表4は、FineCaptionと他のモデルのパフォーマンスを比較したものである。我々のモデルは先行モデルを大幅に上回り、領域記述における優れた能力を示している。

Model Region Referral RefCOCOg
METEOR CIDEr
GRIT [30] Bbox 15.2 71.6
Kosmos-2 [32] Bbox 14.1 62.3
OMG-LLaVA [54] Mask 15.3 -
GLaMM [34] Bbox 16.2 105.0
Osprey [50] Mask 16.6 108.3
Alpha-CLIP+LLaVA [35] Mask 16.7 109.2
RegionGPT [9] Mask 16.9 109.9
ControlCap [55] Bbox 17.0 111.4
FineCaption-8B (ours) Mask 17.5 118.2
表4: RefCOCOgのテストセットで評価した領域キャプション生成のパフォーマンス。
Method ROUGE-L BLEU-4 METEOR CIDEr BERT Score
FineCaption 41.05 14.46 22.01 127.95 80.97
Model Architecture
FineCaption w/ LR Encoding Only 37.92 11.67 17.86 97.62 78.11
FineCaption w/ ConvNeXt 39.87 13.42 20.97 109.25 79.83
FineCaption w/ SAM 38.97 12.95 20.01 106.74 79.36
FineCaption + Self-Attn Fusion 38.21 12.26 19.73 104.85 79.24
FineCaption + Sequence Append Fusion 36.11 10.13 16.07 93.26 77.25
Region Referral
FineCaption + Bbox 37.10 11.12 17.21 96.85 77.91
FineCaption + MContour 36.59 10.62 16.88 95.97 77.03
表5: 異なるモデル設計と領域参照のパフォーマンス比較。

6 Analysis

6.1 Ablation Study

モデル設計。 我々の提案モデルの有効性をより良く評価するために、ビジョンエンコーダーの融合と異なる視覚参照入力の観点からアブレーション実験を行う。このアブレーションには、モデル設計と領域参照形式の2つの部分が含まれる。モデル設計では、異なる視覚エンコーダーアーキテクチャと特徴融合戦略の効果を調査する。表5から、マスク認識低解像度エンコーダーのみのモデルは、高解像度エンコーダーを組み込んだモデルと比較して低いパフォーマンスを達成していることが観察できる。具体的には、LRエンコーディングのみのFineCaption変種はCIDErスコア97.62を達成しており、これは完全なモデルのスコア127.95と比べて大幅に低い。これは、低解像度特徴のみに依存することは、高品質のキャプション生成に必要な詳細情報を捉えるには不十分であることを示している。

異なる高解像度エンコーダーアーキテクチャを調査すると、ConvNeXtエンコーダーを使用したFineCaptionがSAMエンコーダーを使用したFineCaptionを上回り、CIDErスコアが109.25対106.74とより高いスコアを達成していることがわかる。これは、LRとHRエンコーダーアーキテクチャの組み合わせがモデルのパフォーマンスに大きな影響を与えることを示している。さらに、融合戦略も重要な役割を果たしている:自己注意融合を用いたFineCaption変種は、シーケンス追加融合を用いたFineCaptionよりも良い結果を生み出している。後者はCIDErスコア93.26と低いパフォーマンスを示しており、単純にシーケンスを追加することは特徴融合の効果的な方法ではないことを示唆している。

参照形式の影響。 領域参照形式のアブレーションでは、精密なセグメンテーションマスクをバウンディングボックス(FineCaption + バウンディングボックス)およびマスク輪郭(FineCaption + マスク輪郭)に置き換えると、CIDErスコアがそれぞれ96.85および95.97と顕著なパフォーマンスの低下が見られる。この低下は、画像内の視覚コンテンツを正確に位置付けるために詳細なマスク情報を使用することの重要性を強調している。

全体として、このアブレーション実験は、低解像度と高解像度の両方のエンコーダーを組み込み、効果的な融合戦略と精密な領域参照を用いることが、モデルの詳細かつ正確なキャプション生成能力を大幅に向上させることを確認している。これらの結果は、我々のモデルの有効性を裏付けるものである。

Refer to caption
図5: FineCaptionは指定された属性と領域に焦点を当てた正確で簡潔な説明を提供するが、GPT-4oは細かい参照を見逃し、無関係な情報を含むことがある。

6.2 Qualitative Analysis

5は、異なるモデルの性能を比較している。これらの例は、GPT-4oが一部の属性指示を認識できるものの、細かい領域参照の識別に苦戦し、しばしば指定された属性や領域に関係のない余分な情報を含んでしまうことを示している。対照的に、我々のモデルであるFineCaptionは、属性認識と正確な領域特定の両方に優れており、指定された領域と属性に焦点を当てた正確で簡潔な説明を生成している。これにより、細かい構成の詳細に対する優れた理解を反映している。

7 Conclusion

本稿では、マスク参照型の多粒度画像構成キャプション生成のために設計された視覚言語モデルFineCaptionを提示する。マスク認識エンコーダと高解像度エンコーダを組み合わせることで、FineCaptionは微細な詳細を効果的に認識し、マスクされた領域を正確に識別することができ、詳細な領域レベルのタスクにおいてGPT-4やLLaMA-3.2などのモデルを凌駕している。我々のモデルを支援するために、多様な場面にわたる18の構成的側面を特徴とし、3段階のキャプション生成粒度を提供する人手アノテーション済みデータセットCompositionCapを作成した。このデータセットは、指定された領域の豊かな属性認識型の記述を強調することで、既存のギャップを埋めるものである。我々の研究は、視覚言語モデルにおける高度な領域レベルの理解のための基礎を築くものである。FineCaptionCompositionCapが、詳細な画像認識とキャプション生成に関する将来の研究のための貴重なリソースとなることを期待している。

References

  • Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
  • Alayrac et al. [2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in neural information processing systems, 35:23716–23736, 2022.
  • Cai et al. [2024] Mu Cai, Haotian Liu, Siva Karthik Mustikovela, Gregory P Meyer, Yuning Chai, Dennis Park, and Yong Jae Lee. Vip-llava: Making large multimodal models understand arbitrary visual prompts. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12914–12923, 2024.
  • Chen et al. [2023] Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, and Rui Zhao. Shikra: Unleashing multimodal llm’s referential dialogue magic. arXiv preprint arXiv:2306.15195, 2023.
  • Chen et al. [2024] Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites. arXiv preprint arXiv:2404.16821, 2024.
  • Cheng et al. [2024] An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, and Sifei Liu. Spatialrgpt: Grounded spatial reasoning in vision language model. arXiv preprint arXiv:2406.01584, 2024.
  • Chiang et al. [2023] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez, et al. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, march 2023. URL https://lmsys. org/blog/2023-03-30-vicuna, 3(5), 2023.
  • Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Guo et al. [2024] Qiushan Guo, Shalini De Mello, Hongxu Yin, Wonmin Byeon, Ka Chun Cheung, Yizhou Yu, Ping Luo, and Sifei Liu. Regiongpt: Towards region understanding vision language model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13796–13806, 2024.
  • Hu et al. [2023] Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A Smith, and Jiebo Luo. Promptcap: Prompt-guided image captioning for vqa with gpt-3. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 2963–2975, 2023.
  • Hua et al. [2023] Hang Hua, Xingjian Li, Dejing Dou, Cheng-Zhong Xu, and Jiebo Luo. Improving pretrained language model fine-tuning with noise stability regularization. IEEE Transactions on Neural Networks and Learning Systems, 2023.
  • Hua et al. [2024a] Hang Hua, Jing Shi, Kushal Kafle, Simon Jenni, Daoan Zhang, John Collomosse, Scott Cohen, and Jiebo Luo. Finematch: Aspect-based fine-grained image and text mismatch detection and correction. arXiv preprint arXiv:2404.14715, 2024a.
  • Hua et al. [2024b] Hang Hua, Yunlong Tang, Chenliang Xu, and Jiebo Luo. V2xum-llm: Cross-modal video summarization with temporal prompt instruction tuning. arXiv preprint arXiv:2404.12353, 2024b.
  • Hua et al. [2024c] Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, and Jiebo Luo. Mmcomposition: Revisiting the compositionality of pre-trained vision-language models. arXiv preprint arXiv:2410.09733, 2024c.
  • Jain et al. [2024] Jitesh Jain, Jianwei Yang, and Humphrey Shi. Vcoder: Versatile vision encoders for multimodal large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 27992–28002, 2024.
  • Johnson et al. [2016] Justin Johnson, Andrej Karpathy, and Li Fei-Fei. Densecap: Fully convolutional localization networks for dense captioning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4565–4574, 2016.
  • Kazemzadeh et al. [2014] Sahar Kazemzadeh, Vicente Ordonez, Mark Matten, and Tamara Berg. Referitgame: Referring to objects in photographs of natural scenes. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 787–798, 2014.
  • Kirillov et al. [2023] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4015–4026, 2023.
  • Kuznetsova et al. [2020] Alina Kuznetsova, Hassan Rom, Neil Alldrin, Jasper Uijlings, Ivan Krasin, Jordi Pont-Tuset, Shahab Kamali, Stefan Popov, Matteo Malloci, Alexander Kolesnikov, et al. The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale. International journal of computer vision, 128(7):1956–1981, 2020.
  • Li et al. [2022] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International conference on machine learning, pages 12888–12900. PMLR, 2022.
  • Li et al. [2023] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023.
  • Li et al. [2024] Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, and Hideki Nakayama. Evcap: Retrieval-augmented image captioning with external visual-name memory for open-world comprehension. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13733–13742, 2024.
  • Lin et al. [2023a] Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, and Jiebo Luo. Videoxum: Cross-modal visual and textural summarization of videos. IEEE Transactions on Multimedia, 2023a.
  • Lin et al. [2023b] Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, and Song Han. Vila: On pre-training for visual language models, 2023b.
  • Lin et al. [2023c] Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, et al. Sphinx: The joint mixing of weights, tasks, and visual embeddings for multi-modal large language models. arXiv preprint arXiv:2311.07575, 2023c.
  • Liu et al. [2024a] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 26296–26306, 2024a.
  • Liu et al. [2024b] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. Advances in neural information processing systems, 36, 2024b.
  • Liu et al. [2022] Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. A convnet for the 2020s. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 11976–11986, 2022.
  • Luo et al. [2024] Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, and Rongrong Ji. Feast your eyes: Mixture-of-resolution adaptation for multimodal large language models. arXiv preprint arXiv:2403.03003, 2024.
  • Muennighoff et al. [2024] Niklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, and Douwe Kiela. Generative representational instruction tuning. arXiv preprint arXiv:2402.09906, 2024.
  • Onoe et al. [2024] Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, et al. Docci: Descriptions of connected and contrasting images. arXiv preprint arXiv:2404.19753, 2024.
  • Peng et al. [2023] Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, and Furu Wei. Kosmos-2: Grounding multimodal large language models to the world. arXiv preprint arXiv:2306.14824, 2023.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
  • Rasheed et al. [2024] Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M Anwer, Eric Xing, Ming-Hsuan Yang, and Fahad S Khan. Glamm: Pixel grounding large multimodal model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13009–13018, 2024.
  • Sun et al. [2024] Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, and Jiaqi Wang. Alpha-clip: A clip model focusing on wherever you want. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13019–13029, 2024.
  • Tang et al. [2024a] Yunlong Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, et al. Vidcomposition: Can mllms analyze compositions in compiled videos? arXiv preprint arXiv:2411.10979, 2024a.
  • Tang et al. [2024b] Yunlong Tang, Daiki Shimada, Jing Bi, and Chenliang Xu. Avicuna: Audio-visual llm with interleaver and context-boundary alignment for temporal referential dialogue. arXiv preprint arXiv:2403.16276, 2024b.
  • Tong et al. [2024] Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, et al. Cambrian-1: A fully open, vision-centric exploration of multimodal llms. arXiv preprint arXiv:2406.16860, 2024.
  • Touvron et al. [2023] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
  • Wang et al. [2022] Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, and Lijuan Wang. Git: A generative image-to-text transformer for vision and language. arXiv preprint arXiv:2205.14100, 2022.
  • Wang et al. [2024] Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, and Junyang Lin. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution. arXiv preprint arXiv:2409.12191, 2024.
  • Wu et al. [2025] Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, and Lijuan Wang. Grit: A generative region-to-text transformer for object understanding. In European Conference on Computer Vision, pages 207–224. Springer, 2025.
  • Xu et al. [2023] Haiyang Xu, Qinghao Ye, Ming Yan, Yaya Shi, Jiabo Ye, Yuanhong Xu, Chenliang Li, Bin Bi, Qi Qian, Wei Wang, et al. mplug-2: A modularized multi-modal foundation model across text, image and video. In International Conference on Machine Learning, pages 38728–38748. PMLR, 2023.
  • Ye et al. [2023] Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv preprint arXiv:2304.14178, 2023.
  • You et al. [2023] Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, and Yinfei Yang. Ferret: Refer and ground anything anywhere at any granularity. arXiv preprint arXiv:2310.07704, 2023.
  • You et al. [2016] Quanzeng You, Hailin Jin, Zhaowen Wang, Chen Fang, and Jiebo Luo. Image captioning with semantic attention. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4651–4659, 2016.
  • Yu et al. [2016] Licheng Yu, Patrick Poirson, Shan Yang, Alexander C Berg, and Tamara L Berg. Modeling context in referring expressions. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part II 14, pages 69–85. Springer, 2016.
  • Yu et al. [2023] Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, and Lijuan Wang. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023.
  • Yu et al. [2024] Yongsheng Yu, Ziyun Zeng, Hang Hua, Jianlong Fu, and Jiebo Luo. Promptfix: You prompt and we fix the photo. arXiv preprint arXiv:2405.16785, 2024.
  • Yuan et al. [2024] Yuqian Yuan, Wentong Li, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin, Lei Zhang, and Jianke Zhu. Osprey: Pixel understanding with visual instruction tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 28202–28211, 2024.
  • Zeng et al. [2024] Zequn Zeng, Yan Xie, Hao Zhang, Chiyu Chen, Bo Chen, and Zhengjue Wang. Meacap: Memory-augmented zero-shot image captioning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14100–14110, 2024.
  • Zhang et al. [2024a] Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, et al. Ferret-v2: An improved baseline for referring and grounding with large language models. arXiv preprint arXiv:2404.07973, 2024a.
  • Zhang et al. [2023] Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Yu Liu, Kai Chen, and Ping Luo. Gpt4roi: Instruction tuning large language model on region-of-interest. arXiv preprint arXiv:2307.03601, 2023.
  • Zhang et al. [2024b] Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, and Shuicheng Yan. Omg-llava: Bridging image-level, object-level, pixel-level reasoning and understanding. arXiv preprint arXiv:2406.19389, 2024b.
  • Zhao et al. [2025] Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Qixiang Ye, and Fang Wan. Controlcap: Controllable region-level captioning. In European Conference on Computer Vision, pages 21–38. Springer, 2025.

8 More Quantitative Analysis of CompositionCap

本節では、CompositionCapの追加的な定量的分析を提示し、構成的画像キャプションの多様性と豊かさを強調する。

6は、CompositionCapのキャプションから生成されたワードクラウドを示しており、データセット内の異なる領域にわたる主要な記述的用語の顕著さを示している。frontwhiterighttopなどの単語がクラウドを支配しており、空間的位置、属性、オブジェクト間の関係に対するデータセットの重点を反映している。多様な語彙は、shadowmaterialtextureなどの微妙な特性にまで及んでおり、データセットの構成的表現力を強調している。この多様性により、CompositionCapで訓練されたモデルが、複雑な関係を持つ多面的な画像領域を扱うのに十分な装備を持つことが保証される。

7は、CompositionCapにおける属性数のヒストグラムを提供し、様々な記述的側面にわたるエンティティの分布を示している。最も頻繁な属性には基本的な空間的特性や色の特性が含まれ、一方で材質やジェスチャーに基づく記述などのより稀な特徴も含まれている。この均衡の取れた分布は、一般的な記述的ケースと稀なケースの両方にわたるモデルのパフォーマンスの包括的な評価を支援する。

8は、CompositionCapにおけるマスクサイズ比の分布を示しており、画像全体に対する領域マスクサイズの比率を表している。この分布は、小さな焦点を当てたオブジェクトから大きな包括的な領域まで、多様な領域サイズの範囲を強調している。マスクサイズ比が増加するにつれてカウントが徐々に減少することは、細かい粒度と全体的な構成能力の両方を評価することにデータセットが重点を置いていることを示している。

ここで示された定量的な洞察は、画像キャプション生成タスクにおける側面を考慮した構成的推論を評価するための堅牢なベンチマークとしてのCompositionCapの有用性を再確認するものである。

Refer to caption
図6: CompositionCapのキャプションから抽出した主要用語のワードクラウド。画像の多様な構成的領域記述を示している。
Refer to caption
図7: CompositionCapにおけるエンティティの分布。
Refer to caption
図8: CompositionCapにおけるマスク比率の分布。

9 Explanation of Attributes

No. Aspect Explanation
1 Category Name: The general label or classification identifying the main subject in the image region, such as ”dog,” ”tree,” or ”car.”
2 Body Shape: The form or outline of a living being’s physique, including size, proportions, and overall build.
3 Skin Texture and Color: The appearance of the skin’s surface, detailing aspects like smoothness, roughness, and pigmentation.
4 Clothing, Shoes, Accessories: The garments, footwear, and additional items worn or carried by a person, reflecting style or function.
5 Interaction with Other Objects: How the subject is engaging with surrounding items, such as holding, sitting on, or leaning against something.
6 Body Pose/Gesture: The positioning and movement of the subject’s body parts, indicating action or posture.
7 Other Attributes: Additional characteristics not covered by other aspects, like patterns, markings, or unique features.
8 Relative Location with Other Objects: The spatial relationship between the subject and other elements in the scene, indicating proximity or arrangement.
9 Color: The hues and shades present in the subject, contributing to its visual appearance.
10 Materials/Texture: The substance an object is made of and the feel of its surface, such as metal, wood, smooth, or rough.
11 Camera Viewpoint: The angle and perspective from which the image is captured, like frontal, side, aerial, or close-up views.
12 Associative Visual Effect: Visual elements that create specific impressions or moods, such as shadows, reflections, or blurs.
13 Shape: The external form or outline of an object, defining its geometry and structure.
14 Facial Expression: The look on a person’s face conveying emotion, like smiling, frowning, or surprised.
15 Hair: The style, color, length, and texture of hair on a person or animal.
16 Age Ranging: An estimation of the subject’s age group, such as infant, child, teenager, adult, or elderly.
17 Object Pose for Deformable Object: The positioning and form of objects that can change shape, like a twisted rope or crumpled paper.
18 Style: The distinctive appearance or design of the subject, reflecting artistic trends, fashion, or aesthetic elements.
表6: FineCaptionの属性認識型領域キャプション生成タスクにおける18の側面の説明。

6は、属性認識型領域キャプション生成タスクで使用される属性の詳細な説明を提供している。

10 More Details and Cases

本節では、GPT-4-as-a-Judge評価手法に使用したプロンプトを提示する。さらに、CompositionCapで収集したデータのより多くの例を示す。図9から12は、我々のデータセットの多様性と豊かさを示している。図13から図16は、地域密集キャプション生成タスクにおけるFineCaptionの予測結果を示している。

GPT4-as-a-Judgeのプロンプト 評価者への指示:
あなたは、画像の特定の属性に関するモデル生成キャプションの妥当性を評価する評価者である。
以下が提供される:
マスクされた領域(関心領域)を含む画像
モデルによる予測キャプション
参照説明
重要な注意点:
モデルの予測は参照と完全に一致する必要はない。領域と属性を合理的に説明している限り、許容される。
参照説明は提案または可能な回答の一つであり、厳密な目標ではない。
これはオープンエンドの生成タスクである。
例:属性が人の年齢に関連し、予測が「40-50歳」で参照が「45-50歳」の場合、予測は妥当とみなされる。
あなたの課題:
キャプションが関心領域の期待される属性を正確かつ合理的に説明しているかどうかを判断する。
属性の説明が妥当かどうかのみに基づいて、二値的な回答(「はい」または「いいえ」)を提供する。
追加情報なしで「はい」または「いいえ」のみを返してください。 マスク領域内のすべての構成の詳細を慎重に検討してください!
Refer to caption
図9: CompositionCapにおける属性認識型領域キャプション生成タスクの例。
Refer to caption
図10: CompositionCapにおける属性認識型領域キャプション生成タスクの例。
Refer to caption
図11: CompositionCapにおける属性の分布。
Refer to caption
図12: CompositionCapにおける属性認識型領域キャプション生成タスクの例。
Refer to caption
図13: FineCaptionにおける領域密集キャプション生成タスクのケーススタディ。
Refer to caption
図14: FineCaptionにおける領域密集キャプション生成タスクのケーススタディ。
Refer to caption
図15: FineCaptionにおける領域密集キャプション生成タスクのケーススタディ。
Refer to caption
図16: FineCaptionにおける領域密集キャプション生成タスクのケーススタディ。