Knowledge Transfer Across Modalities with Natural Language Supervision
我々は、テキストによる説明のみを用いて新しい概念を学習する方法を提示する。我々はこの手法を知識転移と呼ぶ。 人間の知覚と同様に、我々はクロスモーダルな相互作用を活用して新しい概念を導入する。我々は、事前学習された視覚エンコーダーには、未知の高次概念を記述するのに十分な低次特徴(例えば、形状、外観、色など)がすでに学習されているという仮説を立てる。新規概念のテキスト説明が与えられると、我々の手法は視覚エンコーダーの既知の低次特徴をその高次のテキスト説明に整合させることで機能する。知識転移が、対象概念の単一の説明のみを必要とする非常に効率的な方法で、マルチモーダルモデルに新規概念を導入できることを示す。我々のアプローチは、テキストエンコーダーと視覚エンコーダーが分離されているモデル(例えばCLIP)とモダリティ間でパラメータを共有するモデルの両方に適合する。また、同じ原理に従って、知識転移がモデルにすでに知られている概念を改善できることも示す。知識転移を活用することで、分類、セグメンテーション、画像-テキスト検索、キャプション生成など、さまざまなタスクにおけるゼロショット性能を向上させる。
1 Introduction
視覚を得た盲人が、それまで触覚でのみ知っていた物体を認識できるだろうか?これは1668年にウィリアム・モリヌークスがジョン・ロックに提起した哲学的な謎であり[37]、数十年にわたって視覚神経科学において関連性を持ち続けてきた。最近の研究では、視力回復直後にはこれは起こらないものの、人間の被験者では数日以内に急速にクロスモーダルマッピングが発達することが示されている[14]。マルチモーダルニューラルネットワークに関する最近の研究では、このクロスモーダルな相互作用に焦点が当てられてきたが[50]、本稿では我々は、モデルがすでに世界に関する何らかの視覚的知識を持っているという、やや改訂されたバージョンのモリヌークスの謎に答えることを目指す。我々は、低レベルの視覚的特徴に関する事前知識があれば、説明的なテキスト記述が提供された場合に、未知の概念の妥当な視覚的表現を生成するのに十分であると仮定する。この事前知識は、マルチモーダルな事前学習によって得ることができ、例えばCLIPやその他の類似の研究で行われているような画像-テキストのアラインメントを用いることで獲得できる[45, 11, 61, 26]。
自然言語による監督を活用して新しい視覚的概念を学習するプロセスを、我々は知識転移と呼ぶ。 知識転移の目標を示す例示的な例がFig. 1に示されており、そこではCLIPベースのゼロショット分類器が未知の概念に直面している。我々は、明示的または暗黙的に知識転移を達成する2つの可能な方法を提案する。明示的知識転移では、新しい概念のテキスト記述から始めて、モデル反転[24]を通じて一致する画像を合成し、後にビジュアル-テキストマッチング損失でモデルを微調整するために使用できる。一方、暗黙的知識転移は、マルチモーダルニューロン[50]に依存し、テキストキャプションのみを使用してマスク言語モデリングでモデルを微調整する可能性がある。ただし、これには視覚エンコーダーとテキストエンコーダー間でパラメータを共有する必要がある。本稿では、モデルアーキテクチャに対する要件がより厳密でない明示的知識転移に焦点を当てる。我々の発見は以下の通りである:
2 Related Works
マルチモーダル表現学習の研究は、異なるモダリティ(例えば、視覚的表現と言語的表現)間のギャップを埋めることを目的としており、モデルがそれらを共同で処理できるようにすることを目指している。CLIP [45]、CoCa [61]、Flamingo [3]、ImageBind [11]などの視覚言語モデル(VLM)は、視覚的特徴と言語的特徴を共有埋め込み空間で整列させ、様々な視覚タスクにおけるゼロショット学習やフューショット学習を可能にしている。
VLMがクロスモーダル情報を内部的にどのように処理するかについての理解は、マルチモーダルニューロンの研究によって進展してきた [12, 50, 43]。Schwettmannら [50]は、視覚的モダリティと言語的モダリティを統合する特定のニューロンを特定し、モデルの解釈可能性を向上させた。この洞察は、マルチモーダルニューロンの存在を強調することで、我々の手法の背後にある直感を導いている。
Cross-Modal Knowledge Transfer
クロスモーダル知識蒸留 [13, 53, 18] は、異なるモダリティ間で知識を転移し、表現を豊かにするための戦略である。VidLANDK [53] やC2KD [18] のような手法は、ゼロショットおよび少数ショットのシナリオにおける汎化性能を向上させるために、モダリティ間を橋渡しする技術を採用している。これらのアプローチは通常、大量のマルチモーダルデータと複雑な訓練手順を必要とする。対照的に、我々の手法は、テキストによる説明を利用して最小限のデータで新しい視覚概念を導入し、大規模なマルチモーダルデータセットを必要とせずに効率的な知識統合に焦点を当てている。 代替アプローチ [7, 65, 20] には、識別モデルを訓練するための合成データ生成が含まれる。例えば [65] は、Stable Diffusion [47] を活用して多様な訓練サンプルを作成し、データ不足の問題に対処している。この手法は効果的であるが、生成されたデータの品質と多様性に依存する。我々のアプローチは、テキストから画像への生成モデルの外部知識や計算コストの高いデータ生成パイプラインに依存せずに、既存のモデルに新しい概念を統合する点で異なっている。 さらに、視覚的理解を向上させるためのテキストのみの訓練方法も提案されている。例えば、CapDec [41] は、CLIPにおける視覚エンコーダとテキストエンコーダの整合性を活用し、テキストのキャプションデータのみを使用してキャプション生成を改善している。一方、我々のアプローチは、自由形式のテキスト説明を活用することで、未知の概念に対してそのような整合性を達成することを目指している。
最近では、少数ショットのクロスモーダル学習が探求されており [35]、複数のモダリティからの手がかりを統合することで概念学習を強化できることが示されている。これは人間の学習を反映している。彼らのアプローチは、ペアになったマルチモーダルデータの少数ショット例を活用して、単一モーダルのダウンストリームタスクを強化している。本稿では、それらとは異なり、新しい視覚知識を導入するために単一モーダルのテキストデータを使用している。
3 Method
3.1 Explicit Knowledge Transfer
(1) |
(2) |
これはInfoNCE損失に対応する[45, 6, 25]。 しかし、我々の設定ではは利用できないため、それを推定し(例えばモデル反転[24]を用いて)、推定値を使用してとをInfoNCEを用いた対比的アプローチで共同訓練することができる[45, 11]。
実践的な例として、ムーンゲートの概念に対するキャプションは、図3に示されているように、「均一に切られた石やレンガで作られた完全な円形のアーチで、より大きな壁に組み込まれている[...]」となる可能性がある。 序論で述べたように、この方法は視覚エンコーダーがすでにキャプションに含まれる低レベルの視覚属性に関する事前知識を持っている場合、例えばテキストエンコーダーと共同で事前訓練されている場合に機能する。分析すべき興味深い点は、成功的な知識転移に必要な事前知識の量である:我々はこの問題を今後の研究課題として残す。
3.1.1 Estimating by inversion
3.1.2 Finetuning on the new concepts
4 Experiments
異なるデータセットและドメインにおける広範な評価を通じて、我々はKnowledge Transferの可能性を厳密に評価することを目指している。本節は2つの部分に分かれている:最初の部分では、これまで未知であった全く新しい概念の学習に焦点を当て、2つ目の部分ではゼロショットのダウンストリームタスクのパフォーマンス向上に焦点を当てる。
4.1 Datasets
1.) RareConceptsはウェブから収集された珍しい概念の画像コレクションである。我々は本稿の一部としてこのデータセットを公開する。我々の実験では、異なる大規模マルチモーダルアーキテクチャにとって比較的未知である3つの概念(ムーンゲート、ジャイロスコープ、眼圧計)に焦点を当てる。各概念について10枚の画像を収集した。
2.) ImageNet-1k [8]は視覚認識のための大規模ベンチマークであり、1000クラスと320万の自然画像を含む。
3.) CheXpert-2x500c [17]は大規模なCheXpertデータセット[19]から得られた胸部X線画像のデータセットであり、無気肺、心拡大、浮腫、肺炎、胸水のクラスについて各200例を考慮している。
4.) JSRT [52]は、異なるタイプ(悪性および良性結節)の肺結節を含む154枚の従来型胸部X線画像からなるデータセットである。
5.) UnitoChest [5]は306,440枚の胸部CTスライスと結節のセグメンテーションマスクのコレクションである。我々は結節が存在するスライスを考慮し、合計4179枚の画像を使用する。
6.) UDIAT [59]は超音波画像における乳房腫瘤のデータセットであり、110例の良性と54例の悪性症例を含む。
7.) SIIM Pneumothorax [62]は気胸のセグメンテーションのための胸部X線データセットであり、2019年にチャレンジとして公開された。我々は合計500枚の画像を考慮する。
8.) BraTS23 Glioma [1]は脳神経膠腫を有する成人患者の脳MRIデータセットである。我々は腫瘍が存在するすべてのスライスを考慮し、合計14,746枚の画像を使用する。
9.) Flickr30k [60]はFlickrから収集された31,783枚の画像からなるデータセットであり、各画像に人間のアノテーターによって提供された5つのキャプションが関連付けられている。我々の実験では、Karpathyのテスト分割[23]を使用し、これは1000枚の画像と5000のキャプションを含む。
10.) MSCOCO [34]は33万枚以上の画像とテキストキャプションを含む大規模データセットである。我々はKarpathyのテスト分割[23]を使用し、これは5000枚の画像を含む。
4.2 Setup
新しい概念の説明的なキャプションを生成するために、我々はLLMベースのアプローチを採用する。具体的には、自然画像に対しては、Llama-3 Instruct(8Bパラメータ)[2]を以下のプロンプトで使用する:「ImageNetクラス<クラス名>の簡潔な説明を、その単語自体を使わずに生成してください。説明には、被写体を認識するのに役立つ視覚的手がかりを、低レベルで正確な詳細とともに含める必要があります。説明以外は何も回答に含めないでください。」ここで、各新概念に適切なクラス名を挿入する。なお、我々がLLMを使用するのは利便性のためであり(例:ImageNetの1000クラス全てにキャプションを付ける)、これは必須ではない。医療データに関しては、実際にRadiopaedia [54]に基づく手作りのキャプションとChatGPT-4 [42]からの要素を組み合わせて使用している。全てのキャプションは補足資料に記載されている。
我々は5000ステップの反転を実行し、コサイン学習率アニーリングスケジュールを使用する。正則化項には、デフォルト値 [24]を使用する。採用する拡張は、ランダムなアフィン変換(-30度から+30度の回転、10%の平行移動、画像サイズの70%から100%のスケーリング)で構成され、確率は0.5である。反転された画像の例は図3に示されている。各概念について、10個の反転サンプルを生成する。
Learning Rate | ||||||||
Model | Concept | Baseline | 1e-5 | 2e-5 | 3e-5 | 4e-5 | 5e-5 | |
CLIP ViT-B/32 [45] | Moongate | Target Acc. | 0% | 10% | 60% | 90% | 100% | 100% |
ImageNet 0-shot | 58.10% | 57.78% | 56.43% | 53.95% | 50.37% | 42.30% | ||
Tonometer | Target Acc. | 50% | 80% | 80% | 100% | 100% | 100% | |
ImageNet 0-shot | 58.10% | 57.52% | 55.62% | 51.98% | 42.80% | 23.73% | ||
Gyroscope | Target Acc. | 90% | 100% | 100% | 100% | 100% | 100% | |
ImageNet 0-shot | 58.10% | 57.86% | 56.84% | 53.96% | 48.28% | 34.48% | ||
CLIP ViT-L/14 [45] | Moongate | Target Acc. | 78.95% | 78.95% | 100% | 100% | 100% | 100% |
ImageNet 0-shot | 70.79% | 70.74% | 70.51% | 69.96% | 68.57% | 62.35% | ||
Tonometer | Target Acc. | 31.58% | 52.63% | 78.95% | 100% | 100% | 100% | |
ImageNet 0-shot | 70.79% | 70.74% | 70.61% | 70.08% | 69.06% | 66.92% | ||
Gyroscope | Target Acc. | 90% | 90% | 100% | 100% | 100% | 100% | |
ImageNet 0-shot | 70.79% | 70.65% | 70.42% | 69.84% | 69.39% | 68.35% | ||
ViLT [26] | Moongate | Target Acc. | 0% | 0% | 0% | 0% | 0% | 0% |
ImageNet* 0-shot | 23.74% | 23.90% | 24.02% | 24.16% | 24.18% | 24.16% | ||
Tonometer | Target Acc. | 10% | 30% | 30% | 30% | 40% | 40% | |
ImageNet* 0-shot | 23.74% | 23.88% | 24.02% | 24.04% | 24.22% | 23.94% | ||
Gyroscope | Target Acc. | 50% | 60% | 50% | 50% | 40% | 30% | |
ImageNet* 0-shot | 23.74% | 23.80% | 23.88% | 23.72% | 23.38% | 23.12% |
4.3 Learning novel concepts
本実験セクションの最初では、モデルが知らない新規概念の学習に焦点を当てる。Knowledge Transferの最初のデモンストレションとして、我々はRareConceptsデータセットを使用する。これは、ムーンゲート、眼圧計、ジャイロスコープという3つの珍しいクラスで構成されている。これらのクラスは、CLIPベースのモデルを様々な潜在的に珍しい概念でウェブから手動でプローブすることで選択された。我々は、CLIPのベースおよびラージ(ViT-B/32とViT-L/14に基づく)の2つのバリアントと、ViT-B/32に基づく共有パラメータアーキテクチャViLT [26]に対してKnowledge Transferを適用する。CLIPについては、OpenAIが公開している公式の事前学習済みモデル222を使用し、反転ファインチューニングのセットアップは4.2節で説明した通りである。ViLTについては、アーキテクチャの違いに対応するため、若干異なるアプローチを用いる。反転を実行するために、テキストキャプションとランダムノイズで構成される入力ペアから開始する。その後、ViLTのITMヘッドで計算されるイメージ-テキストマッチング(ITM)スコアを最大化することでを最適化する[26]。セットアップの残りの部分はCLIPと同じである。詳細は補足資料に記載されている。
結果は表1に示されている。我々は、Knowledge Transfer適用前後のゼロショット分類精度を評価する。反転に使用したキャプションの一部は図3に示されている。すべてのキャプションは補足資料に記載されている。まず、ベースラインとして示される事前学習済みモデルが異なる未知の概念を示していることに注目する:CLIP ViT-B/32はムーンゲート(0%の精度)と眼圧計で苦戦し、CLIP ViT-L/14は眼圧計で苦戦し、ViLTは全体的に最も低い精度を示し、ムーンゲートと眼圧計でより苦戦している。 我々は、異なるファインチューニング学習率でのKnowledge Transferの結果を報告する。全体として、モデルは各概念のゼロショット分類精度の向上によって示されるように、新規概念を成功裏に学習している。さらに、ファインチューニングが以前の知識の破滅的忘却につながるかどうかを評価するために、各ファインチューニングされたモデルのImageNetでの精度も報告する[28]。適切な学習率の選択により、ImageNetでの同等の結果を維持しながら、ターゲット精度の向上を達成している。特筆すべきは、一部の概念で100%を達成しながら、ImageNetで同等の結果を維持していることである(例えば、CLIPのベースとラージ)。ターゲット精度が向上しない唯一の例は、ムーンゲートに対するViLTで、0%のままである。しかし、すべての概念でImageNetでわずかな向上が見られ、Knowledge Transferが既存の概念の表現の改善につながる可能性があることを示唆している。
4.3.1 Ablation study
4.3.2 Experiments with MedCLIP
次に、医療画像に対してKnowledge Transferを適用する。医療画像は、Knowledge Transferに最適なタスクである。なぜなら、テキスト形式の既存の医学知識(例えば、医学教科書や百科事典から)を活用して、胸部X線(CXR)、コンピュータ断層撮影(CT)スキャン、磁気共鳴画像(MRI)、超音波画像などの画像上の異なる病理の概念と視覚的外観を正確に記述できるからである。 我々の実験は、MedCLIPアーキテクチャ[56]に基づいている。これは、テキストエンコーダーのバックボーンとしてBioClinicalBERT333を、視覚エンコーダーとしてSwin Transformer [36]を採用したCLIPベースのモデルである。MedCLIPは、CXR画像と放射線科レポートを含む大規模なMIMIC-CXR [21]およびCheXpert [19]データセットで事前学習されている。データセットに含まれる異なる概念は、無気肺、心拡大、浸潤影、浮腫、心縦隔拡大、骨折、肺病変、肺不透過、胸水、肺炎、気胸、支援装置である。我々の実験では、MedCLIPにCXRにおける良性および悪性結節の概念を導入することを目指す。我々はCLIPと同じ実験プロトコルに従い、外部データセットJSRT [52]でKnowledge Transferによって達成された性能を測定する。
Learning Rate (multiplier) | |||||||
Concept | Baseline | 1 | 2 | 3 | 4 | 5 | |
Benign Nodule | Target Acc. (base lr 1e-5) | 54.55% | 54.55% | 54.55% | 54.55% | 54.55% | 54.55% |
CheXpert-5x200c 0-shot | 62.10% | 61.80% | 62.30% | 62.10% | 62% | 62.20% | |
Lung Cancer | Target Acc. (base lr 1e-4) | 83.93% | 87.50% | 92.86% | 94.64% | 92.86% | 92.86% |
CheXpert-5x200c 0-shot | 62.10% | 62.20% | 61.50% | 53.70% | 48.20% | 44.50% |
Model | Atelectasis | Cardiomegaly | Consolidation | Edema | Pleural Effusion | Top-1 | |
MedCLIP (ViT) | Reference | 49% | 69.50% | 32.50% | 75.50% | 84% | 62.10% |
CLIP ViT-B/32 | Baseline | 0% | 2.5% | 0% | 0% | 94.50% | 19.40% |
Transfer | 0% | 21.5% | 0% | 0% | 85% | 21.30% | |
CLIP ViT-L/14 | Baseline | 59.50% | 16.50% | 0% | 0% | 35.50% | 22.40% |
Transfer | 4% | 32.5% | 0% | 0% | 92.5% | 25.90% |
4.3.3 Out of domain Knowledge Transfer
最後に、訓練ドメイン外の新規概念を導入するKnowledge Transferの可能性を評価する。具体的には、自然画像で訓練されたモデルに医療概念を導入することを目指す。この目的のために、我々はCLIPモデルをCheXpertの5つのクラス(無気肺、心拡大、浸潤影、浮腫、胸水)すべてでファインチューニングする。
結果は表3に示されている。我々は、CheXpertで訓練されたモデルの参考としてMedCLIPの性能を報告する。トップ1精度を見ると、CLIPの両バージョンで改善された結果が得られ、ラージバリアントでは22.40%から25.90%へのより大きな向上が見られた。しかし、クラスごとの精度の内訳を見ると、i.)開始精度が0%のクラスは改善されず、ii.)一部のクラス(すなわち胸水と無気肺)では性能が悪化したことが明らかになった。これは、モデルの事前知識(自然画像)と医療ドメイン特有の特徴との間のドメインギャップによるものかもしれない。それにもかかわらず、この制限を考慮すると、Knowledge Transferはゼロショットのドメイン外汎化に可能性を示している。
4.4 Improving zero-shot downstream tasks
Lung Nodules† | Lung Pneumothorax† | Breast Ultrasound | Brain MRI | |||||||||
Model | DSC | NSD | IoU | DSC | NSD | IoU | DSC | NSD | IoU | DSC | NSD | IoU |
MedCLIP-SAMv2 | 14.83% | 17.30% | 8.64% | 6.30% | 7.61% | 3.75% | 56.25% | 59.44% | 47.81% | 17.20% | 20.97% | 12.05% |
Transf. (1e-5) | 13.95% | 17.45% | 8.75% | 6.28% | 7.59% | 3.77% | 58.23% | 61.56% | 49.52% | 15.90% | 19.36% | 11.10% |
Transf. (2e-5) | 14.10% | 17.65% | 8.83% | 6.41% | 7.76% | 3.83% | 54.36% | 57.30% | 46.30% | 18.13% | 22.26% | 12.62% |
Transf. (1e-4) | 14.35% | 18.03% | 9.04% | 6.02% | 7.29% | 3.59% | - | - | - | - | - | - |
Flickr30k (1K) | ||||||
Text Retrieval | Image Retrieval | |||||
Model | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 |
ViLBERT [38] | - | - | - | 31.9% | 61.1% | 72.8% |
Unicoder-VL [31] | 64.3% | 85.8% | 92.3% | 48.4% | 76.0% | 85.2% |
ImageBERT [44] | 70.7% | 90.2% | 94.0% | 54.3% | 79.6% | 87.5% |
ViLT-B/32 (original) [26] | 73.2% | 93.6% | 96.5% | 55.0% | 82.5% | 89.8% |
ViLT-B/32 (huggingface) | 73.8% | 93.5% | 96.5% | 57.3% | 83.9% | 90.4% |
ViLT-B/32 (transf. 9e-7) | 74.6% | 93.8% | 96.4% | 57.8% | 84.0% | 90.5% |
ViLT-B/32 (transf. 2e-6) | 74.6% | 93.7% | 96.5% | 57.8% | 84.0% | 90.5% |
MSCOCO (5K) | ||||
Model | BLEU@4 | METEOR | CIDEr | SPICE |
CLIP-ViL [51] | 40.2 | 29.7 | 134.2 | 23.8 |
BLIP [32] | 40.4 | - | 136.7 | - |
VinVL [64] | 41.0 | 31.1 | 140.9 | 25.4 |
SimVLM [57] | 40.6 | 33.7 | 143.3 | 25.4 |
LEMON [16] | 41.5 | 30.8 | 139.1 | 24.1 |
CoCa [61] (proprietary) | 40.9 | 33.9 | 143.6 | 24.7 |
CoCa | 6.9 | 12.8 | 31.1 | 9.1 |
CoCa (transf. 8e-5) | 17.9 | 19.4 | 60.8 | 13.7 |
CoCa FT | 34.9 | 29.7 | 123.1 | 23.5 |
CoCa FT (transf. 5e-6) | 35.2 | 29.8 | 124.0 | 23.3 |
4.4.1 Segmentation
セグメンテーションについては、ゼロショット手法であるMedCLIP-SAMv2 [29, 30]を採用する。MedCLIP-SAMv2は、事前訓練されたCLIPモデルから活性化マップを計算し、それらをSegment Anything Model (SAM) [27]のクエリとして使用することで機能する。 活性化マップは、Multi-Modal Information Bottleneck Attribution (M2IB) [55]を用いて、対象画像とクエリプロンプトを使用して計算される。 本稿では、知識転移を活用して異なる概念に対する活性化マップの品質を向上させることを目指す。これにより、最終的なセグメンテーションの精度が向上するはずである。 我々は4つの異なるセグメンテーションタスクを対象とする: CT画像における肺結節のセグメンテーション(UnitoChest)、CXR画像における肺気胸のセグメンテーション(SIIM Pneumothorax)、超音波画像における乳房結節のセグメンテーション(UDIAT)、およびMRIにおけるグリオーマのセグメンテーション(BraTS23)。
全セグメンテーションタスクにわたる全体的な結果を表4に示す。反転に使用されたキャプションは補足資料に記載されている。微調整されたモデルでM2IB活性化マップを計算するために、[30]で提案されているような記述的なプロンプトを使用する。プロンプトは表4にP1からP4として各タスクに対して記載されている。また、各タスクに対するMedCLIP-SAMv2の参照結果も報告する。MedCLIP-SAMv2の元の設定と比較して、肺結節と肺気胸は完全に新しい概念である。また、脳グリオーマのクラスについても、元の脳腫瘍タスクとわずかな違いがあり、これは補足ファイルで説明されている。セグメンテーションの品質を評価するために、Dice-Sørensen係数(DSC)、正規化表面距離(NSD)、および交差部分と和集合の比(IoU)の3つの指標を使用する。微調整の学習率の異なる値での結果を報告する。全タスクにわたってセグメンテーション指標の向上が観察され、特に乳房超音波(NSD 59.44%から61.56%)と脳MRI(NSD 20.97%から22.26%)で顕著である。肺結節と気胸については、改善はそれほど顕著ではないが、これはおそらくタスクの新規性がMedCLIP-SAM設定での改善をより困難にしているためである。
4.4.2 Text and image retrieval
Flickr30kデータセットでテキストおよび画像検索の実験を行う。これらの実験では、huggingfaceバージョン444のViLT [26]を使用する。 知識転移を用いてViLTを微調整するために、モデルの一般的な知識を向上させるのに役立つ可能性のある一般的な概念のキャプションを使用する。この目的のために、MSCOCOの80のオブジェクトカテゴリをターゲット概念として使用し、セクション4.2で紹介した方法を用いて、ChatGPT-4を使用する。全てのキャプションは補足資料に記載されている。各キャプションに対して10枚の反転画像を生成し、合計800枚の反転画像を得る。微調整はセクション4.3と同様に、正のペアに対してITMスコアを最大化し、負のペアに対して最小化することで行う。
4.4.3 Captioning
MSCOCOデータセットでキャプショニングの実験を行う。 このタスクには、最先端のキャプショナーであるCoCaアーキテクチャ[61]を採用する。具体的には、LAIONによってリリースされたオープンソースバージョン555を使用する。これは元のものが独自のものであるためである。CoCaはCLIPモデルに自己回帰テキストデコーダーを追加することで構築されており、したがって微調整時には、InfoNCE損失とキャプショニング損失[61]を共同で適用する。キャプショニング損失は、前のトークンと画像が与えられた次のトークンを予測することを目的としている。キャプションとしては、「Xの写真」のような単純なテンプレートセットを使用し、さまざまな変更を加えている。これらは補足資料に記載されている。
結果を表6に示す。標準的なpycocoevalcapパッケージ666を使用して計算された異なる評価指標(BLEU、METEOR、CIDEr、SPICE)を報告する。我々は2つのバリアントのCoCaで実験を行う:1つはLAION-2B [49]で事前訓練されたもの、もう1つはMSCOCOでキャプショニング用にさらに微調整されたものである。比較のために、独自のCoCa [61]からの参照結果も、他の手法と共に報告する。知識転移により、CoCa FTのほぼ全ての指標で改善し、BLEU@4で35.2に達している。 注目すべき結果は、事前訓練のみのCoCaで達成されており、全ての指標で大幅な改善が見られ、時には倍増している(例えば、BLEU@4が6.9から17.9へ)。このモデルは元々MSCOCOでのキャプショニング用に訓練されていないにもかかわらず、知識転移のみによって改善が導入され、実際の画像を全く使用していないことを再度指摘したい。オープンCoCaのパフォーマンスは元の論文で報告されている独自の結果に匹敵しないため、最先端の結果に到達することはできないが、知識転移によってもたらされた改善は注目に値する。
5 Conclusions and Future Works
我々は、知識転移と呼ぶ手法を用いて、テキストによる説明のみを使用して新しい視覚的概念を学習する方法を提示する。広範な評価を通じて、知識転移が事前学習済みモデルに新しい概念を導入し、既存のタスクのパフォーマンスを損なうことなく成功することを示す。また、知識転移がセグメンテーション、テキスト画像検索、キャプション生成などの下流のゼロショットタスクの結果を改善し、医療画像などのドメイン外の一般化にも可能性を示すことを実証する。提案手法は、ターゲット概念に対する理想的な画像を合成するためのモデル反転に基づいており、その後、CLIP [45]のような画像-テキストマッチング方式でモデルを微調整するために使用される。我々の手法は、既知の低レベルの視覚的特徴を新しい高レベルの概念に整合させることを目的として、事前学習済みモデルの事前知識を活用する。本稿では明示的知識転移に焦点を当てたが、マルチモーダルニューロンを利用することで暗黙的知識転移も達成可能であると我々は仮説を立てている。今後の研究はこのトピックに焦点を当てる予定である。
6 Impact and Limitations
7 Knowledge Transfer
7.1 Possible improvements of Explicit Transfer
7.1.1 Relaxation of Eq. 3
式 3 のように を計算すると、図 3 に示されるように、自然画像の学習分布とは大きく異なる画像が生成される可能性がある。そこで、視覚エンコーダー全体 を反転させるのではなく、モデルの上位から始まる層の一部 のみを反転させることができる:
(4) |
ここで、 はスタイル転移 [10] に類似した正則化であり、 が自然画像の中間表現に類似するよう促すものである。
7.2 Implicit Knowledge Transfer
本稿では明示的な知識転移に焦点を当てているが、完全を期すために暗黙的知識転移の背後にある考え方を簡単に紹介する。マルチモーダルモデルにおいてマルチモーダルニューロンが見出されることが示されている[12, 50]。これらのニューロンは、いずれのモダリティにおいても同じ概念に対して高い活性化を示し、クロスモーダル表現を捉えることができる。我々は、共有パラメータアーキテクチャ(例えば、early-fusionトランスフォーマー[39, 26])において、これらのニューロンを知識転移に利用できるはずであると仮説を立てている。例えば、新しい概念の記述に対して単純なマスク言語モデリングを行うことで、モデル反転の必要性を効果的に排除できる。この目的のためには、単一のモダリティを独立して処理できるearly-fusionアーキテクチャが必要となる。しかし、我々の知る限り、現時点でこれらの要件を満たす大規模な事前学習モデルはあまり存在しないため、この方向性の詳細な探求は今後の研究課題として残しておく。異なるモダリティを独立して学習することが有効であるという示唆は、文献に見られる。例えば、U-VisualBERTの事前学習中に見られる[33]。我々の研究にさらに関連して、[57]の著者らはSimVLMにおけるクロスモーダル転移の能力について報告しているが、このモデルは独自のものであり、我々はその主張を再現することができない。したがって、ここではViLTに焦点を当て、予備的な分析を第8.9節で報告する。
7.3 Open questions
Q1 Domain Gap.
Q2 Generalizability of inversion
Q2 Catastrophic Forgetting
知識転移を適用する際、破滅的忘却をどの程度防ぐことができるだろうか?本研究では、一般的に低い学習率を用いることで、新しい概念の学習と以前の情報の保持のバランスを取ることができることを示している。しかし、まだ改善の余地がある。例えば、LoRA [15] は微調整中の破滅的忘却を回避するのに役立つことが示されており、知識転移中にこれを適用することでさらに結果を改善できる可能性がある。また、暗黙的転移(パラメータ共有モデルにおいて)は、例えばマルチモーダルニューロンに焦点を当てることで、明示的転移よりも破滅的忘却を回避できる可能性がある。
8 Experiments
8.1 CLIP on rare concepts
8.2 Details about image inversion for ViLT
8.3 Ablation study
ここでは追加のアブレーション研究を報告する。我々は、ファインチューニングのためのキャプションの構築に焦点を当てる。3.1.2節で説明したように、ファインチューニング中に各キャプションの前に概念の名前を付加する。例えば、"A moongate is […]"のようにする。ここでは、名前を付加したキャプションと名前のないキャプションを比較することで、なぜこれが必要なのかを説明する。結果は図5に示されている。観察できるように、ファインチューニング中に概念の名前を使用することは、視覚的特徴をその文章による説明にマッピングするために必要である。
8.4 MedCLIP
8.5 CLIP on medical images (out of domain)
Lung Nodules† | Lung Pneumothorax† | Breast Ultrasound | Brain MRI | |||||||||
Model | DSC | NSD | IoU | DSC | NSD | IoU | DSC | NSD | IoU | DSC | NSD | IoU |
MedCLIP-SAMv2 | 14.83% | 17.30% | 8.64% | 6.30% | 7.61% | 3.75% | 56.25% | 59.44% | 47.81% | 17.20% | 20.97% | 12.05% |
Transf. (1e-5) | 13.95% | 17.45% | 8.75% | 6.28% | 7.59% | 3.77% | 58.23% | 61.56% | 49.52% | 15.90% | 19.36% | 11.10% |
Transf. (2e-5) | 14.10% | 17.65% | 8.83% | 6.41% | 7.76% | 3.83% | 54.36% | 57.30% | 46.30% | 18.13% | 22.26% | 12.62% |
Transf. (3e-5) | 14.10% | 17.65% | 8.85% | 6.25% | 7.55% | 3.73% | 55.70% | 59.00% | 47.49% | 15.47% | 18.85% | 10.78% |
Transf. (4e-5) | 14.25% | 17.85% | 8.94% | 6.24% | 7.57% | 3.71% | 53.86% | 56.82% | 45.61% | 15.26% | 18.63% | 10.62% |
Transf. (5e-5) | 14.20% | 17.78% | 8.92% | 6.20% | 7.51% | 3.70% | 54.90% | 57.97% | 46.09% | 16.22% | 19.81% | 11.34% |
Transf. (1e-4) | 14.35% | 18.03% | 9.04% | 6.02% | 7.29% | 3.59% | - | - | - | - | - | - |
Transf. (2e-4) | 10.74% | 13.64% | 6.66% | 4.71% | 5.54% | 2.86% | - | - | - | - | - | - |
8.6 Segmentation
MedCLIP-SAMv2に対する異なる学習率での知識転移の結果を表 7 に示す。 知識転移によって達成された改善の例示を図 6 および図 7 に示す。セグメンテーションのための反転に使用されたキャプションは表 LABEL:tab:captions-segmentation に記載されている。
Differences in downstream tasks
本文で述べたように、肺結節と気胸のセグメンテーションは、MedCLIP-SAMv2が事前学習されていない新規タスクである。脳腫瘍に関しては、我々は成人患者の脳神経膠腫を含むBraTS 2023神経膠腫データセットを使用している。[30]で報告された脳腫瘍に関する元の性能と比較すると、大きな差があることに気づく。しかし、画像の前処理が大きく異なっており、BraTS 2023のデータは[30]よりもより重度に前処理されている(例:頭蓋骨除去)。本稿執筆時点では、データ分割の詳細が不明であったため、元のデータでMedCLIP-SAMv2を比較することはできなかった。
Flickr30k (1K) | ||||||||
Text Retrieval | Image Retrieval | |||||||
Model | LR | Batch Size | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 |
ViLT-B/32 (huggingface) | - | - | 73.8% | 93.5% | 96.5% | 57.3% | 83.9% | 90.4% |
ViLT-B/32 | 8e-7 | 32 | 74.5% | 93.8% | 96.4% | 57.7% | 84.0% | 90.4% |
ViLT-B/32 | 9e-7 | 32 | 74.6% | 93.8% | 96.4% | 57.8% | 84.0% | 90.5% |
ViLT-B/32 | 1e-6 | 16 | 74.4% | 93.8% | 96.5% | 57.7% | 84.1% | 90.5% |
ViLT-B/32 | 2e-6 | 128 | 74.6% | 93.7% | 96.5% | 57.8% | 84.0% | 90.5% |
ViLT-B/32 | 3e-6 | 256 | 74.5% | 93.9% | 96.5% | 57.7% | 83.9% | 90.5% |
ViLT-B/32 | 4e-6 | 32 | 73.8% | 93.6% | 96.5% | 57.4% | 84.0% | 90.5% |
ViLT-B/32 | 5e-6 | 256 | 74.5% | 93.9% | 96.5% | 57.6% | 84.0% | 90.5% |
ViLT-B/32 | 8e-6 | 32 | 73.2% | 93.7% | 96.1% | 57.4% | 83.7% | 90.4% |
ViLT-B/32 | 1e-5 | 128 | 74.4% | 93.8% | 96.8% | 56.8% | 83.7% | 90.6% |
ViLT-B/32 | 2e-5 | 32 | 71.8% | 93.2% | 96.4% | 56.7% | 83.6% | 90.4% |
ViLT-B/32 | 3e-5 | 32 | 70.8% | 92.1% | 95.7% | 56.0% | 82.9% | 90.2% |
8.7 Text-image retrieval
8.8 Captioning
Captioning Loss
(5) |
(6) |
Target captions template
8.9 Preliminary results with Implicit Knowledge Transfer
Learning Rate | ||||||||
Type | Concept | Baseline | 1e-5 | 2e-5 | 3e-5 | 4e-5 | 5e-5 | |
Implicit | Moongate | Target Acc. | 0% | 0% | 0% | 0% | 0% | 0% |
ImageNet* 0-shot | 23.74% | 23.82% | 23.90% | 23.98% | 23.94% | 23.86% | ||
Tonometer | Target Acc. | 10% | 10% | 10% | 10% | 10% | 0% | |
ImageNet* 0-shot | 23.74% | 23.84% | 23.86% | 23.70% | 23.64% | 23.60% | ||
Gyroscope | Target Acc. | 50% | 50% | 60% | 60% | 60% | 50% | |
ImageNet* 0-shot | 23.74% | 23.74% | 23.62% | 23.42% | 23.44% | 23.46% | ||
Explicit | Moongate | Target Acc. | 0% | 0% | 0% | 0% | 0% | 0% |
ImageNet* 0-shot | 23.74% | 23.80% | 24.08% | 24.02% | 24.10% | 24.20% | ||
Tonometer | Target Acc. | 10% | 10% | 10% | 10% | 10% | 10% | |
ImageNet* 0-shot | 23.74% | 23.80% | 23.74% | 23.72% | 23.70% | 23.56% | ||
Gyroscope | Target Acc. | 50% | 50% | 50% | 50% | 40% | 30% | |
ImageNet* 0-shot | 23.74% | 23.74% | 23.84% | 23.84% | 23.84% | 23.82% |
8.9.1 Implicit Knowledge Transfer with MLM
暗黙的知識転移には、ViLT[26]と同じマスク言語モデリングのセットアップを使用した。これは、全単語マスキングと15%のマスキング確率を使用することを意味する。我々は、ファインチューニングに10個の例を使用し、各例はランダムノイズ画像とマスクされたキャプションで構成されている。マスクされたキャプションは、同じキャプションから毎回異なるマスキングを行うことで生成される。キャプションには「A is 」というテンプレートを使用し、は概念の名前、は概念の説明(表LABEL:tab:vilt-concept-descriptionsから)である。我々は、バッチサイズ4で異なる学習率を使用し、合計3回の訓練ステップを行う。重み減衰は、他の実験と同様に0.01に設定される。
Explicit Knowledge Transfer baseline with MLM
8.9.2 Results discussion
表11は、マスク言語モデリングを用いた暗黙的および明示的知識転移の両方の結果を示している。両方の場合において、moongateの概念に対する改善は見られず、精度は0%のままである。tonometer については、暗黙的な場合では性能の低下が見られるため、明示的知識転移の方がうまく機能しているように見える。一方、gyroscopeについては逆の結果となっている。すべての場合において、画像-テキストマッチング目的関数を使用した場合と同様に、ImageNet-100クラスに対する精度の向上が観察される。唯一の改善は、暗黙的転移設定におけるgyroscope概念で、50%から60%への向上が見られた。全体として、マスク言語モデリングを用いた暗黙的知識転移はViLTモデルでは機能しないと言える。これは恐らく、ViLTが画像-テキストペアで事前訓練されており、入力として両方のモダリティを期待しているためである。MLMを用いた明示的知識転移に関しては、正しいアルゴリズムとハイパーパラメータのセットを決定するためにさらなる実験が必要である。例えば、異なるテキスト記述から生成されたより多くの例を使用する必要があるかもしれない。
9 Code
