JaLMS
最新の AI 研究を日本語で解読

Adaptive Blind All-in-One Image Restoration

David Serrano-Lozano1,2  Luis Herranz3  Shaolin Su1  Javier Vazquez-Corral1,2
1Computer Vision Center  2Universitat Autònoma de Barcelona  3Universidad Autónoma de Madrid
{dserrano, shaolin, jvazquez}@cvc.uab.cat  [email protected]
Abstract

ブラインド型オールインワン画像復元モデルは、未知の劣化を含む入力画像から高品質な画像を復元することを目的としている。しかし、これらのモデルは訓練段階で可能な全ての劣化タイプを定義する必要があり、未知の劣化に対する汎化性能が限られているため、複雑なケースにおける実用的な応用が制限されている。本稿では、適応型ブラインドオールインワン復元(ABAIR)モデルという、シンプルながら効果的なモデルを提案する。このモデルは複数の劣化に対処でき、未知の劣化に対して優れた汎化性能を示し、パラメータの一部のみを訓練することで新しい劣化を効率的に組み込むことができる。まず、我々は複数の合成劣化を含む大規模な自然画像データセットを用いてベースラインモデルを訓練し、ピクセルごとの劣化タイプを推定するセグメンテーションヘッドを追加することで、幅広い劣化に汎化できる強力なバックボーンを実現した。次に、独立した低ランクアダプターを用いて、ベースラインモデルを様々な画像復元タスクに適応させた。さらに、柔軟で軽量な劣化推定器を通じて、多様な画像に対してアダプターを適応的に組み合わせる学習を行った。我々のモデルは特定の歪みを処理する能力が高く、複雑なタスクへの適応も柔軟である。5タスクおよび3タスクのIR設定において最先端の手法を大幅に上回る性能を示すだけでなく、未知の劣化や複合的な歪みに対しても改善された汎化性能を示している。
https://aba-ir.github.io/

1 Introduction

Refer to caption
図1: 我々のモデルは、最先端のオールインワン画像復元(IR)手法であるRestormer [63]、PromptIR [40]、およびDiffUIR [66]を、5つの既知のIRタスク、3つの未知のタスク、および3つの混合劣化シナリオにおいて大幅に上回る性能を示している。プロットは各軸に沿って正規化されており、最低値は2番目の円上に、最高値は最外周の円上に位置している。

画像復元(IR)は、コンピュータビジョンにおける基本的なタスクであり、視覚的品質を向上させ、下流タスクの性能を最適化するために不可欠である [45, 37]。IRは、低品質の入力に存在する様々な劣化を系統的に除去することにより、高忠実度の画像を再構築することを目的としている。これらの劣化は、画像取得プロセス中の外部環境条件とカメラの限界の複雑な相互作用を通じて生じることが多く、例えば悪天候 [28, 48, 49]、ノイズ [13]、ぼけ [41]、低照度環境 [4, 68]などが挙げられる。

IRの本質的に不良設定な性質は、従来のアプローチにとって大きな課題であり、その有効性を制限している[38, 22, 34, 21, 47, 12, 18, 15]。深層学習技術の最近の進歩により、IRにおいて顕著な進展が見られ[27, 63, 40, 41, 11]、再構成精度が大幅に向上している。しかしながら、これらのフレームワークは、通常、個別かつ特定のIRタスクを含むデータセットで訓練されているため、専用の劣化のモデリングにおいてのみ優れた性能を示している。

各劣化タイプに対して別個のモデルを使用することの限界に対処するため、最近の画像復元(IR)モデルはオールインワンアプローチを採用している。すなわち、単一のモデル内で複数の劣化タイプを処理するように設計されており、様々なIRタスクに対する専用モデルへの依存を軽減している。これらのモデルは多様なIRタスクを統一されたフレームワークに統合することに成功を収めているが、実世界のIR問題に適用する際にはいくつかの課題が残っている。第一に、これらのモデルは歪みのタイプが事前に分かっていることを前提としており、それらを特定的に対象とし除去することができる[63]。しかし、実際には、IRは与えられた画像に存在する劣化に関する事前知識がないブラインド設定で動作しなければならず、ブラインドIRは著しく困難である。第二に、実際の画像には複合的な劣化が頻繁に含まれている — 例えば、低照度シーンにおける移動車両や、霧の天候で撮影された圧縮画像などである。既存のモデルは多様な劣化タイプを処理するように設計されているが、通常は一度に1つの歪みタイプのみを処理するため、実用的なケースでの有効性が制限される。第三に、現在のオールインワン手法は、訓練時にすべての劣化タイプにアクセスする必要があり、未知の劣化への汎化性が制限される。これらのモデルを新しい、観測されていない劣化タイプに適応させつつ、オールインワン機能を維持するには、通常、拡張された劣化セットでモデル全体を再訓練する必要がある — これは計算コストが高く、時間のかかるプロセスである。

貢献: 本稿は、適応型ブラインドオールインワン画像復元(ABAIR)手法を提示する。これは、画像復元技術と実践的な複雑なシナリオへの応用との間のギャップを埋めることを目的としている。ABAIRは、複数の複合的な劣化に効果的に対処し、新たな劣化を容易に追加できる柔軟な構造を持つ。我々のアプローチは、3つの主要な要素を組み合わせたシンプルかつ効果的な方式である。第一に、堅牢な重み初期化を得るために、合成劣化を用いた大規模な事前学習を提案する。劣化認識のためのセグメンテーションヘッドを持つ、複数の歪みを伴う画像を生成するために、修正されたCutMix [61] を提案する。第二に、合成データと実世界のデータの間のギャップを埋めるために、独立したアダプター(具体的にはLoRA [19])を訓練することで、分離された復元モジュールを学習する。第三に、ブラインドオールインワンIR手法を導出するために、入力画像に基づいて最適なアダプターの組み合わせを選択する軽量な画像劣化推定器を学習する。合成劣化での事前学習とブレンディング操作により、我々のモデルは単一画像内の複合的な歪みを処理する能力を獲得する。さらに、アダプターベースの設計により、新たな歪みに対応するために容易に更新できる柔軟なモデル構造が可能となる。我々は、追加された劣化に対して新しいアダプターモジュールを訓練し、軽量な推定器を再訓練するだけで、他のIRタスクに関する事前知識を失うことなく対応できる。我々のアプローチは、多用途IRのためのブラインドオールインワンモデルを提供し、3つおよび5つの劣化設定を含むオールインワン復元ベンチマークで優れた性能を達成し、3つの未知の劣化に一般化し、 1に示すように、混合劣化を処理する。

2 Related Work

Single Degradation Image Restoration

画像復元(IR)に関する従来の研究の大部分は、典型的に画像内の単一種類の劣化を除去して、その清浄な対応物を回復することを考慮してきた。代表的な単一劣化IR課題には、ノイズ除去[13]、ぼけ除去[41]、雨除去[7]、霧除去[59]、低照度画像強調[4, 68]などがある。これらの手法は個々のタスクにおいて有望な進展を達成しているものの、特定の種類の歪みにのみ対処可能であるため、より広範なIRシナリオへの汎用性が制限されている。

All-in-One Image Restoration

近年、マルチ劣化およびオールインワン画像復元(IR)アプローチが大きな注目を集めている。マルチ劣化手法[63, 5, 62, 60, 39]は、複数のIRタスクに効果的な統一モデルアーキテクチャを提案している。しかし、これらの手法は、一組のパラメータが一種類の特定の劣化のみを扱えるように訓練されている。そのため、異なる劣化に対して異なる重み(同じアーキテクチャではあるが)を割り当てる必要がある。さらに、多様な画像を復元するためには、劣化の種類を知る必要があり、それに応じたパラメータを読み込む必要がある。このノンブラインドな方式は、実世界のアプリケーションにおける効率性と有効性をさらに妨げている。

一方、ブラインドオールインワンIRアプローチは、劣化タイプを盲目的に区別するための特殊なモジュールを利用している。例えば、AirNet[27]は、入力画像から潜在的な劣化表現を抽出するために対比ベースのエンコーダーを使用している。X-Restormer[8]は、空間マッピング能力を向上させるためにトランスフォーマーブロックに空間的自己注意モジュールを追加している。IDR[64]は劣化特有の事前知識を学習し、それを復元に組み込んでいる。一方、DiffUIR[66]は拡散モデルに条件付きガイダンスを装備している。これらの手法は画像を盲目的に処理する能力を持っているが、特定の劣化と標準的なIRベンチマークに焦点を当てているため、複合的な歪みや未知の歪みに対処することはできない。

Refer to caption
図2: 我々の提案手法の一般的なスキーマ。我々の手法は3つのフェーズに分かれている。フェーズIでは、高忠実度画像の合成劣化を用いてベースラインモデルを事前訓練する。各画像には異なる領域に異なる劣化が含まれており、セグメンテーションヘッドがそれらを予測することを学習し、復元損失が画像の復元を目指す。これにより、モデルは複数の劣化を区別し、一般化することができる。フェーズIIでは、標準的な画像復元データセットを使用して劣化特有のアダプターを学習する。フェーズIIIでは、入力画像の劣化プロファイルに基づいてアダプターを適応的にブレンドする軽量な劣化推定器を学習する。この3フェーズの方法論により、我々の手法は複数の歪みを含む画像に柔軟に対処でき、新しい歪みに対しては新しい歪み用のアダプターを訓練し、劣化推定器を再訓練するだけで済むため、更新が容易である。

タスク特有のコンテキストを捉えるプロンプト学習技術は、ビジョンタスクの適応をガイドする上で有望性を示している[20]。この概念を活用し、最近の手法では劣化特有の情報をエンコードし、複数の可能な歪みを持つ低忠実度画像の強化を復元モデルにガイドしている。例えば、PromptIR[40]は、入力画像から劣化特有の特徴を捉えるための専用のプロンプトブロックを統合している。一方、DA-CLIP[30]、MPerceiver[2]、ProRes[31]、Painter[50]は、プロンプトジェネレーターとして大規模な事前訓練モデルを活用している。しかし、後者のアプローチは、大規模モデルの高いメモリ要求によって制約されることが多い。さらに、既存のオールインワンアプローチは、訓練時にすべての劣化タイプを事前に定義する必要があり、既に訓練されたモデルへの新しい歪みの追加が制限される。

対照的に、本稿では多様な画像復元を目指し、我々のモデルは単一または複合形式の様々な種類の歪みを持つ画像を盲目的に処理するように開発されている。軽量な劣化アダプターの混合設計により、我々のモデルは未知の歪みに対しても柔軟で拡張可能であり、したがって、チャレンジングなブラインドオールインワンIR問題に対して優れた汎化性を示す。

Refer to caption
(a)
Refer to caption
(b)
Refer to caption
(c) ノイズ
Refer to caption
(d) ぼかし
Refer to caption
(e) 低照度
図3: 5つの伝統的な歪みに対する我々の合成劣化生成の例。

Parameter Efficient Fine-Tuning

すべてのパラメータを更新してモデルを微調整することは、特に大規模モデルにおいて計算効率が悪い。パラメータ効率的な微調整(PEFT)は、訓練可能なパラメータ数とメモリ使用量を削減しつつ、完全な微調整に匹敵する性能を達成することでこの問題に対処する[54]。Low-Rank Adaptation(LoRA)[19]は、微調整された重みの再パラメータ化戦略を導入した。ここでは、特定の層の重みW=W+ΔWsuperscript𝑊𝑊Δ𝑊W^{\prime}=W+\Delta Witalic_W start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_W + roman_Δ italic_Wが、事前訓練された重みW𝑊Witalic_Wと低ランク分解によって得られる更新項ΔWΔ𝑊\Delta Wroman_Δ italic_Wの線形結合として表現される。すなわち、ΔW=BAΔ𝑊𝐵𝐴\Delta W=BAroman_Δ italic_W = italic_B italic_Aである。ここで、Bd×k𝐵superscript𝑑𝑘B\in\mathbb{R}^{d\times k}italic_B ∈ blackboard_R start_POSTSUPERSCRIPT italic_d × italic_k end_POSTSUPERSCRIPTAr×k𝐴superscript𝑟𝑘A\in\mathbb{R}^{r\times k}italic_A ∈ blackboard_R start_POSTSUPERSCRIPT italic_r × italic_k end_POSTSUPERSCRIPTであり、ランクはrmin(d,k)much-less-than𝑟min𝑑𝑘r\ll\text{min}(d,k)italic_r ≪ min ( italic_d , italic_k )である。低ランク行列A𝐴Aitalic_AB𝐵Bitalic_Bのみを最適化することで、LoRAはその層を適応させるために必要なパラメータ数を削減し(すべてのパラメータを調整する場合と比較して)、メモリと計算要求を最小限に抑える。LoRAを基に、Vector-based Random Matrix Adaptation[24]やConv-LoRA[67]など、代替的な分解手法が提案されている。

PEFT技術は、大規模モデルのドメイン適応だけでなく、タスク算術や継続学習などのアプリケーションにも有用であることが証明されている。これは、新しいタスクを学習する際に以前獲得した知識を失うという破滅的忘却の問題を軽減する[10]。情報検索(IR)において、Parkら[39]は単一タスクIRフレームワーク内で低ランク分解を適用し、モデルの性能を向上させた。 対照的に、我々は異なるアダプター(LoRA)を統合する単純ながら新規なアプローチを提案する。これにより、以前に学習したIRタスクを忘れることなく新しいタスクを学習できる柔軟なブラインドオールインワンモデルを得ることができる。本稿は、各新規タスクに対して最小限の再訓練しか必要としない分離スキームによってこれを達成する。

3 Method

2は、現在のIR手法における主要な制限に体系的に対処することで低品質画像を向上させる我々の提案アプローチの概要を示している。我々のアプローチは3つのフェーズで構成されており、おおよそ以下の課題を対象としている:(i) 様々な種類の劣化に対する堅牢な汎化(フェーズI)、(ii) 特定の劣化への効果的な適応(フェーズII)、(iii) 未知および混合劣化に対処できる柔軟なオールインワンメカニズム(フェーズIII)。 フェーズI後にベースラインのパラメータを、フェーズII後にアダプターのパラメータを凍結することで、以前のタスクから学習した知識を最大限に保持し、破滅的忘却を回避することに注意されたい。この設計により、新しいアダプターと軽量の推定器のみを訓練することで、最小限の追加訓練で新しい歪みに適応することが可能となる。

Phase I: Pre-training with synthetic degradations.

近年の進歩により、大規模な事前学習モデルが様々なタスクにおいてパフォーマンスを大幅に向上させることが示されている[1]。さらに、ドメインギャップが適切に対処される場合、合成データによる事前学習も有効性を示している[55]。我々は、画像復元(IR)に大規模な事前学習を適用することで、従来のIRデータセットのみで学習する場合と比較して、顕著なパフォーマンス向上が得られると仮定している。したがって、 2に示すように、フェーズIでは、複雑な劣化に対処するための堅牢な重み初期化を提供するために、合成劣化を用いた大規模データでベースラインIRモデルを学習する。

事前学習のための大規模データを取得するために、我々は各高品質入力画像に対して異なる合成歪みを導入することで低品質の対応物を生成する劣化パイプラインを定義する。我々は、ノイズ、ぼかし、雨、霧、低照度条件という5つの一般的な歪みに焦点を当てる。各合成歪みは、実世界の対応物に近似している。例えば、低照度条件は画像ヒストグラムを圧縮し、ピクセル強度のダイナミックレンジを減少させることでシミュレートされる。一方、霧はDepthAnythingv2[55]から推定された深度マップに基づいて無彩色レイヤーを追加することで導入される。 3は各合成劣化の例を示している。我々は、世界中の多様なランドマークの500万枚の画像からなる大規模コレクションであるGoogle Landmarksデータセット(GLD)[53]を使用する。我々のパイプラインへの入力が高品質であることを確保するために、いずれかの辺が400ピクセル未満の解像度の画像をフィルタリングし、NIMAスコア[46]が4.90未満の画像を除外し、高品質な自然画像のみを保持する。

我々のベースラインモデルを構築するために、我々はオールインワンIR手法の最近の進歩に基づいている。特に、我々は空間的注意機構[8]を持つRestormerアーキテクチャ[63]を使用し、PromptIR[40]プロンプトブロックの修正版を組み込んでいる。この組み合わせにより、ベースラインモデルは様々な劣化の固有情報を効果的に捉えることができ、一般化されたIRタスクのための強固な基盤を確立している。

単一の歪みで学習することで、モデルは各タイプに個別に対処できるようになるが、実世界のIRでは混合劣化が関与することが多い。しかし、画像に複数の歪みを直接適用すると、しばしば深刻な品質劣化につながり、モデルが元の画像を再構築することを学習するのが困難になる。この問題に取り組むために、我々は2つの戦略を実装する:(i) 劣化CutMix[61]技術、および (ii) クロスエントロピー損失を持つセグメンテーションヘッド。我々の最初の戦略は、深度推定のためのYangら[55]にインスパイアされたもので、異なる領域に分割された2つの異なる劣化を適用する。このセットアップは、モデルが同じ画像内の複数の劣化タイプを区別し管理するのに役立つ。我々の2番目の戦略として、ベースラインモデルにセグメンテーションヘッドを組み込み、歪みのピクセルごとのマップを出力する。このマップを真値と比較することで、我々はモデルが単一の画像内の複数のタイプの劣化を認識し区別するよう導く。 我々のベースラインと合成歪みの生成に関する追加の詳細は補足資料で報告する。

表1: 5種類の劣化セットアップ。5つのIRデータセットにおける最先端のオールインワン手法と我々のアプローチの定量的結果の比較。Ours (Oracle)は我々のアプローチの上限:我々の推定器が常に正しい劣化を選択した場合に到達可能な最良の値を計算している。
PSNR/SSIM Deraining Dehazing Denoising Deblurring Low-Light Average Param.
Rain100L SOTS (Out) BSD68 σ=25 GoPro LoLv1
AirNet [27] 32.98 .951 21.04 .884 30.91 .882 24.35 .781 18.18 .735 25.49 .847 9M
Uformer [51] 35.48 .967 27.20 .958 30.59 .869 26.41 .809 21.40 .808 28.21 .882 52M
IDR [64] 35.63 .965 25.24 .943 31.60 .887 27.87 .846 21.34 .826 28.34 .893 15M
X-Restormer [8] 35.42 .968 27.58 .959 30.92 .880 27.54 .835 20.88 .817 28.47 .891 26M
DA-CLIP [30] 35.49 .970 28.10 .962 30.42 .859 26.50 .807 21.94 .817 28.49 .880 174M
DiffUIR [66] 35.52 .969 28.17 .964 30.92 .879 26.99 .821 20.92 .789 28.50 .880 36M
Restormer [63] 35.56 .970 27.94 .962 30.74 .875 26.84 .818 21.74 .815 28.56 .888 26M
PromptIR [40] 35.40 .967 28.26 .965 30.89 .872 26.55 .808 21.80 .815 28.58 .885 36M
Ours OH 37.73 .978 33.46 .983 31.38 .898 29.00 .878 24.20 .865 31.15 .920 59M
Ours SW 37.79 .979 33.48 .984 31.38 .898 29.00 .878 24.19 .865 31.17 .921 59M
Ours (Oracle) 39.09 0.981 33.54 .984 31.40 0.901 29.10 .879 24.45 .866 31.39 .922 59M

Phase II: Single-task adaptation.

歪みを人工的に生成することで、我々はベースラインモデルの堅牢な重み初期化を達成した。しかし、事前学習データ(異なるデータセットと人工的な歪みの両方による)、標準的なIRデータセット、および実世界の条件の間には依然としてドメインギャップが存在する。例えば、霧の正確なシミュレーションは特に困難である。これは、粒子による光の散乱が深度や大気条件によって変化するためである。このギャップを埋めるために、我々は各特定タスクに対して学習されたアダプターを用いてベースラインモデルを適応させることを提案する。これは 2に示すように、我々のアプローチのフェーズIIを表している。

我々のアプローチでは、各線形層と畳み込み層に、劣化の種類ごとに1つずつのLoRAセットが追加される。これらは{An}subscript𝐴𝑛\left\{A_{n}\right\}{ italic_A start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT }{Bn}subscript𝐵𝑛\left\{B_{n}\right\}{ italic_B start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT }によってパラメータ化され、n𝑛nitalic_nは劣化のインデックスである。LoRAに従い、これらの低ランク行列は、先に説明したように線形結合を通じて初期の凍結された重みを調整する。簡略化のため、モデルの特定の層を示す添字は省略しているが、各層には別個のアダプターセットがある。提案された事前学習アプローチとその後の適応による特殊化により、本稿のアプローチは多様なタスクにわたって優れた性能を達成し、効果的に一般化する。

Phase III: Multi-task integration.

LoRAアダプターは事前学習モデルに対するプラグアンドプレイソリューションとして機能するが、劣化の種類が不明な場合、入力画像に基づいて最適なアダプターを選択する必要がある。この制限に対処し、ブラインドな統合型IR手法を導出するために、我々は軽量な劣化推定器 p(n|x;θ)𝑝conditional𝑛𝑥𝜃p\left(n|x;\theta\right)italic_p ( italic_n | italic_x ; italic_θ ) を使用して、入力画像 x𝑥xitalic_x が与えられた場合の各劣化 n𝑛nitalic_n の確率を推定することを提案する。これは θ𝜃\thetaitalic_θ によってパラメータ化される。この推定器は、すべての(既知の)データセットの組み合わせで訓練され、画像に存在する劣化の種類を識別することを学習する。 2に示すように、推定器の確率はタスク固有のアダプターをベースラインパラメータと線形結合するための重みとして使用される。具体的には、入力画像 x𝑥xitalic_x が与えられた場合、ベースライン重み W𝑊Witalic_W とアダプター重み {An}subscript𝐴𝑛\left\{A_{n}\right\}{ italic_A start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } および {Bn}subscript𝐵𝑛\left\{B_{n}\right\}{ italic_B start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT } を持つ特定の層の重み更新は以下のように計算される:

W(x)=W+n=1Np(n|x;θ)BnAn,superscript𝑊𝑥𝑊superscriptsubscript𝑛1𝑁𝑝conditional𝑛𝑥𝜃subscript𝐵𝑛subscript𝐴𝑛W^{\prime}\left(x\right)=W+\sum_{n=1}^{N}p\left(n|x;\theta\right)B_{n}A_{n},italic_W start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_x ) = italic_W + ∑ start_POSTSUBSCRIPT italic_n = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT italic_p ( italic_n | italic_x ; italic_θ ) italic_B start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT italic_A start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , (1)

ここで、N𝑁Nitalic_N は既知の劣化の数である。

我々は推定器の2つのバリアントを提案する:(i) ワンホットと (ii) ソフトウェイト。ワンホットバリアントは単に最大確率を持つ劣化に対応するアダプターを選択する(ワンホット確率を用いた1と同等)。一方、ソフトウェイトバリアントは 1のように加重平均を計算する。

我々のアプローチにより、モデルは劣化特有の知識を線形結合して、特定の歪みと複数の歪みの両方に対処することができる。そのモジュラーでパラメータ効率の高いアーキテクチャにより、新しい劣化を少ない訓練努力で追加することも可能である:新しいタスクのための追加アダプターを訓練し、推定器を更新するだけである。

表2: 3種類の劣化設定。3つのIRデータセットにおける最先端の統合型手法と我々のアプローチの定量的結果の比較。
PSNR/SSIM Deraining Dehazing Denoising Average
Rain100L SOTS (Out) BSD68 σ=15 BSD68 σ=25 BSD68 σ=50
DL [14] 32.62 .931 26.92 .931 33.05 .914 30.41 .861 26.90 .740 29.98 .875
MPRNet [62] 33.57 .954 25.28 .954 33.54 .927 30.89 .880 27.56 .779 30.17 .899
AirNet [27] 34.90 .967 27.94 .962 33.92 .933 31.26 .888 28.00 .797 31.20 .909
Restormer [63] 35.56 .969 29.92 .970 33.86 .933 31.20 .888 27.90 .794 31.69 .911
PromptIR [40] 36.37 .972 30.58 .974 33.98 .933 31.31 .888 28.06 .799 32.06 .913
Ours OH 38.58 .981 33.71 .985 33.95 .934 31.29 .889 28.04 .798 33.11 .918
Ours SW 38.52 .980 33.62 .984 33.95 .933 31.24 .889 28.01 .796 33.07 .916
表3: 学習した劣化を用いた追加のテストデータセットにおける定量的結果。
PSNR/SSIM Deraining Deblurring Low-Light
Rain100H HIDE Lolv2-Real
IDR [64] 11.32 .397 16.83 .621 17.61 .697
X-Restormer [8] 14.08 .437 25.40 .801 25.42 .876
DiffUIR [66] 14.78 .487 23.98 .739 26.12 .861
Restormer [63] 14.50 .464 24.42 .781 27.12 .877
PromptIR [40] 14.28 .444 24.49 .762 27.70 .870
Ours OH 21.69 .692 27.04 .850 28.09 .907
Ours SW 19.37 .594 27.05 .850 28.09 .906

4 Experiments

我々は、オールインワンIRに対する2つのセットアップで我々の手法を評価する:5種類および3種類の劣化セットアップである。さらに、トレーニングから除外されたデータセット、新規のIR劣化タイプ、および混合劣化シナリオでテストを行う。手法の精度は、確立された2つの指標であるPSNRとSSIMを用いて評価される。すべてのケースにおいて、我々はすべてのテスト画像の平均値を報告し、各指標について最良および次点の値を強調表示する。我々のアプローチは、最近のオールインワンIR手法と比較される。特筆すべきは、現在の手法の一部が異なるセットアップで評価されているか、利用可能なコードとモデルが欠如しているため、直接的な比較が複雑になっていることである。したがって、我々は3つの最先端手法であるRestormer [63]、PromptIR [40]、およびX-Restormer [8]を5種類の劣化IRセットアップで訓練し、公平な比較を提供する。我々は著者が提供したコードを使用した。我々のアプローチについては、推定器の変種に基づく2つのバリエーション、すなわちワンホット(OH)とソフトウェイト(SW)を評価する。

Implementation details:

我々のトレーニングは、Adam [23]と重み減衰 [29]、初期学習率2×1042superscript1042\times 10^{-4}2 × 10 start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT、コサイン学習率スケジューラ、および1エポックのウォームアップスタートを使用して3つのフェーズで実施される。フェーズIでは、ピクセルごとの劣化マップに対するクロスエントロピー損失LCEsubscript𝐿𝐶𝐸L_{CE}italic_L start_POSTSUBSCRIPT italic_C italic_E end_POSTSUBSCRIPTと再構成損失LRsubscript𝐿𝑅L_{R}italic_L start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPTの重み付き組み合わせを適用する。ここで、LRsubscript𝐿𝑅L_{R}italic_L start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPTL1subscript𝐿1L_{1}italic_L start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT損失とSSIM損失で構成される。クロスエントロピーとSSIMの両方の要素は0.5で重み付けされる。フェーズIIでは、再構成損失のみを使用し、前述のようにSSIM損失は0.5で重み付けされる。フェーズIIIでは、回帰器の出力と入力画像の劣化タイプの間のクロスエントロピー損失を適用する。

表4: 未見のIRタスクに対する定量的結果。モデルはこれらの劣化に対して訓練されていないことに注意。Ours*は軽量な再訓練シナリオの結果を示す。新しいタスクに対して新しいアダプターが訓練され、推定器は8つのタスク(5-IRケース + 3つの新規タスク;訓練パラメータは8Mのみ)で再訓練される。
PSNR/SSIM 4-to-8 bits JPEG Q20 Desnowing
Live1 Live1 City-Snow
IDR [64] 24.02 .738 26.51 .913 18.00 .649
X-Restormer [8] 24.73 .745 26.86 .922 18.51 .681
DiffUIR [66] 24.68 .743 26.88 .921 18.39 .671
Restormer [63] 24.64 .743 26.90 .929 18.14 .655
PromptIR [40] 24.70 .740 26.60 .920 18.49 .673
Ours OH 25.25 .742 29.20 .931 18.71 .684
Ours SW 25.32 .743 29.35 .926 18.67 .683
Ours OH 29.14 .826 30.82 .943 24.19 .797
Ours SW 29.03 .810 30.71 .939 24.02 .779

5-Degradation blind IR:

ブラインド5タスクのセットアップについて、我々はZhangらの[64]のプロトコルに従う。具体的には、降雨除去にはRain200L[56]、霧除去にはRESIDE [25]、ノイズ除去にはσ=25𝜎25\sigma=25italic_σ = 25のBSD400 [33]とWED [32]、ぼけ除去にはGoPro [35]、低照度画像強調にはLOL [52]を使用する。評価には、Rain100L [56]、SOTS-Outdoor [25]、BSD68 [33]、GoPro [35]、およびLOL [52]を使用する。結果は 1に示されている。我々のアプローチは、ノイズ除去のPSNRを除いて、すべてのタスクにおいて最先端の手法を上回る性能を示している。特筆すべきは、我々の手法が最先端の手法に対して大幅な改善を達成し、5つのタスク全体で平均2.91 dBのPSNR向上を実現していることである。特に、我々の手法はIDR [64]を画像降雨除去で2.16 dB上回り、PromptIR [40]を低照度画像強調で2.40 dB改善している。

GoPro [35] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

LoLv1 [52] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

Rain100H [56] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

入力 Restormer [63] PromptIR [40] Ours-OH 真値

図4: 単一劣化除去の定性的結果。GoPro [35]データセットのぼけ除去、LoLv1 [52]データセットのノイズ除去、Rain100H [56]データセットの降雨除去を含む。

3-Degradation Blind IR:

Li et al. [27]に従い、我々は3タスクのブラインドIRセットアップで我々のアプローチをさらに評価し、除雨、除霧、およびノイズ除去のための専門的なオールインワン手法と比較する。5タスクのセットアップと比較して、デブラーリングと低光量強調を省略し、代わりに2つの追加のノイズレベル:σ=15𝜎15\sigma=15italic_σ = 15およびσ=50𝜎50\sigma=50italic_σ = 50を導入する。これらのノイズレベルに対して2つのLoRAアダプターが訓練され、推定器は新しい設定で再訓練される。この3タスクセットアップの結果を 2に示す。我々のアプローチは、平均して他のすべての最先端の手法を上回り、すべての劣化タイプで一貫性を保っている。

JPEG [42] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
4から8ビット [42] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
入力 PromptIR [40] Ours-SW Ours-SW 再訓練 真値

図5: 未知のIRタスクに対する定性的結果。JPEGアーティファクト除去と4から8ビット再構成を含む。PromptIR [40]と我々の手法はこのタスクに対して訓練されていないが、再訓練された我々の手法は8劣化セットアップで指定されたLoRAを持つ。

Additional test sets:

我々のアプローチの汎化能力を評価するため、トレーニング時に使用していない3つのデータセットでモデルを評価する。具体的には、重度の雨除去のためのRain100H [56]データセット、人物中心のデブラーリングのためのHIDE [43]、低照度画像強調のためのLoLv2-Real [58]を使用する。5種類の劣化設定における上位3つの手法と我々のアプローチの結果を 3に示す。我々の手法は、すべてのデータセットとメトリクスにおいて他のすべてのアプローチを上回っている。特筆すべきは、Rain100H [56]においてRestormer [63]を7.19 dB上回る大幅な改善を達成したことである。この性能向上は、合成データによる事前学習に起因すると考えられる。これにより、我々のモデルは、他の手法がRain200L [56]のような小規模なトレーニングセットを使用しているのに対し、より広範な自然画像と劣化シナリオから学習することができる。さらに、HIDEとLoLv2-Realの両方で1 dB以上のPSNR改善を達成しており、我々のアプローチの有効性と堅牢性をさらに実証している。

Unseen IR tasks:

我々のアプローチは当初5種類の劣化に対して訓練されたが、さらに訓練時に遭遇しなかった3つの追加IRタスクへの汎化性能を評価する。具体的には、Live1データセット[42]を用いてJPEGアーティファクト除去とビット深度再構築について、そしてCityScapes-Snow-Medium[65]を用いて除雪について我々の手法を評価する。5種類の劣化設定における上位4つの従来の最先端手法と我々のアプローチの結果を 4に示す。注目すべきことに、我々の手法はすべてのタスクとメトリクスにおいて他のすべてのアプローチを上回っている。我々のアプローチの適応性を示すために、さらに各新規タスクに対して個別のアダプターを訓練し、8つのタスク固有のアダプターをすべてブレンドする新しい推定器を訓練することで、モデルの汎用性を拡張した。 4の最後の2行は、新たに統合されたタスクの結果を報告している — で示されている。特筆すべきは、これらのタスク固有のアダプターを追加することで、我々のモデルは顕著な性能向上を達成し、同時に元の5つのIRタスクにおいて平均PSNR 30.08 dBを維持し、初期設定で訓練された他の最先端手法を上回っていることである。

ぼけとノイズ Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
霧と雪 Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

入力 Restormer [63] PromptIR [40] 我々の手法-SW 真値

図6: 混合劣化の2つの例に対する定性的結果。1行目はGoProデータセット[35]からのぼけとノイズを含む画像を示し、2行目はSRRSデータセット[6]からの霧と雪を含む画像を示している。列は順に入力画像、Restormer[63]の結果、PromptIR[40]の結果、我々の手法の結果、真値を表示している。

Mixed degradations:

複合劣化を含むデータセットの入手が限られていることは、これらの複雑な条件下でIRモデルを訓練する上で課題となっている。我々のアプローチを評価するため、3つの複合劣化シナリオで評価を行った:GoProデータセット[35]を用いたぼかしとノイズの組み合わせσ=25𝜎25\sigma{=}25italic_σ = 25、REDSデータセット[36]を用いたぼかしとJPEGアーティファクトの組み合わせ、そしてSRRSデータセット[6]を用いた霧と雪の組み合わせである。特筆すべきは、JPEGアーティファクトや雪などの一部の劣化が訓練時には見られなかったことであり、これらのテストの難易度をさらに高めている。 5に示すように、我々のモデルはすべてのシナリオとメトリクスにおいて一貫して他の手法を上回っている。ぼかしとノイズの処理は、その対照的な性質のため特に困難である:ぼかしは低周波数に影響を与え、ノイズは高周波数に影響を与える。それにもかかわらず、我々のモデルは約2dBの改善を達成し、他の手法が22dBレベルにとどまっている中で成果を上げている。

表5: 複合劣化を含むデータセットにおける定量的結果。
PSNR/SSIM Blur&Noise Blur&JPEG Haze&Snow
GoPro REDS SRRS
IDR [64] 21.98 .683 23.02 .681 20.51 .789
X-Restormer [8] 22.67 .669 23.98 .710 20.76 .805
DiffUIR [66] 22.71 .670 24.00 .711 20.86 .802
Restormer [63] 22.35 .662 23.24 .698 20.76 .800
PromptIR [40] 22.89 .671 23.92 .705 20.94 .803
X-Restormer [8] 22.67 .669 23.98 .710 20.76 .805
Ours OH 24.30 .743 24.81 .717 21.48 .834
Ours SW 25.14 .750 24.97 .719 22.09 .839
表6: フェーズIの事前訓練の種類、およびフェーズIIとIIIにおけるLoRA [19]のランクに関するアブレーション研究。
Pre-training PSNR SSIM
IR datasets 28.50 .892
GLD+synth. 30.63 .913
+ CutMix 31.09 .920
+ Aux. segm. 31.17 .921
Rank PSNR SSIM Params
4 31.17 .921 3.6M
8 31.14 .920 7.2M
16 30.97 .916 14.3M

Qualitative results:

4において、我々はモデルが訓練された5タスクのセットアップから3種類の単一劣化の例を示す。我々のアプローチは、1行目ではナンバープレートを効果的に強調し、2行目では低光量条件下のノイズを軽減し、3行目では激しい雨の筋を除去している。5では、Live1データセット[42]を用いたJPEGアーティファクト除去や4ビットから8ビットへの再構築など、未見のIRタスクを示す。我々の手法は、オウムの羽毛からJPEGアーティファクトを成功裏に除去し、ビット深度の削減によって生じた雲と青空のアーティファクトを除去している。これらのタスクに対して新しいアダプターを訓練することで(ours-SW retrained)、最小限の追加訓練時間で優れた結果を達成している。最後に、6では、混合劣化下での我々の手法の性能を示す。1行目は、我々の手法が画像内のテキストの最良の再構築を達成していることを示し、2行目は霧と雪片の両方を除去する上での我々のモデルの有効性を示している。

Ablation studies:

6において、我々は提案する事前学習パイプラインとLoRAのランクが最終的な性能にどのように寄与しているかを評価するためのアブレーション実験を行った。フェーズIの事前学習では、5タスク構成と同じセットアップを使用した。すなわち、タスク固有のIRデータセットを用いてLoRAと推定器を学習し、得られた事前学習済みの重みを使用した。最初の行 — IRデータセット — は標準的なIRベンチマークでの事前学習を反映しており、最先端の手法と同等の性能を示している — 1を参照。対照的に、GLDに合成劣化を加えて単純に事前学習を行うだけでPSNRが2.15 dB向上し、モデルに強力な汎化能力を提供するフェーズIの重要性が示された。さらに、CutMix類似の戦略[61]と補助的なセグメンテーションタスクの両方を組み込むことで、追加の性能向上が得られた。我々はまた、フェーズIIとIIIにおいて異なるランクのLoRA [19]を比較した。モデルはランクを4に設定した場合に最高の性能と効率を達成し、これを我々のデフォルト設定として採用した。さらなるアブレーション結果については、補足資料を参照されたい。

5 Conclusion

本稿では、実用的なIRを目指す適応型ブラインドオールインワンIRモデルを紹介した。我々は、特定の歪みを強力に処理するための専用アダプターと、実用的なIRの課題に対処するための柔軟なアーキテクチャの両方を設計した。まず、大規模データセットに対して複数の合成劣化を特徴とする事前学習パイプラインを開発し、モデルの汎化性能を向上させた。次に、特定の劣化に対してロバストに適応するコンパクトなタスク別アダプターを導入した。第三に、様々な劣化を識別し、それぞれのアダプターをブレンドする軽量な劣化推定器を開発した。これは、パラメータの一部を学習することで新しい劣化を効率的に組み込むことも可能である。我々のモデルは、5タスクおよび3タスクのIR設定において最先端の手法を大きく上回る性能を示し、未知のデータセットやIRタスクに対する汎化性能も向上した。

Acknowledgements

DSL、LH、およびJVCは、MCIN/AEI/10.13039/501100011033および欧州地域開発基金(ERDF)「欧州を作る方法」によって資金提供された助成金PID2021-128178OB-I00、カタルーニャ州政府研究・大学局からの参照番号2021SGR01499の助成金、およびカタルーニャ州政府CERCAプログラムによって支援を受けた。DSLはまた、スペイン科学イノベーション省からのFPI助成金(PRE2022-101525)を受けている。LHはまた、ラモン・イ・カハル助成金RYC2019-027020-Iによって支援を受けた。SSは、欧州連合が資金提供するHORIZON MSCA博士研究員フェローシップ(プロジェクト番号101152858)によって支援を受けた。

6 Supplementary Material

我々は本稿の主要な提出物を補完する追加資料を提供する。具体的には、以下の内容を取り上げる:

  1. A.

    我々のベースラインアーキテクチャに関する詳細。

  2. B.

    雨、霧、ノイズ、ぼかし、低照度条件を含む合成劣化の生成プロセスの説明。追加のデータセット例。

  3. C.

    LoRAのランクおよび他の分解手法に関する追加のアブレーション実験。

  4. D.

    我々の推定器アーキテクチャの詳細および推定器の性能に関する追加の分析。

  5. E.

    既知のデータセット、未見のタスク、および複合的な劣化を含む画像に関する追加の定性的結果。

Appendix A Baseline Architecture Details

我々は、画像復元(IR)技術と実践的な複雑なシナリオへの応用の間のギャップを埋めるために設計された適応型ブラインドオールインワン画像復元(ABAIR)手法を提案する。我々のアプローチは3段階のスキームに従う。第一段階では、合成劣化を伴う自然画像を用いてIRベースラインの事前学習を行う。本節では、このベースラインアーキテクチャについて説明する。7に我々のベースラインモデルの詳細を示す。我々のベースラインモデルは、トランスフォーマーベースのUNet様フレームワークであるRestormer [63]アーキテクチャを採用している。劣化画像が与えられると、モデルはまず畳み込み層を適用して、サイズH×W×C𝐻𝑊𝐶H\times W\times Citalic_H × italic_W × italic_Cの低レベル特徴を抽出する。ここで、H𝐻Hitalic_HW𝑊Witalic_Wは空間次元であり、C=48𝐶48C{=}48italic_C = 48は我々のすべての実験において同じである。これらの特徴は、トランスフォーマーブロックで構成される4レベルのエンコーダ-デコーダ構造を通して処理され、ダウンサンプリングとアップサンプリングにはそれぞれピクセルアンシャッフリングとシャッフリング[44]が使用される。最後に、畳み込み層が残差画像を生成し、これが劣化入力画像に加算されて復元された出力が生成される。

各トランスフォーマーブロックは、チャネル自己注意モジュールとそれに続く空間自己注意モジュールで構成される。チャネル自己注意には、Zamirら[63]の実装を採用し、空間注意には、Chenら[9]が提案したオーバーラッピングクロス注意メカニズムを使用する。この組み合わせは、RestormerのU字型アーキテクチャの限界、特に高周波詳細の再構築の困難さ[8]を効果的に解決する。さらに、Potlapalliら[40]にインスパイアされ、アップサンプリングパスのトランスフォーマーブロック間にプロンプトブロックを統合する。このブロックは、抽出された特徴とモデルパラメータのセットを組み合わせることで、入力画像の劣化特有の特徴を識別するのを助ける。我々のプロンプトブロックの設計を8に示す。

Refer to caption
図7: 我々のベースラインモデルの概要。入力された劣化画像は、トランスフォーマーブロックを含む4層のU字型ネットワークを通して処理される。アップサンプリングの過程では、モデルが劣化特有の情報を捉えるのを支援するためにプロンプトブロックが統合されている。
Refer to caption
図8: 我々のプロンプトブロックの概要。トランスフォーマーブロックの出力から得られる入力特徴は、モデルパラメータのセットとの重み付け要素ごとの乗算を通じて変調される。これらの変調された特徴は、その後、追加のトランスフォーマーブロックを用いてさらに洗練され、プロンプトブロックの強化された出力特徴を生成する。

Appendix B Synthetic Degradations Generation

我々のアプローチの第一段階は、雨、霧、ノイズ、ぼかし、低照度条件を含む合成的に生成された劣化を伴う自然画像を用いてベースラインモデルを事前訓練することである。標準的なIRデータセットとは異なり、我々のパイプラインは清浄な入力画像に動的に劣化を導入し、同じ画像に対して多様な劣化タイプと様々な深刻度レベルでモデルを訓練できるようにすることで、より大きな柔軟性を提供する。さらに、各劣化タイプは歪みの深刻度を制約する一連のパラメータによって特徴づけられる。訓練中、これらのパラメータは各順伝播で無作為に選択される。具体的には、我々はGoogleランドマークデータセット[53]から450K枚の画像を使用する—NIMAスコアが4.90より高く、短辺の解像度が400より大きいものを選び、多様な実際のシーンを提供する。 9は、異なるパラメータ設定下での様々な劣化の例を示している。以下では、各種の合成劣化の生成プロセスについて詳述する。

Rain:

雨の降る劣化画像とクリーンな画像のペアを捉えることは本質的に困難である。なぜなら、同じシーンを雨天と晴天の下で撮影する際に、環境条件が変化することが多いためである。そのため、雨除去データセットは通常、事前に定義された雨の筋のマスクを作成し、それを入力画像に追加することで雨をシミュレートしている。しかし、これらのデータセットには多くの場合、限られた数のマスクしか含まれておらず[56]、データセットに存在する特定のパターンに過適合する可能性がある。我々の場合、より一般的なマスクのセットを導出することを目指し、密度、長さ、角度、雨滴サイズ、ブレンディングの重みという5つの調整可能なパラメータを考慮している。

雨の降る画像Irainsubscript𝐼𝑟𝑎𝑖𝑛I_{rain}italic_I start_POSTSUBSCRIPT italic_r italic_a italic_i italic_n end_POSTSUBSCRIPTを生成するプロセスは、入力画像Iinputsubscript𝐼𝑖𝑛𝑝𝑢𝑡I_{input}italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPTと同じサイズの空のマスクM𝑀Mitalic_Mを作成することから始まる。このマスクは雨の筋のパターンを保持する。密度パラメータd𝑑ditalic_dは雨滴の数を決定し、これは総画素数の割合として計算される。雨滴の開始位置のランダムな座標が生成され、指定された雨滴サイズs𝑠sitalic_sに対応するために境界内に収まるようにする。これらの座標を使用してM𝑀Mitalic_Mに雨滴を配置する。次に、指定された雨の長さl𝑙litalic_lと角度θ𝜃\thetaitalic_θに基づいて、雨の筋の外観をシミュレートするためのモーションブラーカーネルK𝐾Kitalic_Kが構築される。マスクM𝑀Mitalic_MK𝐾Kitalic_Kと畳み込まれ、自然な雨のパターンを模倣する筋を作成する。最後に、雨の筋は正規化され、入力画像の次元に合わせて3つのRGBチャンネルに拡張される。これらの筋は、重みw𝑤witalic_wを使用して元の画像Iinputsubscript𝐼𝑖𝑛𝑝𝑢𝑡I_{input}italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPTとブレンドされ、最終的な雨が追加された画像Irainsubscript𝐼rainI_{\text{rain}}italic_I start_POSTSUBSCRIPT rain end_POSTSUBSCRIPTが生成される。すべての入力パラメータは各フォワードパスでランダムに選択される。数学的には—明確さのために正規化を省略すると、

Irain=wIinput+(1w)(KM).subscript𝐼𝑟𝑎𝑖𝑛𝑤subscript𝐼𝑖𝑛𝑝𝑢𝑡1𝑤𝐾𝑀I_{rain}=wI_{input}+(1-w)(K*M).italic_I start_POSTSUBSCRIPT italic_r italic_a italic_i italic_n end_POSTSUBSCRIPT = italic_w italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT + ( 1 - italic_w ) ( italic_K ∗ italic_M ) . (2)

値の範囲は、雨の密度d𝑑ditalic_d[0.005,0.02]0.0050.02[0.005,0.02][ 0.005 , 0.02 ]、雨の長さl𝑙litalic_l[25,35]2535[25,35][ 25 , 35 ]、雨の角度θ𝜃\thetaitalic_θ[70,110]70110[70,110][ 70 , 110 ]、雨滴サイズs𝑠sitalic_s[1,3]13[1,3][ 1 , 3 ]、マスクの重み[0.75,1]0.751[0.75,1][ 0.75 , 1 ]である。

d=0.005𝑑0.005d{=}0.005italic_d = 0.005l=25𝑙25l{=}25italic_l = 25θ=70𝜃superscript70\theta{=}70^{\circ}italic_θ = 70 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT 最小=0.2absent0.2{=}0.2= 0.2、最大=0.7absent0.7{=}0.7= 0.7 s=1𝑠1s{=}1italic_s = 1、およびw=0.75𝑤0.75w{=}0.75italic_w = 0.75 A=140𝐴140A{=}140italic_A = 140 σ=15𝜎15\sigma{=}15italic_σ = 15 d=9𝑑9d{=}9italic_d = 9およびΘ=0Θsuperscript0\Theta{=}0^{\circ}roman_Θ = 0 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT c=0.25𝑐0.25c{=}0.25italic_c = 0.25およびσ=0.5𝜎0.5\sigma{=}0.5italic_σ = 0.5

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption

d=0.01𝑑0.01d{=}0.01italic_d = 0.01l=30𝑙30l{=}30italic_l = 30θ=90𝜃superscript90\theta{=}90^{\circ}italic_θ = 90 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT 最小=0.3absent0.3{=}0.3= 0.3、最大=0.8absent0.8{=}0.8= 0.8 s=2𝑠2s{=}2italic_s = 2、およびw=1𝑤1w{=}1italic_w = 1 A=160𝐴160A{=}160italic_A = 160 σ=25𝜎25\sigma{=}25italic_σ = 25 d=25𝑑25d{=}25italic_d = 25およびΘ=45Θsuperscript45\Theta{=}45^{\circ}roman_Θ = 45 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT c=0.5𝑐0.5c{=}0.5italic_c = 0.5およびσ=1𝜎1\sigma{=}1italic_σ = 1

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption

d=0.01𝑑0.01d{=}0.01italic_d = 0.01l=30𝑙30l{=}30italic_l = 30θ=90𝜃superscript90\theta{=}90^{\circ}italic_θ = 90 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT 最小=0.3absent0.3{=}0.3= 0.3、最大=0.8absent0.8{=}0.8= 0.8 s=3𝑠3s{=}3italic_s = 3、およびw=1𝑤1w{=}1italic_w = 1 A=180𝐴180A{=}180italic_A = 180 σ=25𝜎25\sigma{=}25italic_σ = 25 d=25𝑑25d{=}25italic_d = 25およびΘ=90Θsuperscript90\Theta{=}90^{\circ}roman_Θ = 90 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT c=0.5𝑐0.5c{=}0.5italic_c = 0.5およびσ=1.5𝜎1.5\sigma{=}1.5italic_σ = 1.5

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption

d=0.02𝑑0.02d{=}0.02italic_d = 0.02l=35𝑙35l{=}35italic_l = 35θ=110𝜃superscript110\theta{=}110^{\circ}italic_θ = 110 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT 最小=0.4absent0.4{=}0.4= 0.4、最大=0.9absent0.9{=}0.9= 0.9 s=1𝑠1s{=}1italic_s = 1、およびw=1𝑤1w{=}1italic_w = 1 A=200𝐴200A{=}200italic_A = 200 σ=50𝜎50\sigma{=}50italic_σ = 50 d=35𝑑35d{=}35italic_d = 35およびΘ=135Θsuperscript135\Theta{=}135^{\circ}roman_Θ = 135 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT c=0.25𝑐0.25c{=}0.25italic_c = 0.25およびσ=1.5𝜎1.5\sigma{=}1.5italic_σ = 1.5

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption

ノイズ ブラー 低照度

図9雨、霧、ノイズ、ブラー、低照度条件に対する我々の合成劣化生成の追加例。各画像の上部には、対応する劣化出力を生成するために使用された特定のパラメータを報告している。

Haze:

雨天画像と同様に、霧の条件下で劣化画像とクリーンな画像のペアを撮影することは、環境要因の変動性のためにほぼ不可能である。先行研究[26, 3, 16]に触発され、我々はKochsmiederモデル[17]を用いて霧の劣化をモデル化する。このモデルは、遠くの物体の視認性が観察者からの距離の関数として減少し、地平線に消えていく様子を記述している。我々はこれを以下のように定式化できる:

Ihaze=TIinput+(1T)A,subscript𝐼𝑎𝑧𝑒𝑇subscript𝐼𝑖𝑛𝑝𝑢𝑡1𝑇𝐴I_{haze}=T\cdot I_{input}+(1-T)\cdot A,italic_I start_POSTSUBSCRIPT italic_h italic_a italic_z italic_e end_POSTSUBSCRIPT = italic_T ⋅ italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT + ( 1 - italic_T ) ⋅ italic_A , (3)

ここで、Iinputsubscript𝐼𝑖𝑛𝑝𝑢𝑡I_{input}italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPTは入力のクリーンな画像、T𝑇Titalic_Tは推定された深度マップから導出された透過マップ、A𝐴Aitalic_Aは大気光、Ihazesubscript𝐼𝑎𝑧𝑒I_{haze}italic_I start_POSTSUBSCRIPT italic_h italic_a italic_z italic_e end_POSTSUBSCRIPTは合成霧を含む結果画像である。

我々は、DepthAnythingv2 [55]を使用して入力画像の深度マップを推定する。この深度マップは、事前に定義された最小および最大霧値の範囲内で正規化され、透過マップT𝑇Titalic_Tを生成する。その後、深度マップは各色チャンネルに複製され、 3の計算に使用される。変動性を確保するため、すべてのパラメータは各フォワードパスでランダムにサンプリングされる。パラメータの範囲は以下の通りである:最小霧[0.2,0.4]0.20.4[0.2,0.4][ 0.2 , 0.4 ]、最大霧[0.7,0.9]0.70.9[0.7,0.9][ 0.7 , 0.9 ]、大気光は3つの色チャンネルで固有の値を持ち、その範囲は[140,200]140200[140,200][ 140 , 200 ]である。

Blur:

画像のぼかしは、モーションブラー、ピンぼけ、レンズのぼけなど、様々な要因から生じる可能性がある。本稿では、実用的な応用に関連性が高いため、モーションブラーのシミュレーションに焦点を当てる。ぼかし効果は、入力画像Iinputsubscript𝐼𝑖𝑛𝑝𝑢𝑡I_{input}italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPTを、特定の方向に沿ったモーションブラーをモデル化するように設計されたパラメータ化されたカーネルK𝐾Kitalic_Kと畳み込むことによって導入される。カーネルは、ピクセル単位のサイズ(d𝑑ditalic_d)と角度(ΘΘ\Thetaroman_Θ)によって定義され、モーションブラーの特徴である方向性のあるストリークをシミュレートする。数学的には、

Iblur=KΘ,dIinput.subscript𝐼𝑏𝑙𝑢𝑟subscript𝐾Θ𝑑subscript𝐼𝑖𝑛𝑝𝑢𝑡I_{blur}=K_{\Theta,d}*I_{input}.italic_I start_POSTSUBSCRIPT italic_b italic_l italic_u italic_r end_POSTSUBSCRIPT = italic_K start_POSTSUBSCRIPT roman_Θ , italic_d end_POSTSUBSCRIPT ∗ italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT . (4)

カーネルサイズ(d𝑑ditalic_d)は[9,35]935[9,35][ 9 , 35 ]の範囲内の奇数値から選択され、角度(ΘΘ\Thetaroman_Θ)はぼかしの方向を度単位で指定し、[0,360]0360[0,360][ 0 , 360 ]の範囲である。

Noise:

我々は、ノイズに対して標準的な加法性白色ガウスノイズ(AWGN)アプローチを使用する。簡単に言えば、元の画像に平均00、分散σ𝜎\sigmaitalic_σのガウス分布に従う第二の画像を加える。数学的には、

Inoise=Iinput+𝒩(0,σ).subscript𝐼𝑛𝑜𝑖𝑠𝑒subscript𝐼𝑖𝑛𝑝𝑢𝑡𝒩0𝜎I_{noise}=I_{input}+\mathcal{N}(0,\sigma).italic_I start_POSTSUBSCRIPT italic_n italic_o italic_i italic_s italic_e end_POSTSUBSCRIPT = italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT + caligraphic_N ( 0 , italic_σ ) . (5)

Low-Light:

画像が低光量条件下で撮影される場合、カメラはセンサーの信号を増幅して詳細を捉えようとするが、これによりノイズも増幅され、粒状や斑点状のアーティファクトが生じる。さらに、ダイナミックレンジの縮小により、輝度の範囲を捉える能力が制限され、色の不整合や影とハイライトの詳細の損失につながる。これらの条件をシミュレートするために、我々は入力画像のヒストグラムを係数c𝑐citalic_cで圧縮し、非常に小さなσ𝜎\sigmaitalic_σ値のノイズを加える。このプロセスは数学的に以下のように表現できる:

Ilol=Iinputc+𝒩(0,σ).subscript𝐼𝑙𝑜𝑙subscript𝐼𝑖𝑛𝑝𝑢𝑡𝑐𝒩0𝜎I_{lol}=I_{input}\cdot c+\mathcal{N}(0,\sigma).italic_I start_POSTSUBSCRIPT italic_l italic_o italic_l end_POSTSUBSCRIPT = italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT ⋅ italic_c + caligraphic_N ( 0 , italic_σ ) . (6)

圧縮係数c𝑐citalic_cは区間[0.25,0.5]0.250.5[0.25,0.5][ 0.25 , 0.5 ]の範囲であり、σ𝜎\sigmaitalic_σは区間[0.5,1.5]0.51.5[0.5,1.5][ 0.5 , 1.5 ]の値をとる。

表7: 異なる低ランクアダプターとそのランクに関するアブレーション研究。結果はすべての画像の平均である。LoRAはVeRAとConv-LORAの両方を上回る性能を示す。低いランクの方がより良い性能を示す。
PSNR/SSIM Deraining Dehazing Denoising Deblurring Low-Light Average Adapter Param.
Method Rank Rain100L SOTS (Out) BSD68 σ=25 GoPro LoLv1
LoRA [19] 4 37.79 .979 33.48 .984 31.38 .898 29.00 .878 24.19 .865 31.17 .921 3.6M
8 37.75 .978 33.4 .982 31.39 .898 29.02 .878 24.18 .865 31.15 .920 7.2M
16 37.61 .972 33.21 .977 31.31 .896 28.77 .875 23.96 .862 30.97 .916 14.3M
VeRA [24] 4 37.02 .971 32.67 .972 31.32 .896 28.61 .872 23.78 .580 30.68 .858 460K
8 37.09 .971 32.69 .972 31.32 .896 28.64 .873 23.79 .580 30.71 .858 468K
16 37.04 .970 32.62 .970 31.33 .896 28.62 .872 23.84 .581 30.69 .858 476K
Conv-LoRA [67] 4 37.00 .969 32.55 .971 31.32 .896 28.54 .870 23.70 .576 30.62 .856 3.9M
8 36.94 .968 32.44 .968 31.30 .895 28.48 .868 23.62 .575 30.56 .855 7.5M

Appendix C Additional Phase II Ablation Studies

我々のアプローチの第二段階では、各種の劣化に対してアダプターのセット — 本稿の主要部分ではLoRA [19] — を訓練する。本節では、他の低ランク分解とそのランクを含めて分析を拡張する。具体的には、VeRA [24] とConv-LoRA [67] を評価する。 5種類の劣化設定における3種類のアダプターの結果を 7に示す。最後の列には各アダプターの学習可能なパラメータ数も含まれている。公平な比較のため、同じベースラインモデルの重みと推定器を使用し、タスク固有のアダプターのみを訓練した。これらの手法の中で、LoRA [19] が全体的に最良の性能を達成している。しかし、VeRA [24] は、2つの低ランク行列ではなく層ごとに2つのベクトルのみを推定するため、大幅に少ないパラメータで競争力のある結果を提供している。一方、Conv-LoRA [67] は、分解された空間での畳み込み層を用いたMixture-of-Expertsアプローチのため、より多くのパラメータを持つにもかかわらず性能が劣る。分解ランクに関しては、ランク4と8が一貫してランク16を精度とパラメータ効率の両面で上回ることが分かった。

表8: 5種類の劣化のタスク固有LoRA [19] アダプターをブレンドするための異なる手法に関するアブレーション実験。
PSNR/SSIM Deraining Dehazing Denoising Deblurring Low-Light Average
Method Rain100L SOTS (Out) BSD68 σ=25 GoPro LoLv1
Sum 19.50 .755 18.80 .745 18.10 .730 18.25 .728 17.70 .715 18.67 .736
Average 30.54 .939 20.87 .855 28.98 .785 21.34 .792 15.49 .673 23.84 .809
Ours OH 37.73 .978 33.46 .983 31.38 .898 29.00 .878 24.20 .865 31.15 .920
Ours SW 37.79 .979 33.48 .984 31.38 .898 29.00 .878 24.19 .865 31.17 .921

Appendix D Additional Phase III Analysis

我々の手法の第三フェーズでは、入力画像に基づいて最適なアダプターのセットを選択または融合するエスティメーターを訓練する。エスティメーターのアーキテクチャは、4つのConv2Dレイヤーブロックで構成され、各ブロックの後にバッチ正規化、ReLU活性化、最大プーリングが続き、最終的にグローバル平均プーリング層と線形射影で終わる。エスティメーターの総パラメータ数は538Kである。

既知の劣化(既知および未知のデータセットの両方)に対するOne-Hot予測を示す混同行列を 10に示す。エスティメーターは、ほとんどの場合、90%を超える確率で既知の劣化を予測する。しかし、未知のデータセットの1つであるRain100Hデータセット[56]については、予測確率が90%を下回る。これは、雨筋の深刻さとそれらがヘイズ関連の劣化に類似していることが原因である可能性が高い。注目すべきは、エスティメーターが誤ったアダプターを選択した場合でも、大規模な事前学習の堅牢性により、重大なアーティファクトや望ましくない効果は導入されないことである。

最後に、我々のエスティメーターの重要性を強調するために、5つの劣化タスク固有のアダプターを単に追加または平均化する方法と我々のアプローチを比較する最終的なアブレーションを実施する。 8にこのアブレーションの結果を示す。すべてのアダプターを追加すると、ΔWΔ𝑊\Delta Wroman_Δ italic_Wの値がベースラインモデルが効果的に処理できるほど過度に大きくなる。一方、アダプターを平均化すると、モデルが特定の劣化タイプに特化できないため、最適ではない復元画像が生成される。

Refer to caption
図10: テスト画像における我々の推定器の混同行列。最初の5列:訓練時に考慮された既知の劣化を伴うデータセット。最後の3列:雨、ぼかし、低照度に関する未知のデータセット。具体的に、左から右へ、データセットは以下の通りである:Rain100L [56]、BSD68 [33]、SOTS(屋外) [26]、GoPro [35]、LoLv1 [52]、Rain100H [56]、HIDE [43]、およびLoLv2-Real [57]である。

Appendix E Additional Qualitative Results

11は、既知の劣化に対する追加の定性的結果を示しており、既知および未知のデータセットからの例を含んでいる。12は未知の劣化に対する結果を強調しており、各画像の下に対応する平均絶対誤差(MAE)マップを表示して差異を強調している。最後に、13は混合劣化シナリオに対する定性的結果を示している。

[56] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

[26] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

ノイズ [35] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

ぼかし [35] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

低照度 [52] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

Rain100H [56] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

LoLv2-Real [58] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
入力 Restormer [63] PromptIR [40] Ours-OH 真値

図11: 既知の劣化除去に関する定性的結果。既知のデータセット(1行目から5行目)と未知のデータセット(6行目から8行目)の両方を示している。

JPEG [42] Refer to caption

Snow [65] Refer to caption

入力/正解 Restormer [63] PromptIR [40] 我々の手法-SW 我々の手法-SW 再学習

図12: Live1データセット[42]におけるJPEGアーティファクト除去とCityScapes-Snow-Medium [65]における除雪の定性的結果である。各画像の下に平均絶対誤差マップを示している。

ぼかし&JPEG [36] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

霧&雪 [6] Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

入力 Restormer [63] PromptIR [40] 我々のOH 真値

図13: 複合劣化シナリオにおける定性的結果。具体的には、REDSデータセット[36]におけるぼかしとJPEG、およびSRRSデータセット[6]における霧と雪である。

References

  • Abnar et al. [2022] Samira Abnar, Mostafa Dehghani, Behnam Neyshabur, and Hanie Sedghi. Exploring the limits of large scale pre-training. In ICLR, 2022.
  • Ai et al. [2024] Yuang Ai, Huaibo Huang, Xiaoqiang Zhou, Jiexiang Wang, and Ran He. Multimodal prompt perceiver: Empower adaptiveness generalizability and fidelity for all-in-one image restoration. In CVPR, 2024.
  • Ancuti et al. [2016] Cosmin Ancuti, Codruta O. Ancuti, and Christophe De Vleeschouwer. D-hazy: A dataset to evaluate quantitatively dehazing algorithms. In ICIP, pages 2226–2230, 2016.
  • Cai et al. [2023] Yuanhao Cai, Hao Bian, Jing Lin, Haoqian Wang, Radu Timofte, and Yulun Zhang. Retinexformer: One-stage retinex-based transformer for low-light image enhancement. In ICCV, 2023.
  • Chen et al. [2022] Liangyu Chen, Xiaojie Chu, Xiangyu Zhang, and Jian Sun. Simple baselines for image restoration. In ECCV, 2022.
  • Chen et al. [2020] Wei-Ting Chen, Hao-Yu Fang, Jian-Jiun Ding, Cheng-Che Tsai, and Sy-Yen Kuo. Jstasr: Joint size and transparency-aware snow removal algorithm based on modified partial convolution and veiling effect removal. In ECCV, pages 754–770. Springer, 2020.
  • Chen et al. [2023a] Xiang Chen, Hao Li, Mingqiang Li, and Jinshan Pan. Learning a sparse transformer network for effective image deraining. In CVPR, pages 5896–5905, 2023a.
  • Chen et al. [2023b] Xiangyu Chen, Zheyuan Li, Yuandong Pu, Yihao Liu, Jiantao Zhou, Yu Qiao, and Chao Dong. A comparative study of image restoration networks for general backbone network design. arXiv preprint arXiv:2310.11881, 2023b.
  • Chen et al. [2023c] Xiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao, and Chao Dong. Activating more pixels in image super-resolution transformer. In CVPR, pages 22367–22377, 2023c.
  • De Lange et al. [2022] Matthias De Lange, Rahaf Aljundi, Marc Masana, Sarah Parisot, Xu Jia, Aleš Leonardis, Gregory Slabaugh, and Tinne Tuytelaars. A continual learning survey: Defying forgetting in classification tasks. IEEE TPAMI, 44(7):3366–3385, 2022.
  • Delbracio and Milanfar [2023] Mauricio Delbracio and Peyman Milanfar. Inversion by direct iteration: An alternative to denoising diffusion for image restoration. TMLR, 2023.
  • Dong et al. [2011] Weisheng Dong, Lei Zhang, Guangming Shi, and Xiaolin Wu. Image deblurring and super-resolution by adaptive sparse domain selection and adaptive regularization. IEEE TIP, 20(7):1838–1857, 2011.
  • Dong et al. [2018] Weisheng Dong, Peiyao Wang, Wotao Yin, Guangming Shi, Fangfang Wu, and Xiaotong Lu. Denoising prior driven deep neural network for image restoration. IEEE TPAMI, 41(10):2305–2318, 2018.
  • Fan et al. [2019] Qingnan Fan, Dongdong Chen, Lu Yuan, Gang Hua, Nenghai Yu, and Baoquan Chen. A general decoupled learning framework for parameterized image operators. IEEE TPAMI, 43(1):33–47, 2019.
  • Farsiu et al. [2004] Sina Farsiu, M Dirk Robinson, Michael Elad, and Peyman Milanfar. Fast and robust multiframe super resolution. IEEE TIP, 13(10):1327–1344, 2004.
  • Galdran et al. [2015] Adrian Galdran, Javier Vazquez-Corral, David Pardo, and Marcelo Bertalmío. Enhanced variational image dehazing. SIAM Journal on Imaging Sciences, 8(3):1519–1546, 2015.
  • Harald [1924] Koschmieder Harald. Theorie der horizontalen sichtweite: Kontrast und sichtweite. Keim and Nemnich, Munich, 12, 1924.
  • He et al. [2010] Kaiming He, Jian Sun, and Xiaoou Tang. Single image haze removal using dark channel prior. IEEE TPAMI, 33(12):2341–2353, 2010.
  • Hu et al. [2021] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In ICLR, 2021.
  • Jia et al. [2022] Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, and Ser-Nam Lim. Visual prompt tuning. In ECCV, 2022.
  • Kim and Kwon [2010] Kwang In Kim and Younghee Kwon. Single-image super-resolution using sparse regression and natural image prior. IEEE TPAMI, 32(6):1127–1133, 2010.
  • Kindermann et al. [2005] Stefan Kindermann, Stanley Osher, and Peter W Jones. Deblurring and denoising of images by nonlocal functionals. Multiscale Modeling & Simulation, 4(4):1091–1115, 2005.
  • Kingma and Ba [2015] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
  • Kopiczko et al. [2024] Dawid Jan Kopiczko, Tijmen Blankevoort, and Yuki M Asano. VeRA: Vector-based random matrix adaptation. In ICLR, 2024.
  • Li et al. [2018] Boyi Li, Wenqi Ren, Dengpan Fu, Dacheng Tao, Dan Feng, Wenjun Zeng, and Zhangyang Wang. Benchmarking single-image dehazing and beyond. IEEE TIP, 28(1):492–505, 2018.
  • Li et al. [2019] Boyi Li, Wenqi Ren, Dengpan Fu, Dacheng Tao, Dan Feng, Wenjun Zeng, and Zhangyang Wang. Benchmarking single-image dehazing and beyond. IEEE TIP, 28(1):492–505, 2019.
  • Li et al. [2022] Boyun Li, Xiao Liu, Peng Hu, Zhongqin Wu, Jiancheng Lv, and Xi Peng. All-in-one image restoration for unknown corruption. In CVPR, 2022.
  • Li et al. [2020] Ruoteng Li, Robby T. Tan, and Loong-Fah Cheong. All in one bad weather removal using architectural search. In CVPR, 2020.
  • Loshchilov [2019] I Loshchilov. Decoupled weight decay regularization. In ICLR, 2019.
  • Luo et al. [2023] Ziwei Luo, Fredrik K Gustafsson, Zheng Zhao, Jens Sjölund, and Thomas B Schön. Controlling vision-language models for universal image restoration. arXiv preprint arXiv:2310.01018, 3(8), 2023.
  • Ma et al. [2023] Jiaqi Ma, Tianheng Cheng, Guoli Wang, Qian Zhang, Xinggang Wang, and Lefei Zhang. Prores: Exploring degradation-aware visual prompt for universal image restoration. arXiv preprint arXiv:2306.13653, 2023.
  • Ma et al. [2016] Kede Ma, Zhengfang Duanmu, Qingbo Wu, Zhou Wang, Hongwei Yong, Hongliang Li, and Lei Zhang. Waterloo exploration database: New challenges for image quality assessment models. IEEE TIP, 26(2):1004–1016, 2016.
  • Martin et al. [2001] David Martin, Charless Fowlkes, Doron Tal, and Jitendra Malik. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In ICCV, 2001.
  • Michaeli and Irani [2013] Tomer Michaeli and Michal Irani. Nonparametric blind super-resolution. In ICCV, 2013.
  • Nah et al. [2017] Seungjun Nah, Tae Hyun Kim, and Kyoung Mu Lee. Deep multi-scale convolutional neural network for dynamic scene deblurring. In CVPR, 2017.
  • Nah et al. [2019] Seungjun Nah, Sungyong Baik, Seokil Hong, Gyeongsik Moon, Sanghyun Son, Radu Timofte, and Kyoung Mu Lee. Ntire 2019 challenge on video deblurring and super-resolution: Dataset and study. In CVPR Workshops, pages 0–0, 2019.
  • Niu et al. [2020] Xuejing Niu, Bo Yan, Weimin Tan, and Junyi Wang. Effective image restoration for semantic segmentation. Neurocomputing, 374:100–108, 2020.
  • Oliveira et al. [2009] Joao P Oliveira, José M Bioucas-Dias, and Mário AT Figueiredo. Adaptive total variation image deblurring: a majorization–minimization approach. Signal processing, 89(9):1683–1693, 2009.
  • Park et al. [2024] Dongwon Park, Hayeon Kim, and Se Young Chun. Contribution-based low-rank adaptation with pre-training model for real image restoration. In ECCV, 2024.
  • Potlapalli et al. [2024] Vaishnav Potlapalli, Syed Waqas Zamir, Salman H Khan, and Fahad Shahbaz Khan. Promptir: Prompting for all-in-one image restoration. In NeurIPS, 2024.
  • Ren et al. [2023] Mengwei Ren, Mauricio Delbracio, Hossein Talebi, Guido Gerig, and Peyman Milanfar. Multiscale structure guided diffusion for image deblurring. In ICCV, 2023.
  • Sheikh et al. [2006] Hamid R Sheikh, Muhammad F Sabir, and Alan C Bovik. A statistical evaluation of recent full reference image quality assessment algorithms. IEEE TIP, 15(11):3440–3451, 2006.
  • Shen et al. [2019] Ziyi Shen, Wenguan Wang, Xiankai Lu, Jianbing Shen, Haibin Ling, Tingfa Xu, and Ling Shao. Human-aware motion deblurring. In ICCV, pages 5572–5581, 2019.
  • Shi et al. [2016] Wenzhe Shi, Jose Caballero, Ferenc Huszár, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, and Zehan Wang. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In CVPR, pages 1874–1883, 2016.
  • Sun et al. [2022] Shangquan Sun, Wenqi Ren, Tao Wang, and Xiaochun Cao. Rethinking image restoration for object detection. In NeurIPS, 2022.
  • Talebi and Milanfar [2018] Hossein Talebi and Peyman Milanfar. Nima: Neural image assessment. IEEE TIP, 27(8):3998–4011, 2018.
  • Timofte et al. [2013] Radu Timofte, Vincent De Smet, and Luc Van Gool. Anchored neighborhood regression for fast example-based super-resolution. In ICCV, 2013.
  • Valanarasu et al. [2022] Jeya Maria Jose Valanarasu, Rajeev Yasarla, and Vishal M Patel. Transweather: Transformer-based restoration of images degraded by adverse weather conditions. In CVPR, 2022.
  • Wang et al. [2024] Cong Wang, Jinshan Pan, Wanyu Lin, Jiangxin Dong, Wei Wang, and Xiao-Ming Wu. Selfpromer: Self-prompt dehazing transformers with depth-consistency. In AAAI, 2024.
  • Wang et al. [2023] Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, and Tiejun Huang. Images speak in images: A generalist painter for in-context visual learning. In CVPR, 2023.
  • Wang et al. [2022] Zhendong Wang, Xiaodong Cun, Jianmin Bao, Wengang Zhou, Jianzhuang Liu, and Houqiang Li. Uformer: A general u-shaped transformer for image restoration. In CVPR, pages 17683–17693, 2022.
  • Wei et al. [2018] Chen Wei, Wenjing Wang, Wenhan Yang, and Jiaying Liu. Deep retinex decomposition for low-light enhancement. In BMVC, 2018.
  • Weyand et al. [2020] Tobias Weyand, Andre Araujo, Bingyi Cao, and Jack Sim. Google landmarks dataset v2-a large-scale benchmark for instance-level recognition and retrieval. In CVPR, pages 2575–2584, 2020.
  • Xu et al. [2023] Lingling Xu, Haoran Xie, Si-Zhao Joe Qin, Xiaohui Tao, and Fu Lee Wang. Parameter-efficient fine-tuning methods for pretrained language models: A critical review and assessment. arXiv preprint arXiv:2312.12148, 2023.
  • Yang et al. [2024] Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. Depth anything v2. arXiv preprint arXiv:2406.09414, 2024.
  • Yang et al. [2017] Wenhan Yang, Robby T Tan, Jiashi Feng, Jiaying Liu, Zongming Guo, and Shuicheng Yan. Deep joint rain detection and removal from a single image. In CVPR, pages 1357–1366, 2017.
  • Yang et al. [2020] Wenhan Yang, Shiqi Wang, Yuming Fang, Yue Wang, and Jiaying Liu. From fidelity to perceptual quality: A semi-supervised approach for low-light image enhancement. In CVPR, 2020.
  • Yang et al. [2021] Wenhan Yang, Wenjing Wang, Haofeng Huang, Shiqi Wang, and Jiaying Liu. Sparse gradient regularized deep retinex network for robust low-light image enhancement. IEEE TIP, 30:2072–2086, 2021.
  • Yang et al. [2022] Yang Yang, Chaoyue Wang, Risheng Liu, Lin Zhang, Xiaojie Guo, and Dacheng Tao. Self-augmented unpaired image dehazing via density and depth decomposition. In CVPR, 2022.
  • Yue et al. [2024] Zongsheng Yue, Jianyi Wang, and Chen Change Loy. Efficient diffusion model for image restoration by residual shifting. In NeurIPS, 2024.
  • Yun et al. [2019] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. Cutmix: Regularization strategy to train strong classifiers with localizable features. In ICCV, 2019.
  • Zamir et al. [2021] Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, and Ling Shao. Multi-stage progressive image restoration. In CVPR, 2021.
  • Zamir et al. [2022] Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, and Ming-Hsuan Yang. Restormer: Efficient transformer for high-resolution image restoration. In CVPR, 2022.
  • Zhang et al. [2023] Jinghao Zhang, Jie Huang, Mingde Yao, Zizheng Yang, Hu Yu, Man Zhou, and Feng Zhao. Ingredient-oriented multi-degradation learning for image restoration. In CVPR, 2023.
  • Zhang et al. [2021] Kaihao Zhang, Rongqing Li, Yanjiang Yu, Wenhan Luo, and Changsheng Li. Deep dense multi-scale network for snow removal using semantic and geometric priors. IEEE TIP, 2021.
  • Zheng et al. [2024] Dian Zheng, Xiao-Ming Wu, Shuzhou Yang, Jian Zhang, Jian-Fang Hu, and Wei-Shi Zheng. Selective hourglass mapping for universal image restoration based on diffusion model. In CVPR, 2024.
  • Zhong et al. [2024] Zihan Zhong, Zhiqiang Tang, Tong He, Haoyang Fang, and Chun Yuan. Convolution meets loRA: Parameter efficient finetuning for segment anything model. In ICLR, 2024.
  • Zhou et al. [2024] Dewei Zhou, Zongxin Yang, and Yi Yang. Pyramid diffusion models for low-light image enhancement. In IJCAI, 2024.