Adaptive Blind All-in-One Image Restoration
Abstract
ブラインド型オールインワン画像復元モデルは、未知の劣化を含む入力画像から高品質な画像を復元することを目的としている。しかし、これらのモデルは訓練段階で可能な全ての劣化タイプを定義する必要があり、未知の劣化に対する汎化性能が限られているため、複雑なケースにおける実用的な応用が制限されている。本稿では、適応型ブラインドオールインワン復元(ABAIR)モデルという、シンプルながら効果的なモデルを提案する。このモデルは複数の劣化に対処でき、未知の劣化に対して優れた汎化性能を示し、パラメータの一部のみを訓練することで新しい劣化を効率的に組み込むことができる。まず、我々は複数の合成劣化を含む大規模な自然画像データセットを用いてベースラインモデルを訓練し、ピクセルごとの劣化タイプを推定するセグメンテーションヘッドを追加することで、幅広い劣化に汎化できる強力なバックボーンを実現した。次に、独立した低ランクアダプターを用いて、ベースラインモデルを様々な画像復元タスクに適応させた。さらに、柔軟で軽量な劣化推定器を通じて、多様な画像に対してアダプターを適応的に組み合わせる学習を行った。我々のモデルは特定の歪みを処理する能力が高く、複雑なタスクへの適応も柔軟である。5タスクおよび3タスクのIR設定において最先端の手法を大幅に上回る性能を示すだけでなく、未知の劣化や複合的な歪みに対しても改善された汎化性能を示している。
https://aba-ir.github.io/
1 Introduction
画像復元(IR)は、コンピュータビジョンにおける基本的なタスクであり、視覚的品質を向上させ、下流タスクの性能を最適化するために不可欠である [45, 37]。IRは、低品質の入力に存在する様々な劣化を系統的に除去することにより、高忠実度の画像を再構築することを目的としている。これらの劣化は、画像取得プロセス中の外部環境条件とカメラの限界の複雑な相互作用を通じて生じることが多く、例えば悪天候 [28, 48, 49]、ノイズ [13]、ぼけ [41]、低照度環境 [4, 68]などが挙げられる。
IRの本質的に不良設定な性質は、従来のアプローチにとって大きな課題であり、その有効性を制限している[38, 22, 34, 21, 47, 12, 18, 15]。深層学習技術の最近の進歩により、IRにおいて顕著な進展が見られ[27, 63, 40, 41, 11]、再構成精度が大幅に向上している。しかしながら、これらのフレームワークは、通常、個別かつ特定のIRタスクを含むデータセットで訓練されているため、専用の劣化のモデリングにおいてのみ優れた性能を示している。
各劣化タイプに対して別個のモデルを使用することの限界に対処するため、最近の画像復元(IR)モデルはオールインワンアプローチを採用している。すなわち、単一のモデル内で複数の劣化タイプを処理するように設計されており、様々なIRタスクに対する専用モデルへの依存を軽減している。これらのモデルは多様なIRタスクを統一されたフレームワークに統合することに成功を収めているが、実世界のIR問題に適用する際にはいくつかの課題が残っている。第一に、これらのモデルは歪みのタイプが事前に分かっていることを前提としており、それらを特定的に対象とし除去することができる[63]。しかし、実際には、IRは与えられた画像に存在する劣化に関する事前知識がないブラインド設定で動作しなければならず、ブラインドIRは著しく困難である。第二に、実際の画像には複合的な劣化が頻繁に含まれている — 例えば、低照度シーンにおける移動車両や、霧の天候で撮影された圧縮画像などである。既存のモデルは多様な劣化タイプを処理するように設計されているが、通常は一度に1つの歪みタイプのみを処理するため、実用的なケースでの有効性が制限される。第三に、現在のオールインワン手法は、訓練時にすべての劣化タイプにアクセスする必要があり、未知の劣化への汎化性が制限される。これらのモデルを新しい、観測されていない劣化タイプに適応させつつ、オールインワン機能を維持するには、通常、拡張された劣化セットでモデル全体を再訓練する必要がある — これは計算コストが高く、時間のかかるプロセスである。
貢献: 本稿は、適応型ブラインドオールインワン画像復元(ABAIR)手法を提示する。これは、画像復元技術と実践的な複雑なシナリオへの応用との間のギャップを埋めることを目的としている。ABAIRは、複数の複合的な劣化に効果的に対処し、新たな劣化を容易に追加できる柔軟な構造を持つ。我々のアプローチは、3つの主要な要素を組み合わせたシンプルかつ効果的な方式である。第一に、堅牢な重み初期化を得るために、合成劣化を用いた大規模な事前学習を提案する。劣化認識のためのセグメンテーションヘッドを持つ、複数の歪みを伴う画像を生成するために、修正されたCutMix [61] を提案する。第二に、合成データと実世界のデータの間のギャップを埋めるために、独立したアダプター(具体的にはLoRA [19])を訓練することで、分離された復元モジュールを学習する。第三に、ブラインドオールインワンIR手法を導出するために、入力画像に基づいて最適なアダプターの組み合わせを選択する軽量な画像劣化推定器を学習する。合成劣化での事前学習とブレンディング操作により、我々のモデルは単一画像内の複合的な歪みを処理する能力を獲得する。さらに、アダプターベースの設計により、新たな歪みに対応するために容易に更新できる柔軟なモデル構造が可能となる。我々は、追加された劣化に対して新しいアダプターモジュールを訓練し、軽量な推定器を再訓練するだけで、他のIRタスクに関する事前知識を失うことなく対応できる。我々のアプローチは、多用途IRのためのブラインドオールインワンモデルを提供し、3つおよび5つの劣化設定を含むオールインワン復元ベンチマークで優れた性能を達成し、3つの未知の劣化に一般化し、図 1に示すように、混合劣化を処理する。
2 Related Work
Single Degradation Image Restoration
All-in-One Image Restoration
近年、マルチ劣化およびオールインワン画像復元(IR)アプローチが大きな注目を集めている。マルチ劣化手法[63, 5, 62, 60, 39]は、複数のIRタスクに効果的な統一モデルアーキテクチャを提案している。しかし、これらの手法は、一組のパラメータが一種類の特定の劣化のみを扱えるように訓練されている。そのため、異なる劣化に対して異なる重み(同じアーキテクチャではあるが)を割り当てる必要がある。さらに、多様な画像を復元するためには、劣化の種類を知る必要があり、それに応じたパラメータを読み込む必要がある。このノンブラインドな方式は、実世界のアプリケーションにおける効率性と有効性をさらに妨げている。
一方、ブラインドオールインワンIRアプローチは、劣化タイプを盲目的に区別するための特殊なモジュールを利用している。例えば、AirNet[27]は、入力画像から潜在的な劣化表現を抽出するために対比ベースのエンコーダーを使用している。X-Restormer[8]は、空間マッピング能力を向上させるためにトランスフォーマーブロックに空間的自己注意モジュールを追加している。IDR[64]は劣化特有の事前知識を学習し、それを復元に組み込んでいる。一方、DiffUIR[66]は拡散モデルに条件付きガイダンスを装備している。これらの手法は画像を盲目的に処理する能力を持っているが、特定の劣化と標準的なIRベンチマークに焦点を当てているため、複合的な歪みや未知の歪みに対処することはできない。
タスク特有のコンテキストを捉えるプロンプト学習技術は、ビジョンタスクの適応をガイドする上で有望性を示している[20]。この概念を活用し、最近の手法では劣化特有の情報をエンコードし、複数の可能な歪みを持つ低忠実度画像の強化を復元モデルにガイドしている。例えば、PromptIR[40]は、入力画像から劣化特有の特徴を捉えるための専用のプロンプトブロックを統合している。一方、DA-CLIP[30]、MPerceiver[2]、ProRes[31]、Painter[50]は、プロンプトジェネレーターとして大規模な事前訓練モデルを活用している。しかし、後者のアプローチは、大規模モデルの高いメモリ要求によって制約されることが多い。さらに、既存のオールインワンアプローチは、訓練時にすべての劣化タイプを事前に定義する必要があり、既に訓練されたモデルへの新しい歪みの追加が制限される。
対照的に、本稿では多様な画像復元を目指し、我々のモデルは単一または複合形式の様々な種類の歪みを持つ画像を盲目的に処理するように開発されている。軽量な劣化アダプターの混合設計により、我々のモデルは未知の歪みに対しても柔軟で拡張可能であり、したがって、チャレンジングなブラインドオールインワンIR問題に対して優れた汎化性を示す。
Parameter Efficient Fine-Tuning
すべてのパラメータを更新してモデルを微調整することは、特に大規模モデルにおいて計算効率が悪い。パラメータ効率的な微調整(PEFT)は、訓練可能なパラメータ数とメモリ使用量を削減しつつ、完全な微調整に匹敵する性能を達成することでこの問題に対処する[54]。Low-Rank Adaptation(LoRA)[19]は、微調整された重みの再パラメータ化戦略を導入した。ここでは、特定の層の重みが、事前訓練された重みと低ランク分解によって得られる更新項の線形結合として表現される。すなわち、である。ここで、、であり、ランクはである。低ランク行列とのみを最適化することで、LoRAはその層を適応させるために必要なパラメータ数を削減し(すべてのパラメータを調整する場合と比較して)、メモリと計算要求を最小限に抑える。LoRAを基に、Vector-based Random Matrix Adaptation[24]やConv-LoRA[67]など、代替的な分解手法が提案されている。
PEFT技術は、大規模モデルのドメイン適応だけでなく、タスク算術や継続学習などのアプリケーションにも有用であることが証明されている。これは、新しいタスクを学習する際に以前獲得した知識を失うという破滅的忘却の問題を軽減する[10]。情報検索(IR)において、Parkら[39]は単一タスクIRフレームワーク内で低ランク分解を適用し、モデルの性能を向上させた。 対照的に、我々は異なるアダプター(LoRA)を統合する単純ながら新規なアプローチを提案する。これにより、以前に学習したIRタスクを忘れることなく新しいタスクを学習できる柔軟なブラインドオールインワンモデルを得ることができる。本稿は、各新規タスクに対して最小限の再訓練しか必要としない分離スキームによってこれを達成する。
3 Method
図 2は、現在のIR手法における主要な制限に体系的に対処することで低品質画像を向上させる我々の提案アプローチの概要を示している。我々のアプローチは3つのフェーズで構成されており、おおよそ以下の課題を対象としている:(i) 様々な種類の劣化に対する堅牢な汎化(フェーズI)、(ii) 特定の劣化への効果的な適応(フェーズII)、(iii) 未知および混合劣化に対処できる柔軟なオールインワンメカニズム(フェーズIII)。 フェーズI後にベースラインのパラメータを、フェーズII後にアダプターのパラメータを凍結することで、以前のタスクから学習した知識を最大限に保持し、破滅的忘却を回避することに注意されたい。この設計により、新しいアダプターと軽量の推定器のみを訓練することで、最小限の追加訓練で新しい歪みに適応することが可能となる。
Phase I: Pre-training with synthetic degradations.
近年の進歩により、大規模な事前学習モデルが様々なタスクにおいてパフォーマンスを大幅に向上させることが示されている[1]。さらに、ドメインギャップが適切に対処される場合、合成データによる事前学習も有効性を示している[55]。我々は、画像復元(IR)に大規模な事前学習を適用することで、従来のIRデータセットのみで学習する場合と比較して、顕著なパフォーマンス向上が得られると仮定している。したがって、図 2に示すように、フェーズIでは、複雑な劣化に対処するための堅牢な重み初期化を提供するために、合成劣化を用いた大規模データでベースラインIRモデルを学習する。
事前学習のための大規模データを取得するために、我々は各高品質入力画像に対して異なる合成歪みを導入することで低品質の対応物を生成する劣化パイプラインを定義する。我々は、ノイズ、ぼかし、雨、霧、低照度条件という5つの一般的な歪みに焦点を当てる。各合成歪みは、実世界の対応物に近似している。例えば、低照度条件は画像ヒストグラムを圧縮し、ピクセル強度のダイナミックレンジを減少させることでシミュレートされる。一方、霧はDepthAnythingv2[55]から推定された深度マップに基づいて無彩色レイヤーを追加することで導入される。図 3は各合成劣化の例を示している。我々は、世界中の多様なランドマークの500万枚の画像からなる大規模コレクションであるGoogle Landmarksデータセット(GLD)[53]を使用する。我々のパイプラインへの入力が高品質であることを確保するために、いずれかの辺が400ピクセル未満の解像度の画像をフィルタリングし、NIMAスコア[46]が4.90未満の画像を除外し、高品質な自然画像のみを保持する。
我々のベースラインモデルを構築するために、我々はオールインワンIR手法の最近の進歩に基づいている。特に、我々は空間的注意機構[8]を持つRestormerアーキテクチャ[63]を使用し、PromptIR[40]プロンプトブロックの修正版を組み込んでいる。この組み合わせにより、ベースラインモデルは様々な劣化の固有情報を効果的に捉えることができ、一般化されたIRタスクのための強固な基盤を確立している。
単一の歪みで学習することで、モデルは各タイプに個別に対処できるようになるが、実世界のIRでは混合劣化が関与することが多い。しかし、画像に複数の歪みを直接適用すると、しばしば深刻な品質劣化につながり、モデルが元の画像を再構築することを学習するのが困難になる。この問題に取り組むために、我々は2つの戦略を実装する:(i) 劣化CutMix[61]技術、および (ii) クロスエントロピー損失を持つセグメンテーションヘッド。我々の最初の戦略は、深度推定のためのYangら[55]にインスパイアされたもので、異なる領域に分割された2つの異なる劣化を適用する。このセットアップは、モデルが同じ画像内の複数の劣化タイプを区別し管理するのに役立つ。我々の2番目の戦略として、ベースラインモデルにセグメンテーションヘッドを組み込み、歪みのピクセルごとのマップを出力する。このマップを真値と比較することで、我々はモデルが単一の画像内の複数のタイプの劣化を認識し区別するよう導く。 我々のベースラインと合成歪みの生成に関する追加の詳細は補足資料で報告する。
PSNR/SSIM | Deraining | Dehazing | Denoising | Deblurring | Low-Light | Average | Param. | ||||||
Rain100L | SOTS (Out) | BSD68 σ=25 | GoPro | LoLv1 | |||||||||
AirNet [27] | 32.98 | .951 | 21.04 | .884 | 30.91 | .882 | 24.35 | .781 | 18.18 | .735 | 25.49 | .847 | 9M |
Uformer [51] | 35.48 | .967 | 27.20 | .958 | 30.59 | .869 | 26.41 | .809 | 21.40 | .808 | 28.21 | .882 | 52M |
IDR [64] | 35.63 | .965 | 25.24 | .943 | 31.60 | .887 | 27.87 | .846 | 21.34 | .826 | 28.34 | .893 | 15M |
X-Restormer [8] | 35.42 | .968 | 27.58 | .959 | 30.92 | .880 | 27.54 | .835 | 20.88 | .817 | 28.47 | .891 | 26M |
DA-CLIP [30] | 35.49 | .970 | 28.10 | .962 | 30.42 | .859 | 26.50 | .807 | 21.94 | .817 | 28.49 | .880 | 174M |
DiffUIR [66] | 35.52 | .969 | 28.17 | .964 | 30.92 | .879 | 26.99 | .821 | 20.92 | .789 | 28.50 | .880 | 36M |
Restormer [63] | 35.56 | .970 | 27.94 | .962 | 30.74 | .875 | 26.84 | .818 | 21.74 | .815 | 28.56 | .888 | 26M |
PromptIR [40] | 35.40 | .967 | 28.26 | .965 | 30.89 | .872 | 26.55 | .808 | 21.80 | .815 | 28.58 | .885 | 36M |
Ours OH | 37.73 | .978 | 33.46 | .983 | 31.38 | .898 | 29.00 | .878 | 24.20 | .865 | 31.15 | .920 | 59M |
Ours SW | 37.79 | .979 | 33.48 | .984 | 31.38 | .898 | 29.00 | .878 | 24.19 | .865 | 31.17 | .921 | 59M |
Ours (Oracle) | 39.09 | 0.981 | 33.54 | .984 | 31.40 | 0.901 | 29.10 | .879 | 24.45 | .866 | 31.39 | .922 | 59M |
Phase II: Single-task adaptation.
歪みを人工的に生成することで、我々はベースラインモデルの堅牢な重み初期化を達成した。しかし、事前学習データ(異なるデータセットと人工的な歪みの両方による)、標準的なIRデータセット、および実世界の条件の間には依然としてドメインギャップが存在する。例えば、霧の正確なシミュレーションは特に困難である。これは、粒子による光の散乱が深度や大気条件によって変化するためである。このギャップを埋めるために、我々は各特定タスクに対して学習されたアダプターを用いてベースラインモデルを適応させることを提案する。これは図 2に示すように、我々のアプローチのフェーズIIを表している。
我々のアプローチでは、各線形層と畳み込み層に、劣化の種類ごとに1つずつのLoRAセットが追加される。これらはとによってパラメータ化され、は劣化のインデックスである。LoRAに従い、これらの低ランク行列は、先に説明したように線形結合を通じて初期の凍結された重みを調整する。簡略化のため、モデルの特定の層を示す添字は省略しているが、各層には別個のアダプターセットがある。提案された事前学習アプローチとその後の適応による特殊化により、本稿のアプローチは多様なタスクにわたって優れた性能を達成し、効果的に一般化する。
Phase III: Multi-task integration.
LoRAアダプターは事前学習モデルに対するプラグアンドプレイソリューションとして機能するが、劣化の種類が不明な場合、入力画像に基づいて最適なアダプターを選択する必要がある。この制限に対処し、ブラインドな統合型IR手法を導出するために、我々は軽量な劣化推定器 を使用して、入力画像 が与えられた場合の各劣化 の確率を推定することを提案する。これは によってパラメータ化される。この推定器は、すべての(既知の)データセットの組み合わせで訓練され、画像に存在する劣化の種類を識別することを学習する。図 2に示すように、推定器の確率はタスク固有のアダプターをベースラインパラメータと線形結合するための重みとして使用される。具体的には、入力画像 が与えられた場合、ベースライン重み とアダプター重み および を持つ特定の層の重み更新は以下のように計算される:
(1) |
ここで、 は既知の劣化の数である。
我々は推定器の2つのバリアントを提案する:(i) ワンホットと (ii) ソフトウェイト。ワンホットバリアントは単に最大確率を持つ劣化に対応するアダプターを選択する(ワンホット確率を用いた1と同等)。一方、ソフトウェイトバリアントは式 1のように加重平均を計算する。
我々のアプローチにより、モデルは劣化特有の知識を線形結合して、特定の歪みと複数の歪みの両方に対処することができる。そのモジュラーでパラメータ効率の高いアーキテクチャにより、新しい劣化を少ない訓練努力で追加することも可能である:新しいタスクのための追加アダプターを訓練し、推定器を更新するだけである。
PSNR/SSIM | Deraining | Dehazing | Denoising | Average | ||||||||
Rain100L | SOTS (Out) | BSD68 σ=15 | BSD68 σ=25 | BSD68 σ=50 | ||||||||
DL [14] | 32.62 | .931 | 26.92 | .931 | 33.05 | .914 | 30.41 | .861 | 26.90 | .740 | 29.98 | .875 |
MPRNet [62] | 33.57 | .954 | 25.28 | .954 | 33.54 | .927 | 30.89 | .880 | 27.56 | .779 | 30.17 | .899 |
AirNet [27] | 34.90 | .967 | 27.94 | .962 | 33.92 | .933 | 31.26 | .888 | 28.00 | .797 | 31.20 | .909 |
Restormer [63] | 35.56 | .969 | 29.92 | .970 | 33.86 | .933 | 31.20 | .888 | 27.90 | .794 | 31.69 | .911 |
PromptIR [40] | 36.37 | .972 | 30.58 | .974 | 33.98 | .933 | 31.31 | .888 | 28.06 | .799 | 32.06 | .913 |
Ours OH | 38.58 | .981 | 33.71 | .985 | 33.95 | .934 | 31.29 | .889 | 28.04 | .798 | 33.11 | .918 |
Ours SW | 38.52 | .980 | 33.62 | .984 | 33.95 | .933 | 31.24 | .889 | 28.01 | .796 | 33.07 | .916 |
PSNR/SSIM | Deraining | Deblurring | Low-Light | |||
Rain100H | HIDE | Lolv2-Real | ||||
IDR [64] | 11.32 | .397 | 16.83 | .621 | 17.61 | .697 |
X-Restormer [8] | 14.08 | .437 | 25.40 | .801 | 25.42 | .876 |
DiffUIR [66] | 14.78 | .487 | 23.98 | .739 | 26.12 | .861 |
Restormer [63] | 14.50 | .464 | 24.42 | .781 | 27.12 | .877 |
PromptIR [40] | 14.28 | .444 | 24.49 | .762 | 27.70 | .870 |
Ours OH | 21.69 | .692 | 27.04 | .850 | 28.09 | .907 |
Ours SW | 19.37 | .594 | 27.05 | .850 | 28.09 | .906 |
4 Experiments
我々は、オールインワンIRに対する2つのセットアップで我々の手法を評価する:5種類および3種類の劣化セットアップである。さらに、トレーニングから除外されたデータセット、新規のIR劣化タイプ、および混合劣化シナリオでテストを行う。手法の精度は、確立された2つの指標であるPSNRとSSIMを用いて評価される。すべてのケースにおいて、我々はすべてのテスト画像の平均値を報告し、各指標について最良および次点の値を強調表示する。我々のアプローチは、最近のオールインワンIR手法と比較される。特筆すべきは、現在の手法の一部が異なるセットアップで評価されているか、利用可能なコードとモデルが欠如しているため、直接的な比較が複雑になっていることである。したがって、我々は3つの最先端手法であるRestormer [63]、PromptIR [40]、およびX-Restormer [8]を5種類の劣化IRセットアップで訓練し、公平な比較を提供する。我々は著者が提供したコードを使用した。我々のアプローチについては、推定器の変種に基づく2つのバリエーション、すなわちワンホット(OH)とソフトウェイト(SW)を評価する。
Implementation details:
我々のトレーニングは、Adam [23]と重み減衰 [29]、初期学習率、コサイン学習率スケジューラ、および1エポックのウォームアップスタートを使用して3つのフェーズで実施される。フェーズIでは、ピクセルごとの劣化マップに対するクロスエントロピー損失と再構成損失の重み付き組み合わせを適用する。ここで、は損失とSSIM損失で構成される。クロスエントロピーとSSIMの両方の要素は0.5で重み付けされる。フェーズIIでは、再構成損失のみを使用し、前述のようにSSIM損失は0.5で重み付けされる。フェーズIIIでは、回帰器の出力と入力画像の劣化タイプの間のクロスエントロピー損失を適用する。
PSNR/SSIM | 4-to-8 bits | JPEG Q20 | Desnowing | |||
Live1 | Live1 | City-Snow | ||||
IDR [64] | 24.02 | .738 | 26.51 | .913 | 18.00 | .649 |
X-Restormer [8] | 24.73 | .745 | 26.86 | .922 | 18.51 | .681 |
DiffUIR [66] | 24.68 | .743 | 26.88 | .921 | 18.39 | .671 |
Restormer [63] | 24.64 | .743 | 26.90 | .929 | 18.14 | .655 |
PromptIR [40] | 24.70 | .740 | 26.60 | .920 | 18.49 | .673 |
Ours OH | 25.25 | .742 | 29.20 | .931 | 18.71 | .684 |
Ours SW | 25.32 | .743 | 29.35 | .926 | 18.67 | .683 |
Ours OH∗ | 29.14 | .826 | 30.82 | .943 | 24.19 | .797 |
Ours SW∗ | 29.03 | .810 | 30.71 | .939 | 24.02 | .779 |
5-Degradation blind IR:
ブラインド5タスクのセットアップについて、我々はZhangらの[64]のプロトコルに従う。具体的には、降雨除去にはRain200L[56]、霧除去にはRESIDE [25]、ノイズ除去にはのBSD400 [33]とWED [32]、ぼけ除去にはGoPro [35]、低照度画像強調にはLOL [52]を使用する。評価には、Rain100L [56]、SOTS-Outdoor [25]、BSD68 [33]、GoPro [35]、およびLOL [52]を使用する。結果は表 1に示されている。我々のアプローチは、ノイズ除去のPSNRを除いて、すべてのタスクにおいて最先端の手法を上回る性能を示している。特筆すべきは、我々の手法が最先端の手法に対して大幅な改善を達成し、5つのタスク全体で平均2.91 dBのPSNR向上を実現していることである。特に、我々の手法はIDR [64]を画像降雨除去で2.16 dB上回り、PromptIR [40]を低照度画像強調で2.40 dB改善している。
3-Degradation Blind IR:
Li et al. [27]に従い、我々は3タスクのブラインドIRセットアップで我々のアプローチをさらに評価し、除雨、除霧、およびノイズ除去のための専門的なオールインワン手法と比較する。5タスクのセットアップと比較して、デブラーリングと低光量強調を省略し、代わりに2つの追加のノイズレベル:およびを導入する。これらのノイズレベルに対して2つのLoRAアダプターが訓練され、推定器は新しい設定で再訓練される。この3タスクセットアップの結果を表 2に示す。我々のアプローチは、平均して他のすべての最先端の手法を上回り、すべての劣化タイプで一貫性を保っている。
JPEG [42]
4から8ビット [42]
入力
PromptIR [40]
Ours-SW
Ours-SW 再訓練
真値
Additional test sets:
我々のアプローチの汎化能力を評価するため、トレーニング時に使用していない3つのデータセットでモデルを評価する。具体的には、重度の雨除去のためのRain100H [56]データセット、人物中心のデブラーリングのためのHIDE [43]、低照度画像強調のためのLoLv2-Real [58]を使用する。5種類の劣化設定における上位3つの手法と我々のアプローチの結果を表 3に示す。我々の手法は、すべてのデータセットとメトリクスにおいて他のすべてのアプローチを上回っている。特筆すべきは、Rain100H [56]においてRestormer [63]を7.19 dB上回る大幅な改善を達成したことである。この性能向上は、合成データによる事前学習に起因すると考えられる。これにより、我々のモデルは、他の手法がRain200L [56]のような小規模なトレーニングセットを使用しているのに対し、より広範な自然画像と劣化シナリオから学習することができる。さらに、HIDEとLoLv2-Realの両方で1 dB以上のPSNR改善を達成しており、我々のアプローチの有効性と堅牢性をさらに実証している。
Unseen IR tasks:
我々のアプローチは当初5種類の劣化に対して訓練されたが、さらに訓練時に遭遇しなかった3つの追加IRタスクへの汎化性能を評価する。具体的には、Live1データセット[42]を用いてJPEGアーティファクト除去とビット深度再構築について、そしてCityScapes-Snow-Medium[65]を用いて除雪について我々の手法を評価する。5種類の劣化設定における上位4つの従来の最先端手法と我々のアプローチの結果を表 4に示す。注目すべきことに、我々の手法はすべてのタスクとメトリクスにおいて他のすべてのアプローチを上回っている。我々のアプローチの適応性を示すために、さらに各新規タスクに対して個別のアダプターを訓練し、8つのタスク固有のアダプターをすべてブレンドする新しい推定器を訓練することで、モデルの汎用性を拡張した。表 4の最後の2行は、新たに統合されたタスクの結果を報告している — ∗で示されている。特筆すべきは、これらのタスク固有のアダプターを追加することで、我々のモデルは顕著な性能向上を達成し、同時に元の5つのIRタスクにおいて平均PSNR 30.08 dBを維持し、初期設定で訓練された他の最先端手法を上回っていることである。
Mixed degradations:
複合劣化を含むデータセットの入手が限られていることは、これらの複雑な条件下でIRモデルを訓練する上で課題となっている。我々のアプローチを評価するため、3つの複合劣化シナリオで評価を行った:GoProデータセット[35]を用いたぼかしとノイズの組み合わせ、REDSデータセット[36]を用いたぼかしとJPEGアーティファクトの組み合わせ、そしてSRRSデータセット[6]を用いた霧と雪の組み合わせである。特筆すべきは、JPEGアーティファクトや雪などの一部の劣化が訓練時には見られなかったことであり、これらのテストの難易度をさらに高めている。表 5に示すように、我々のモデルはすべてのシナリオとメトリクスにおいて一貫して他の手法を上回っている。ぼかしとノイズの処理は、その対照的な性質のため特に困難である:ぼかしは低周波数に影響を与え、ノイズは高周波数に影響を与える。それにもかかわらず、我々のモデルは約2dBの改善を達成し、他の手法が22dBレベルにとどまっている中で成果を上げている。
PSNR/SSIM | Blur&Noise | Blur&JPEG | Haze&Snow | |||
GoPro | REDS | SRRS | ||||
IDR [64] | 21.98 | .683 | 23.02 | .681 | 20.51 | .789 |
X-Restormer [8] | 22.67 | .669 | 23.98 | .710 | 20.76 | .805 |
DiffUIR [66] | 22.71 | .670 | 24.00 | .711 | 20.86 | .802 |
Restormer [63] | 22.35 | .662 | 23.24 | .698 | 20.76 | .800 |
PromptIR [40] | 22.89 | .671 | 23.92 | .705 | 20.94 | .803 |
X-Restormer [8] | 22.67 | .669 | 23.98 | .710 | 20.76 | .805 |
Ours OH | 24.30 | .743 | 24.81 | .717 | 21.48 | .834 |
Ours SW | 25.14 | .750 | 24.97 | .719 | 22.09 | .839 |
Pre-training | PSNR | SSIM |
IR datasets | 28.50 | .892 |
GLD+synth. | 30.63 | .913 |
+ CutMix | 31.09 | .920 |
+ Aux. segm. | 31.17 | .921 |
Rank | PSNR | SSIM | Params |
4 | 31.17 | .921 | 3.6M |
8 | 31.14 | .920 | 7.2M |
16 | 30.97 | .916 | 14.3M |
Qualitative results:
図4において、我々はモデルが訓練された5タスクのセットアップから3種類の単一劣化の例を示す。我々のアプローチは、1行目ではナンバープレートを効果的に強調し、2行目では低光量条件下のノイズを軽減し、3行目では激しい雨の筋を除去している。図5では、Live1データセット[42]を用いたJPEGアーティファクト除去や4ビットから8ビットへの再構築など、未見のIRタスクを示す。我々の手法は、オウムの羽毛からJPEGアーティファクトを成功裏に除去し、ビット深度の削減によって生じた雲と青空のアーティファクトを除去している。これらのタスクに対して新しいアダプターを訓練することで(ours-SW retrained)、最小限の追加訓練時間で優れた結果を達成している。最後に、図6では、混合劣化下での我々の手法の性能を示す。1行目は、我々の手法が画像内のテキストの最良の再構築を達成していることを示し、2行目は霧と雪片の両方を除去する上での我々のモデルの有効性を示している。
Ablation studies:
表 6において、我々は提案する事前学習パイプラインとLoRAのランクが最終的な性能にどのように寄与しているかを評価するためのアブレーション実験を行った。フェーズIの事前学習では、5タスク構成と同じセットアップを使用した。すなわち、タスク固有のIRデータセットを用いてLoRAと推定器を学習し、得られた事前学習済みの重みを使用した。最初の行 — IRデータセット — は標準的なIRベンチマークでの事前学習を反映しており、最先端の手法と同等の性能を示している — 表 1を参照。対照的に、GLDに合成劣化を加えて単純に事前学習を行うだけでPSNRが2.15 dB向上し、モデルに強力な汎化能力を提供するフェーズIの重要性が示された。さらに、CutMix類似の戦略[61]と補助的なセグメンテーションタスクの両方を組み込むことで、追加の性能向上が得られた。我々はまた、フェーズIIとIIIにおいて異なるランクのLoRA [19]を比較した。モデルはランクを4に設定した場合に最高の性能と効率を達成し、これを我々のデフォルト設定として採用した。さらなるアブレーション結果については、補足資料を参照されたい。
5 Conclusion
本稿では、実用的なIRを目指す適応型ブラインドオールインワンIRモデルを紹介した。我々は、特定の歪みを強力に処理するための専用アダプターと、実用的なIRの課題に対処するための柔軟なアーキテクチャの両方を設計した。まず、大規模データセットに対して複数の合成劣化を特徴とする事前学習パイプラインを開発し、モデルの汎化性能を向上させた。次に、特定の劣化に対してロバストに適応するコンパクトなタスク別アダプターを導入した。第三に、様々な劣化を識別し、それぞれのアダプターをブレンドする軽量な劣化推定器を開発した。これは、パラメータの一部を学習することで新しい劣化を効率的に組み込むことも可能である。我々のモデルは、5タスクおよび3タスクのIR設定において最先端の手法を大きく上回る性能を示し、未知のデータセットやIRタスクに対する汎化性能も向上した。
Acknowledgements
DSL、LH、およびJVCは、MCIN/AEI/10.13039/501100011033および欧州地域開発基金(ERDF)「欧州を作る方法」によって資金提供された助成金PID2021-128178OB-I00、カタルーニャ州政府研究・大学局からの参照番号2021SGR01499の助成金、およびカタルーニャ州政府CERCAプログラムによって支援を受けた。DSLはまた、スペイン科学イノベーション省からのFPI助成金(PRE2022-101525)を受けている。LHはまた、ラモン・イ・カハル助成金RYC2019-027020-Iによって支援を受けた。SSは、欧州連合が資金提供するHORIZON MSCA博士研究員フェローシップ(プロジェクト番号101152858)によって支援を受けた。
6 Supplementary Material
我々は本稿の主要な提出物を補完する追加資料を提供する。具体的には、以下の内容を取り上げる:
-
A.
我々のベースラインアーキテクチャに関する詳細。
-
B.
雨、霧、ノイズ、ぼかし、低照度条件を含む合成劣化の生成プロセスの説明。追加のデータセット例。
-
C.
LoRAのランクおよび他の分解手法に関する追加のアブレーション実験。
-
D.
我々の推定器アーキテクチャの詳細および推定器の性能に関する追加の分析。
-
E.
既知のデータセット、未見のタスク、および複合的な劣化を含む画像に関する追加の定性的結果。
Appendix A Baseline Architecture Details
我々は、画像復元(IR)技術と実践的な複雑なシナリオへの応用の間のギャップを埋めるために設計された適応型ブラインドオールインワン画像復元(ABAIR)手法を提案する。我々のアプローチは3段階のスキームに従う。第一段階では、合成劣化を伴う自然画像を用いてIRベースラインの事前学習を行う。本節では、このベースラインアーキテクチャについて説明する。図7に我々のベースラインモデルの詳細を示す。我々のベースラインモデルは、トランスフォーマーベースのUNet様フレームワークであるRestormer [63]アーキテクチャを採用している。劣化画像が与えられると、モデルはまず畳み込み層を適用して、サイズの低レベル特徴を抽出する。ここで、とは空間次元であり、は我々のすべての実験において同じである。これらの特徴は、トランスフォーマーブロックで構成される4レベルのエンコーダ-デコーダ構造を通して処理され、ダウンサンプリングとアップサンプリングにはそれぞれピクセルアンシャッフリングとシャッフリング[44]が使用される。最後に、畳み込み層が残差画像を生成し、これが劣化入力画像に加算されて復元された出力が生成される。
各トランスフォーマーブロックは、チャネル自己注意モジュールとそれに続く空間自己注意モジュールで構成される。チャネル自己注意には、Zamirら[63]の実装を採用し、空間注意には、Chenら[9]が提案したオーバーラッピングクロス注意メカニズムを使用する。この組み合わせは、RestormerのU字型アーキテクチャの限界、特に高周波詳細の再構築の困難さ[8]を効果的に解決する。さらに、Potlapalliら[40]にインスパイアされ、アップサンプリングパスのトランスフォーマーブロック間にプロンプトブロックを統合する。このブロックは、抽出された特徴とモデルパラメータのセットを組み合わせることで、入力画像の劣化特有の特徴を識別するのを助ける。我々のプロンプトブロックの設計を図8に示す。
Appendix B Synthetic Degradations Generation
我々のアプローチの第一段階は、雨、霧、ノイズ、ぼかし、低照度条件を含む合成的に生成された劣化を伴う自然画像を用いてベースラインモデルを事前訓練することである。標準的なIRデータセットとは異なり、我々のパイプラインは清浄な入力画像に動的に劣化を導入し、同じ画像に対して多様な劣化タイプと様々な深刻度レベルでモデルを訓練できるようにすることで、より大きな柔軟性を提供する。さらに、各劣化タイプは歪みの深刻度を制約する一連のパラメータによって特徴づけられる。訓練中、これらのパラメータは各順伝播で無作為に選択される。具体的には、我々はGoogleランドマークデータセット[53]から450K枚の画像を使用する—NIMAスコアが4.90より高く、短辺の解像度が400より大きいものを選び、多様な実際のシーンを提供する。図 9は、異なるパラメータ設定下での様々な劣化の例を示している。以下では、各種の合成劣化の生成プロセスについて詳述する。
Rain:
雨の降る劣化画像とクリーンな画像のペアを捉えることは本質的に困難である。なぜなら、同じシーンを雨天と晴天の下で撮影する際に、環境条件が変化することが多いためである。そのため、雨除去データセットは通常、事前に定義された雨の筋のマスクを作成し、それを入力画像に追加することで雨をシミュレートしている。しかし、これらのデータセットには多くの場合、限られた数のマスクしか含まれておらず[56]、データセットに存在する特定のパターンに過適合する可能性がある。我々の場合、より一般的なマスクのセットを導出することを目指し、密度、長さ、角度、雨滴サイズ、ブレンディングの重みという5つの調整可能なパラメータを考慮している。
雨の降る画像を生成するプロセスは、入力画像と同じサイズの空のマスクを作成することから始まる。このマスクは雨の筋のパターンを保持する。密度パラメータは雨滴の数を決定し、これは総画素数の割合として計算される。雨滴の開始位置のランダムな座標が生成され、指定された雨滴サイズに対応するために境界内に収まるようにする。これらの座標を使用してに雨滴を配置する。次に、指定された雨の長さと角度に基づいて、雨の筋の外観をシミュレートするためのモーションブラーカーネルが構築される。マスクはと畳み込まれ、自然な雨のパターンを模倣する筋を作成する。最後に、雨の筋は正規化され、入力画像の次元に合わせて3つのRGBチャンネルに拡張される。これらの筋は、重みを使用して元の画像とブレンドされ、最終的な雨が追加された画像が生成される。すべての入力パラメータは各フォワードパスでランダムに選択される。数学的には—明確さのために正規化を省略すると、
(2) |
値の範囲は、雨の密度:、雨の長さ:、雨の角度:、雨滴サイズ:、マスクの重みである。
、、、 最小、最大 、および および および
、、、 最小、最大 、および および および
、、、 最小、最大 、および および および
、、、 最小、最大 、および および および
雨 霧 ノイズ ブラー 低照度
Haze:
雨天画像と同様に、霧の条件下で劣化画像とクリーンな画像のペアを撮影することは、環境要因の変動性のためにほぼ不可能である。先行研究[26, 3, 16]に触発され、我々はKochsmiederモデル[17]を用いて霧の劣化をモデル化する。このモデルは、遠くの物体の視認性が観察者からの距離の関数として減少し、地平線に消えていく様子を記述している。我々はこれを以下のように定式化できる:
(3) |
ここで、は入力のクリーンな画像、は推定された深度マップから導出された透過マップ、は大気光、は合成霧を含む結果画像である。
Blur:
画像のぼかしは、モーションブラー、ピンぼけ、レンズのぼけなど、様々な要因から生じる可能性がある。本稿では、実用的な応用に関連性が高いため、モーションブラーのシミュレーションに焦点を当てる。ぼかし効果は、入力画像を、特定の方向に沿ったモーションブラーをモデル化するように設計されたパラメータ化されたカーネルと畳み込むことによって導入される。カーネルは、ピクセル単位のサイズ()と角度()によって定義され、モーションブラーの特徴である方向性のあるストリークをシミュレートする。数学的には、
(4) |
カーネルサイズ()はの範囲内の奇数値から選択され、角度()はぼかしの方向を度単位で指定し、の範囲である。
Noise:
我々は、ノイズに対して標準的な加法性白色ガウスノイズ(AWGN)アプローチを使用する。簡単に言えば、元の画像に平均、分散のガウス分布に従う第二の画像を加える。数学的には、
(5) |
Low-Light:
画像が低光量条件下で撮影される場合、カメラはセンサーの信号を増幅して詳細を捉えようとするが、これによりノイズも増幅され、粒状や斑点状のアーティファクトが生じる。さらに、ダイナミックレンジの縮小により、輝度の範囲を捉える能力が制限され、色の不整合や影とハイライトの詳細の損失につながる。これらの条件をシミュレートするために、我々は入力画像のヒストグラムを係数で圧縮し、非常に小さな値のノイズを加える。このプロセスは数学的に以下のように表現できる:
(6) |
圧縮係数は区間の範囲であり、は区間の値をとる。
PSNR/SSIM | Deraining | Dehazing | Denoising | Deblurring | Low-Light | Average | Adapter Param. | |||||||
Method | Rank | Rain100L | SOTS (Out) | BSD68 σ=25 | GoPro | LoLv1 | ||||||||
LoRA [19] | 4 | 37.79 | .979 | 33.48 | .984 | 31.38 | .898 | 29.00 | .878 | 24.19 | .865 | 31.17 | .921 | 3.6M |
8 | 37.75 | .978 | 33.4 | .982 | 31.39 | .898 | 29.02 | .878 | 24.18 | .865 | 31.15 | .920 | 7.2M | |
16 | 37.61 | .972 | 33.21 | .977 | 31.31 | .896 | 28.77 | .875 | 23.96 | .862 | 30.97 | .916 | 14.3M | |
VeRA [24] | 4 | 37.02 | .971 | 32.67 | .972 | 31.32 | .896 | 28.61 | .872 | 23.78 | .580 | 30.68 | .858 | 460K |
8 | 37.09 | .971 | 32.69 | .972 | 31.32 | .896 | 28.64 | .873 | 23.79 | .580 | 30.71 | .858 | 468K | |
16 | 37.04 | .970 | 32.62 | .970 | 31.33 | .896 | 28.62 | .872 | 23.84 | .581 | 30.69 | .858 | 476K | |
Conv-LoRA [67] | 4 | 37.00 | .969 | 32.55 | .971 | 31.32 | .896 | 28.54 | .870 | 23.70 | .576 | 30.62 | .856 | 3.9M |
8 | 36.94 | .968 | 32.44 | .968 | 31.30 | .895 | 28.48 | .868 | 23.62 | .575 | 30.56 | .855 | 7.5M |
Appendix C Additional Phase II Ablation Studies
我々のアプローチの第二段階では、各種の劣化に対してアダプターのセット — 本稿の主要部分ではLoRA [19] — を訓練する。本節では、他の低ランク分解とそのランクを含めて分析を拡張する。具体的には、VeRA [24] とConv-LoRA [67] を評価する。 5種類の劣化設定における3種類のアダプターの結果を表 7に示す。最後の列には各アダプターの学習可能なパラメータ数も含まれている。公平な比較のため、同じベースラインモデルの重みと推定器を使用し、タスク固有のアダプターのみを訓練した。これらの手法の中で、LoRA [19] が全体的に最良の性能を達成している。しかし、VeRA [24] は、2つの低ランク行列ではなく層ごとに2つのベクトルのみを推定するため、大幅に少ないパラメータで競争力のある結果を提供している。一方、Conv-LoRA [67] は、分解された空間での畳み込み層を用いたMixture-of-Expertsアプローチのため、より多くのパラメータを持つにもかかわらず性能が劣る。分解ランクに関しては、ランク4と8が一貫してランク16を精度とパラメータ効率の両面で上回ることが分かった。
PSNR/SSIM | Deraining | Dehazing | Denoising | Deblurring | Low-Light | Average | ||||||
Method | Rain100L | SOTS (Out) | BSD68 σ=25 | GoPro | LoLv1 | |||||||
Sum | 19.50 | .755 | 18.80 | .745 | 18.10 | .730 | 18.25 | .728 | 17.70 | .715 | 18.67 | .736 |
Average | 30.54 | .939 | 20.87 | .855 | 28.98 | .785 | 21.34 | .792 | 15.49 | .673 | 23.84 | .809 |
Ours OH | 37.73 | .978 | 33.46 | .983 | 31.38 | .898 | 29.00 | .878 | 24.20 | .865 | 31.15 | .920 |
Ours SW | 37.79 | .979 | 33.48 | .984 | 31.38 | .898 | 29.00 | .878 | 24.19 | .865 | 31.17 | .921 |
Appendix D Additional Phase III Analysis
我々の手法の第三フェーズでは、入力画像に基づいて最適なアダプターのセットを選択または融合するエスティメーターを訓練する。エスティメーターのアーキテクチャは、4つのConv2Dレイヤーブロックで構成され、各ブロックの後にバッチ正規化、ReLU活性化、最大プーリングが続き、最終的にグローバル平均プーリング層と線形射影で終わる。エスティメーターの総パラメータ数は538Kである。
既知の劣化(既知および未知のデータセットの両方)に対するOne-Hot予測を示す混同行列を図 10に示す。エスティメーターは、ほとんどの場合、90%を超える確率で既知の劣化を予測する。しかし、未知のデータセットの1つであるRain100Hデータセット[56]については、予測確率が90%を下回る。これは、雨筋の深刻さとそれらがヘイズ関連の劣化に類似していることが原因である可能性が高い。注目すべきは、エスティメーターが誤ったアダプターを選択した場合でも、大規模な事前学習の堅牢性により、重大なアーティファクトや望ましくない効果は導入されないことである。
最後に、我々のエスティメーターの重要性を強調するために、5つの劣化タスク固有のアダプターを単に追加または平均化する方法と我々のアプローチを比較する最終的なアブレーションを実施する。表 8にこのアブレーションの結果を示す。すべてのアダプターを追加すると、の値がベースラインモデルが効果的に処理できるほど過度に大きくなる。一方、アダプターを平均化すると、モデルが特定の劣化タイプに特化できないため、最適ではない復元画像が生成される。
Appendix E Additional Qualitative Results
図11は、既知の劣化に対する追加の定性的結果を示しており、既知および未知のデータセットからの例を含んでいる。図12は未知の劣化に対する結果を強調しており、各画像の下に対応する平均絶対誤差(MAE)マップを表示して差異を強調している。最後に、図13は混合劣化シナリオに対する定性的結果を示している。
References
- Abnar et al. [2022] Samira Abnar, Mostafa Dehghani, Behnam Neyshabur, and Hanie Sedghi. Exploring the limits of large scale pre-training. In ICLR, 2022.
- Ai et al. [2024] Yuang Ai, Huaibo Huang, Xiaoqiang Zhou, Jiexiang Wang, and Ran He. Multimodal prompt perceiver: Empower adaptiveness generalizability and fidelity for all-in-one image restoration. In CVPR, 2024.
- Ancuti et al. [2016] Cosmin Ancuti, Codruta O. Ancuti, and Christophe De Vleeschouwer. D-hazy: A dataset to evaluate quantitatively dehazing algorithms. In ICIP, pages 2226–2230, 2016.
- Cai et al. [2023] Yuanhao Cai, Hao Bian, Jing Lin, Haoqian Wang, Radu Timofte, and Yulun Zhang. Retinexformer: One-stage retinex-based transformer for low-light image enhancement. In ICCV, 2023.
- Chen et al. [2022] Liangyu Chen, Xiaojie Chu, Xiangyu Zhang, and Jian Sun. Simple baselines for image restoration. In ECCV, 2022.
- Chen et al. [2020] Wei-Ting Chen, Hao-Yu Fang, Jian-Jiun Ding, Cheng-Che Tsai, and Sy-Yen Kuo. Jstasr: Joint size and transparency-aware snow removal algorithm based on modified partial convolution and veiling effect removal. In ECCV, pages 754–770. Springer, 2020.
- Chen et al. [2023a] Xiang Chen, Hao Li, Mingqiang Li, and Jinshan Pan. Learning a sparse transformer network for effective image deraining. In CVPR, pages 5896–5905, 2023a.
- Chen et al. [2023b] Xiangyu Chen, Zheyuan Li, Yuandong Pu, Yihao Liu, Jiantao Zhou, Yu Qiao, and Chao Dong. A comparative study of image restoration networks for general backbone network design. arXiv preprint arXiv:2310.11881, 2023b.
- Chen et al. [2023c] Xiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao, and Chao Dong. Activating more pixels in image super-resolution transformer. In CVPR, pages 22367–22377, 2023c.
- De Lange et al. [2022] Matthias De Lange, Rahaf Aljundi, Marc Masana, Sarah Parisot, Xu Jia, Aleš Leonardis, Gregory Slabaugh, and Tinne Tuytelaars. A continual learning survey: Defying forgetting in classification tasks. IEEE TPAMI, 44(7):3366–3385, 2022.
- Delbracio and Milanfar [2023] Mauricio Delbracio and Peyman Milanfar. Inversion by direct iteration: An alternative to denoising diffusion for image restoration. TMLR, 2023.
- Dong et al. [2011] Weisheng Dong, Lei Zhang, Guangming Shi, and Xiaolin Wu. Image deblurring and super-resolution by adaptive sparse domain selection and adaptive regularization. IEEE TIP, 20(7):1838–1857, 2011.
- Dong et al. [2018] Weisheng Dong, Peiyao Wang, Wotao Yin, Guangming Shi, Fangfang Wu, and Xiaotong Lu. Denoising prior driven deep neural network for image restoration. IEEE TPAMI, 41(10):2305–2318, 2018.
- Fan et al. [2019] Qingnan Fan, Dongdong Chen, Lu Yuan, Gang Hua, Nenghai Yu, and Baoquan Chen. A general decoupled learning framework for parameterized image operators. IEEE TPAMI, 43(1):33–47, 2019.
- Farsiu et al. [2004] Sina Farsiu, M Dirk Robinson, Michael Elad, and Peyman Milanfar. Fast and robust multiframe super resolution. IEEE TIP, 13(10):1327–1344, 2004.
- Galdran et al. [2015] Adrian Galdran, Javier Vazquez-Corral, David Pardo, and Marcelo Bertalmío. Enhanced variational image dehazing. SIAM Journal on Imaging Sciences, 8(3):1519–1546, 2015.
- Harald [1924] Koschmieder Harald. Theorie der horizontalen sichtweite: Kontrast und sichtweite. Keim and Nemnich, Munich, 12, 1924.
- He et al. [2010] Kaiming He, Jian Sun, and Xiaoou Tang. Single image haze removal using dark channel prior. IEEE TPAMI, 33(12):2341–2353, 2010.
- Hu et al. [2021] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In ICLR, 2021.
- Jia et al. [2022] Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, and Ser-Nam Lim. Visual prompt tuning. In ECCV, 2022.
- Kim and Kwon [2010] Kwang In Kim and Younghee Kwon. Single-image super-resolution using sparse regression and natural image prior. IEEE TPAMI, 32(6):1127–1133, 2010.
- Kindermann et al. [2005] Stefan Kindermann, Stanley Osher, and Peter W Jones. Deblurring and denoising of images by nonlocal functionals. Multiscale Modeling & Simulation, 4(4):1091–1115, 2005.
- Kingma and Ba [2015] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
- Kopiczko et al. [2024] Dawid Jan Kopiczko, Tijmen Blankevoort, and Yuki M Asano. VeRA: Vector-based random matrix adaptation. In ICLR, 2024.
- Li et al. [2018] Boyi Li, Wenqi Ren, Dengpan Fu, Dacheng Tao, Dan Feng, Wenjun Zeng, and Zhangyang Wang. Benchmarking single-image dehazing and beyond. IEEE TIP, 28(1):492–505, 2018.
- Li et al. [2019] Boyi Li, Wenqi Ren, Dengpan Fu, Dacheng Tao, Dan Feng, Wenjun Zeng, and Zhangyang Wang. Benchmarking single-image dehazing and beyond. IEEE TIP, 28(1):492–505, 2019.
- Li et al. [2022] Boyun Li, Xiao Liu, Peng Hu, Zhongqin Wu, Jiancheng Lv, and Xi Peng. All-in-one image restoration for unknown corruption. In CVPR, 2022.
- Li et al. [2020] Ruoteng Li, Robby T. Tan, and Loong-Fah Cheong. All in one bad weather removal using architectural search. In CVPR, 2020.
- Loshchilov [2019] I Loshchilov. Decoupled weight decay regularization. In ICLR, 2019.
- Luo et al. [2023] Ziwei Luo, Fredrik K Gustafsson, Zheng Zhao, Jens Sjölund, and Thomas B Schön. Controlling vision-language models for universal image restoration. arXiv preprint arXiv:2310.01018, 3(8), 2023.
- Ma et al. [2023] Jiaqi Ma, Tianheng Cheng, Guoli Wang, Qian Zhang, Xinggang Wang, and Lefei Zhang. Prores: Exploring degradation-aware visual prompt for universal image restoration. arXiv preprint arXiv:2306.13653, 2023.
- Ma et al. [2016] Kede Ma, Zhengfang Duanmu, Qingbo Wu, Zhou Wang, Hongwei Yong, Hongliang Li, and Lei Zhang. Waterloo exploration database: New challenges for image quality assessment models. IEEE TIP, 26(2):1004–1016, 2016.
- Martin et al. [2001] David Martin, Charless Fowlkes, Doron Tal, and Jitendra Malik. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In ICCV, 2001.
- Michaeli and Irani [2013] Tomer Michaeli and Michal Irani. Nonparametric blind super-resolution. In ICCV, 2013.
- Nah et al. [2017] Seungjun Nah, Tae Hyun Kim, and Kyoung Mu Lee. Deep multi-scale convolutional neural network for dynamic scene deblurring. In CVPR, 2017.
- Nah et al. [2019] Seungjun Nah, Sungyong Baik, Seokil Hong, Gyeongsik Moon, Sanghyun Son, Radu Timofte, and Kyoung Mu Lee. Ntire 2019 challenge on video deblurring and super-resolution: Dataset and study. In CVPR Workshops, pages 0–0, 2019.
- Niu et al. [2020] Xuejing Niu, Bo Yan, Weimin Tan, and Junyi Wang. Effective image restoration for semantic segmentation. Neurocomputing, 374:100–108, 2020.
- Oliveira et al. [2009] Joao P Oliveira, José M Bioucas-Dias, and Mário AT Figueiredo. Adaptive total variation image deblurring: a majorization–minimization approach. Signal processing, 89(9):1683–1693, 2009.
- Park et al. [2024] Dongwon Park, Hayeon Kim, and Se Young Chun. Contribution-based low-rank adaptation with pre-training model for real image restoration. In ECCV, 2024.
- Potlapalli et al. [2024] Vaishnav Potlapalli, Syed Waqas Zamir, Salman H Khan, and Fahad Shahbaz Khan. Promptir: Prompting for all-in-one image restoration. In NeurIPS, 2024.
- Ren et al. [2023] Mengwei Ren, Mauricio Delbracio, Hossein Talebi, Guido Gerig, and Peyman Milanfar. Multiscale structure guided diffusion for image deblurring. In ICCV, 2023.
- Sheikh et al. [2006] Hamid R Sheikh, Muhammad F Sabir, and Alan C Bovik. A statistical evaluation of recent full reference image quality assessment algorithms. IEEE TIP, 15(11):3440–3451, 2006.
- Shen et al. [2019] Ziyi Shen, Wenguan Wang, Xiankai Lu, Jianbing Shen, Haibin Ling, Tingfa Xu, and Ling Shao. Human-aware motion deblurring. In ICCV, pages 5572–5581, 2019.
- Shi et al. [2016] Wenzhe Shi, Jose Caballero, Ferenc Huszár, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, and Zehan Wang. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In CVPR, pages 1874–1883, 2016.
- Sun et al. [2022] Shangquan Sun, Wenqi Ren, Tao Wang, and Xiaochun Cao. Rethinking image restoration for object detection. In NeurIPS, 2022.
- Talebi and Milanfar [2018] Hossein Talebi and Peyman Milanfar. Nima: Neural image assessment. IEEE TIP, 27(8):3998–4011, 2018.
- Timofte et al. [2013] Radu Timofte, Vincent De Smet, and Luc Van Gool. Anchored neighborhood regression for fast example-based super-resolution. In ICCV, 2013.
- Valanarasu et al. [2022] Jeya Maria Jose Valanarasu, Rajeev Yasarla, and Vishal M Patel. Transweather: Transformer-based restoration of images degraded by adverse weather conditions. In CVPR, 2022.
- Wang et al. [2024] Cong Wang, Jinshan Pan, Wanyu Lin, Jiangxin Dong, Wei Wang, and Xiao-Ming Wu. Selfpromer: Self-prompt dehazing transformers with depth-consistency. In AAAI, 2024.
- Wang et al. [2023] Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, and Tiejun Huang. Images speak in images: A generalist painter for in-context visual learning. In CVPR, 2023.
- Wang et al. [2022] Zhendong Wang, Xiaodong Cun, Jianmin Bao, Wengang Zhou, Jianzhuang Liu, and Houqiang Li. Uformer: A general u-shaped transformer for image restoration. In CVPR, pages 17683–17693, 2022.
- Wei et al. [2018] Chen Wei, Wenjing Wang, Wenhan Yang, and Jiaying Liu. Deep retinex decomposition for low-light enhancement. In BMVC, 2018.
- Weyand et al. [2020] Tobias Weyand, Andre Araujo, Bingyi Cao, and Jack Sim. Google landmarks dataset v2-a large-scale benchmark for instance-level recognition and retrieval. In CVPR, pages 2575–2584, 2020.
- Xu et al. [2023] Lingling Xu, Haoran Xie, Si-Zhao Joe Qin, Xiaohui Tao, and Fu Lee Wang. Parameter-efficient fine-tuning methods for pretrained language models: A critical review and assessment. arXiv preprint arXiv:2312.12148, 2023.
- Yang et al. [2024] Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. Depth anything v2. arXiv preprint arXiv:2406.09414, 2024.
- Yang et al. [2017] Wenhan Yang, Robby T Tan, Jiashi Feng, Jiaying Liu, Zongming Guo, and Shuicheng Yan. Deep joint rain detection and removal from a single image. In CVPR, pages 1357–1366, 2017.
- Yang et al. [2020] Wenhan Yang, Shiqi Wang, Yuming Fang, Yue Wang, and Jiaying Liu. From fidelity to perceptual quality: A semi-supervised approach for low-light image enhancement. In CVPR, 2020.
- Yang et al. [2021] Wenhan Yang, Wenjing Wang, Haofeng Huang, Shiqi Wang, and Jiaying Liu. Sparse gradient regularized deep retinex network for robust low-light image enhancement. IEEE TIP, 30:2072–2086, 2021.
- Yang et al. [2022] Yang Yang, Chaoyue Wang, Risheng Liu, Lin Zhang, Xiaojie Guo, and Dacheng Tao. Self-augmented unpaired image dehazing via density and depth decomposition. In CVPR, 2022.
- Yue et al. [2024] Zongsheng Yue, Jianyi Wang, and Chen Change Loy. Efficient diffusion model for image restoration by residual shifting. In NeurIPS, 2024.
- Yun et al. [2019] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. Cutmix: Regularization strategy to train strong classifiers with localizable features. In ICCV, 2019.
- Zamir et al. [2021] Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, and Ling Shao. Multi-stage progressive image restoration. In CVPR, 2021.
- Zamir et al. [2022] Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, and Ming-Hsuan Yang. Restormer: Efficient transformer for high-resolution image restoration. In CVPR, 2022.
- Zhang et al. [2023] Jinghao Zhang, Jie Huang, Mingde Yao, Zizheng Yang, Hu Yu, Man Zhou, and Feng Zhao. Ingredient-oriented multi-degradation learning for image restoration. In CVPR, 2023.
- Zhang et al. [2021] Kaihao Zhang, Rongqing Li, Yanjiang Yu, Wenhan Luo, and Changsheng Li. Deep dense multi-scale network for snow removal using semantic and geometric priors. IEEE TIP, 2021.
- Zheng et al. [2024] Dian Zheng, Xiao-Ming Wu, Shuzhou Yang, Jian Zhang, Jian-Fang Hu, and Wei-Shi Zheng. Selective hourglass mapping for universal image restoration based on diffusion model. In CVPR, 2024.
- Zhong et al. [2024] Zihan Zhong, Zhiqiang Tang, Tong He, Haoyang Fang, and Chun Yuan. Convolution meets loRA: Parameter efficient finetuning for segment anything model. In ICLR, 2024.
- Zhou et al. [2024] Dewei Zhou, Zongxin Yang, and Yi Yang. Pyramid diffusion models for low-light image enhancement. In IJCAI, 2024.