JaLMS
最新の AI 研究を日本語で解読

ColorFlow: Retrieval-Augmented Image Sequence Colorization

Junhao Zhuang1,2∗  Xuan Ju2∗  Zhaoyang Zhang2†  Yong Liu1,2  Shiyi Zhang1,2
Chun Yuan1‡  Ying Shan2‡
1Tsinghua University  2ARC Lab, Tencent PCG
Abstract

キャラクターや物体の同一性(ID)を保持しながら、白黒画像シーケンスを自動的にカラー化することは、漫画やコミックシリーズのカラー化など、市場需要の高い複雑なタスクである。拡散モデルのような大規模生成モデルを用いた視覚的カラー化の進歩にもかかわらず、制御性と同一性の一貫性に関する課題は依然として存在し、現在のソリューションは産業応用には適していない。 この問題に対処するため、我々はColorFlowを提案する。これは産業応用における画像シーケンスのカラー化のために特別に設計された3段階の拡散ベースのフレームワークである。ID毎の微調整や明示的なID埋め込み抽出を必要とする既存の手法とは異なり、我々は関連する色の参照を用いて画像をカラー化するための、新しい堅牢で汎用性のある検索拡張カラー化パイプラインを提案する。 我々のパイプラインはまた、デュアルブランチ設計を特徴としている:一方のブランチは色の同一性抽出用、もう一方はカラー化用であり、拡散モデルの強みを活用している。我々は、強力な文脈内学習と色の同一性マッチングのために、拡散モデルにおける自己注意メカニズムを利用する。 我々のモデルを評価するために、参照ベースのカラー化のための包括的なベンチマークであるColorFlow-Benchを導入する。結果は、ColorFlowが複数の指標にわたって既存のモデルを上回り、連続画像のカラー化において新たな基準を設定し、芸術産業に潜在的な利益をもたらすことを示している。 本稿のコードとモデルは、我々のプロジェクトページで公開している:https://zhuang2002.github.io/ColorFlow/

1 Introduction

拡散モデルは生成において大きな進歩を遂げ、画像修復[84, 30]、画像の色付け[78, 21]、画像編集[6]を含む制御可能な画像生成において最先端の結果を達成している。この進歩は多くの下流タスクの成長を促している。 しかし、拡散ベースの生成が労力コストを大幅に削減できる問題、すなわち参照ベースの画像シーケンス色付けについては、限られた注目しか集めていない。この技術は漫画制作、アニメーション制作、白黒映画の色付けに活用できる。

近年、拡散モデルの前例のない画像生成能力により、拡散モデルを用いた色付けへの関心が高まっている[8, 80, 76]。しかし、ほとんどの取り組み[80, 40, 41, 76]は、色の参照なしの基本的なテキストから画像への設定のみを考慮しており、実用的な応用からはほど遠い。 AnimeDiffusion[8]に関する最近の研究では、参照画像ベースのアニメキャラクターの色付けを探求しているが、単一の弱いID保持を伴う画像の色付けのみをサポートしており、参照画像と色付けする画像との対応付けは単に顔の特徴のマッチングによって達成できる。

本稿では、参照ベース画像シーケンスカラー化という新しいタスクを紹介する。これは、参照画像プールから色を対応付けることで、白黒画像のシーケンスをカラー画像に変換することを目的としている(図1参照)。このタスクは市場の需要が高いにもかかわらず、未解決のままである。敵対的生成ネットワーク(GANs)[21, 69, 57, 78]や変分オートエンコーダー(VAEs)[71, 19]に基づく従来の解決策は、ポートレートのカラー化などの特定のアプリケーションでは成功を収めているが、トレーニングの困難さと汎化の限界により、主流として受け入れられるには至っていない。

参照ベース画像シーケンスカラー化の欠点に対処するため、我々はColorFlowという3段階の手法を提案する。これは産業応用に直接適用可能である。一般に、ColorFlowは以下で構成される:

  • 検索拡張パイプライン(RAP):参照画像プールから関連するカラー画像パッチを抽出する。

  • 文脈内カラー化パイプライン(ICP):強力な文脈内学習を利用して、色の識別を正確に取得し、二分岐設計でカラー化を実行する。

  • ガイド付き超解像パイプライン(GSRP):アップサンプリングを行い、高解像度のカラー画像を生成する。

Retrieval-Augmented-Generation (RAG)に触発され、RAPは入力画像と参照プールの間でID関連の画像パッチをマッチングします。これにより、ID毎の微調整や明示的なIDの埋め込み抽出を必要とせず、より使いやすくアクセスしやすいものとなっている。 コアとなる着色モジュールであるIn-context Colorization Pipelineは、画像の色彩アイデンティティの対応と着色のために二分岐設計を採用している。この構造により、ベースとなる拡散モデルのより深層のレイヤーが、画像生成と着色能力を維持しつつ、アイデンティティ情報をより良く処理することを可能にしている。拡散モデルのセルフアテンション機構を活用し、我々は参照画像とグレースケール画像を同じキャンバス上に配置し、ベース拡散モデルのコピーを使用してそれらの特徴を抽出し、これらの特徴を層ごとに拡散モデルに供給して着色を行う。 着色のために、我々はLow-Rank Adaptation (LoRA) [27]を使用して事前学習済みのベース拡散モデルを微調整し、その着色能力を保持している。 また、我々はGuided Super-Resolution Pipelineを導入し、着色中の構造的詳細の歪みを軽減している。高解像度の白黒漫画と低解像度の着色出力を統合することで、GSRPは詳細の復元を強化し、出力品質を向上させている。

包括的な評価を確実にするため、我々はColorFlow-Benchを構築した。これは30の漫画チャプターからなるデータセットであり、各チャプターには50枚の白黒漫画と40枚の参照画像が含まれている。結果は、ColorFlowがピクセル単位および画像単位の評価において、5つの指標全てで最先端の性能を達成していることを示している。先行研究と比較して、ColorFlowは画像シーケンスにおいてより細かな粒度での色彩アイデンティティの保持を実現し、画質を大幅に向上させている。我々の貢献は以下のようにまとめられる:

  • 我々は、参照ベースの画像シーケンス着色という新しいタスクを導入した。これは産業界の実践的なニーズに合致し、フレーム間でのキャラクターやオブジェクトのアイデンティティ維持の重要性を強調するものである。

  • 我々は、一貫性のある高品質な検索拡張画像シーケンス着色を可能にする堅牢な3段階フレームワークであるColorFlowを提示する。

  • 我々は、参照ベースの画像シーケンス着色のための包括的なベンチマークであるColorFlow-Benchを確立した。

  • 広範な評価により、我々の手法が知覚的指標と主観的ユーザー調査の両方において既存のアプローチを凌駕していることが実証された。我々のモデルは、最先端の着色モデルと比較してFID指標を37%以上削減している。さらに、我々の提案モデルは、美的品質、参照との類似性、シーケンシャルな一貫性に関するユーザー調査スコアで1位を獲得している。

2 Related Work

画像の色付け [78, 21]は、グレースケール画像(例えば、マンガ [49]、線画 [32]、スケッチ [80]、およびグレースケールの自然画像 [76])をカラー版に変換することを目的としている。 制御性を高めるために、色情報を示すさまざまな条件が使用されており、これには落書き [17, 79, 78, 75, 14, 43, 54, 82, 20, 58, 49]、参照画像 [8, 86, 68, 60, 67, 5, 38, 37, 77, 74, 36, 81, 44, 13, 1, 71, 72, 34, 57, 35, 19, 70, 23, 69, 21]、パレット [59, 68, 62, 70, 4, 9]、およびテキスト [76, 80, 65, 11, 10, 64, 7, 85, 32, 47, 4, 12]が含まれる。 具体的には、落書きは色のパターンのヒントとして単純で自由な色のストロークを提供する。Two-stage Sketch Colorization [78]は、まずキャンバス上に色のストロークを適用し、その後色の不正確さを修正し詳細を洗練する2段階のCNNベースのフレームワークを採用している。参照画像ベースの色付けは、類似のオブジェクト、シーン、またはテクスチャを含む参照画像から色を転送する。ScreenVAE [71]とComicolorization [21]は、参照画像からの色情報を潜在空間に圧縮し、その後、潜在表現をベースの色付けネットワークに注入する。パレットベースのモデル [9, 59]は、画像の全体的な色のテーマを刺激するスタイリスティックなガイドとしてパレットを使用する。 拡散モデル [26, 56]の出現により、テキストは画像生成のための最も重要な指示形式の1つとなり、したがって画像の色付けにも広く使用されている。テキストによる指示は、望ましい色のテーマ、オブジェクトの色、または全体的な雰囲気を記述するテキストプロンプトを使用する。ControlNet [80]は、事前学習されたテキストから画像への拡散モデル [51]に追加の学習可能なモジュールを加え、色付けのために拡散モデルの本来のテキストから画像への能力を活用している。

しかしながら、パレット、テキスト、潜在表現のいずれを使用しても、これらの手法は大まかな色調のみを提供でき、白黒画像における個々のインスタンスの正確な色の保存を保証することはできない。対照的に、ColorFlowは検索拡張パイプラインとコンテキスト特徴マッチング機構を導入することで、画像シーケンスにおけるフレーム間でのインスタンスレベルの色保存を実現している。

画像間変換は、ソースドメインからターゲットドメインへのマッピングを確立することを目的としている(例:スケッチから画像 [83, 80]、ポーズから画像 [29, 42]、画像インペインティング [84, 30]、画像編集 [31, 6])。拡散モデルの最近の進歩 [15, 26, 56, 52] により、この課題において拡散モデルが主流となっている。アプローチは主に推論ベース [24, 3] と学習ベースのパラダイム [80, 30] に分類される。 推論ベースの手法は、しばしばデュアルブランチ構造 [31] を使用し、ソースブランチが本質的なコンテンツを保持し、ターゲットブランチがガイダンスを伴って画像をマッピングする。これらのブランチは注意機構や潜在特徴の統合を通じて相互作用するが、しばしば不十分な制御に悩まされる。 学習ベースの手法 [80, 83, 48] は、高品質で精密な制御が可能なため人気がある。Stable Diffusion [52] は、制御条件をノイズの入力と直接連結し、モデルをエンドツーエンドで微調整することで深度制御を追加している。ControlNet [80] は、凍結された事前学習済み拡散モデルに制御条件を追加するためにデュアルブランチ設計を使用し、高品質な画像生成を維持しながらプラグアンドプレイ制御を可能にしている。

注目すべきは、これらのアプローチのいずれも、連続画像変換タスクにおけるフレーム間のアイデンティティ保持に特に対処していないことであり、これは連続画像を含む実用的な産業シナリオへの適用を制限している。対照的に、ColorFlowはこの制限に取り組むように設計されており、画像シーケンスの色付けタスクにおいてフレーム間で堅牢なインスタンスアイデンティティ保持を提供する。

ID保持は、画像生成の分野におけるトレンドトピックである。従来のアプローチは主に2つのカテゴリーに分類できる:1つ目は、生成モデルを微調整して1つ以上の事前定義された概念を記憶できるようにすることであり[53, 33, 22]、2つ目は、大規模データセットで訓練されたプラグアンドプレイモジュールを使用し、推論段階で与えられた画像コンテンツを用いて所望の概念の生成を制御できるようにすることである[73, 39, 61]。一般に、従来の手法は限られた事前定義された概念に焦点を当てている。

対照的に、我々はColorFlowを提案する。これは、連続画像の色付けのための堅牢で自動化された3段階のフレームワークを提供する。 ColorFlowは、コミックシーケンスに存在するダイナミックで多様なキャラクター、オブジェクト、背景を扱う課題に効果的に対処し、産業応用に適している。

Refer to caption
図2: ColorFlowの概要。この図は、我々のフレームワークの3つの主要コンポーネントを示している:検索拡張パイプライン(RAP)、文脈内色付けパイプライン(ICP)、およびガイド付き超解像パイプライン(GSRP)。各コンポーネントは、高品質な色付けを確保しながら、白黒画像シーケンス全体でインスタンスの色アイデンティティを維持するために不可欠である。

3 Method

我々の目的は、カラー画像を参照として白黒画像に色を付け、画像シーケンス全体を通じてキャラクター、オブジェクト、背景の一貫性を確保することである。図2に示すように、我々のフレームワークは3つの主要コンポーネントで構成されている:検索拡張パイプライン、文脈内色付けパイプライン、誘導型超解像パイプラインである。

3.1 Retrieval-Augmentated Pipeline

検索拡張パイプライン(RAP)は、着色プロセスを導くための関連するカラー参照を特定し抽出するように設計されている。 これを達成するために、我々はまず入力の白黒画像を4つの重複するパッチに分割する:左上、右上、左下、右下である。各パッチは元の画像の寸法の4分の3をカバーし、重要な詳細が保持されることを確保する。 各カラー参照画像に対して、我々は5つのパッチを作成する:同じ4つの重複するパッチと完全な画像であり、これにより包括的な参照データセットを提供する。

次に、我々は事前学習済みのCLIP画像エンコーダーを使用して、入力画像のパッチに対する画像埋め込みEbwsubscript𝐸𝑏𝑤E_{bw}italic_E start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPTと参照パッチに対するErefsubscript𝐸𝑟𝑒𝑓E_{ref}italic_E start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTを生成する。これらの埋め込みは以下のように定義される:

Ebw=fCLIP(Pbw)andEref=fCLIP(Pref),formulae-sequencesubscript𝐸𝑏𝑤subscript𝑓𝐶𝐿𝐼𝑃subscript𝑃𝑏𝑤andsubscript𝐸𝑟𝑒𝑓subscript𝑓𝐶𝐿𝐼𝑃subscript𝑃𝑟𝑒𝑓E_{bw}=f_{CLIP}(P_{bw})\quad\text{and}\quad E_{ref}=f_{CLIP}(P_{ref}),italic_E start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT = italic_f start_POSTSUBSCRIPT italic_C italic_L italic_I italic_P end_POSTSUBSCRIPT ( italic_P start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT ) and italic_E start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT = italic_f start_POSTSUBSCRIPT italic_C italic_L italic_I italic_P end_POSTSUBSCRIPT ( italic_P start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT ) , (1)

ここで、Pbwsubscript𝑃𝑏𝑤P_{bw}italic_P start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPTは白黒パッチを表し、Prefsubscript𝑃𝑟𝑒𝑓P_{ref}italic_P start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTはカラー参照パッチを表す。

入力画像の4つのパッチそれぞれに対して、我々はその埋め込みと参照パッチの埋め込みとのコサイン類似度S𝑆Sitalic_Sを計算する:

S(a,b)=abab.𝑆𝑎𝑏𝑎𝑏norm𝑎norm𝑏S(a,b)=\frac{a\cdot b}{\|a\|\cdot\|b\|}.italic_S ( italic_a , italic_b ) = divide start_ARG italic_a ⋅ italic_b end_ARG start_ARG ∥ italic_a ∥ ⋅ ∥ italic_b ∥ end_ARG . (2)

ここで、a𝑎aitalic_ab𝑏bitalic_bはそれぞれクエリパッチと参照パッチの埋め込みである。我々は各クエリパッチに対する上位3つの類似パッチを以下のように定義する:

Top3(Ebw(i))𝑇𝑜subscript𝑝3superscriptsubscript𝐸𝑏𝑤𝑖\displaystyle{Top}_{3}(E_{bw}^{(i)})italic_T italic_o italic_p start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ( italic_E start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_i ) end_POSTSUPERSCRIPT ) ={Eref(j1),Eref(j2),Eref(j3)\displaystyle=\{E_{ref}^{(j_{1})},E_{ref}^{(j_{2})},E_{ref}^{(j_{3})}\mid= { italic_E start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_j start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) end_POSTSUPERSCRIPT , italic_E start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_j start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) end_POSTSUPERSCRIPT , italic_E start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_j start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ) end_POSTSUPERSCRIPT ∣ (3)
jkargmaxkS(Ebw(i),Eref(k)),k=1,2,3},\displaystyle j_{k}\in\arg\max_{k}S(E_{bw}^{(i)},E_{ref}^{(k)}),\,k=1,2,3\},italic_j start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ∈ roman_arg roman_max start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT italic_S ( italic_E start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_i ) end_POSTSUPERSCRIPT , italic_E start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_k ) end_POSTSUPERSCRIPT ) , italic_k = 1 , 2 , 3 } ,

i{0,1,2,3}𝑖0123i\in\{0,1,2,3\}italic_i ∈ { 0 , 1 , 2 , 3 }に対して、ここでEbw(i)superscriptsubscript𝐸𝑏𝑤𝑖E_{bw}^{(i)}italic_E start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_i ) end_POSTSUPERSCRIPTi𝑖iitalic_i番目のクエリパッチの埋め込みを表し、Eref(k)superscriptsubscript𝐸𝑟𝑒𝑓𝑘E_{ref}^{(k)}italic_E start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_k ) end_POSTSUPERSCRIPTは対応する参照パッチの埋め込みを表す。

各クエリ領域に対する上位3つの類似パッチを特定した後、我々はこれらの選択されたパッチを統合して1つの出力画像を作成する。左上、右上、左下、右下の領域に対応するパッチは、図2に示すように、合成画像𝒞bwsubscript𝒞𝑏𝑤\mathcal{C}_{bw}caligraphic_C start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPTを作成するために組み合わされる。この空間的配置により、検索されたカラー情報の正確な配置が確保され、着色プロセスの文脈的関連性が向上する。 さらに、我々は白黒画像パッチに対応する元のカラーバージョンを同様に組み合わせて(𝒞colorsubscript𝒞𝑐𝑜𝑙𝑜𝑟\mathcal{C}_{color}caligraphic_C start_POSTSUBSCRIPT italic_c italic_o italic_l italic_o italic_r end_POSTSUBSCRIPT)を構築する。これにより(𝒞bwsubscript𝒞𝑏𝑤\mathcal{C}_{bw}caligraphic_C start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT)とのデータペアが形成され、後続の着色トレーニングに使用される。 文脈的に最も関連性の高いカラー情報を効果的に収集することで、検索拡張パイプラインは我々のフレームワークの次の段階への準備を整え、生成される色が参照画像と調和し一貫性を持つことを保証する。

3.2 In-context Colorization Pipeline

文脈内彩色パイプラインは、我々のフレームワークの基本的な構成要素であり、取得したパッチからの文脈情報を活用して白黒画像をフルカラーバージョンに変換するように設計されている。 我々は、Colorization Guiderと呼ばれる補助的な分岐を導入し、これがモデルに条件付き情報を組み込むのを支援する。この分岐は、拡散モデルのU-Netからすべての畳み込み層の重みを複製することで初期化される。

Colorization Guiderへの入力は、ノイズ潜在変数Ztsubscript𝑍𝑡Z_{t}italic_Z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT、合成画像𝒞bwsubscript𝒞𝑏𝑤\mathcal{C}_{bw}caligraphic_C start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPTの変分オートエンコーダの出力VAE(𝒞bw)VAEsubscript𝒞𝑏𝑤\text{VAE}(\mathcal{C}_{bw})VAE ( caligraphic_C start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT )、およびダウンサンプリングされたマスクM𝑀Mitalic_Mで構成される。これらの要素は連結され、モデルの包括的な入力を形成する。Colorization Guiderからの特徴は、拡散モデルのU-Netに段階的に統合され、密な画素単位の条件付き埋め込みを可能にする。さらに、我々は軽量なLoRA(Low-Rank Adaptation)アプローチを使用して、彩色タスクのために拡散モデルを微調整する。 損失関数は以下のように形式化できる:

Color=Et,𝒞bw,ϵtϵtϵθ({VAE(𝒞bw),M,Zt},t)22.subscript𝐶𝑜𝑙𝑜𝑟subscript𝐸𝑡subscript𝒞𝑏𝑤subscriptitalic-ϵ𝑡subscriptsuperscriptnormsubscriptitalic-ϵ𝑡subscriptitalic-ϵ𝜃VAEsubscript𝒞𝑏𝑤𝑀subscript𝑍𝑡𝑡22\mathcal{L}_{Color}=E_{t,\mathcal{C}_{bw},\epsilon_{t}}\|\epsilon_{t}-\epsilon% _{\theta}(\{\text{VAE}(\mathcal{C}_{bw}),M,Z_{t}\},t)\|^{2}_{2}.caligraphic_L start_POSTSUBSCRIPT italic_C italic_o italic_l italic_o italic_r end_POSTSUBSCRIPT = italic_E start_POSTSUBSCRIPT italic_t , caligraphic_C start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT , italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUBSCRIPT ∥ italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( { VAE ( caligraphic_C start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT ) , italic_M , italic_Z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT } , italic_t ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT . (4)

訓練中、Ztsubscript𝑍𝑡Z_{t}italic_Z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTは前方拡散過程を通じてVAE(𝒞color)VAEsubscript𝒞𝑐𝑜𝑙𝑜𝑟\text{VAE}(\mathcal{C}_{color})VAE ( caligraphic_C start_POSTSUBSCRIPT italic_c italic_o italic_l italic_o italic_r end_POSTSUBSCRIPT )から導出される。

この訓練目的により、モデルは入力潜在空間を効率的にデノイズし、参照画像によって誘導されながら、白黒入力から所望のカラー出力を徐々に再構築することができる。 我々は、カラー参照画像のインスタンスを白黒画像のインスタンスに明示的にマッピングしていないが、検索メカニズムにより、参照画像に類似のコンテンツが含まれることが保証される。その結果、モデルは自然に、取得した参照からの文脈情報を活用して、白黒画像を正確に彩色することを学習する。

Timestep shifted sampling.

彩色プロセスは主に高いタイムステップで決定されるため、高いタイムステップに重点を置くことが重要である。我々は、タイムステップtsuperscript𝑡t^{\prime}italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTを調整することでサンプリング戦略を修正する:

t=eμeμ+(Tt1)T,t𝒰(0,T].formulae-sequencesuperscript𝑡superscript𝑒𝜇superscript𝑒𝜇𝑇𝑡1𝑇similar-to𝑡𝒰0𝑇t^{\prime}=\frac{e^{\mu}}{e^{\mu}+\left(\frac{T}{t}-1\right)}T,\quad t\sim% \mathcal{U}(0,T].italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = divide start_ARG italic_e start_POSTSUPERSCRIPT italic_μ end_POSTSUPERSCRIPT end_ARG start_ARG italic_e start_POSTSUPERSCRIPT italic_μ end_POSTSUPERSCRIPT + ( divide start_ARG italic_T end_ARG start_ARG italic_t end_ARG - 1 ) end_ARG italic_T , italic_t ∼ caligraphic_U ( 0 , italic_T ] . (5)

本稿では、μ𝜇\muitalic_μを1.5に設定する。この調整により、モデルはこれらの高いタイムステップを強調し、それによって彩色プロセスの効果を高めることができる。

Refer to caption
図3: パッチ単位の訓練戦略は、高解像度の結合画像での訓練の計算要求を減らすように設計されている。左のボックスは訓練フェーズからの分割された結合画像を表示し、対応するマスクも同様に分割されている。右のボックスは推論フェーズのための完全な結合画像とマスクを示している。
Refer to caption
図4: スクリーンスタイル拡張。左から右へ:カラーマンガ、グレースケールマンガ、グレースケールマンガとScreenVAE [71]出力との間の0.66と0.33の割合での線形補間、ScreenVAE出力。

Screenstyle augmentation.

Xieらは以前、ScreenVAE [71]を導入し、これによりカラーマンガを日本の白黒スタイルに自動変換することが可能になった。本稿では、グレースケール画像とScreenVAEによって生成された出力との間でランダムな線形補間を行うことで入力画像を拡張する。図4に示されているこの拡張戦略は、モデルがさまざまなスタイルにより適応し、彩色プロセスの全体的なパフォーマンスを向上させるのに役立つ。

Patch-Wise training strategy.

高解像度の結合画像での訓練における大きな計算要求に対処するため、我々はパッチ単位の訓練戦略を導入する。 訓練中、我々は参照画像パッチからランダムにセグメントを切り取り、白黒画像領域全体が常に含まれるようにする。彩色領域を示す対応するマスクも同様に切り取られる。 さらにパフォーマンスを向上させるため、我々は入力画像をダウンサンプリングし、重要な詳細を保持しながら計算負荷を軽減する。この戦略は反復あたりの訓練時間を大幅に短縮し、モデルのより速い収束を促進する。推論時には、図3に示すように、彩色のための文脈情報の利用可能性を最大化するために完全な結合画像を使用する。

3.3 Guided Super-Resolution Pipeline

ガイド付き超解像パイプラインは、着色時のダウンサンプリングに関連する課題に取り組み、潜在デコーダーD𝐷Ditalic_Dからの出力でしばしば見られる構造的歪みを軽減するように設計されている。これらの問題は、生成される画像の品質に大きな影響を与える可能性がある。 このパイプラインは、高解像度の白黒画像Ibwhighsuperscriptsubscript𝐼𝑏𝑤𝑖𝑔I_{bw}^{high}italic_I start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_h italic_i italic_g italic_h end_POSTSUPERSCRIPTと、文脈内着色パイプラインによって生成された低解像度のカラー出力Icolorlowsuperscriptsubscript𝐼𝑐𝑜𝑙𝑜𝑟𝑙𝑜𝑤I_{color}^{low}italic_I start_POSTSUBSCRIPT italic_c italic_o italic_l italic_o italic_r end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_l italic_o italic_w end_POSTSUPERSCRIPTを入力として受け取る。目標は、高解像度のカラー画像Ipredhighsuperscriptsubscript𝐼𝑝𝑟𝑒𝑑𝑖𝑔I_{pred}^{high}italic_I start_POSTSUBSCRIPT italic_p italic_r italic_e italic_d end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_h italic_i italic_g italic_h end_POSTSUPERSCRIPTを生成することである。これを達成するために、我々はまず低解像度のカラー画像Icolorlowsuperscriptsubscript𝐼𝑐𝑜𝑙𝑜𝑟𝑙𝑜𝑤I_{color}^{low}italic_I start_POSTSUBSCRIPT italic_c italic_o italic_l italic_o italic_r end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_l italic_o italic_w end_POSTSUPERSCRIPTを線形補間を用いてIbwhighsuperscriptsubscript𝐼𝑏𝑤𝑖𝑔I_{bw}^{high}italic_I start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_h italic_i italic_g italic_h end_POSTSUPERSCRIPTの解像度に一致するようにアップサンプリングする。アップサンプリングされたカラー画像と元の高解像度白黒画像は、その後VAEエンコーダーE𝐸Eitalic_Eを通して処理される。

効果的な特徴統合を可能にするために、VAEのエンコーダーとデコーダーの間にスキップガイダンスが確立される。両方のエンコーダーからの中間特徴が連結され、融合モジュールF𝐹Fitalic_Fに渡される。このモジュールは、結合された情報をデコーダーの対応する層に伝達する。この多階層アプローチは、図2に示されているように、詳細の復元を強化する。

このプロセスの全体的な損失関数は以下のように定義される:

SR=subscript𝑆𝑅absent\displaystyle\mathcal{L}_{SR}=caligraphic_L start_POSTSUBSCRIPT italic_S italic_R end_POSTSUBSCRIPT = 𝔼[|IbwhighD(F(concat(Efeatures(Ibwhigh),\displaystyle\mathbb{E}[|I_{bw}^{high}-D(F(\text{concat}(E_{features}(I_{bw}^{% high}),blackboard_E [ | italic_I start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_h italic_i italic_g italic_h end_POSTSUPERSCRIPT - italic_D ( italic_F ( concat ( italic_E start_POSTSUBSCRIPT italic_f italic_e italic_a italic_t italic_u italic_r italic_e italic_s end_POSTSUBSCRIPT ( italic_I start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_h italic_i italic_g italic_h end_POSTSUPERSCRIPT ) , (6)
Efeatures(Upsample(Icolorlow)))),E(Ibwhigh))|1],\displaystyle E_{features}(Upsample(I_{color}^{low})))),E(I_{bw}^{high}))|_{1}],italic_E start_POSTSUBSCRIPT italic_f italic_e italic_a italic_t italic_u italic_r italic_e italic_s end_POSTSUBSCRIPT ( italic_U italic_p italic_s italic_a italic_m italic_p italic_l italic_e ( italic_I start_POSTSUBSCRIPT italic_c italic_o italic_l italic_o italic_r end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_l italic_o italic_w end_POSTSUPERSCRIPT ) ) ) ) , italic_E ( italic_I start_POSTSUBSCRIPT italic_b italic_w end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_h italic_i italic_g italic_h end_POSTSUPERSCRIPT ) ) | start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ] ,

ここで、Efeaturessubscript𝐸𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠E_{features}italic_E start_POSTSUBSCRIPT italic_f italic_e italic_a italic_t italic_u italic_r italic_e italic_s end_POSTSUBSCRIPTはVAEエンコーダーから抽出された中間特徴を表す。このパイプラインは、ダウンサンプリングと構造的歪みに関連する問題を効果的に解決し、より高品質な最終出力をもたらす。

4 Experiments

4.1 Dataset and Benchmark

表1: 参照画像ベースの色付けにおける最先端モデルとの定量的比較。 我々は、参照画像入力のない2つのモデル、Manga Colorization V2 (MC-v2) [45]とAnimeColorDeOldify (ACDO) [16]、および2つの参照画像ベースの色付けモデル、Example Based Manga Colorization (EBMC) [28]とScreenVAE [71]を比較する。最良の結果は太字で示されている。
Method Reference-based Screenstyle Grayscale Image
CLIP-IS\uparrow FID\downarrow PSNR\uparrow SSIM\uparrow AS\uparrow CLIP-IS\uparrow FID\downarrow PSNR\uparrow SSIM\uparrow AS\uparrow
MC-v2 [46] 0.8632 48.37 13.50 0.6987 4.753 0.8833 33.14 17.20 0.8396 4.845
ACDO [2] 0.8687 39.38 15.75 0.7672 4.540 0.8970 28.12 21.77 0.9516 4.686
EBMC [28] 0.8542 38.77 15.21 0.7592 4.605 0.8859 19.48 20.80 0.9474 4.702
ScreenVAE [71] 0.7328 98.52 9.12 0.5373 4.160 - - - -
Ours 0.9419 13.37 25.88 0.9541 4.924 0.9433 12.17 26.01 0.9579 5.011

Training data.

シーケンス画像の色付けの最も直接的な応用は、マンガの色付けである。本研究では、これまでで最大のマンガ色付けデータセットを編纂した。このデータセットは、様々なオープンなオンラインリポジトリから入手可能な50,000以上のカラーマンガチャプターシーケンスで構成されており、白黒マンガをフィルタリングした結果、170万枚以上の画像が含まれている。各マンガフレームに対して、対応するマンガチャプターから少なくとも20枚の追加フレームをランダムに選択し、多様な参照画像プールを構築した。その後、CLIP画像エンコーダ[50]を使用して、最も関連性の高い12枚の参照画像パッチを特定し取得した。この選択の体系的な記録により、冗長な計算を最小限に抑えつつ、後続の訓練を容易にしている。

Evaluation Benchmark.

我々が提案するマンガ色付けフレームワークの性能を評価するため、訓練段階に含まれていない30のマンガチャプターからなるベンチマークを確立した。各チャプターには40枚の参照画像と50ページの白黒マンガページが含まれており、スクリーンスタイル[71]とグレースケール画像の2つのスタイルで提供されている。 我々は、色付けの品質とオリジナル画像に対する色の忠実度を、いくつかの指標を用いて評価する:CLIP画像類似度(CLIP-IS)[50]、Fréchet Inception Distance(FID)[25]、ピーク信号対雑音比(PSNR)[66]、構造的類似性指標(SSIM)[63]、および美的スコア(AS)[55]である。 これらの指標は、生成された画像の美的品質だけでなく、オリジナルのコンテンツとの一貫性も評価し、色付けプロセスの包括的かつ全体的な評価を提供する。

4.2 Implementation Details

我々の色付けモデルは、Stable Diffusion v1.5 [52]に基づいている。我々のモデルおよびすべてのアブレーションモデルは、8台のNVIDIA A100 GPUを使用し、学習率1e-5で150,000ステップ訓練した。さらに、Guided Super-Resolution Pipelineは同じハードウェア構成と学習率で30,000イテレーション訓練された。推論時には、すべての手法がオープンソースコードと一致するNVIDIA Tesla A100 GPUでテストされた。

4.3 Baseline Models

公平な比較を確保するため、我々は漫画の色付けにおいて最新かつ競争力のあるアプローチを選択した。 参照画像なしの色付けには、CycleGANを用いて自動的に漫画に色を付けるManga Colorization V2 (MC-v2) [45]と、アニメと漫画向けに最適化されたDeOldifyの変種であるAnimeColorDeOldify (ACDO) [16]が含まれる。 参照画像に基づく色付けには、参照画像からの色特徴とグレースケールコンテンツを組み合わせるためにcGANを使用するExample Based Manga Colorization (EBMC) [28]、色付けに変分オートエンコーダーを利用するScreenVAE [71]、そして参照画像を用いて色のスタイルをマッチングするラインアートの着色用ソフトウェアであるStyle2Paints V4.5 [78]が含まれる。

4.4 Quantitative Comparisons

Refer to caption
図5: 選択された着色領域(で囲まれた部分)のセルフアテンションマップのヒートマップの可視化
Refer to caption
図6: マンガの着色における我々の手法と最先端アプローチの比較。我々の手法は、より優れた美的品質を示し、元の画像により近い色を生成している。[カラーで拡大して閲覧すると最適]

1において、我々はColorFlowと先行研究をColorFlow-Benchを用いて比較している。我々の結果は、ColorFlowが意味的整合性(CLIP-IS、FID)、ピクセル整合性(PSNR、SSIM)、美的スコア(AS)を含むすべての指標において他のモデルを大きく上回っており、その優れた画像着色の精度を示している。EBMC [28]やScreenVAE [71]のような手法は参照ベースの着色が可能であるが、文脈内学習の弱さと一貫した連続的着色を維持する能力の欠如により劣っている。対照的に、ColorFlowは拡散モデルを活用して色の同一性を効果的に保持することに優れており、これは図5のセルフアテンションマップによって示されている。

4.5 Qualitative Comparisons

Refer to caption
図7: アニメーションのストーリーボード着色におけるColorFlowと他のアプローチの比較。我々の手法は優れた美的品質を示し、元の画像により近い色を生成している。[カラーで拡大して閲覧することを推奨]
Refer to caption
図8: 線画と自然シーンの着色結果。

ColorFlowの汎化能力を示すために、我々は4つのシナリオにおける定性的結果を提示する:マンガの着色(図6)、漫画の着色(図7)、線画の着色(図8)、そして自然シーンの着色(図8)である。

6はColorFlowと以前の手法の着色結果を比較している。参照画像を使用しないモデルMC-v2[45]は文脈認識が欠如しており、ランダムな着色につながっている。EBMCとStyle2Paints[78]は参照画像を使用しているが、情報損失に悩まされ、不正確な着色となっている。対照的に、ColorFlowは画像ステッチングを用いて参照画像を効果的に統合し、拡散モデルのセルフアテンション層を活用してマンガのフレーム間で色の一貫性を維持している。

7と図8は、漫画、線画、自然画像を含む多様なシナリオにおけるColorFlowの優れたパフォーマンスを示している。これらの結果は、我々のアプローチの堅牢性と適応性を強調し、様々なスタイルやコンテンツタイプを効果的に扱う強力な汎化能力を実証している。

4.6 Abaltion Study

Pipeline components.

2 では、訓練時と推論時における検索拡張パイプラインとガイド付き超解像パイプラインの影響を比較している。 結果は、訓練時と推論時の両方で検索拡張パイプラインを使用し、さらに訓練時にガイド付き超解像パイプラインを使用することが、ColorFlowの性能にとって極めて重要であることを示している。

表2: 検索拡張パイプライン(RAP)とガイド付き超解像パイプライン(GSRP)の影響に関するアブレーション実験
Training Inference CLIP-IS\uparrow FID\downarrow PSNR\uparrow SSIM\uparrow AS\uparrow
RAP RAP GSRP
0.9326 15.98 24.48 0.9448 4.921
0.9233 18.32 24.16 0.9410 4.907
0.9266 17.07 24.64 0.9464 4.914
0.9322 17.85 20.12 0.8077 4.898
0.9419 13.37 25.88 0.9541 4.924

Inference resolution.

3 では、3つの異なる推論解像度についてアブレーション実験を行っている。512×800512800512\times 800512 × 800の解像度でのみ訓練されているにもかかわらず、結果はColorFlowが異なる解像度に対して汎化能力を持っていることを示している。

表3: 推論解像度のアブレーション
Width ×\times× Height (Pixel) CLIP-IS\uparrow FID\downarrow PSNR\uparrow SSIM\uparrow AS\uparrow
512 ×\times× 800 0.9372 14.91 23.51 0.9414 4.868
1024 ×\times× 1600 0.9419 13.37 25.88 0.9541 4.924
1280 ×\times× 2000 0.9398 13.42 26.02 0.9580 4.929

LoRA rank.

事前学習された拡散モデルの重みを部分的に保持することの必要性を示すために、我々は基本拡散モデルにおけるLoRAのランクについてアブレーション実験を行った。ここで、より大きなLoRAランクは事前学習された拡散モデルの重みにより大きな変更を加えることを意味する。表 4 は、LoRAランクが大きすぎても小さすぎても性能が低下することを示しており、最適なLoRAランクとして64を選択したことの妥当性を裏付けている。

表4: LoRAランクのアブレーション
Rank CLIP-IS\uparrow FID\downarrow PSNR\uparrow SSIM\uparrow AS\uparrow
32 0.940 13.46 25.46 0.9521 4.920
64 0.9419 13.37 25.88 0.9541 4.924
128 0.9376 14.31 24.79 0.9461 4.930
192 0.9370 14.46 24.59 0.9440 4.914

Sampling timesteps.

5 では、タイムステップシフトサンプリングの設計についてアブレーション実験を行っている。色付けは主に高いタイムステップで行われるため、我々は高いタイムステップでのサンプリングをμ𝜇\muitalic_μ倍に強化した。結果は、タイムステップサンプリングを追加し、μ=1.5𝜇1.5\mu=1.5italic_μ = 1.5倍の係数を使用することの有効性を裏付けている。

表5: タイムステップサンプリングのアブレーション
μ𝜇\muitalic_μ CLIP-IS\uparrow FID\downarrow PSNR\uparrow SSIM\uparrow AS\uparrow
0 0.9351 14.18 25.12 0.9501 4.927
1.5 0.9419 13.37 25.88 0.9541 4.924
3 0.9395 13.51 25.42 0.9509 4.917

4.7 User Study

包括的な比較を行うため、我々は3つの重要な側面を評価するユーザー調査を実施した:美的品質、原画との類似性、画像シーケンスにおける色IDの一貫性である。 各試行において、参加者は5つのサンプルグループの中で好みの順位付けを行った。これらのランキングに基づいてスコアを割り当て、1位には5点、5位には1点を与えた。その後、各評価基準について平均スコアを算出した。表6に詳述されているように、我々は4,000以上の有効なランキングを収集した。結果は、我々の着色手法がすべての評価基準において好ましい選択肢であることを示している。

表6: ユーザー調査の結果。表は、美的品質、原画との類似性、シーケンスにおける一貫性に基づく異なるモデルの平均スコアを示している
Ours EBMC MC-v2 ACDO ScreenVAE
Aesthetic Quality \uparrow 4.577 3.141 2.891 2.844 1.547
Similarity to Original \uparrow 4.673 3.316 2.984 2.642 1.385
Consistency in Sequences \uparrow 4.538 3.399 3.215 2.540 1.308

5 Conclusion

結論として、本稿では新規タスクである参照ベース画像シーケンス色付けのためにColorFlowを提案している。提案手法は、検索拡張パイプライン、文脈内色付けパイプライン、超解像パイプラインの3段階フレームワークで構成されている。我々が提案するベンチマークであるColorFlow-Benchにおける広範な定量的・定性的評価結果は、ColorFlowの優れた性能を示している。限界点や今後の課題についての更なる議論は、補足資料で述べられる予定である。

References

  • Akita et al. [2020] Kenta Akita, Yuki Morimoto, and Reiji Tsuruno. Colorization of line drawings with empty pupils. In Computer Graphics Forum, pages 601–610. Wiley Online Library, 2020.
  • [2] AnimeColorDeOldify, 2020. https://github.com/Dakini/AnimeColorDeOldify.
  • Avrahami et al. [2022] Omri Avrahami, Dani Lischinski, and Ohad Fried. Blended diffusion for text-driven editing of natural images. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 18208–18218, 2022.
  • Bahng et al. [2018] Hyojin Bahng, Seungjoo Yoo, Wonwoong Cho, David Keetae Park, Ziming Wu, Xiaojuan Ma, and Jaegul Choo. Coloring with words: Guiding image colorization through text-based palette generation. In Proceedings of the european conference on computer vision (eccv), pages 431–447, 2018.
  • Bai et al. [2022] Yunpeng Bai, Chao Dong, Zenghao Chai, Andong Wang, Zhengzhuo Xu, and Chun Yuan. Semantic-sparse colorization network for deep exemplar-based colorization. In European Conference on Computer Vision, pages 505–521. Springer, 2022.
  • Brooks et al. [2023] Tim Brooks, Aleksander Holynski, and Alexei A Efros. Instructpix2pix: Learning to follow image editing instructions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18392–18402, 2023.
  • Cao et al. [2021] Ruizhi Cao, Haoran Mo, and Chengying Gao. Line art colorization based on explicit region segmentation. In Computer Graphics Forum, pages 1–10. Wiley Online Library, 2021.
  • Cao et al. [2023] Yu Cao, Xiangqiao Meng, PY Mok, Xueting Liu, Tong-Yee Lee, and Ping Li. Animediffusion: Anime face line drawing colorization via diffusion models. arXiv preprint arXiv:2303.11137, 2023.
  • Chang et al. [2015] Huiwen Chang, Ohad Fried, Yiming Liu, Stephen DiVerdi, and Adam Finkelstein. Palette-based photo recoloring. ACM Trans. Graph., 34(4):139–1, 2015.
  • Chang et al. [2022] Zheng Chang, Shuchen Weng, Yu Li, Si Li, and Boxin Shi. L-coder: Language-based colorization with color-object decoupling transformer. In European Conference on Computer Vision, pages 360–375. Springer, 2022.
  • Chang et al. [2023] Zheng Chang, Shuchen Weng, Peixuan Zhang, Yu Li, Si Li, and Boxin Shi. L-coins: Language-based colorization with instance awareness. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 19221–19230, 2023.
  • Chen et al. [2018] Jianbo Chen, Yelong Shen, Jianfeng Gao, Jingjing Liu, and Xiaodong Liu. Language-based image editing with recurrent attentive models. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8721–8729, 2018.
  • Chen et al. [2020] Shu-Yu Chen, Jia-Qi Zhang, Lin Gao, Yue He, Shihong Xia, Min Shi, and Fang-Lue Zhang. Active colorization for cartoon line drawings. IEEE Transactions on Visualization and Computer Graphics, 28(2):1198–1208, 2020.
  • Ci et al. [2018] Yuanzheng Ci, Xinzhu Ma, Zhihui Wang, Haojie Li, and Zhongxuan Luo. User-guided deep anime line art colorization with conditional adversarial networks. In Proceedings of the 26th ACM international conference on Multimedia, pages 1536–1544, 2018.
  • Dai et al. [2023] Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, et al. Emu: Enhancing image generation models using photogenic needles in a haystack. arXiv preprint arXiv:2309.15807, 2023.
  • Dakini,AIEMMU,Abhinas Regmi [2024] Dakini,AIEMMU,Abhinas Regmi. Anime/sketch/manga coloriser trained with deoldify, 2024. [Online; accessed 4-Oct-2024].
  • Dou et al. [2021] Zhi Dou, Ning Wang, Baopu Li, Zhihui Wang, Haojie Li, and Bin Liu. Dual color space guided sketch colorization. IEEE Transactions on Image Processing, 30:7292–7304, 2021.
  • Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
  • Fang et al. [2019] Faming Fang, Tingting Wang, Tieyong Zeng, and Guixu Zhang. A superpixel-based variational model for image colorization. IEEE Transactions on Visualization and Computer Graphics, 26(10):2931–2943, 2019.
  • Frans [2017] Kevin Frans. Outline colorization through tandem adversarial networks. arXiv preprint arXiv:1704.08834, 2017.
  • Furusawa et al. [2017] Chie Furusawa, Kazuyuki Hiroshiba, Keisuke Ogaki, and Yuri Odagiri. Comicolorization: semi-automatic manga colorization. In SIGGRAPH Asia 2017 Technical Briefs, New York, NY, USA, 2017. Association for Computing Machinery.
  • Gal et al. [2022] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. arXiv preprint arXiv:2208.01618, 2022.
  • He et al. [2018] Mingming He, Dongdong Chen, Jing Liao, Pedro V Sander, and Lu Yuan. Deep exemplar-based colorization. ACM Transactions on Graphics (TOG), 37(4):1–16, 2018.
  • Hertz et al. [2022] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Prompt-to-prompt image editing with cross attention control. arXiv preprint arXiv:2208.01626, 2022.
  • Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. GANs trained by a two time-scale update rule converge to a local Nash equilibrium. Advances in Neural Information Processing Systems (NIPS), 30, 2017.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems (NIPS), 33:6840–6851, 2020.
  • Hu et al. [2021] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
  • Isola et al. [2017] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1125–1134, 2017.
  • Ju et al. [2023] Xuan Ju, Ailing Zeng, Chenchen Zhao, Jianan Wang, Lei Zhang, and Qiang Xu. Humansd: A native skeleton-guided diffusion model for human image generation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 15988–15998, 2023.
  • Ju et al. [2024a] Xuan Ju, Xian Liu, Xintao Wang, Yuxuan Bian, Ying Shan, and Qiang Xu. Brushnet: A plug-and-play image inpainting model with decomposed dual-branch diffusion. arXiv preprint arXiv:2403.06976, 2024a.
  • Ju et al. [2024b] Xuan Ju, Ailing Zeng, Yuxuan Bian, Shaoteng Liu, and Qiang Xu. Pnp inversion: Boosting diffusion-based editing with 3 lines of code. In The Twelfth International Conference on Learning Representations, 2024b.
  • Kim et al. [2019] Hyunsu Kim, Ho Young Jhoo, Eunhyeok Park, and Sungjoo Yoo. Tag2pix: Line art colorization using text tag with secat and changing loss. In Proceedings of the IEEE/CVF international conference on computer vision, pages 9056–9065, 2019.
  • Kumari et al. [2023] Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, and Jun-Yan Zhu. Multi-concept customization of text-to-image diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1931–1941, 2023.
  • Lee et al. [2020] Junsoo Lee, Eungyeup Kim, Yunsung Lee, Dongjun Kim, Jaehyuk Chang, and Jaegul Choo. Reference-based sketch image colorization using augmented-self reference and dense semantic correspondence. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5801–5810, 2020.
  • Li et al. [2019] Bo Li, Yu-Kun Lai, Matthew John, and Paul L Rosin. Automatic example-based image colorization using location-aware cross-scale matching. IEEE Transactions on Image Processing, 28(9):4606–4619, 2019.
  • Li et al. [2021] Haoxuan Li, Bin Sheng, Ping Li, Riaz Ali, and CL Philip Chen. Globally and locally semantic colorization via exemplar-based broad-gan. IEEE Transactions on Image Processing, 30:8526–8539, 2021.
  • Li et al. [2022a] Yuan-kui Li, Yun-Hsuan Lien, and Yu-Shuen Wang. Style-structure disentangled features and normalizing flows for diverse icon colorization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11244–11253, 2022a.
  • Li et al. [2022b] Zekun Li, Zhengyang Geng, Zhao Kang, Wenyu Chen, and Yibo Yang. Eliminating gradient conflict in reference-based line-art colorization. In European Conference on Computer Vision, pages 579–596. Springer, 2022b.
  • Li et al. [2024] Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, and Ying Shan. Photomaker: Customizing realistic human photos via stacked id embedding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8640–8650, 2024.
  • Liang et al. [2024] Zhexin Liang, Zhaochen Li, Shangchen Zhou, Chongyi Li, and Chen Change Loy. Control color: Multimodal diffusion-based interactive image colorization. arXiv preprint arXiv:2402.10855, 2024.
  • Liu et al. [2023a] Hanyuan Liu, Jinbo Xing, Minshan Xie, Chengze Li, and Tien-Tsin Wong. Improved diffusion-based image colorization via piggybacked models. arXiv preprint arXiv:2304.11105, 2023a.
  • Liu et al. [2023b] Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, and Sergey Tulyakov. Hyperhuman: Hyper-realistic human generation with latent structural diffusion. arXiv preprint arXiv:2310.08579, 2023b.
  • Liu et al. [2018] Yifan Liu, Zengchang Qin, Tao Wan, and Zhenbo Luo. Auto-painter: Cartoon image generation from sketch by using conditional wasserstein generative adversarial networks. Neurocomputing, 311:78–87, 2018.
  • Lu et al. [2020] Peng Lu, Jinbei Yu, Xujun Peng, Zhaoran Zhao, and Xiaojie Wang. Gray2colornet: Transfer more colors from reference image. In Proceedings of the 28th ACM international conference on multimedia, pages 3210–3218, 2020.
  • Maksim Golyadkin,Pupbani,Abhinas Regmi [2024] Maksim Golyadkin,Pupbani,Abhinas Regmi. Automatic colorization, 2024. [Online; accessed 4-Oct-2024].
  • Manga Colorization V [2] Manga Colorization V2, 2022. https://github.com/qweasdd/manga-colorization-v2.
  • Manjunatha et al. [2018] Varun Manjunatha, Mohit Iyyer, Jordan Boyd-Graber, and Larry Davis. Learning to color from language. arXiv preprint arXiv:1804.06026, 2018.
  • Mou et al. [2024] Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, and Ying Shan. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 4296–4304, 2024.
  • Qu et al. [2006] Yingge Qu, Tien-Tsin Wong, and Pheng-Ann Heng. Manga colorization. ACM Transactions on Graphics (ToG), 25(3):1214–1220, 2006.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
  • Rombach et al. [2022a] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10684–10695, 2022a.
  • Rombach et al. [2022b] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022b.
  • Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 22500–22510, 2023.
  • Sangkloy et al. [2017] Patsorn Sangkloy, Jingwan Lu, Chen Fang, Fisher Yu, and James Hays. Scribbler: Controlling deep image synthesis with sketch and color. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5400–5409, 2017.
  • Schuhmann et al. [2022] Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022.
  • Song et al. [2020] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.
  • Sun et al. [2019] Tsai-Ho Sun, Chien-Hsun Lai, Sai-Keung Wong, and Yu-Shuen Wang. Adversarial colorization of icons based on contour and color conditions. In Proceedings of the 27th ACM International Conference on Multimedia, pages 683–691, 2019.
  • Sỳkora et al. [2009] Daniel Sỳkora, John Dingliana, and Steven Collins. Lazybrush: Flexible painting tool for hand-drawn cartoons. In Computer Graphics Forum, pages 599–608. Wiley Online Library, 2009.
  • Utintu et al. [2024] Chaitat Utintu, Pinaki Nath Chowdhury, Aneeshan Sain, Subhadeep Koley, Ayan Kumar Bhunia, and Yi-Zhe Song. Sketchdeco: Decorating b&w sketches with colour. arXiv preprint arXiv:2405.18716, 2024.
  • Wang et al. [2023] Hanzhang Wang, Deming Zhai, Xianming Liu, Junjun Jiang, and Wen Gao. Unsupervised deep exemplar colorization via pyramid dual non-local attention. IEEE Transactions on Image Processing, 2023.
  • Wang et al. [2024] Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen, Huaxia Li, Xu Tang, and Yao Hu. Instantid: Zero-shot identity-preserving generation in seconds. arXiv preprint arXiv:2401.07519, 2024.
  • Wang et al. [2022] Yi Wang, Menghan Xia, Lu Qi, Jing Shao, and Yu Qiao. Palgan: Image colorization with palette generative adversarial networks. In European Conference on Computer Vision, pages 271–288. Springer, 2022.
  • Wang et al. [2004] Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4):600–612, 2004.
  • Weng et al. [2022] Shuchen Weng, Hao Wu, Zheng Chang, Jiajun Tang, Si Li, and Boxin Shi. L-code: Language-based colorization using color-object decoupled conditions. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 2677–2684, 2022.
  • Weng et al. [2024] Shuchen Weng, Peixuan Zhang, Yu Li, Si Li, Boxin Shi, et al. L-cad: Language-based colorization with any-level descriptions using diffusion priors. Advances in Neural Information Processing Systems, 36, 2024.
  • Wikipedia contributors [2024] Wikipedia contributors. Peak signal-to-noise ratio — Wikipedia, the free encyclopedia, 2024. [Online; accessed 4-March-2024].
  • Wu et al. [2023a] Shukai Wu, Xiao Yan, Weiming Liu, Shuchang Xu, and Sanyuan Zhang. Self-driven dual-path learning for reference-based line art colorization under limited data. IEEE Transactions on Circuits and Systems for Video Technology, 2023a.
  • Wu et al. [2023b] Shukai Wu, Yuhang Yang, Shuchang Xu, Weiming Liu, Xiao Yan, and Sanyuan Zhang. Flexicon: Flexible icon colorization via guided images and palettes. In Proceedings of the 31st ACM International Conference on Multimedia, pages 8662–8673, 2023b.
  • Xian et al. [2018] Wenqi Xian, Patsorn Sangkloy, Varun Agrawal, Amit Raj, Jingwan Lu, Chen Fang, Fisher Yu, and James Hays. Texturegan: Controlling deep image synthesis with texture patches. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8456–8465, 2018.
  • Xiao et al. [2020] Chufeng Xiao, Chu Han, Zhuming Zhang, Jing Qin, Tien-Tsin Wong, Guoqiang Han, and Shengfeng He. Example-based colourization via dense encoding pyramids. In Computer Graphics Forum, pages 20–33. Wiley Online Library, 2020.
  • Xie et al. [2020] Minshan Xie, Chengze Li, Xueting Liu, and Tien-Tsin Wong. Manga filling style conversion with screentone variational autoencoder. ACM Transactions on Graphics (TOG), 39(6):1–15, 2020.
  • Xu et al. [2020] Zhongyou Xu, Tingting Wang, Faming Fang, Yun Sheng, and Guixu Zhang. Stylization-based architecture for fast deep exemplar colorization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9363–9372, 2020.
  • Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.
  • Yin et al. [2021] Wang Yin, Peng Lu, Zhaoran Zhao, and Xujun Peng. Yes,” attention is all you need”, for exemplar based colorization. In Proceedings of the 29th ACM international conference on multimedia, pages 2243–2251, 2021.
  • Yun et al. [2023] Jooyeol Yun, Sanghyeon Lee, Minho Park, and Jaegul Choo. icolorit: Towards propagating local hints to the right region in interactive colorization by leveraging vision transformer. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1787–1796, 2023.
  • Zabari et al. [2023] Nir Zabari, Aharon Azulay, Alexey Gorkor, Tavi Halperin, and Ohad Fried. Diffusing colors: Image colorization with text guided diffusion. In SIGGRAPH Asia 2023 Conference Papers, pages 1–11, 2023.
  • Zhang et al. [2022] Jiangning Zhang, Chao Xu, Jian Li, Yue Han, Yabiao Wang, Ying Tai, and Yong Liu. Scsnet: An efficient paradigm for learning simultaneously image colorization and super-resolution. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 3271–3279, 2022.
  • Zhang et al. [2018] Lvmin Zhang, Chengze Li, Tien-Tsin Wong, Yi Ji, and Chunping Liu. Two-stage sketch colorization. ACM Transactions on Graphics (TOG), 37(6):1–14, 2018.
  • Zhang et al. [2021a] Lvmin Zhang, Chengze Li, Edgar Simo-Serra, Yi Ji, Tien-Tsin Wong, and Chunping Liu. User-guided line art flat filling with split filling mechanism. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 9889–9898, 2021a.
  • Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3836–3847, 2023.
  • Zhang et al. [2021b] Qian Zhang, Bo Wang, Wei Wen, Hai Li, and Junhui Liu. Line art correlation matching feature transfer network for automatic animation colorization. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 3872–3881, 2021b.
  • Zhang et al. [2017] Richard Zhang, Jun-Yan Zhu, Phillip Isola, Xinyang Geng, Angela S Lin, Tianhe Yu, and Alexei A Efros. Real-time user-guided image colorization with learned deep priors. arXiv preprint arXiv:1705.02999, 2017.
  • Zhao et al. [2024] Shihao Zhao, Dongdong Chen, Yen-Chun Chen, Jianmin Bao, Shaozhe Hao, Lu Yuan, and Kwan-Yee K Wong. Uni-controlnet: All-in-one control to text-to-image diffusion models. Advances in Neural Information Processing Systems, 36, 2024.
  • Zhuang et al. [2023] Junhao Zhuang, Yanhong Zeng, Wenran Liu, Chun Yuan, and Kai Chen. A task is worth one word: Learning with task prompts for high-quality versatile image inpainting. arXiv preprint arXiv:2312.03594, 2023.
  • Zou et al. [2019] Changqing Zou, Haoran Mo, Chengying Gao, Ruofei Du, and Hongbo Fu. Language-based colorization of scene sketches. ACM Transactions on Graphics (TOG), 38(6):1–16, 2019.
  • Zou et al. [2024] Chengyi Zou, Shuai Wan, Marc Gorriz Blanch, Luka Murn, Marta Mrak, Juil Sock, Fei Yang, and Luis Herranz. Lightweight deep exemplar colorization via semantic attention-guided laplacian pyramid. IEEE Transactions on Visualization and Computer Graphics, 2024.

6 Supplementary Material

この補足資料は、さらなる洞察と追加の結果を提供するものである。ColorFlowの様々な芸術的文脈における性能を詳述し、その限界と合成コンテンツの生成に関連する倫理的考察について論じている。

含まれる項目のリストは以下の通りである:

  • 異なる着色設定におけるColorFlowの追加的な可視化。これには以下が含まれる:マンガの着色、線画の着色、アニメーションのストーリーボードの着色、および自然なシナリオのグレースケール画像の着色。

  • 限界と今後の研究に関する議論。

  • 倫理的考察への対応。

7 Additional Results

ColorFlowの堅牢性と多様性を強調するため、我々は様々な芸術的文脈にわたる一連の視覚的結果を提示する。図91011、および12は、それぞれ白黒漫画、線画、アニメーションのストーリーボード、グレースケールの自然風景におけるColorFlowの性能を示している。 これらの例は、ColorFlowの様々な文脈における適応性を総合的に強調しており、自動着色を通じて作品を向上させることを目指すアーティストやコンテンツクリエイターにとって、ColorFlowが価値ある道具であることを確立している。

8 Limitations and Future Work

ColorFlowが参照ベースの画像シーケンス着色において大きな進歩を遂げたにもかかわらず、慎重に考慮すべきいくつかの制限がある。

まず、ColorFlowの性能は参照プール内の画像の品質に大きく依存している。参照画像の芸術的スタイルが非常に抽象的であったり、目標とするスタイルと大きく異なる場合、着色の精度が低下する可能性がある。

さらに、ColorFlowの画像生成能力と色の同一性保持能力は、ベースモデルであるStable Diffusion 1.5 [52]によって制限されている。このモデルは効果的ではあるが、Flux.1やSD3 [18]のようなより高度なアーキテクチャを使用することで改善の余地がある。今後の研究では、我々はこれらの次世代モデルでColorFlowを訓練する計画であり、これにより色の忠実性と全体的な画像品質が向上する可能性がある。

我々はまた、長尺ビデオの着色にColorFlowを使用することを検討している。これにより、マルチメディア制作における利用が拡大し、長時間のビデオフレーム全体で一貫した着色が可能になるだろう。

9 Ethical Considerations

我々の研究は主に画像の色付けにおける技術的進歩を強調しているが、合成コンテンツの生成に関連する倫理的影響があることを認識している。本節ではこの制限について述べる。

我々のモデルはインターネットから取得したデータで訓練されており、訓練データに存在する既存のバイアスを無意識のうちに反映し、増幅する可能性がある。この懸念は顕著である可能性があり、偏ったデータセットで訓練された人工知能システムは、ステレオタイプを永続化し、不平等を悪化させ、様々な人口統計グループに不均衡な影響を与える可能性がある。この問題に対処するため、我々は訓練データの多様性を確保し、幅広いスタイル、人口統計、文化的文脈をカバーするよう努めた。さらに、我々はモデルのバイアスのある振る舞いを監視・評価し、バランスの取れたデータセットを用いて微調整を行う予定である。加えて、この色付け手法が悪用される可能性があり、例えば歴史的遺物の改ざんや誤解を招くメディアの作成などが考えられる。この問題に対処するため、我々は出力にウォーターマークや追跡可能な署名を含め、AIによって生成されたコンテンツであることを示す予定である。 我々はまた、モデルの倫理的使用ガイドラインを公開し、モデルの公開アプリケーションを監視して、誤用を特定し対処する予定である。これらの問題に取り組むことで、我々の研究は倫理的整合性を維持しつつ、その肯定的な影響を最大化することができる。

Refer to caption
図9: ColorFlowを使用した白黒漫画の色付け結果。 [カラーで拡大して閲覧すると最適]
Refer to caption
図10: ColorFlowを使用した線画の色付け結果。 [カラーで拡大して閲覧すると最適]
Refer to caption
図11: ColorFlowを使用したアニメーションストーリーボードの色付け結果。 [カラーで拡大して閲覧すると最適]
Refer to caption
図12: ColorFlowを使用した自然なシナリオの色付け結果。 [カラーで拡大して閲覧すると最適]