DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models
for Customized Manga Generation
Abstract
物語の視覚化、すなわちテキストによる描写から視覚的な物語を作成するタスクは、テキストから画像を生成するモデルの進歩により発展を遂げてきた。しかし、これらのモデルは多くの場合、特に複数のキャラクターが登場するシーンにおいて、キャラクターの外見や相互作用を効果的に制御することが欠けている。 これらの制限に対処するため、我々は新しいタスク:カスタマイズされた漫画生成を提案し、動的な複数キャラクター制御による漫画生成のために特別に設計された革新的なフレームワークDiffSenseiを紹介する。 DiffSenseiは、拡散ベースの画像生成器とテキスト互換のアイデンティティアダプターとして機能するマルチモーダル大規模言語モデル(MLLM)を統合している。我々のアプローチは、マスクされたクロスアテンションを採用してキャラクターの特徴を継ぎ目なく組み込み、直接的なピクセル転送なしに正確なレイアウト制御を可能にする。 さらに、MLLMベースのアダプターは、パネル固有のテキスト手がかりに合わせてキャラクターの特徴を調整し、キャラクターの表情、ポーズ、行動の柔軟な調整を可能にする。 我々はまた、このタスクに特化した大規模データセットMangaZeroを導入する。これには43,264ページの漫画と427,147の注釈付きパネルが含まれており、連続するフレーム間でのさまざまなキャラクターの相互作用や動きの視覚化をサポートする。 広範な実験により、DiffSenseiが既存のモデルを上回る性能を示し、テキスト適応可能なキャラクターのカスタマイズを可能にすることで、漫画生成において大きな進歩を記録したことが実証された。 コード、モデル、およびデータセットはコミュニティにオープンソースとして公開される予定である。 111本研究は上海AI研究所で行われた。
1 Introduction
ストーリーの視覚化、すなわちテキストによる描写から視覚的な物語を生成するプロセスは、急速に進化している分野である[25, 18, 21, 52, 45, 36, 5]。 その様々な応用の中で、漫画生成は特にその人気と独特の物語要件のために重要な意義を持っている。従来のストーリー視覚化とは異なり、漫画はパネル間で一貫したキャラクターの描写、複数のキャラクターを配置するための精密なレイアウト制御、そして対話を一貫性のある視覚的に魅力的な方法でシームレスに統合することを要求する。
現在、マンガ生成は未開拓の分野のままである。既存の研究の大半は、主に一般的な画像をマンガ風に変換するという低レベルの画像変換タスクに焦点を当てている[20, 47, 49, 32]。これらのタスクは静止画像の視覚的魅力を高めるものの、ゼロからカスタマイズされたマンガコンテンツを生成するまでには至っていない。一般的なストーリー可視化において、現在のアプローチはテキストから一貫性のある画像シーケンスを生成することにある程度成功している。しかし、多くの場合、シーン間でキャラクターをカスタマイズすることができず[25, 21, 45, 52]、これはマンガ生成において重要な要件である。さらに、マンガに不可欠なレイアウトや台詞の配置に対する必要な制御も提供していない。これらの制限の理由として、既存のストーリー可視化データセットには通常、キャラクターの注釈やレイアウト制御が欠けていることが挙げられる[18, 21, 45, 15]。 もう一つの研究方向として、ゼロショットキャラクターカスタマイズが探求されており、マンガのパネル間でキャラクターのカスタマイズを実現する可能性を示している[46, 38, 29, 9, 35, 4, 19]。しかし、これらのアプローチはしばしば硬直した「コピー&ペースト」効果をもたらし[4, 38, 46]、表現力豊かなキャラクターの変化を制限し、物語の深みを損なっている。この制限は主に、同一キャラクターの多様な表情やポーズを捉えたデータセットの不足に起因している。
これらの制限に対処するため、我々は新しいタスクを提案する:カスタマイズされた漫画生成である。図1に示されているように、このタスクは複数のキャラクターを含む漫画画像の作成に焦点を当てており、各キャラクターはキャラクター画像に基づいてカスタマイズされ、ユーザー入力に従って配置される。キャラクターは物語の展開に応じてテキストプロンプトに動的に適応し、表情、動き、ポーズを変更する必要がある。また、表現力豊かな漫画パネルを生成するために、セリフのレイアウトも管理されるべきである。従来のストーリー可視化タスクと比較して、この提案されたタスクは漫画特有の制御可能性を優先し、複数のキャラクターのカスタマイズをサポートしながら、一貫性があり視覚的に魅力的な生き生きとした漫画パネルの生成を目指している。 カスタマイズされた漫画生成のための専用データセットの不足に対処するため、我々は日本の白黒漫画のデータセットを収集し、提案されたタスクの基礎を形成した。その結果得られたデータセットMangaZeroは、複数のキャラクター、複数の状態の漫画生成をサポートするために設計された最初の大規模コレクションである。
この課題に取り組むため、我々は新しいフレームワークDiffSenseiを導入する。これは拡散ベースの画像生成器を活用してカスタマイズされた漫画パネルを生成するものである。しかしながら、同一キャラクターの複数の外見で訓練を行っても、生成されたポートレートは入力キャラクター画像のピクセル分布を厳密に踏襲する傾向があり、テキスト入力に基づく外見、ポーズ、動きのバリエーションが限られていることが観察された。 マルチモーダル大規模言語モデル(MLLM)を用いた画像編集の最近の進歩に触発され[41, 48, 45, 8, 33, 39, 6, 40, 16, 42]、我々はMLLMをテキスト互換のキャラクターアダプターとして使用することを提案する。このアプローチにより、テキストの手がかりに応じてキャラクターをシームレスかつ動的に調整することが可能となり、一貫性のある表現力豊かな漫画パネルの生成を支援する。さらに、キャラクターのレイアウトを管理するためのマスク付き注意機構の注入と、漫画に特化したダイアログ埋め込み技術を組み込み、ダイアログの配置を正確に制御できるようにした。 広範な実験を通じて、我々はDiffSenseiが一貫性があり表現力豊かな漫画パネルを生成する能力を持ち、物語の一貫性を維持しつつ、キャラクター制御を改善できることを検証した。本稿は、ストーリーの視覚化において重要な進歩を表している。
要約すると、我々の主要な貢献は以下の通りである:
-
•
我々は新しいタスクを導入する:カスタマイズされたマンガ生成。これは、複数のキャラクターを含むマンガ画像を生成することに焦点を当て、各キャラクターがテキストプロンプトに動的に適応し、レイアウト仕様に従って配置されるものである。
-
•
我々はMangaZeroを提示する。これは、複数キャラクター、複数状態のマンガ生成のために特別に設計された初の大規模データセットであり、ストーリー可視化訓練データにおける重要なギャップに対応するものである。このデータセットは画像生成コミュニティに公開される予定である。
-
•
我々はDiffSenseiを提案する。我々の知る限り、これは拡散モデルとMLLMを連携させたカスタマイズされたマンガ生成のための最初のフレームワークである。MLLMは適応可能なキャラクター特徴アダプターとして機能し、キャラクターがテキストの手がかりに動的に反応することを可能にする。広範な実験により、DiffSenseiの有効性が実証されている。
Dataset | Type | Resolution | #Series | #Stories | #Panels | Annotations | Origin | ||
---|---|---|---|---|---|---|---|---|---|
Caption | Character | Dialog | |||||||
PororoSV [18] | Animation | Fix | 1 | 15,336 | 73,665 | ✓ | 2003-2016 | ||
FlintstonesSV [10] | Animation | Fix | 1 | 25,184 | 122,560 | ✓ | ✓ | 1960-1966 | |
StorySalon [21] | Animation | Fix | 446 | 18,255 | 159,778 | ✓ | YouTube | ||
StoryStream [45] | Animation | Fix | 3 | 12,614 | 257,850 | ✓ | 1939-2013 | ||
Manga109 [2] | B/W Manga | Vary | 109 | 10,602 | 103,850 | ✓ | ✓ | 1970-2010 | |
MangaZero | B/W Manga | Vary | 48 | 43,264 | 427,147 | ✓ | ✓ | ✓ | 1974-2024 |
2 Related Work
ストーリーの視覚化。 ストーリーの視覚化、すなわち与えられたストーリーに基づいて視覚的なナラティブを生成するプロセスは、急速に進化している。多くのアプローチがストーリーの内容から一貫性のある画像シーケンスを生成することができる[52, 36, 25, 21, 5, 45]。近年の進歩にもかかわらず、この分野は重要な制限に直面している。既存の手法の大部分は、テキストと画像レベルのプロンプトのみからストーリー画像を生成しており[52, 25, 21, 45]、これは個々のキャラクターに対する制御を制限している。キャラクターに対するこの限られた制御は、ストーリーの視覚化の柔軟性と深さを減少させる。重要な要因は、現在の訓練データセット[15, 18, 10, 21, 45]がキャラクター固有のアノテーションを欠いていることである。 データの制限に対応して、最近の研究[36, 5]では、IP-Adapter[46]のような既存の被写体保存技術を活用した訓練不要の手法を用いて、複数のキャラクターの制御を探求している。他の研究[7, 29, 9, 46, 4, 38, 35, 19, 43, 12, 11]では、複数のキャラクターのカスタマイズされた生成のために拡散モデルを訓練しようとしている。しかし、これらのアプローチはしばしば「コピー&ペースト」効果をもたらし、ダイナミックなストーリーテリングに必要な表現やアクションの多様性を制限している。訓練不要の手法では、複数のモデルを組み合わせることで推論速度が大幅に低下する可能性がある。 これらの課題に対処するため、我々はまず、細かく選別されたキャラクターアノテーションを含む大規模な漫画生成データセットを導入し、次に拡散モデルとMLLMを活用した新しいフレームワークを開発し、ダイナミックな漫画パネルの生成を可能にする。
マンガ生成。 白黒マンガ生成の分野は限定的な探求しか受けていない。既存の研究の大半は低レベルの画像間変換タスクに焦点を当てており、主に一般的な画像をマンガ調に変換することに注力している[20, 47, 49, 32]。 最近の研究はマンガコンテンツの理解に貢献している[30, 31, 34]。 対照的に、我々はスタイル変換を超えてカスタマイズされたマンガ生成タスクを提案し、完全なキャラクターとストーリー駆動型のマンガ生成を提供する。
パーソナライズされた画像生成のためのMLLM。 MLLMは、特に画像編集やカスタマイズを含むタスクにおいて、パーソナライズされた画像生成に顕著な可能性を示している[41, 48, 45, 8, 33, 39, 6, 40, 16, 3]。特に、CAFE [51]はテキスト指示を通じて被写体の外観をカスタマイズすることを探求している。しかし、複数のキャラクターを含む物語のためのMLLM駆動の画像生成は、主にキャラクター間の関係性とシーンの連続性を維持することの困難さから、依然として未解決の課題である。 我々のフレームワークは、複数キャラクターのマンガ生成における動的なストーリーの一貫性を向上させるMLLMベースのアイデンティティアダプターを提案する。先行研究とは対照的に、我々のフレームワークは複数のキャラクター特徴を入力として受け取り、テキストプロンプトに従ってこれらの特徴を集合的に編集し、複数のキャラクターにわたる柔軟な被写体編集を可能にする。
要約すると、我々はカスタマイズされたマンガ生成のための最初の大規模データセットを提案し、このタスクに特化した新しいフレームワークを提示する。本稿では、MLLMをキャラクター特徴アダプターとして活用し、キャラクターのパーソナライゼーションにおけるテキスト互換性を大幅に向上させている。
3 The MangaZero Dataset
3.1 Problem Formulation
我々は、カスタマイズされたマンガ生成という新しい挑戦的なタスクを導入する。このタスクは、複数のキャラクターがそれぞれ異なる画像入力を持ち、ユーザーによってカスタマイズされ配置される漫画画像の生成に焦点を当てている。重要なのは、限られたキャラクター画像セットしか利用できない場合でも、キャラクターがテキストプロンプトに適応して表情、動き、ポーズを動的に変更しなければならないことである。 パネル(またはフレーム)にわたるマンガストーリーを生成するために、入力には以下が含まれる:各パネルのテキストプロンプト、キャラクター画像、各パネルのキャラクターバウンディングボックス、各パネルの台詞バウンディングボックス。パネルの可視化はとして表現され、ここでは全体的なモデル関数であり、はモデルの学習されたパラメータを表す。
考察。 このタスクは、既存のストーリー可視化および継続タスク[25, 21]とは異なる。具体的には、ストーリー可視化タスクでは、パネルはを用いて生成され、ストーリー継続タスクでは、パネル生成はに対してとして前のパネルに依存する。両者とも、ストーリーテリングにおいて重要な要素である明示的なキャラクター制御が欠けている。さらに、提案されたタスクは、被写体駆動型画像生成アプローチ[29, 46, 38]とも異なる。なぜなら、モデルが正確なキャラクター表現を生成するだけでなく、パネルのキャプションとレイアウトに応じてキャラクターの属性を変更し、多様で一貫性のある物語的ビジュアルを生成することが要求されるからである。5節で詳述する我々の実験は、我々のモデルがこれらの重要な側面においてベースラインモデルを大きく上回ることを示している。
3.2 Dataset Construction
本節では、我々が提案する大規模漫画ストーリー可視化データセットMangaZeroについて紹介する。
関連データセットとの比較。 既存のデータセットとの包括的な比較を表 1に示す。現在の漫画およびストーリー可視化データセットと比較して、提案するMangaZeroデータセットは規模が大きく、ソースが新しく、アノテーションが豊富で、漫画シリーズが多様で、パネルの解像度が多様である点で際立っている。よく知られた白黒漫画データセットManga109 [2]と比較すると、MangaZeroデータセットは2000年以降に出版されたより多くの漫画シリーズを含んでおり、これがその命名の由来となっている。さらに、MangaZeroには、ドラえもン(1974年)など、Manga109に含まれていない2000年以前の有名シリーズも含まれている。
構築パイプライン。 データセットを構築するために、我々はまずインターネットから漫画ページをダウンロードし、具体的にはMangaDex [1]から画像を取得した。すべてのデータは商業目的ではなく、学術研究のみに使用されることに留意することが重要である。48の漫画シリーズを選択し、シリーズごとに最大1,000ページをダウンロードした結果、43,264枚の見開き画像が得られた。 これらの画像は、事前学習済みモデルを使用してアノテーションが付けられた。パネルの境界ボックス、キャラクターの境界ボックス、キャラクターID、ダイアログの境界ボックスなど、漫画特有のアノテーションには、最近の漫画理解モデルであるMagi [30]を使用した。キャラクターIDのラベリングは個々のページ内でのみ一貫性があることに注意すべきであるが、これは一貫したキャラクターの相互参照を実現するには十分である。 パネルの境界ボックスが得られた後、各パネルのキャプションを生成するためにLLaVA-v1.6-34B [22]を使用した。しかし、キャラクターIDのラベリングの精度が比較的低いことが観察され、これは訓練目的にとって重大な課題となる。この問題に対処するため、人間のアノテーターが機械生成されたラベルを精緻化し、正確で清浄なアノテーションを得た。最後に、96ページ(各シリーズ2ページ)を評価セットとして分割し、残りの43,168ページを訓練セットとした。
4 Method
本節では、提案フレームワークであるDiffSenseiのアーキテクチャを紹介する。これは、キャラクターとダイアログのレイアウトを正確に制御しながら、キャラクターの状態を柔軟に適応させつつ、生き生きとしたマンガパネルを生成するものである。
動機。 画像生成におけるオブジェクトとレイアウトのカスタマイズには、2つの重要な問題がある:1) ソース画像からの直接的なコピー&ペーストを避けつつ、被写体の本質的な特徴を保持すること、2) 訓練時と推論時の両方で計算コストを最小限に抑えながら、信頼性の高いレイアウト制御を確保すること。 コピー&ペースト効果を避けるため、我々のモデルはキャラクター画像の特徴をトークンに変換し、細かいピクセル詳細の直接的な転送を防ぐ。さらに、我々はキャラクター画像特徴のアダプターとしてMLLMを統合する。MLLMアダプターは、ソースキャラクターの特徴とパネルのキャプションを入力として受け取り、テキストと互換性のあるターゲットキャラクターの特徴を生成する。先行のカスタマイズ研究[38]と比較して、このアプローチはテキストと互換性のあるキャラクターエンコーディングとキャプションへの柔軟なキャラクター適応を可能にする。レイアウト制御については、キャラクターとダイアログの両方のレイアウトに軽量なマスクエンコーディング技術を採用し、先行研究[44, 37]と比較して計算コストを大幅に削減しつつ、訓練フェーズと推論フェーズの両方で高い精度を維持している。第5節の実験結果は、我々の設計の有効性を示している。
複数キャラクターの特徴抽出。 図3に示すように、我々はまずCLIPを使用してローカル画像特徴を抽出し、マンガ画像エンコーダーから画像レベルの特徴を抽出する。これら2つの特徴セットは、リサンプラーモジュールとして実装される特徴抽出器によって処理される[46]。このプロセスは以下のように形式化できる:
(1) |
ここで、はマンガ画像エンコーダーを表す。とは、それぞれキャラクターと非キャラクターの特徴に対する学習可能なクエリベクトルである。は画像特徴をU-Netのクロスアテンション次元にリサンプリングし、はレイアウト内のキャラクターがない領域でクロスアテンションを誘導する。はすべてのキャラクターの出力特徴であり、はバッチサイズ、はパネルあたりの最大キャラクター数(必要に応じてゼロ特徴で埋められる)、はキャラクターあたりのクエリトークン数、はU-Netのクロスアテンション次元である。 キャラクター画像を数個のトークンに圧縮することで、DiffSenseiは参照画像からの細かな空間特徴をモデルにエンコードすることを避けている[50, 21]。これにより、厳密なピクセル分布ではなく、キャラクターの意味的表現に焦点を当てることが可能となる。
マスクされたクロスアテンション注入。 我々は各クロスアテンション層のキーと値の行列を複製し、別個の文字クロスアテンション層を作成する。 これにより、画像クエリ特徴がテキストと文字のクロスアテンションに独立して注意を向け、両方のアテンションの結果を組み合わせることが可能となる。文字クロスアテンションでは、各文字のレイアウトを制御するためにマスクされたクロスアテンション注入メカニズムを適用する。 ここでは、各文字特徴は指定された境界ボックス領域内のクエリ特徴にのみ注意を向ける。文字のない領域では、クエリ特徴はプレースホルダーベクトルに注意を向ける。これは以下のように定式化できる:
(2) | ||||
ここで、、、、、である。はクエリ、はテキストクロスアテンションのクエリ、キー、および値の投影行列である。、は文字クロスアテンションのキーと値の投影行列であり、とから初期化される。はキーの次元である。、はそれぞれテキストと文字の特徴である。、は入力および出力画像特徴である。は文字アテンションの重みを制御するハイパーパラメータである。は文字のレイアウトを管理するためのアテンションマスクである。その値は以下のように定義される:
(3) |
ここで、はクエリトークンの位置を表し、は文字のインデックスである。番目の文字特徴はプレースホルダーベクトルを表す。は番目の文字の境界ボックスである。マスクされたアテンション注入メカニズムにより、各文字が指定された境界ボックス領域にのみ注意を向け、文字のない領域はプレースホルダーベクトルに注意を向けることが保証される。この技術により、最小限の計算オーバーヘッドで各文字の効率的かつ正確なレイアウト制御が実現される。
ダイアログレイアウトのエンコーディング。 ダイアログを含むパネルは、マンガ画像の特徴的な要素である。しかし、現在の多くのテキスト生成画像モデルは、一貫性のある読みやすいテキストの生成に苦戦している[28, 26]。一部の最新モデルは安定したテキストを生成できるが、テキストの長さに関しては依然として制限がある[17]。ダイアログのような長文テキストの生成は、引き続き課題となっている。 そのため、我々はテキストの内容そのものではなく、ダイアログのレイアウトを制御することを提案する。このアプローチでは、人間のアーティストがダイアログバブル内のテキストを手動で編集し、画像生成はモデルに任せることができる。 具体的には、ダイアログレイアウトを表現するための学習可能な埋め込みを導入する。ダイアログ埋め込みはまず、ノイズを加えた潜在表現の空間形状に合わせて拡張され、その後ダイアログレイアウトでマスクされる。マスクされたダイアログ埋め込みをノイズを加えた潜在表現に加算することで、画像生成器内にダイアログの位置をエンコードすることができる。このプロセスは以下のように表現される:
(4) |
ここで、は学習可能なダイアログ埋め込み、は時間ステップにおけるノイズを加えた潜在表現、Expandはを潜在表現の形状に拡張する関数、は入力されたダイアログのバウンディングボックスから導出されるダイアログ領域マスクである。出力は、ダイアログレイアウトを考慮した潜在表現として機能する。これは次にノイズ予測のためにU-Netに入力される。ダイアログ埋め込みは効果的にダイアログレイアウトをエンコードし、空間と時間の計算オーバーヘッドを最小限に抑える。
MLLMをテキスト互換のキャラクター特徴アダプターとして活用する。 画像生成器の訓練後、我々のモデルは指定されたキャラクターの外見とレイアウト条件に従ってマンガパネルを効果的に作成することができる。しかし、モデルは入力されたキャラクター画像を厳密に踏襲することが多く、パネルのキャプションに基づいて表情、ポーズ、動きを調整する柔軟性に欠ける傾向がある。 我々は、MLLMをテキスト互換のキャラクター特徴アダプターとして組み込むことを提案する。このアプローチにより、テキストプロンプトに基づいてキャラクターの状態を動的に修正することが可能となる。MLLMの訓練サンプルは[パネルキャプション、ソースキャラクター画像特徴、ターゲットキャラクター画像特徴]として構成される。画像特徴は<IMG>と</IMG>という2つの特殊トークンで囲まれる。これを実現するために、特殊トークンに対して言語モデリング(LM)損失を計算して出力形式を制約し、平均二乗誤差(MSE)損失を計算してパネルキャプションに基づいてターゲットキャラクター特徴を誘導する。編集されたキャラクター特徴が画像生成器と整合するようにするため、生成された特徴をU-Netのキャラクタークロスアテンションに渡し、拡散損失を計算する。この段階では、MLLMのLoRAとリサンプラーの重みのみが更新される。このプロセスは以下のように形式化できる:
(5) | ||||
ここで、はテキストプロンプトである。とはMLLMの入力および出力リサンプラーを表し、これらは内部次元と外部次元の間で埋め込みを変換するための積層されたアテンション層で構成される。はMLLMが予測した特殊トークンの埋め込みを指す。我々はこれに対してLM損失を計算する。は予測されたキャラクター特徴である。我々はと(特徴抽出器から抽出された正解のターゲットキャラクター埋め込み)の間でMSE損失を計算する。MangaZeroのキャラクターID注釈を活用することで、異なるパネル間で同じキャラクターの特徴を取得でき、これによりMLLM特徴アダプターの訓練が容易になる。適応されたキャラクター特徴は、その後、以前に訓練された画像生成器に渡され、拡散損失が計算される。MLLMの訓練のための総損失は以下のように表される:
(6) |
ここで、、、およびは損失の重みである。
5 Experiments
本節では、DiffSenseiの包括的な評価を行い、ベースラインモデルとの比較を行う。
Method | FID | CLIP | DINO-I | DINO-C | F1 score |
---|---|---|---|---|---|
AR-LDM* [25] | 0.409 | 0.257 | 0.548 | 0.507 | 0.004 |
StoryGen* [21] | 0.411 | 0.219 | 0.536 | 0.488 | 0.012 |
SEED-Story* [45] | 0.411 | 0.169 | 0.416 | 0.405 | 0.006 |
StoryDiffusion* [52] | 0.409 | 0.244 | 0.461 | 0.362 | 0.002 |
MS-Diffusion† [38] | 0.408 | 0.229 | 0.610 | 0.641 | 0.720 |
DiffSensei | 0.407 | 0.235 | 0.618 | 0.651 | 0.727 |
Method | FID | CLIP | DINO-I | DINO-C | F1 score |
---|---|---|---|---|---|
AR-LDM* [25] | 0.410 | 0.254 | 0.527 | 0.491 | 0.005 |
StoryGen* [21] | 0.414 | 0.214 | 0.540 | 0.493 | 0.004 |
SEED-Story* [45] | 0.413 | 0.167 | 0.442 | 0.428 | 0.005 |
StoryDiffusion* [52] | 0.410 | 0.238 | 0.442 | 0.355 | 0.001 |
MS-Diffusion† [38] | 0.410 | 0.227 | 0.584 | 0.600 | 0.601 |
DiffSensei | 0.410 | 0.237 | 0.588 | 0.600 | 0.648 |
5.1 Experimental Settings
実装の詳細。 画像生成器はSDXL [26]を基に構築されている。特徴抽出器の重みは事前学習済みのIP-Adapter-Plus-SDXL [46]を用いて初期化され、MLLM(マルチモーダル大規模言語モデル)はSEED-X [8]から初期化される。MLLMのLoRAおよびリサンプラーの重みを含む、新たに導入されたその他のパラメータはランダムに初期化される。 ステージ1では、画像生成器は学習率1e-5で最適化される。ステージ2の学習では、学習率1e-4とLoRAランク64 [14]を採用している。最適化にはAdamW [23]を使用する。損失関数の係数、、およびはそれぞれ1.0、6.0、1.0に設定される。我々は第1ステージで250kステップ、第2ステージで20kステップ学習を行う。ソースキャラクター画像はランダムに選択され、50%の確率で同じページから、そうでない場合はターゲット画像から選択される。 学習中の様々な画像解像度に対処するため、我々は先行研究 [26]のバケットベースのアプローチを採用し、画像を解像度ごとのバケットにグループ化する。各学習バッチでは、同じ解像度バケットから画像がロードされる。バッチサイズはステージ1で8から64、ステージ2で8から128の間で変動する。この動的なバッチサイジングは、特に大解像度の画像を処理する際のメモリ不足(OOM)問題を防ぐために必要である。 詳細については付録を参照されたい。
評価データセットと指標。 我々はMangaZeroとManga109 [2]の評価セットを用いてモデルを評価する。モデルはMangaZeroでのみ学習されていることに注意されたい。Manga109のキャラクターは学習中に見られないため、汎化性能のベンチマークとして機能する。 個々の画像の生成品質を評価するために、我々は自動評価指標を採用する。これにはFréchet Inception Distance score (FID) [13]、CLIP画像-テキスト類似度(CLIP) [27]、DINO画像類似度(DINO-I) [24]、DINOキャラクター画像類似度(DINO-C)、および対話バウンディングボックスのF1スコア(F1スコア)が含まれる。 ソースキャラクター画像は同じページからランダムにサンプリングされる。生成された画像の対話バウンディングボックスはMagi [30]を用いて予測される。 画像シーケンスのストーリー可視化品質を評価するには、人間の選好調査がより効果的であることが証明されている。我々は、MangaZero評価セットにおいて、我々のモデルの出力とベースラインモデルからの好ましいストーリーページを選択するよう人間のボランティアを募集する。評価基準には、テキストと画像の整合性、スタイルの一貫性、キャラクターの一貫性、画像品質、全体的な選好の5つの主要な側面が含まれる。
5.2 Comparison to Baselines
定量的比較。 我々は、自動評価指標を用いてDiffSenseiモデルをベースラインモデルと定量的に比較する。 MangaZero評価セットにおける結果を表 2(a)に示す。 結果は、DiffSenseiが5つの主要指標全てにおいてベースラインモデルを一貫して上回っていることを示している。我々のモデルは、マルチサブジェクトカスタマイズのベースラインであるMS-Diffusion [38]と比較してCLIP指標で0.06の改善を示している。MS-Diffusionはテキストプロンプトに応じてキャラクターの状態を効果的に変更することに苦戦している。さらに、DiffSenseiは、より高いDINO-IおよびDINO-Cスコアが示すように、優れた画像品質とキャラクターの保持を実証している。AR-LDM [25]はより高いCLIP指標を達成しているが、画像品質が低く、複数のキャラクターを管理するアーキテクチャ能力が欠如しているため、DINO-Cスコアが低い。対照的に、我々の手法はキャラクターの外見の維持とテキストプロンプトへの適応のバランスを取っている。 我々はまた、表 2(b)に示すManga109評価セットとの比較も行った。以前見たことのないキャラクターを入力として使用した場合でも、我々のモデルはベースラインを上回り続けている。これらの結果は、DiffSenseiの強力な汎化能力を裏付け、新しいキャラクターへの効果的な適応を示している。
図 5では、我々のモデルとベースラインを複数の側面で比較する人間の選好調査の結果を示している。我々のモデルは、特に全体的な選好、キャラクターの一貫性、画像品質の面で、人間の評価者から最高の評価を受けている。これらの発見は、DiffSenseiが生き生きとした魅力的な漫画ストーリーを描写することに優れていることを確認している。
定性的比較。 図 4はDiffSenseiとベースラインモデルの定性的比較を示している。結果は、我々のモデルが漫画ストーリーの1ページ全体を生成する上で、ベースラインを大きく上回っていることを示している。SEED-Story [45]は各パネルのキャプションを作成するためにMLLMを採用しているが、これは不自然な物語テキストと一貫したストーリーを形成できない混沌としたストーリー生成につながっている。StoryDiffusion [52]は自己注意共有メカニズムのため、固定解像度の画像しか生成できず、多様な画像を生成する能力が制限されている。入力参照パネルのアスペクト比が不均衡であるため、おそらく劣った結果を示している。 MS-Diffusion [38]はターゲットパネルからのソースキャラクター画像で訓練されており、キャラクターの状態を効果的に変更する柔軟性に欠けている。 対照的に、我々の手法はテキストへの追従、キャラクターの保持、全体的なストーリー表現において優れている。
5.3 Qualitative Results
5.4 Ablation Study
CM | DM | Magi | MLLM | FID | CLIP | DINO-I | DINO-C | F1 score |
---|---|---|---|---|---|---|---|---|
0.410 | 0.230 | 0.593 | 0.610 | 0.361 | ||||
✓ | 0.411 | 0.225 | 0.591 | 0.637 | 0.364 | |||
✓ | ✓ | 0.407 | 0.228 | 0.600 | 0.635 | 0.653 | ||
✓ | ✓ | ✓ | 0.408 | 0.231 | 0.618 | 0.648 | 0.718 | |
✓ | ✓ | ✓ | ✓ | 0.407 | 0.235 | 0.618 | 0.651 | 0.727 |
表 3はDiffSenseiの定量的アブレーション実験の結果を示しており、我々はコンポーネントを系統的に除去してその影響を評価した。具体的には、柔軟なキャラクター特徴アダプターとして機能するMLLMコンポーネントを除外すると、CLIPメトリクスが1.73%減少し、DINO-Cスコアも低下した。これは、テキスト由来の状態へのキャラクター転移を強化する上でのMLLMの役割を強調している。Magi [30] 画像エンコーダーを除外すると、メトリクス全般が低下し、特に画像品質とキャラクターの類似性において顕著であった。これは、マンガキャラクターを効果的にエンコードする上でのMagiエンコーダーの重要性を浮き彫りにしている。Magiはマンガデータセットに特化して訓練されており、マンガキャラクターの保持においてより優れた性能を示す。 キャラクターとダイアログレイアウトの条件をエンコードする代替手法を調査するため、我々はダイアログ埋め込み技術を、ダイアログのバウンディングボックスのフーリエ埋め込みをSDXL [26] のタイムステップ埋め込みに入力する方法に置き換える実験を行った。この変更により、レイアウト制御が大幅に低下し、F1スコアが0.653から0.364に急落した。これは、ダイアログレイアウトをエンコードする上で、ダイアログ埋め込みを直接潜在空間に組み込むアプローチが優れていることを示している。 さらに、我々はマスク付き注意機構注入の代替として、キャラクターのバウンディングボックスのフーリエ埋め込みをキャラクター特徴に追加する方法を探った。この変更によりDINO-Cメトリクスが顕著に低下し、我々の元のマスク付き注意機構戦略の有効性が再確認された。包括的な効果の例示については、付録の定性的アブレーション実験を参照されたい。
6 Conclusion
本稿では、拡散ベースの画像生成器と、テキスト互換性のあるアイデンティティアダプターとしての大規模言語モデル(MLLM)を統合した、マルチキャラクターのカスタマイズされたストーリー可視化のための新しいフレームワークであるDiffSenseiを紹介する。主要な革新点には、キャラクターレイアウト管理のためのマスク付き注意制御、ダイアログレイアウト埋め込み、柔軟なキャラクターカスタマイズのためのMLLMベースの特徴アダプターが含まれる。43,264ページのマンガと427,147パネルからなる提案されたMangaZeroデータセットに支えられ、DiffSenseiは、テキストプロンプトに動的に応答する優れたキャラクター一貫性のあるパネルを実現し、既存の手法を凌駕し、ストーリー可視化の分野を前進させている。
References
- man [2024] Mangadex, 2024.
- Aizawa et al. [2020] Kiyoharu Aizawa, Azuma Fujimoto, Atsushi Otsubo, Toru Ogawa, Yusuke Matsui, Koki Tsubota, and Hikaru Ikuta. Building a manga dataset “manga109” with annotations for multimedia applications. TMM, 2020.
- Bai et al. [2024] Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, and Shuicheng Yan. Meissonic: Revitalizing masked generative transformers for efficient high-resolution text-to-image synthesis. arXiv preprint arXiv:2410.08261, 2024.
- Chen et al. [2024] Xi Chen, Lianghua Huang, Yu Liu, Yujun Shen, Deli Zhao, and Hengshuang Zhao. Anydoor: Zero-shot object-level image customization. In CVPR, 2024.
- Cheng et al. [2024] Junhao Cheng, Xi Lu, Hanhui Li, Khun Loun Zai, Baiqiao Yin, Yuhao Cheng, Yiqiang Yan, and Xiaodan Liang. Autostudio: Crafting consistent subjects in multi-turn interactive image generation. arXiv preprint arXiv:2406.01388, 2024.
- Fu et al. [2023] Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, and Zhe Gan. Guiding instruction-based image editing via multimodal large language models. In ICLR, 2023.
- Gal et al. [2022] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. arXiv preprint arXiv:2208.01618, 2022.
- Ge et al. [2024] Yuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, and Ying Shan. Seed-x: Multimodal models with unified multi-granularity comprehension and generation. arXiv preprint arXiv:2404.14396, 2024.
- Gu et al. [2024] Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, et al. Mix-of-show: Decentralized low-rank adaptation for multi-concept customization of diffusion models. NeurIPS, 2024.
- Gupta et al. [2018] Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem, and Aniruddha Kembhavi. Imagine this! scripts to compositions to videos. In ECCV, 2018.
- Han et al. [2023] Yue Han, Jiangning Zhang, Junwei Zhu, Xiangtai Li, Yanhao Ge, Wei Li, Chengjie Wang, Yong Liu, Xiaoming Liu, and Ying Tai. A generalist facex via learning unified facial representation. arXiv preprint arXiv:2401.00551, 2023.
- Han et al. [2024] Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, and Yong Liu. Face adapter for pre-trained diffusion models with fine-grained id and attribute control. ECCV, 2024.
- Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. NeurIPS, 2017.
- Hu et al. [2021] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
- Huang et al. [2016] Ting-Hao Huang, Francis Ferraro, Nasrin Mostafazadeh, Ishan Misra, Aishwarya Agrawal, Jacob Devlin, Ross Girshick, Xiaodong He, Pushmeet Kohli, Dhruv Batra, et al. Visual storytelling. In NAACL, 2016.
- Huang et al. [2024] Yuzhou Huang, Liangbin Xie, Xintao Wang, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou, Chao Dong, Rui Huang, Ruimao Zhang, et al. Smartedit: Exploring complex instruction-based image editing with multimodal large language models. In CVPR, 2024.
- Labs [2024] Black Forest Labs. Announcing black forest labs, 2024.
- Li et al. [2019] Yitong Li, Zhe Gan, Yelong Shen, Jingjing Liu, Yu Cheng, Yuexin Wu, Lawrence Carin, David Carlson, and Jianfeng Gao. Storygan: A sequential conditional gan for story visualization. In CVPR, 2019.
- Li et al. [2024] Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, and Ying Shan. Photomaker: Customizing realistic human photos via stacked id embedding. In CVPR, 2024.
- Lin et al. [2024] Jian Lin, Xueting Liu, Chengze Li, Minshan Xie, and Tien-Tsin Wong. Sketch2manga: Shaded manga screening from sketch with diffusion models. In ICIP, 2024.
- Liu et al. [2024] Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Yanfeng Wang, and Weidi Xie. Intelligent grimm-open-ended visual storytelling via latent diffusion models. In CVPR, 2024.
- Liu et al. [2023] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023.
- Loshchilov [2017] I Loshchilov. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
- Oquab et al. [2023] Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023.
- Pan et al. [2024] Xichen Pan, Pengda Qin, Yuhong Li, Hui Xue, and Wenhu Chen. Synthesizing coherent story with auto-regressive latent diffusion models. In WACV, 2024.
- Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICCV, 2021.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
- Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023.
- Sachdeva and Zisserman [2024] Ragav Sachdeva and Andrew Zisserman. The manga whisperer: Automatically generating transcriptions for comics. In CVPR, 2024.
- Sachdeva et al. [2024] Ragav Sachdeva, Gyungin Shin, and Andrew Zisserman. Tails tell tales: Chapter-wide manga transcriptions with character names. arXiv preprint arXiv:2408.00298, 2024.
- Su et al. [2021] Hao Su, Jianwei Niu, Xuefeng Liu, Qingfeng Li, Jiahe Cui, and Ji Wan. Mangagan: Unpaired photo-to-manga translation based on the methodology of manga drawing. In AAAI, 2021.
- Sun et al. [2024] Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, and Xinlong Wang. Generative multimodal models are in-context learners. In CVPR, 2024.
- Vivoli et al. [2024] Emanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, and Dimosthenis Karatzas. One missing piece in vision and language: A survey on comics understanding. arXiv preprint arXiv:2409.09502, 2024.
- Wang et al. [2024a] Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, and Anthony Chen. Instantid: Zero-shot identity-preserving generation in seconds. arXiv preprint arXiv:2401.07519, 2024a.
- Wang et al. [2023] Wen Wang, Canyu Zhao, Hao Chen, Zhekai Chen, Kecheng Zheng, and Chunhua Shen. Autostory: Generating diverse storytelling images with minimal human effort. arXiv preprint arXiv:2311.11243, 2023.
- Wang et al. [2024b] Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, and Ishan Misra. Instancediffusion: Instance-level control for image generation. In CVPR, 2024b.
- Wang et al. [2024c] X Wang, Siming Fu, Qihan Huang, Wanggui He, and Hao Jiang. Ms-diffusion: Multi-subject zero-shot image personalization with layout guidance. arXiv preprint arXiv:2406.07209, 2024c.
- Wang et al. [2024d] Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, et al. Emu3: Next-token prediction is all you need. arXiv preprint arXiv:2409.18869, 2024d.
- Wang et al. [2024e] Zhenyu Wang, Aoxue Li, Zhenguo Li, and Xihui Liu. Genartist: Multimodal llm as an agent for unified image generation and editing. In NeurIPS, 2024e.
- Wu et al. [2024a] Jianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang, Jiangning Zhang, Yining Li, Kai Chen, Yunhai Tong, Ziwei Liu, et al. Towards language-driven video inpainting via multimodal large language models. In CVPR, 2024a.
- Wu et al. [2024b] Jianzong Wu, Xiangtai Li, Shilin Xu, Haobo Yuan, Henghui Ding, Yibo Yang, Xia Li, Jiangning Zhang, Yunhai Tong, Xudong Jiang, Bernard Ghanem, and Dacheng Tao. Towards open vocabulary learning: A survey. T-PAMI, 2024b.
- Wu et al. [2024c] Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, and Kai Chen. Motionbooth: Motion-aware customized text-to-video generation. In NeurIPS, 2024c.
- Xie et al. [2023] Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng, and Mike Zheng Shou. Boxdiff: Text-to-image synthesis with training-free box-constrained diffusion. In ICCV, 2023.
- Yang et al. [2024] Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, and Yingcong Chen. Seed-story: Multimodal long story generation with large language model. arXiv preprint arXiv:2407.08683, 2024.
- Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.
- Yunqian [2024] Zhang Yunqian. Ai-driven background generation for manga illustrations: A deep generative model approach. ORES, 2024.
- Zhang et al. [2024] Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, and Yu Su. Magicbrush: A manually annotated dataset for instruction-guided image editing. NeurIPS, 2024.
- Zhang et al. [2021] Lvmin Zhang, Xinrui Wang, Qingnan Fan, Yi Ji, and Chunping Liu. Generating manga from illustrations via mimicking manga creation workflow. In CVPR, 2021.
- Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.
- Zhou et al. [2024a] Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, and Tong Sun. Customization assistant for text-to-image generation. In CVPR, 2024a.
- Zhou et al. [2024b] Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, and Qibin Hou. Storydiffusion: Consistent self-attention for long-range image and video generation. In NeurIPS, 2024b.
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models
for Customized Manga Generation
Supplementary Material
Appendix A More Qualitative results
定性的結果が広範囲にわたるため、別のPDFファイルで提示している。詳細についてはプロジェクトページを参照されたい。以下に、これらの文書の内容を要約する:
"page_results.pdf"は、本稿の図6に類似した追加の漫画ページ例を提示している。多数の例は、我々のDiffSenseiモデルが多様なストーリーライン、キャラクター、背景を特徴とする生き生きとした漫画ページを生成できることを示している。特筆すべきは、以前見たことのないキャラクター画像が提供された場合でも、DiffSenseiは良好な性能を発揮し、モデルの汎化能力を強調している。いくつかの図は図13、図14、図15、および図16にも示されている。
"long_story.pdf"は、Hinton、LeCun、BengioがノーベルA賞を受賞する完全な長編漫画ストーリーを紹介している—これは図1に示された実際の人間が描いた漫画の拡張版である。この漫画は、研究者のHinton、LeCun、Bengioがトランスフォーマーを凌駕するAIモデルを作成するという挑戦に取り組む架空のストーリーを語っている。失敗と自己疑念に直面しながらも、彼らは厳密な研究と協力を通じて粘り強く取り組む。数々の障害を乗り越えた後、彼らのモデルは成功し、何年も後に、彼らはノーベルA賞を授与され、画期的な成果と科学における忍耐の力を祝福する。この完全版は、我々のモデルがゼロショット設定で包括的な長編ストーリーを作成でき、実際の人間中心の漫画物語を効果的に扱えることを示している。このストーリーは図7にも示されている。
Appendix B More Qualitative Comparison Results
DiffSenseiとベースラインモデルとの追加の定性的比較を図8に示す。 観察結果は本稿で議論したものと密接に一致している。AR-LDM [25]やStoryGen [21]などのモデルは、個別のキャラクター画像を入力として処理できないため、個々のキャラクターのレイアウトを明示的に制御する能力が制限されている。 SEED-Story [45]はパネルのキャプションを予測するためにMLLMを組み込んでいるが、その効果は限定的であり、一部不自然なストーリーテリングの結果をもたらしている。 StoryDiffusion [52]は学習不要のアプローチを採用しているが、おそらく解像度の異なる参照画像入力を効果的に処理できないため、性能が劣っている。 MS-Diffusion [38]は、アイデンティティの保持とキャラクターのレイアウト制御において比較的良好な性能を示している。 しかし、キャラクター入力画像を過度に制約する傾向があり、テキスト入力に基づいてキャラクターの外見を動的に調整する柔軟性に欠けている。 対照的に、我々のDiffSenseiモデルはすべてのベースラインを上回り、アイデンティティの保持、テキストとの整合性、および全体的な画像品質において優れた結果を達成している。
Appendix C Implementation Details
推論の詳細。 推論時には、先行研究 [46, 38] に倣い、キャラクター特徴の重みを に設定する。 さらに、MLLM適応キャラクター特徴の重み付けを に従って行う。我々のすべての実験において、 と設定しており、これにより同一性の保持とテキストの互換性の間で効果的なバランスが取れている。
訓練の詳細。 我々のモデル訓練は8台のNVIDIA A100 80G GPUで実施され、第1段階に約1週間、第2段階に約1日を要する。第1段階を開始する前に、我々はSDXLモデル [26] を漫画画像でテキストから画像への生成タスクを用いてファインチューニングする事前訓練フェーズを実施する。この事前訓練により、モデルが白黒漫画の分布に適応し、その後の訓練を加速させる。 事前訓練には10,000ステップのみが必要であり、5時間以内に完了することができる。
Appendix D Ablation Study
Rate | FID | CLIP | DINO-I | DINO-C | F1 score |
---|---|---|---|---|---|
0.0 | 0.408 | 0.233 | 0.615 | 0.646 | 0.718 |
0.5 | 0.407 | 0.235 | 0.618 | 0.651 | 0.727 |
1.0 | 0.407 | 0.233 | 0.610 | 0.644 | 0.729 |
FID | CLIP | DINO-I | DINO-C | F1 score | |
---|---|---|---|---|---|
0.0 | 0.408 | 0.231 | 0.618 | 0.648 | 0.718 |
0.2 | 0.407 | 0.231 | 0.620 | 0.653 | 0.722 |
0.4 | 0.407 | 0.235 | 0.618 | 0.651 | 0.727 |
0.6 | 0.406 | 0.237 | 0.608 | 0.637 | 0.728 |
0.8 | 0.407 | 0.237 | 0.604 | 0.629 | 0.727 |
1.0 | 0.407 | 0.236 | 0.601 | 0.618 | 0.731 |
提案モジュールに関する定性的アブレーション。 図 9は、提案モジュールの定性的アブレーション実験を示している。キャラクターマスク注意機構の注入がない場合、キャラクターのレイアウトを効果的に制御することができない。同様に、対話レイアウト制御のためのマスク化埋め込み技術をフーリエ埋め込みに置き換えると、不適切な対話生成が生じる。 Magi [30] 画像エンコーダーは明示的にマンガ画像で訓練されている。これを使用せず、CLIP画像エンコーダーのみを使用した場合、キャラクターの同一性を保持する能力が著しく低下する。 さらに、MLLMを柔軟なキャラクターアダプターとして使用しない場合、モデルは入力キャラクター画像のピクセル分布に厳密に従う傾向があり、テキスト入力に応じてキャラクターの外見、ポーズ、動きを適応させる能力が制限される。 具体的には、男性が跪いたり地面を見下ろしたりしていない。
ターゲットパネルから取得したキャラクター画像の割合。 キャラクターのアノテーションのおかげで、我々は複数のパネルにわたって同じキャラクターを識別することができ、これにより異なる外見、ポーズ、動きを捉えることが可能となる。トレーニング中、我々はキャラクターIDを使用してソースキャラクターをサンプリングするが、このIDはページ全体で一貫している。 しかし、完全にランダムなサンプリングを使用すると、トレーニングの収束が困難になることが分かった。これは、おそらくマンガによく見られる芸術的な誇張表現が原因であると考えられる。 これらの誇張表現により、キャラクターの外見がパネル間で大きく変化する場合、モデルが一貫したキャラクター表現を学習することが困難になる。 この問題に対処するため、我々は代替のサンプリング戦略を導入した。ここでは、設定された割合で、ソースキャラクターをターゲット画像自体から直接サンプリングする。これにより、モデルはアイデンティティの保持をより効果的に学習できる。ターゲットキャラクターのサンプリング率の影響を調査するアブレーション研究を表 4(a)に示す。 結果は、サンプリング率が高くなるとテキストとの互換性が低下することを示している。これは、モデルが入力キャラクター画像の複製に過度に集中するためである。 一方、サンプリング率が低いとトレーニングの収束が困難になり、これも指標に悪影響を与える。最終的に、我々はバランスの取れたパフォーマンスを提供するために、トレーニング中のサンプリング率を0.5に選択した。
ハイパーパラメータ 。 表 4(b)は、MLLMの重み付けハイパーパラメータの定量的なアブレーション研究を示している。 結果は、を増加させるとCLIPスコアが向上するが、DINOスコアが低下することを示唆している。 これは、MLLM適応型埋め込みがテキストとより整合するようになる一方で、アイデンティティの保持が損なわれる可能性があることを示している。 逆に、を低くするとCLIPスコアが低下し、アイデンティティの保持が向上する。経験的に、我々はこれらの要因間の最適なバランスを達成するためにを0.4に設定した。図 10の定性的結果がさらにこの観察を支持している。が増加するにつれて、キャラクターの保持が低下する。逆に、の値が小さくなると、生成されたキャラクターはテキストとの互換性が欠如する。この例では、が0.4または0.6に設定されたときに、生成された画像が最良のバランスを達成している。
Appendix E Limitations and Future Work
図 11はDiffSenseiのいくつかの失敗例を示している。 (a) 不明瞭な入力キャラクター画像:入力キャラクター画像が曖昧または不明瞭な場合、我々のモデルはキャラクターの明示的な外見を捉えるのに苦労し、アイデンティティの喪失につながる。この問題は、データセットの改良やユーザー入力を制限して、キャラクター画像が正確な再現のために十分に明確であることを確保することで緩和できる可能性がある。 (b) 複数キャラクターの融合。複数のキャラクターが入力として提供される場合、我々のモデルは時として「融合現象」を示し、特に元の外見が既に非常に似ている場合、キャラクターが実際よりも類似して見える。これは、ベースモデル(SDXL)の限界に影響されている可能性が高く、SDXLもこの問題を示している[26]。今後の研究では、より高度なテキストから画像へのモデルを調査するか、複数のキャラクター表現をより適切に分離する方法を開発することができる。 (c) キャラクター入力なしのスタイル制御。キャラクター入力なしでマンガパネルを生成する場合、モデルは出力スタイルの制御に苦労する。真実のデータが明確なスタイルの単純な線画で構成されているのに対し、生成された画像はより一般的なマンガの外観を採用する傾向があり、正確なスタイル制御を達成できない。注目すべきは、キャラクター画像が提供される場合、我々のアプローチはキャラクターのスタイルに合わせて全体的な画像スタイルを制御できることである。今後の研究では、特にキャラクター入力のないシナリオで、異なるマンガスタイルのスタイル制御の改善に焦点を当てることができる。
Appendix F MangaZero Dataset Details
マンガのソース。 MangaZeroデータセットには、最も有名な日本の白黒マンガシリーズが含まれている。図 12(a)は、全48シリーズの表紙を示している。これらのマンガシリーズは、主に人気、独特のアートスタイル、そして豊富なキャラクターキャストを基準に選ばれた。これにより、我々のモデルは、アイデンティティ保持に関して堅牢で柔軟な能力を発展させる能力を得ることができる。
アノテーション。 キャラクターと台詞のアノテーションの例を図 12(b)に示す。さらに、図 12(c)はデータセット内のパネル解像度の分布を示している。明確にするために、10241024、512512、256256の解像度を表す3つの参照線を含めている。ほとんどのマンガパネルは2番目と3番目の線の周りに集中しており、最近の研究[26, 17]で強調されているものと比較して、ほとんどのパネルが比較的低解像度であることを示している。これはマンガデータに固有の特徴であり、本稿で特に取り組んでいる点である。したがって、マンガデータセットを効果的に扱うためには、マルチ解像度トレーニングが不可欠となる。
潜在的な用途と今後の研究。 我々のデータセットは主にカスタマイズされた漫画生成のタスクのために設計されており、さらなる応用に対して大きな汎用性を提供している。その主要な目的を超えて、他の有望な研究分野でも活用できる。例えば、カスタマイズされた漫画の続編生成に適しており、この課題では初期のパネルまたはシーケンスに基づいて一貫性のあるストーリーの拡張を生成することが目標となる。このタスクは漫画の本質的な読み順を活用し、パネルを物語の流れに沿って配置することで、モデルが視覚的およびテーマ的な一貫性を維持しながら自律的にストーリーラインを拡張することを可能にする。 さらに、アノテーションの範囲を拡大することで、我々のデータセットは漫画生成のためのスタイル制御の研究を促進することができる。各漫画シリーズや作家は独特の描画スタイルを持っており、我々のデータセットはスタイルの制御可能性においてモデルを訓練するのに適している。これにより、特定の芸術的スタイルを模倣できる漫画の微調整または条件付き生成が可能となり、研究者が漫画制作におけるスタイルの変化や作家固有のカスタマイズを探求するための洗練されたツールを提供する。 総じて、このデータセットの適応性と拡張性は、物語の続編生成とスタイル制御の両方に関する将来の研究のための優れた基盤となり、漫画生成モデルの能力を拡張するための有望な道筋を約束している。
Appendix G Broader Impacts
本稿のより広範な影響は、複数の領域にわたって重要である。
マンガ産業。 提案された技術は、アーティスト、クリエイター、出版社がキャラクターやレイアウトを詳細に制御しながら、迅速にカスタマイズされたマンガを作成することを可能にすることで、マンガ産業に直接的な利益をもたらす可能性がある。 この革新は、マンガ制作プロセスを効率化し、制作コストを削減し、ニッチな観客や特定の市場需要に応える、よりパーソナライズされたストーリーテリングを可能にする可能性がある。
教育、映画、メディア。 マンガを超えて、テキストからストーリーを視覚化するこのフレームワークの能力は、教育、映画、メディア制作などの分野に影響を与える可能性がある。教育現場では、ナラティブに沿った視覚的補助を生成することで、学生の理解度と関心を高めることができる。映画製作では、視覚的なストーリーボードを迅速に作成するための事前視覚化ツールとして機能し、脚本家、監督、制作チーム間のアイデア創出とコミュニケーションを促進することができる。
データの倫理的使用。 このアプローチは、特にMangaZeroデータセットまたはMangaZeroのように注釈付けされたより多くのマンガデータのライセンスと倫理的制約を強調しながら、合法的なデータ使用の重要性を強調している。これにより、生成されたコンテンツが著作権法を尊重し、データが適切にライセンスされているか、学術的および非商業的使用に制限されていることを確保する、この領域での責任あるデータ取り扱いの先例が設定される。この認識は、潜在的な法的問題を軽減し、創造的分野における倫理的なAI研究実践を支援する。