JaLMS
最新の AI 研究を日本語で解読

ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

Lianghua Huang \AndWei Wang \AndZhi-Fan Wu \ANDYupeng Shi \AndChen Liang \AndTong Shen \AndHan Zhang \AndHuanzhang Dou \AndYu Liu \AndJingren Zhou \AND
Tongyi Lab
Corresponding AuthorEmails: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Tong Shen, Yu Liu, Jingren Zhou {xuangen.hlh, ww413411, wuzhifan.wzf, st456222, ly103369, jingren.zhou}@alibaba-inc.com, and Yupeng Shi ([email protected]). Chen Liang ([email protected], Institute of Automation, Chinese Academy of Sciences), Han Zhang ([email protected], Shanghai Jiao Tong University) and Huanzhang Dou ([email protected], Zhejiang University) contributed to this work during internships at Tongyi Lab.
Abstract

最近の研究(Huang et al., 2024a, b)は、事前学習された拡散トランスフォーマー(DiTs)の固有の文脈内生成能力を強調している。これにより、最小限の、あるいは全く構造的な変更を加えることなく、多様な視覚タスクにシームレスに適応することが可能となる。これらの能力は、複数の入力画像とターゲット画像にわたる自己注意トークンの連結と、グループ化およびマスク化された生成パイプラインを組み合わせることで解放される。この基盤に基づき、我々はChatDiTを提示する。ChatDiTはゼロショットで、汎用的かつインタラクティブな視覚生成フレームワークであり、追加のチューニング、アダプター、または修正を必要とせず、元の形式で事前学習された拡散トランスフォーマーを活用する。ユーザーはChatDiTと対話し、テキストと画像が交互に配置された記事、複数ページの絵本の作成、画像の編集、IPの派生デザイン、またはキャラクターデザイン設定の開発を、1回または複数回の会話を通じて自由形式の自然言語で行うことができる。ChatDiTの核心には、3つの主要コンポーネントからなるマルチエージェントシステムがある:ユーザーがアップロードした画像と指示を解釈する指示解析エージェント、単一ステップまたは複数ステップの生成アクションを考案する戦略立案エージェント、そして拡散トランスフォーマーの文脈内ツールキットを使用してこれらのアクションを実行する実行エージェントである。我々は、IDEA-Bench (Liang et al., 2024)上でChatDiTを徹底的に評価した。これは、100の実世界のデザインタスクと、多様な指示および様々な数の入力画像とターゲット画像を含む275のケースで構成されている。その単純さと学習不要のアプローチにもかかわらず、ChatDiTは、広範なマルチタスクデータセットで特別に設計され学習されたものを含む、すべての競合手法を上回る性能を示した。本研究は、ゼロショットタスク汎化のための事前学習されたテキスト画像変換モデルの未開拓の可能性を強調しているが、IDEA-BenchにおけるChatDiTのTop-1性能が100点満点中23.19点であることは、汎用生成のためにDiTsを完全に活用することの課題を反映している。我々はさらに、ゼロショットでタスクに適応する際の事前学習されたDiTsの主要な限界を特定した。我々は、さらなる研究を促進するために、すべてのコード、エージェント、結果、および中間出力をhttps://github.com/ali-vilab/ChatDiTで公開している。

1 Introduction

Refer to caption
図1: ChatDiTマルチエージェントフレームワークの概要。 このフレームワークは、順次動作する3つの中核エージェントで構成されている:指示解析エージェントはユーザーの指示を解釈し入力を分析し、戦略立案エージェントは文脈内生成戦略を策定し、実行エージェントは事前学習された拡散トランスフォーマーを用いて計画された行動を実行する。オプションの

テキストから画像への変換モデルにおける最近の進歩により、プロンプトに対して驚くべき忠実度を持つ高品質な画像の生成が可能になった (Ramesh et al., 2021; Esser et al., 2021; Ramesh et al., 2022; Rombach et al., 2022; Saharia et al., 2022a; Betker et al., 2023; Podell et al., 2023; Esser et al., 2024; Baldridge et al., 2024; Labs, 2024)。さらに、これらのモデルの制御可能性を向上させるための様々なアダプターが開発されてきた (Zhang et al., 2023; Ye et al., 2023; Huang et al., 2023; Ruiz et al., 2023; Wang et al., 2024a; Hertz et al., 2024)。しかしながら、実世界のアプリケーションでは、既存のアダプターの限界を超える複雑な要件が関わることが多い。例えば、絵本の生成には、多数の要素にわたる構図の一貫性と複雑な変化を維持する必要がある。最近の取り組みでは、多様なタスクを処理できる統合モデルの開発が試みられているが (Ge et al., 2023; Zhou et al., 2024a; Sheynin et al., 2024; Sun et al., 2024; Wang et al., 2024b)、これらのアプローチは通常、大量のタスク固有データと広範なマルチタスク学習に依存している。このようなモデルはゼロショット汎化能力を示すものの、未知のタスクに対する安定性に欠け、スケーリングが困難であり、豊富なタスク非依存データを効果的に活用できていない。

Group Diffusion Transformers (Huang et al., 2024a)のような新興の研究は、グループデータを訓練に活用するタスク非依存のアプローチを提案している。この手法により、イラスト付き記事、ビデオフレーム、絵本など、多様な関係データソースを取り入れることが可能となり、訓練データの冗長性が非常に高くなる。これらのモデルは、様々なタスクにおけるゼロショット汎化の可能性を示している。これを基に、In-context LoRA (Huang et al., 2024b)は、テキストから画像への拡散トランスフォーマーに内在する文脈内生成能力を強調することで、この概念を簡略化している。タスクごとに10〜100の画像グループからなる小規模なデータセットでこれらのトランスフォーマーを微調整することで、In-context LoRAは様々なタスクにおいて印象的な結果を達成している。しかし、タスクごとの訓練に依存しているため、未知のタスクへの汎化能力は制限されている。

本稿では、In-context LoRA (Huang et al., 2024b)の根底にある核心的な観察、すなわち拡散トランスフォーマーが本質的に文脈内生成能力を持ち、結果としてゼロショットタスク汎化の可能性を有しているという点の潜在能力を最大化することを目指す。我々は、微調整、アダプター、構造的修正を必要とせず、拡散トランスフォーマーを元の形のまま直接利用する、訓練不要、ゼロショット、インタラクティブ、かつ汎用的な画像生成フレームワークを提案する。

我々はまず、拡散トランスフォーマーのための文脈内ツールキットを導入する。これにより、プロンプトと、オプションで参照画像セットを条件として、単一の出力ではなく画像セットを生成することが可能となる。このツールキットは、In-context LoRAと同様の単純なパイプラインを使用し、入力画像と目標画像を多パネルレイアウトに連結し、包括的なプロンプトで記述する。その後、blend diffusion (Avrahami et al., 2022)を用いて、訓練不要の方法で可視の入力領域を使用して目標領域をインペインティングするタスクを実行する。このパイプラインは、プロンプト、ゼロから複数の参照画像を受け入れ、1つまたは複数の生成画像を出力する。

我々のアプローチの核心であるChatDiTは、3つの主要なエージェントから構成されるマルチエージェントシステムである:

  1. 1.

    指示解析エージェント。このエージェントは、ユーザーの指示とアップロードされた画像を解釈し、希望する出力画像の数を決定し、各入力画像と目標画像の詳細な説明を生成する。

  2. 2.

    戦略立案エージェント。解析された指示に基づき、このエージェントは段階的な生成計画を策定する。各ステップには、マルチパネルプロンプト、選択された参照画像ID(該当する場合)、および画像生成に必要なパラメータが含まれる。

  3. 3.

    実行エージェントin-context toolkitを活用し、このエージェントは計画されたステップを実行し、in-context操作を通じてすべての目標画像を生成する。

Refer to caption
図2:IDEA-Bench (Liang et al., 2024)におけるChatDiTの単一ラウンド生成例の選択。 ChatDiTは、自由形式の自然言語対話を通じてゼロショットで多様なタスク、指示、入出力構成を処理する汎用性を示している。ここに示されているユーザーメッセージは、スペースを節約するためにIDEA-Benchの元の詳細な指示を要約したものである。

Refer to caption

図3:ChatDiTによる選択された図解付き記事生成例。 ChatDiTは、ユーザーの自然言語指示に基づいてテキストと画像が交互に配置された記事を生成することができる。必要な画像数を自律的に推定し、in-context機能を使用して生成プロセスを計画・実行し、出力を一貫性のある視覚的に魅力的な図解付き記事にシームレスに統合する。

Refer to caption

図4:ChatDiTの選択された複数ラウンドの会話例。 ChatDiTは、会話履歴から画像を参照することで、自由形式のユーザー指示に応じてシームレスな複数ラウンドの生成と編集を実行できる。この反復プロセスにより、会話ターン全体で文脈の一貫性を維持しながら、出力の動的な洗練と適応が可能になる。各指示メッセージで指定された主要な修正は黄色でハイライトされている。

オプションのMarkdown Agentにより、一貫性のある文章と画像が交互に配置された記事の生成が可能となり、読みやすさを考慮して出力が適切にフォーマットされることが保証される。すべてのエージェントは大規模言語モデル(LLM)を用いて実装され、JSON形式の入出力を通じて動作する(Markdown Agentの出力はテキストベースである点を除く)。全体的なフレームワークは図1に示されている。

我々はChatDiTをIDEA-Bench (Liang et al., 2024)で評価する。これは100の多様なデザインタスクと275のテストケースからなる包括的なベンチマークであり、幅広い指示と入出力の構成をカバーしている。生成結果の例を図2に示し、他のアプローチとの定量的および定性的比較を表1と図5にそれぞれ示す。ChatDiTはその単純さと学習不要な性質にもかかわらず、言い換えベースのテキストから画像への手法や特殊化されたマルチタスクフレームワークを含むすべての競合手法を凌駕し、そのゼロショット能力を実証している。

我々はさらに、ChatDiTの多様性を図3で強調する。これは文章と画像が交互に配置された記事を生成する能力を示している。また、図4では、複数ターンの会話型出力を示している。アイデンティティや細部の保持の困難さ、長いコンテキストすなわち、過剰な数の入力や出力)を扱う際の指示遵守の低下など、いくつかの不完全な点は残るものの、ChatDiTは強力なベースラインを確立している。また、事前学習された拡散モデルの未開拓のコンテキスト内生成能力を明らかにし、これらのモデルをさらに改善してゼロショット汎化能力を向上させる方法について貴重な洞察を提供している。

ChatDiTはIDEA-Benchで最高のパフォーマンスを達成しているものの、その得点である23.19点(100点満点)は、実世界の製品レベルの汎用アプリケーションを実現するまでにはまだ相当な隔たりがあることを浮き彫りにしている。この結果は、高度に複雑なタスクに対して拡散トランスフォーマーの能力を十分に活用することの課題を強調している。我々は第4.6節でChatDiTの主要な限界について議論する。将来の研究とイノベーションを促進するために、我々はすべてのコード、エージェント、結果、および中間出力を公開する111プロジェクトページ: https://ali-vilab.github.io/ChatDiT-Page/

2 Related Work

2.1 Image Generation

テキストから画像を生成するモデルは、自然言語プロンプトから高品質で様式的に多様な画像を生成する能力において急速に進歩している (Ramesh et al., 2021, 2022; Esser et al., 2021; Rombach et al., 2022; Saharia et al., 2022a; Betker et al., 2023; Podell et al., 2023; Chen et al., 2023; Esser et al., 2024; Baldridge et al., 2024; Labs, 2024)。研究者たちは、アイデンティティの保持 (Huang et al., 2023; Ye et al., 2023; Li et al., 2024; Wang et al., 2024a)、色の適応 (Huang et al., 2023)、スタイルの適応 (Hertz et al., 2024; Huang et al., 2023)、空間的構成 (Zheng et al., 2023; Huang et al., 2023)、ポーズガイダンス (Zhang et al., 2023)、局所的編集 (Meng et al., 2021; Lugmayr et al., 2022; Xie et al., 2022; Huang et al., 2023)、オブジェクトレベルの編集 (Pan et al., 2023; Shi et al., 2023; Liu et al., 2024a)、品質向上 (Saharia et al., 2022b; Kawar et al., 2022; Xia et al., 2023; Li et al., 2023)、画像間関係のモデリング (Zhou et al., 2024b; Liu et al., 2024b; Yang et al., 2024)など、特定の属性を制御するための様々なアプローチを導入している。これらの手法は個別のタスクに対応しているが、特殊な訓練やアダプターに依存しているため、複数の画像と複雑な関係を含むより広範で複雑なタスクへの適用可能性が制限されている。

2.2 Unified Frameworks and Zero-Shot Generalization

最近のいくつかのフレームワークは、幅広い生成タスクにわたる汎化を目指している (Ge et al., 2023; Zhou et al., 2024a; Sheynin et al., 2024; Sun et al., 2024; Wang et al., 2024b; Huang et al., 2024a; Shi et al., 2024)。Emu Edit (Sheynin et al., 2024)、Emu2 (Sun et al., 2024)、Emu3 (Wang et al., 2024b)、TransFusion (Zhou et al., 2024a)、Show-o (Xie et al., 2024)、OmniGen (Xiao et al., 2024)、およびその他のモデルは印象的な多様性を示している。例えば、Emu3はテキストから画像への生成を動画生成にまで拡張し、一方OmniGenは厳選されたデータセットでの大規模訓練を用いてマルチモーダルタスクを目指している。

これらのモデルは幅広い能力を持つにもかかわらず、通常は明示的なマルチタスク訓練や多様なデータセットの大規模統合に依存している。対照的に、最近の研究 (Huang et al., 2024b) は、標準的なテキストから画像への拡散トランスフォーマーがすでに強力な文脈内能力を持っていることを示している。例えば、In-context LoRA (Huang et al., 2024b) は、少数の画像グループを使用して小規模なLoRAアダプターを訓練し、大規模な再訓練なしに複数のタスクを処理する潜在的な能力をモデルが持っていることを明らかにしている。我々の研究はさらに一歩進んで、そのような適応なしでも、事前訓練された拡散トランスフォーマーが顕著なゼロショット汎化を示すことができることを示している。

2.3 Multi-Agent Systems and Interactive Frameworks

大規模言語モデル(LLM)の台頭(Radford et al., 2019; Brown, 2020; Touvron et al., 2023a, b; Dubey et al., 2024; Team et al., 2024)は、複雑なタスクのための推論と計画を活用するマルチエージェントアーキテクチャを触発した(Durante et al., 2024; Wang et al., 2024c)。エージェントは入力を分析し、戦略を立て、ツールやAPIを用いてアクションを実行することができる。マルチエージェント推論は一般的に言語領域で探求されているが、我々はこれを視覚生成に統合し、LLMベースのエージェントを使用して拡散トランスフォーマーによる多段階ワークフローを解析、計画、実行する。この推論エージェントと潜在拡散モデルの相乗効果により、複雑な画像生成タスクのための柔軟な対話駆動型インターフェースが可能となる。

3 Method

表1: IDEA-Bench (Liang et al., 2024)における様々なタスクでのChatDiTと他のモデルの比較。パフォーマンス指標は異なるタスクタイプごとに報告されている:T2I(テキストから画像)、I2I(画像から画像)、Is2I(画像セットから画像)、T2Is(テキストから画像セット)、およびIs2Is(画像セットから画像セット)。「+GPT4o」は、ユーザーの指示とアップロードされた画像が出力画像ごとのプロンプトに再構成され、テキストから画像モデルが結果を生成できるようにすることを示している。各タスクの上位2つのスコアは赤色(最高)と青色(2番目)で強調表示されている。
Task Type FLUX+GPT4o DALL-E3+GPT4o SD3+GPT4o Pixart+GPT4o InstructPix2Pix MagicBrush Anole Emu2 OmniGen ChatDiT
T2I 46.06 24.34 24.04 14.44 0 0 0 17.98 21.41 50.91
I2I 12.13 6.95 10.79 7.75 17.58 19.07 0.64 7.05 8.17 21.58
Is2I 4.89 5.27 4.69 3.48 0 0 0 8.98 2.77 2.36
T2Is 20.15 14.36 21.59 17.46 0 0 1.74 0 0 27.77
Is2Is 29.17 14.44 13.06 21.39 0 0 0 0 0 13.33
Avg. 22.48 13.07 14.83 12.90 3.52 3.81 0.48 6.80 6.47 23.19

3.1 Problem Formulation

3.1.1 Unified Group Generation Paradigm

我々は、Group Diffusion Transformers (Huang et al., 2024a)とIn-Context LoRA (Huang et al., 2024b)で導入された画像生成パラダイムを採用している。このパラダイムでは、画像生成タスクを、n1𝑛1n\geq 1italic_n ≥ 1個のターゲット画像を生成することとして定式化する。これは、m0𝑚0m\geq 0italic_m ≥ 0個の参照画像と、合計(n+m)𝑛𝑚(n+m)( italic_n + italic_m )枚の画像を包括的に記述するプロンプトを条件として行われる。この統一的な定式化は非常に汎用性が高く、絵本生成、絵コンテ作成、フォントデザインと転送、アイデンティティ保持生成、ポーズ制御、画像編集、IPの派生など、幅広いデザインタスクに対応できる (Huang et al., 2024a)

このフレームワークでは、参照画像とターゲット画像の関係は、グループ全体で統合されたプロンプトを通じて暗黙的に捉えられる。参照画像とターゲット画像を単一のマルチパネルレイアウトに連結し、対応するマルチパネルプロンプトと組み合わせることで、参照ベースのタスクと参照なしのタスクの両方をシームレスに実行できる。このアプローチの柔軟性は、パネル数と入力・出力画像の構成を変えるだけで、多様なタスク要件に適応できる点にある。

Refer to caption
図5: ChatDiTと既存のアプローチの比較。

3.1.2 Alignment with Human Intention

グループ生成パラダイムは幅広いタスクを効果的に統一するが、マルチパネルプロンプトと画像連結を主要なインターフェースとして使用することは煩雑である。自由形式の自然言語を通じてデザイン要件を伝達する方が遥かに直感的である。これは、消費者がアーティストにアイデアを伝える方法に似ている。さらに、コンテキストが長い場合(つまり、多くの入力画像や出力画像が関与する場合)、これらの画像を同時に条件付けたり生成したりすると、パフォーマンスが著しく低下する可能性がある。これは、テキストから画像へのモデルが複数のパネル記述を正確にマッピングするのに苦労するためである。

この問題に対処するため、我々は並列生成と反復生成のアクションを組み合わせる戦略を採用している。これにより、入力画像とターゲット画像の関係を保持しつつ、画像ごとの記述に忠実であることを維持できる。システムはユーザーの意図をin-contextツールキットと互換性のある形式に変換し、大規模な画像セットを効果的に処理する生成戦略を計画する。これには、自由形式の自然言語指示と参照画像を構造化されたパラメータに変換すること、入力画像とターゲット画像の適切な関係を確保するためのステップバイステップの戦略を考案すること、そしてin-contextツールキットを使用してこれらのステップを実行し、高品質な出力を生成することが含まれる。

このマルチエージェントシステムにより、自然言語指示を処理し、高品質な画像を出力するシームレスなユーザー主導の画像生成フレームワークが実現される。本稿は、多様な視覚生成タスクに対する統一的かつトレーニングフリーのソリューションを提供する。

3.2 In-Context Toolkit

先行研究で示されているように(Huang et al., 2024a, b)、参照なしおよび参照ありの複数画像生成タスクは、マルチパネル画像生成およびインペインティングタスクとして再定式化することができ、これらは純粋なテキスト画像変換モデルによって効果的に処理できる。インペインティングの場合、トレーニングフリーのアプローチが採用されており(Avrahami et al., 2022)、ターゲット画像の可視領域が対応する参照画像の内容に置き換えられ、各ノイズ除去ステップで異なるレベルのガウシアンノイズが追加される。正確な画像生成を確保するために、関連するプロンプトはマルチパネルの内容全体を記述するのに十分な包括性を持つ必要がある。

これらのタスクを効率化するために、我々はパネルの結合と分割、およびプロンプト処理などの重要な機能を統合したインコンテキストツールキットを開発した。このツールキットは統一されたインターフェースを使用し、ユーザーの操作を簡素化し、システムとのシームレスな統合を可能にする。具体的には、ツールキットはマルチパネルプロンプトと画像リストを入力として受け取り、対応する画像リストを出力する。これは以下のように表現される:

output_images = pipe(prompt, input_images, num_outputs)

このインターフェースは、次のセクションで詳述する実行エージェントとのシームレスな互換性を考慮して設計されている。

3.3 Multi-Agent System

1に示すように、我々はユーザーの意図を解釈し、自由形式かつタスクに依存しない方法で出力を生成するマルチエージェントシステムを設計した。このシステムは自然言語の指示を受け付け、オプションとしてゼロ個以上のアップロードされた画像を伴い、一つ以上の生成画像を出力する。必要に応じて、出力は図解付きの記事としてフォーマットすることができる。

このシステムは、特定の責務を担当する専門のサブエージェントを含む3つの主要エージェントで構成されている:

  • 指示解析エージェント:このエージェントはユーザーの指示を解釈し、入力画像を処理する。3つのサブエージェントで構成されている:

    • カウンティングエージェント:ユーザーの指示に基づいて、希望する出力画像の数を推定する。

    • 記述エージェント:アップロードされた各入力画像の詳細な説明を生成し、主要な属性とコンテキストを捉える。

    • プロンプティングエージェント:生成プロセスを導くために、目標とする画像の説明を作成する。

  • 戦略立案エージェント:指示解析エージェントの出力に基づいて、このエージェントは段階的な生成戦略を策定する。以下を含む:

    • 参照エージェント:各出力に適切な参照画像を選択し、参照と出力をグループに整理する。

    • パネル化エージェント:グループ化された参照と出力のためのコンテキスト内プロンプトを構築し、画像生成パイプラインへの入力を準備する。

  • 実行エージェント:このエージェントはコンテキスト内ツールキットを利用して、戦略立案エージェントによって作成された生成計画を実行し、最終的な出力画像を生成する。

さらに、マークダウンエージェントがオプションとして使用され、生成された画像と付随する説明を、絵本や教育コンテンツなどの図解付き記事としてフォーマットする。

DiTsによる長文脈処理の制限のため、戦略立案エージェントは生成プロセスを最適化するための特定の戦略を採用している:

  • テキストから画像へのタスクでは、プロンプトの遵守精度を確保するためにパネル数を4つに制限している。4つ以上の出力が必要な場合、後続の画像は最初の3つの画像を条件として反復的に生成される。

  • 画像から画像へのタスクでは、一貫性を確保するために、各出力画像はすべての入力画像を参照して個別に生成される。

  • 画像から画像へのタスクでは、生成は反復的に行われ、各出力はすべての入力画像と以前に生成された出力を条件として行われる。

これらの戦略は、プロンプトの遵守とパネル間の関係を捉える必要性、および出力全体の一貫性を維持することのバランスを取っている。

このマルチエージェントシステムは、指示解析、戦略立案、およびマークダウンエージェントに大規模言語モデル(LLM)を活用している。実行エージェントは画像生成タスクを処理するためにコンテキスト内ツールキットを使用する。安定性と一貫性を確保するために、マークダウンエージェントを除くLLMエージェントには、JSON形式の入出力が厳密に強制されている。マークダウンエージェントはマークダウン形式のテキストを出力する。

4 Experiments

4.1 Implementation Details

我々は、インコンテキストツールキットと実行エージェントを構築するためにFLUX.1-devテキスト生成画像モデル(Labs, 2024)を利用している。大規模言語モデル(LLM)エージェント(指示解析、戦略立案、マークダウンエージェント)はOpenAIのGPT-4oを用いて実装されている。インペインティングタスクについては、トレーニングフリーのアプローチ(Avrahami et al., 2022)を採用し、FluxInpaintPipelineを使用して参照ベースのタスクにおけるパネル単位のインペインティングを直接実装することで、高品質かつ文脈的に正確な画像生成を確保している。

4.2 Evaluation Benchmark

我々はChatDiTフレームワークをIDEA-Benchベンチマーク(Liang et al., 2024)を用いて評価している。このベンチマークは、様々な指示と異なる入出力構成を持つ100の実世界のデザインタスクで構成されている。275のケースにわたり、このベンチマークは絵本制作、写真修整、画像編集、視覚効果転送、ポーズ転送など、多様なタスクをカバーしている。

ChatDiTの性能は、OmniGen (Xiao et al., 2024)、Emu2 (Sun et al., 2024)、Anole (Chern et al., 2024)、InstructPix2Pix (Brooks et al., 2023)、MagicBrush (Zhang et al., 2024)などの汎用フレームワークと、言語モデルによる言い換えを組み込んだテキスト生成画像モデル(Labs, 2024; Esser et al., 2024; Chen et al., 2023)と比較されている。これらの言い換えベースのモデルは、ユーザーがアップロードした画像と指示を、テキスト生成画像生成のための個別のプロンプトに変換する。このようなモデルは画像間の関係を捉えることが難しい場合が多いが、IDEA-Bench (Liang et al., 2024)が提案するように、比較のための有用なベースラインとして機能する。

4.3 Results on IDEA-Bench

1は定量的結果を示し、図2は生成出力の例を提供し、図5は選択されたケースにおけるChatDiTと他のアプローチとの比較を視覚化している。全体的な性能に関して、ChatDiTは、マルチタスクデータセットに対して明示的に設計され訓練されたモデルを含む競合モデルを凌駕している(Xiao et al., 2024; Sun et al., 2024; Chern et al., 2024; Brooks et al., 2023; Zhang et al., 2024; Shi et al., 2024)

ChatDiTは画像から画像への変換およびテキストから画像への変換タスクにおいて強力な性能を示し、強い文脈的忠実性を持つ高品質の出力を生成する能力を実証している。しかしながら、画像群から画像への変換および画像群から画像群への変換シナリオを含むタスクにおいては課題が残っている。これらのシナリオでは、拡張された文脈の長さと、多くの要素や主題を含む複数の入力と出力を管理する複雑さが、一貫性と全体的な性能に影響を与えている。

ChatDiTは顕著な能力を示しているものの、特に人物の肖像画、動物の表現、製品の細部において、完全な同一性と詳細の保持に苦戦している。これらの限界は、特に細かい粒度の視覚的一貫性と正確性の維持において、将来の改善が必要な領域を浮き彫りにしている。

4.4 Interleaved Text-Image Article Generation

ChatDiTは、ユーザーの指示を入力および出力画像の説明と共に解釈し、Markdownエージェントを使用してマークダウン形式に変換することで、テキストと画像が交互に配置された記事を生成することができる。このプロセスは、テキストと視覚的要素をシームレスに統合し、一貫性のある魅力的な記事を生成する。図3は、厳選された例の一部を示している。

現在の実装にはいくつかの不完全な点があるものの、インタラクティブでダイナミックなインターフェースを作成する上で大きな可能性を示している。テキストと画像をシームレスに融合する能力は、将来のイテレーションにおいて、より洗練されたフォーマット、改善されたナラティブの一貫性、拡張された機能性など、さらなる改善への道を開いている。

4.5 Multi-Round Conversation

4は、ChatDiTを用いた複数ラウンドの会話の例を示している。このシステムは、動的で自由形式のユーザー指示に基づいて、反復的な生成と編集を行う。以前に生成された画像を参照し、会話のターン全体で文脈認識を維持することで、ChatDiTはユーザーの意図に忠実に一貫性を保ちながら出力を洗練させることができる。

ChatDiTは多くの場合において有望な性能を示しているが、細部の保持や一貫したアイデンティティの維持、特に会話の複雑さが増すにつれて課題が残っている。さらに、会話が長くなるにつれて累積的な誤差が性能に大きく影響する可能性がある。これらの制限に対処することは、将来の改善に向けた興味深い機会を表している。

4.6 Limitations of ChatDiT

ChatDiTは様々な視覚生成タスクにおいてゼロショット汎化能力を示しているが、さらなる改善が必要な領域を示すいくつかの限界が残されている。我々はこれらの限界を以下のようにまとめる:

  1. 1.

    不十分な参照忠実度。 ChatDiTは入力画像の詳細を正確に参照することに苦戦しており、特にキャラクター、動物、製品、シーンのアイデンティティや細かい詳細を維持することが困難である。モデルは全体的な構図やテーマを捉えることはできるが、スタイルの一貫性、アイデンティティの保持、その他の微妙な視覚的属性において、しばしば不一致が生じる。

  2. 2.

    長文脈理解の限界。 入力または出力画像の数が増えるにつれて、モデルのパフォーマンスは著しく低下する。大規模な画像セットの生成や多数の参照画像の処理など、長文脈のシナリオを扱う際、ChatDiTの意味理解と生成品質が顕著に低下し、一貫性と視覚的忠実度が減少する。

  3. 3.

    物語性と感情表現の不足。 ChatDiTは、強い物語の流れ、感情の深さ、ストーリー性のあるコンテンツを生成する能力に限界がある。この欠点は、感情や複雑なストーリー駆動型のシーンを捉え、表現することにおけるテキストから画像へのモデルの本質的な課題に起因する。さらに、モデルは複雑なシーンを単純化する傾向があり、視覚的に単純な出力の生成を好む。

  4. 4.

    高度な文脈内推論の弱さ。 ChatDiTは高度な文脈内タスクの実行に困難を示す。例えば、入力-出力画像ペアのグループと新しい入力が提供された場合、モデルは望ましい行動や生成タスクを推論することがしばしば失敗する。この限界は、文脈内の例を通じて高次の関係や抽象的推論を一般化する現在のモデルの能力の不足を浮き彫りにしている。

  5. 5.

    複数の主題や要素の複雑さの取り扱いの限界。 ChatDiTは、キャラクター間の相互作用、混雑したシーン、複雑な関係を持つオブジェクトなど、複数の主題や要素を含むシナリオの管理に苦戦する。このような場合、生成された出力はしばしば構図の一貫性を失い、不整合または不完全な表現となる。

これらの限界に対処するためには、細かな参照アライメント、長文脈理解、物語性と感情の生成、および文脈内設定における推論能力の向上が必要である。これらの知見は、拡散トランスフォーマーの汎用能力を向上させることを目的とした将来の研究の基礎を提供するものである。

5 Conclusion and Discussion

本稿では、事前学習済み拡散トランスフォーマーに基づく新しいゼロショット、汎用的、そしてインタラクティブな視覚生成フレームワークであるChatDiTを提示した。拡散モデルに内在する文脈内生成能力を活用することで、ChatDiTはユーザーが複雑な複数画像出力の作成、画像編集、テキストと画像が交互に配置された記事の生成、キャラクター設定のデザインを、最小限のユーザー入力で、追加の微調整や構造的修正なしにシームレスに行うことを可能にする。マルチエージェントシステムを組み込むことで、我々は高度な柔軟性とカスタマイズ性を実現し、自然言語でのユーザー指示を処理し、それらを構造化された段階的な生成計画に変換することができる。

ChatDiTのゼロショット能力にもかかわらず、いくつかの制限が残っている。これらには、入出力の複雑さが増すにつれてパフォーマンスが低下する長文脈処理の課題や、特に人間の顔、動物、複雑なデザインにおける細部の保持の問題が含まれる。さらに、ChatDiTは高度な推論や感情的な深みを持つナラティブの生成に苦戦している。将来の改善点としては、長文脈理解の強化、特定のドメインに対する微調整、複雑なシナリオ全体での推論の改善に焦点を当てるべきである。これらの課題に取り組むことで、多様なタスクにわたってより繊細で一貫性のある視覚生成を行うChatDiTの可能性が拡大するであろう。

References

  • Huang et al. [2024a] Lianghua Huang, Wei Wang, Zhi-Fan Wu, Huanzhang Dou, Yupeng Shi, Yutong Feng, Chen Liang, Yu Liu, and Jingren Zhou. Group diffusion transformers are unsupervised multitask learners. arXiv preprint arXiv:2410.15027, 2024a.
  • Huang et al. [2024b] Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, and Jingren Zhou. In-context lora for diffusion transformers. arXiv preprint arXiv:2410.23775, 2024b.
  • Liang et al. [2024] Chen Liang, Lianghua Huang, Jingwu Fang, Huanzhang Dou, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Junge Zhang, Zhao Xin, and Yu Liu. Idea-bench: How far are generative models from professional designing? arXiv preprint arXiv:2412.11767, 2024.
  • Ramesh et al. [2021] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In International conference on machine learning, pages 8821–8831. Pmlr, 2021.
  • Esser et al. [2021] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 12873–12883, 2021.
  • Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
  • Saharia et al. [2022a] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022a.
  • Betker et al. [2023] James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, Long Ouyang, Juntang Zhuang, Joyce Lee, Yufei Guo, et al. Improving image generation with better captions. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2(3):8, 2023.
  • Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
  • Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
  • Baldridge et al. [2024] Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, et al. Imagen 3. arXiv preprint arXiv:2408.07009, 2024.
  • Labs [2024] Black Forest Labs. Flux: Inference repository. https://github.com/black-forest-labs/flux, 2024. Accessed: 2024-10-25.
  • Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3836–3847, 2023.
  • Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.
  • Huang et al. [2023] Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, and Jingren Zhou. Composer: Creative and controllable image synthesis with composable conditions. arXiv preprint arXiv:2302.09778, 2023.
  • Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 22500–22510, 2023.
  • Wang et al. [2024a] Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, and Anthony Chen. Instantid: Zero-shot identity-preserving generation in seconds. arXiv preprint arXiv:2401.07519, 2024a.
  • Hertz et al. [2024] Amir Hertz, Andrey Voynov, Shlomi Fruchter, and Daniel Cohen-Or. Style aligned image generation via shared attention. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4775–4785, 2024.
  • Ge et al. [2023] Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang, and Ying Shan. Making llama see and draw with seed tokenizer. arXiv preprint arXiv:2310.01218, 2023.
  • Zhou et al. [2024a] Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, and Omer Levy. Transfusion: Predict the next token and diffuse images with one multi-modal model, 2024a.
  • Sheynin et al. [2024] Shelly Sheynin, Adam Polyak, Uriel Singer, Yuval Kirstain, Amit Zohar, Oron Ashual, Devi Parikh, and Yaniv Taigman. Emu edit: Precise image editing via recognition and generation tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8871–8879, 2024.
  • Sun et al. [2024] Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, and Xinlong Wang. Generative multimodal models are in-context learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14398–14409, 2024.
  • Wang et al. [2024b] Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, et al. Emu3: Next-token prediction is all you need. arXiv preprint arXiv:2409.18869, 2024b.
  • Avrahami et al. [2022] Omri Avrahami, Dani Lischinski, and Ohad Fried. Blended diffusion for text-driven editing of natural images. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 18208–18218, 2022.
  • Chen et al. [2023] Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, et al. Pixart-alpha: Fast training of diffusion transformer for photorealistic text-to-image synthesis. arXiv preprint arXiv:2310.00426, 2023.
  • Li et al. [2024] Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, and Ying Shan. Photomaker: Customizing realistic human photos via stacked id embedding. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.
  • Zheng et al. [2023] Guangcong Zheng, Xianpan Zhou, Xuewei Li, Zhongang Qi, Ying Shan, and Xi Li. Layoutdiffusion: Controllable diffusion model for layout-to-image generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22490–22499, 2023.
  • Meng et al. [2021] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. Sdedit: Guided image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073, 2021.
  • Lugmayr et al. [2022] Andreas Lugmayr, Martin Danelljan, Andres Romero, Fisher Yu, Radu Timofte, and Luc Van Gool. Repaint: Inpainting using denoising diffusion probabilistic models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 11461–11471, 2022.
  • Xie et al. [2022] Shaoan Xie, Zhifei Zhang, Zhe Lin, Tobias Hinz, and Kun Zhang. Smartbrush: Text and shape guided object inpainting with diffusion model, 2022.
  • Pan et al. [2023] Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, and Christian Theobalt. Drag your gan: Interactive point-based manipulation on the generative image manifold. In ACM SIGGRAPH 2023 Conference Proceedings, pages 1–11, 2023.
  • Shi et al. [2023] Yujun Shi, Chuhui Xue, Jiachun Pan, Wenqing Zhang, Vincent YF Tan, and Song Bai. Dragdiffusion: Harnessing diffusion models for interactive point-based image editing. arXiv preprint arXiv:2306.14435, 2023.
  • Liu et al. [2024a] Haofeng Liu, Chenshu Xu, Yifei Yang, Lihua Zeng, and Shengfeng He. Drag your noise: Interactive point-based editing via diffusion semantic propagation, 2024a.
  • Saharia et al. [2022b] Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement. IEEE transactions on pattern analysis and machine intelligence, 45(4):4713–4726, 2022b.
  • Kawar et al. [2022] Bahjat Kawar, Michael Elad, Stefano Ermon, and Jiaming Song. Denoising diffusion restoration models. In Advances in Neural Information Processing Systems, 2022.
  • Xia et al. [2023] Bin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng Tian, Wenming Yang, and Luc Van Gool. Diffir: Efficient diffusion model for image restoration, 2023. URL https://arxiv.org/abs/2303.09472.
  • Li et al. [2023] Xin Li, Yulin Ren, Xin Jin, Cuiling Lan, Xingrui Wang, Wenjun Zeng, Xinchao Wang, and Zhibo Chen. Diffusion models for image restoration and enhancement–a comprehensive survey. arXiv preprint arXiv:2308.09388, 2023.
  • Zhou et al. [2024b] Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, and Qibin Hou. Storydiffusion: Consistent self-attention for long-range image and video generation. arXiv preprint arXiv:2405.01434, 2024b.
  • Liu et al. [2024b] Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Yanfeng Wang, and Weidi Xie. Intelligent grimm - open-ended visual storytelling via latent diffusion models. In The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 6190–6200, 2024b.
  • Yang et al. [2024] Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, and Yingcong Chen. Seed-story: Multimodal long story generation with large language model. arXiv preprint arXiv:2407.08683, 2024.
  • Shi et al. [2024] Yichun Shi, Peng Wang, and Weilin Huang. Seededit: Align image re-generation to image editing. arXiv preprint arXiv:2411.06686, 2024.
  • Xie et al. [2024] Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, and Mike Zheng Shou. Show-o: One single transformer to unify multimodal understanding and generation. arXiv preprint arXiv:2408.12528, 2024.
  • Xiao et al. [2024] Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, and Zheng Liu. Omnigen: Unified image generation. arXiv preprint arXiv:2409.11340, 2024.
  • Radford et al. [2019] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
  • Brown [2020] Tom B Brown. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020.
  • Touvron et al. [2023a] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023a.
  • Touvron et al. [2023b] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023b.
  • Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Team et al. [2024] Gemini Team, Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M. Dai, et al. Gemini: A family of highly capable multimodal models, 2024.
  • Durante et al. [2024] Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, et al. Agent ai: Surveying the horizons of multimodal interaction. arXiv preprint arXiv:2401.03568, 2024.
  • Wang et al. [2024c] Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, et al. A survey on large language model based autonomous agents. Frontiers of Computer Science, 18(6):186345, 2024c.
  • Chern et al. [2024] Ethan Chern, Jiadi Su, Yan Ma, and Pengfei Liu. Anole: An open, autoregressive, native large multimodal models for interleaved image-text generation. arXiv preprint arXiv:2407.06135, 2024.
  • Brooks et al. [2023] Tim Brooks, Aleksander Holynski, and Alexei A Efros. Instructpix2pix: Learning to follow image editing instructions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18392–18402, 2023.
  • Zhang et al. [2024] Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, and Yu Su. Magicbrush: A manually annotated dataset for instruction-guided image editing. Advances in Neural Information Processing Systems, 36, 2024.