JaLMS
最新の AI 研究を日本語で解読

Around the World in 80 Timesteps:
A Generative Approach to Global Visual Geolocation

Nicolas Dufour 1,2    David Picard 1    Vicky Kalogeiton 2    Loic Landrieu1    1 LIGM, Ecole des Ponts, IP Paris, CNRS, UGE    2 LIX, Ecole Polytechnique, IP Paris
Abstract

グローバルな視覚的ジオロケーションとは、地球上のどこで画像が撮影されたかを予測することである。すべての画像が同じ精度で位置特定できるわけではないため、この課題には本質的に曖昧さが伴う。しかし、既存のアプローチは決定論的であり、この側面を見過ごしている。本稿では、拡散とフローマッチングに基づく視覚的ジオロケーションのための最初の生成的アプローチと、リーマンフローマッチングへの拡張を提案する。この拡張では、ノイズ除去プロセスが地球の表面上で直接作用する。我々のモデルは、OpenStreetView-5M、YFCC-100M、iNat21の3つの視覚的ジオロケーションベンチマークで最先端の性能を達成している。さらに、我々は確率的視覚的ジオロケーションというタスクを導入する。このタスクでは、モデルが単一の点ではなく、可能なすべての位置に対する確率分布を予測する。我々はこのタスクのための新しい評価指標とベースラインを実装し、我々の生成的アプローチの利点を実証する。コードとモデルはこちらで入手可能である。

1 Introduction

「世界は縮小した。今日、我々は100年前の10倍の速さで世界を旅している。」

80日間世界一周、ジュール・ヴェルヌ

画像がどこで撮影されたかを知ることは、多くのアプリケーションにとって極めて重要であるが、ほとんどの画像には位置情報メタデータが欠如している[23]。考古学や文化遺産の分野では、位置データは歴史的遺物のカタログ化と解釈を助け[13, 67]、より良い保存と文脈的理解を可能にする。法医学や調査ジャーナリズムのような分野では、意図的に削除されたGPSデータを復元することが重要な意味を持つ可能性がある[3, 80]。例えば、ニュース画像の真正性の確認や、犯罪現場または行方不明者の最後の既知の位置の再構築などである。さらに、位置情報はマルチメディアアーカイブを効率的に検索できるよう整理するのに役立つ[55, 16]。これらのアプリケーションは、グローバルな視覚的位置特定という長年のコンピュータビジョンの課題を動機づけている。すなわち、画像の視覚的内容のみからその位置を推論することである[28, 76]

Modeling Spatial Ambiguity.

1に示されているように、画像を位置特定できる精度—その位置特定可能性 [2, 36]—は大きく異なる。特徴のない海岸はほぼどこでも撮影された可能性があるが、エッフェル塔のようなランドマークは数メートルの精度で位置を特定できる。中間的な場合、例えばカンガルーのクローズアップ写真では、オーストラリアまで絞り込むことはできるが、正確な位置を特定することは困難である。この本質的な曖昧性は、位置特定の手法や評価指標に反映されるべきである。しかし、既存のアプローチの大半は、回帰[2, 26]、分類[77, 11, 72]、または検索ベースの技術[56, 47, 76]を用いて決定論的な予測を行っており、画像の位置特定可能性の変動を考慮していない。

物体位置特定などのコンピュータビジョンタスクにおいて空間的曖昧性をモデル化することで、それらの堅牢性と解釈可能性が向上している[48, 17, 79]。さらに、拡散[32, 71]やフローマッチング[45]などの生成モデルは、画像[33]、動画[6]、音声[62]、音楽[50]生成を含む、ノイズの多い教師あり学習を伴う複雑なタスクに成功裏に適用されている。これらの進歩に触発され、我々は従来の位置特定と現代の生成手法の間のギャップを埋めることを提案する。

Generative Geolocation.

本稿では、拡散またはフローマッチングを用いて、画像特徴に基づいてランダムな位置を正確な推定値にデノイズする、グローバルな視覚的ジオロケーションに対する新しい生成的アプローチを提示する。 我々は、最近の多様体ベースのフローマッチング技術[9]を拡張し、デノイジングが地理座標上で直接動作するようにした。これにより、我々のモデルは画像の内容とその位置の関係を学習する際に、地球の球面幾何学を考慮することができる。さらに、我々はフローマッチングの密度推定に関する最近の発展[45]を我々の設定に拡張し、モデルが画像が与えられた任意の位置の尤度を計算し、その位置特定可能性の定量的な推定を提供できるようにした。

我々のアプローチは、3つの標準的な大規模データセット:OpenStreetView-5M[2]、iNat21[74]、YFCC-100M[1]において、最先端のジオロケーション手法よりも高い精度を達成している。さらに、我々は確率的視覚ジオロケーションというタスクを導入する。これは、モデルが単一の点ではなく、可能なすべての位置に対する確率分布を予測するものである。我々はこのタスクに対する新しい評価指標とベースラインを実装し、曖昧ではあるが情報量の多い視覚的手がかりを捉える上で、我々の生成的アプローチの利点を実証する。 我々の貢献は以下の通りである:

  • 我々は、視覚的ジオロケーションに対する拡散およびリーマン多様体フローマッチング手法の最初の応用を導入する。これは、空間座標を直接デノイズし、多様体ベースの手法を用いて地球の球面幾何学を考慮するものである。

  • 我々は最近の密度推定手法を我々のジオロケーション設定に拡張し、位置に関する条件付き分布をモデル化し、位置特定可能性を定量化する。

  • 我々は、ジオロケーションにおける曖昧さをモデル化することで性能が向上することを実証し、3つの公開データセットで最先端の結果を達成する。

  • 我々は、確率的視覚ジオロケーションのタスクを、関連する評価指標とベースラインとともに提案する。

2 Related Work

Global Visual Geolocation.

視覚的位置推定は、画像の地理的座標を予測することであり、大規模かつ未見の地域への汎用性に焦点を当てている[29]。既存の手法は、画像検索ベース、分類ベース、およびハイブリッドアプローチに分類される。検索ベースの手法は、手作業で設計された特徴[28, 56, 47]や深層特徴[76]を用いてデータベース内で最も類似した画像を見つけることで位置を特定するが、密なデータベースを必要とし、疎な環境や動的な環境では苦戦する可能性がある。分類ベースの手法は、地球を離散的なセルに分割し、例えば規則的なグリッド[77]、適応的なセル[11]、意味的な領域[72]、または行政境界[63, 26]を用いて、位置推定を分類タスクとして扱う。ハイブリッドアプローチは、離散化の問題を緩和するために分類と回帰[2]または検索を組み合わせ、対比損失[76, 39]やプロトタイプネットワーク[26]を採用している。 Izbicki [36]は、地球上のどこでも確率分布を予測するモデルを提案しているが、その性能評価は位置推定の観点からのみ行われている。

Uncertainty-Aware Localization.

ニューラルネットワークにおける不確実性の推定は、コンピュータビジョンにおける長年の課題である[38]。これは特に、ロボット応用における精密な位置推定タスクにおいて重要である[15, 17, 41]。6自由度またはヒト身体姿勢推定[48]では、不確実性は位置推定ヒートマップを予測することでしばしばモデル化される[73, 58]。この課題は通常、ベイズ統計[51]と変分推論[82]を用いて取り組まれており、これらはディープラーニングモデルに適応されている[37]

拡散モデル[5]や正規化フロー[24]などの生成的アプローチは、不確実性を説明する上で有望性を示している。これらの手法は、画像セグメンテーション[78]、音源位置推定[35]、LiDAR位置推定[43]などのタスクにおける不確実性推定に適用されている。

Generative Models.

拡散モデルは生成モデリングにおいて変革をもたらす力として台頭し[32, 71, 69]、画像合成[64, 65]、動画生成[31, 61]、人間中心のタスク[12, 60]など、多様な応用分野で顕著な成功を示している。フローマッチングモデル[44]は、簡素化された学習目的関数を提供することでこの分野をさらに進展させた。最近の研究では、データ分布マニフォールド上で直接学習することも探求されている[10]。生成モデルは、特に還元不可能な不確実性を持つデータの取り扱いにおいて特別な頑健性を示している[54, 20, 46]。これらのモデルは識別タスクにも適応されてきたが[42]、従来の識別モデルとの性能差を埋めることは依然として活発な研究課題である。我々の研究では、生成モデルが基礎となるデータ分布のマニフォールドを学習することで位置情報特定タスクを効果的に取り扱うことができ、最終的に識別アプローチを上回る性能を達成できることを示している。

3 Method

我々はまず拡散ベースのアプローチを提示し(セクション 3.1)、それをリーマン流マッチング枠組みに拡張する(セクション 3.2)。これらの技術の違いの視覚的要約については 2を参照されたい。次に、位置分布の予測方法について説明する(セクション 3.3)。最後に、セクション Cで実装の選択について詳述する。

Notations.

画像c𝑐citalic_cが与えられたとき、我々はそれが撮影された最も可能性の高い位置x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを予測することを目指す。より広く、我々は条件付き確率分布p(yc)𝑝conditional𝑦𝑐p(y\mid c)italic_p ( italic_y ∣ italic_c )をモデル化する。ここで、y𝑦yitalic_yは地球上のどの点でもよく、3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTにおける単位球𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTとしてモデル化される。本稿を通じて、純粋なランダムノイズをϵitalic-ϵ\epsilonitalic_ϵ、タイムステップt𝑡titalic_tにおけるノイズのある座標をxtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT、最適化するネットワークをψ𝜓\psiitalic_ψと表記する。

3.1 Geographic Diffusion

本節では、画像ジオロケーションのための我々の拡散ベースの生成的アプローチについて説明する。 従来の拡散モデルは、データにガウスノイズを段階的に追加し、このノイズ付加プロセスを逆転させるニューラルネットワークを訓練する[32, 71]。訓練後、モデルは純粋なノイズから始めて反復的なノイズ除去を行うことで、新しいデータサンプルを生成できる。

我々の設定では、ユークリッド空間3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTで操作を行う。ジオタグ付き画像のデータセットΩΩ\Omegaroman_Ωから座標-画像ペア(x0,c)subscript𝑥0𝑐(x_{0},c)( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c )が与えられたとき、真の座標x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTにノイズを加え、画像c𝑐citalic_cを条件としてこのノイズを予測するニューラルネットワークψ𝜓\psiitalic_ψを訓練する。これにより、視覚的コンテンツと地理的位置の関係を学習する。その後、未見の画像の位置を、ランダムな初期座標ϵitalic-ϵ\epsilonitalic_ϵから反復的にノイズを除去することで予測できる。

Training.

我々はΩΩ\Omegaroman_Ωから座標-画像ペア(x0,c)subscript𝑥0𝑐(x_{0},c)( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c )をサンプリングし、𝒩(0,𝐈)𝒩0𝐈\mathcal{N}(0,\mathbf{I})caligraphic_N ( 0 , bold_I )からランダムな座標ϵitalic-ϵ\epsilonitalic_ϵをサンプリングする。ここで𝐈𝐈\mathbf{I}bold_I3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTにおける単位行列である。拡散時間ステップを表す時間変数t[0,1]𝑡01t\in[0,1]italic_t ∈ [ 0 , 1 ]をランダムに選択し、κ(0)=0𝜅00\kappa(0)=0italic_κ ( 0 ) = 0およびκ(1)=1𝜅11\kappa(1)=1italic_κ ( 1 ) = 1を持つスケジューリング関数κ(t):[0,1][0,1]:𝜅𝑡0101\kappa(t):[0,1]\to[0,1]italic_κ ( italic_t ) : [ 0 , 1 ] → [ 0 , 1 ]を使用して、座標に追加されるノイズレベルを制御する。ノイズの加えられた座標xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTは以下のように定義される:

xt=1κ(t)x0+κ(t)ϵ.subscript𝑥𝑡1𝜅𝑡subscript𝑥0𝜅𝑡italic-ϵ\displaystyle x_{t}=\sqrt{1-\kappa(t)}x_{0}+\sqrt{\kappa(t)}\epsilon~{}.italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = square-root start_ARG 1 - italic_κ ( italic_t ) end_ARG italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + square-root start_ARG italic_κ ( italic_t ) end_ARG italic_ϵ . (1)

我々のネットワークψ𝜓\psiitalic_ψは、ノイズの加えられた座標xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT、ノイズレベルκ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t )、および画像埋め込みc𝑐citalic_cを入力として受け取り、対応する純粋なノイズϵitalic-ϵ\epsilonitalic_ϵを予測することが課題となる。表記を簡単にするため、本稿の残りの部分ではψ𝜓\psiitalic_ψκ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t )に対する条件付き依存性を省略する。モデルは以下の拡散損失関数を最小化するように訓練される:

D=𝔼x0,c,ϵ,t[ψ(xtc)ϵ2],\mathcal{L}_{\text{D}}=\mathbb{E}_{x_{0},c,\epsilon,t}\left[\left\|\psi(x_{t}% \mid c)-\epsilon\right\|^{2}\right]~{},caligraphic_L start_POSTSUBSCRIPT D end_POSTSUBSCRIPT = blackboard_E start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c , italic_ϵ , italic_t end_POSTSUBSCRIPT [ ∥ italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) - italic_ϵ ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ] , (2)

ここで、期待値は(x0,c)Ωsimilar-tosubscript𝑥0𝑐Ω(x_{0},c)\sim\Omega( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c ) ∼ roman_Ωϵ𝒩(0,𝐈)similar-toitalic-ϵ𝒩0𝐈\epsilon\sim\mathcal{N}(0,\mathbf{I})italic_ϵ ∼ caligraphic_N ( 0 , bold_I )、およびt𝒰[0,1]similar-to𝑡𝒰01t\sim\mathcal{U}[0,1]italic_t ∼ caligraphic_U [ 0 , 1 ][0,1]01[0,1][ 0 , 1 ]上の一様分布に対するものである。

図2: 生成フレームワーク。 我々はジオロケーションのための3つの生成的アプローチを実装する:3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTにおける拡散、3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTにおけるフローマッチング、および𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT上で直接行うリーマンフローマッチング。この図は、各アプローチのノイズ付加プロセスと損失関数の式を提供している。
x0subscript𝑥0{x_{0}}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTϵitalic-ϵ\epsilonitalic_ϵxtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTΨ(xtc)Ψconditionalsubscript𝑥𝑡𝑐\Psi(x_{t}\mid c)roman_Ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c )xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTv(xt)𝑣subscript𝑥𝑡v(x_{t})italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )
x0subscript𝑥0{x_{0}}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT: true location
ϵitalic-ϵ\epsilonitalic_ϵ: sampled noise
xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT: noisy location
ψ(xtc)𝜓conditionalsubscript𝑥𝑡𝑐\psi(x_{t}\mid c)italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ): prediction
v(xt)𝑣subscript𝑥𝑡v(x_{t})italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ): velocity field
拡散 xt=1κ(t)x0+κ(t)ϵsubscript𝑥𝑡1𝜅𝑡subscript𝑥0𝜅𝑡italic-ϵx_{t}=\sqrt{1-\kappa(t)}{x_{0}}+\sqrt{\kappa(t)}\epsilonitalic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = square-root start_ARG 1 - italic_κ ( italic_t ) end_ARG italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + square-root start_ARG italic_κ ( italic_t ) end_ARG italic_ϵ D=ψ(xtc)ϵ2\mathcal{L}_{\text{D}}=\left\|\psi(x_{t}\mid c)-\epsilon\right\|^{2}caligraphic_L start_POSTSUBSCRIPT D end_POSTSUBSCRIPT = ∥ italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) - italic_ϵ ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT フローマッチング xt=(1κ(t))x0+κ(t)ϵsubscript𝑥𝑡1𝜅𝑡subscript𝑥0𝜅𝑡italic-ϵx_{t}=(1-\kappa(t)){x_{0}}+\kappa(t)\epsilonitalic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = ( 1 - italic_κ ( italic_t ) ) italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + italic_κ ( italic_t ) italic_ϵ FM=ψ(xtc)v(xt)2\mathcal{L}_{\text{FM}}=\left\|\psi(x_{t}\mid c)-v(x_{t})\right\|^{2}caligraphic_L start_POSTSUBSCRIPT FM end_POSTSUBSCRIPT = ∥ italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) - italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT リーマンフローマッチング xt=expx0(κ(t)logx0(ϵ))subscript𝑥𝑡subscriptsubscript𝑥0𝜅𝑡subscriptsubscript𝑥0italic-ϵx_{t}=\exp_{{x_{0}}}\left(\kappa(t)\log_{{x_{0}}}(\epsilon)\right)italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = roman_exp start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_κ ( italic_t ) roman_log start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_ϵ ) ) RFM=ψ(xtc)v(xt)xt2\mathcal{L}_{\text{RFM}}=\left\|\psi(x_{t}\mid c)-v(x_{t})\right\|^{2}_{x_{t}}caligraphic_L start_POSTSUBSCRIPT RFM end_POSTSUBSCRIPT = ∥ italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) - italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUBSCRIPT κ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t ): ノイズスケジューラ
Refer to captionc𝑐citalic_cϕitalic-ϕ\phiitalic_ϕRefer to caption\cdotst=1𝑡1t=1italic_t = 1t=0.99𝑡0.99t=0.99italic_t = 0.99t=0𝑡0t=0italic_t = 0 ΨΨ\Psiroman_Ψ ΨΨ\Psiroman_Ψ Refer to captionODE ソルバー予測された座標
図3: 推論パイプライン。 我々はまず、位置を特定する画像を凍結された画像エンコーダを使用してベクトルに埋め込む。次に、3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT内または𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT上でランダムなノイズϵitalic-ϵ\epsilonitalic_ϵをサンプリングし、ここでは球面に投影する。t=1𝑡1t=1italic_t = 1から00まで、逆拡散またはフローマッチング方程式を使用して反復的にノイズを除去する。この軌跡の最終点が我々の予測位置となる。さらに、我々のモデルは常微分方程式(ODE)システムを解くことで、球面上の任意の点における確率分布を予測するためにクエリを行うことができる。

Inference.

新しい画像c𝑐citalic_cの可能性の高い位置を

3.2 Extension to Riemannian Flow Matching

フロー・マッチングは、性能と汎用性を向上させた拡散モデルの一般化である[45]。我々はこの設定に我々のアプローチを拡張し、リーマンフロー・マッチングを活用して球面𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT上で直接作業を行う。各設定において、我々のネットワークを引き続きψ𝜓\psiitalic_ψと表記するが、代替的なノイズ付加プロセス( 1)、損失関数( 2)、およびノイズ除去手順( 3)を再定義する。

Flow Matching in 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT.

フロー・マッチングでは、真の座標x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTからランダムノイズϵitalic-ϵ\epsilonitalic_ϵへのマッピングを定義する:

xt=(1κ(t))x0+κ(t)ϵ.subscript𝑥𝑡1𝜅𝑡subscript𝑥0𝜅𝑡italic-ϵ\displaystyle x_{t}=(1-\kappa(t))x_{0}+\kappa(t)\epsilon~{}.italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = ( 1 - italic_κ ( italic_t ) ) italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + italic_κ ( italic_t ) italic_ϵ . (5)

これは以下の速度場を定義する:

v(xt)=dxtdt=κ˙(t)(ϵx0),𝑣subscript𝑥𝑡𝑑subscript𝑥𝑡𝑑𝑡˙𝜅𝑡italic-ϵsubscript𝑥0\displaystyle v(x_{t})=\frac{dx_{t}}{dt}=\dot{\kappa}(t)(\epsilon-x_{0})~{},italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) = divide start_ARG italic_d italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG start_ARG italic_d italic_t end_ARG = over˙ start_ARG italic_κ end_ARG ( italic_t ) ( italic_ϵ - italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) , (6)

ここでκ˙˙𝜅\dot{\kappa}over˙ start_ARG italic_κ end_ARGκ𝜅\kappaitalic_κt𝑡titalic_tに関する導関数である。 我々はモデルψ𝜓\psiitalic_ψを訓練して、画像c𝑐citalic_cを条件として、この速度場を予測させる:

FM=𝔼x0,c,ϵ,t[ψ(xtc)v(xt)2],\displaystyle\mathcal{L}_{\text{FM}}=\mathbb{E}_{x_{0},c,\epsilon,t}\left[% \left\|\psi(x_{t}\mid c)-v(x_{t})\right\|^{2}\right]~{},caligraphic_L start_POSTSUBSCRIPT FM end_POSTSUBSCRIPT = blackboard_E start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c , italic_ϵ , italic_t end_POSTSUBSCRIPT [ ∥ italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) - italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ] , (7)

ここで期待値は 1と同じ分布に対して取られる。 推論時には、ランダムな座標ϵitalic-ϵ\epsilonitalic_ϵから初期化された常微分方程式(ODE)を解き、予測された速度場ψ(xtc)𝜓conditionalsubscript𝑥𝑡𝑐\psi(x_{t}\mid c)italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c )を用いてt=1𝑡1t=1italic_t = 1からt=0𝑡0t=0italic_t = 0まで後方に積分する:

xtdt=xtψ(xt|c)dt.subscript𝑥𝑡𝑑𝑡subscript𝑥𝑡𝜓conditionalsubscript𝑥𝑡𝑐𝑑𝑡\displaystyle x_{t-dt}=x_{t}-\psi(x_{t}|c)dt~{}.italic_x start_POSTSUBSCRIPT italic_t - italic_d italic_t end_POSTSUBSCRIPT = italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_c ) italic_d italic_t . (8)

積分の終了時に、x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを球面に射影する。

Riemannian Flow Matching on the Sphere.

我々のデータは球面𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT上にあるため、フロー・マッチングプロセスをこの多様体に制約するのは自然である。リーマンフロー・マッチングアプローチ[9]はフロー・マッチングをリーマン多様体に拡張し、3つの条件を要求する: (i) すべての真の座標x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT上にある、 (ii) ノイズサンプルϵitalic-ϵ\epsilonitalic_ϵ𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT上にある、 そして (iii) ノイズが付加された座標xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT上に留まる。

条件(i)は、我々が地球表面の座標を扱っているため自然に満たされる。条件(ii)については、ϵitalic-ϵ\epsilonitalic_ϵ𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT上で一様にランダムにサンプリングする。拡散モデルとは異なり、フロー・マッチングではノイズ分布がガウス分布である必要はない。 条件(iii)については、真の座標x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTとノイズサンプルϵitalic-ϵ\epsilonitalic_ϵ間の測地線に沿って、κ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t )によってパラメータ化されたノイズが付加された座標を定義する:

xt=expx0(κ(t)logx0(ϵ)),subscript𝑥𝑡subscriptsubscript𝑥0𝜅𝑡subscriptsubscript𝑥0italic-ϵ\displaystyle x_{t}=\exp_{{x_{0}}}\left(\kappa(t)\log_{{x_{0}}}(\epsilon)% \right)~{},italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = roman_exp start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_κ ( italic_t ) roman_log start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_ϵ ) ) , (9)

ここでlogx0subscriptsubscript𝑥0\log_{x_{0}}roman_log start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_POSTSUBSCRIPT𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTの点をx0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTにおける接空間に写す対数写像であり、expx0subscriptsubscript𝑥0\exp_{x_{0}}roman_exp start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_POSTSUBSCRIPTは接ベクトルを多様体に戻す指数写像である(詳細な表現については付録を参照)。 このパラメータ化は、xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの接空間上で定義された速度場v(xt)𝑣subscript𝑥𝑡v(x_{t})italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )を誘導する:

v(xt)=κ˙(t)D(xt),𝑣subscript𝑥𝑡˙𝜅𝑡𝐷subscript𝑥𝑡\displaystyle v(x_{t})=\dot{\kappa}(t)\cdot D(x_{t})~{},italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) = over˙ start_ARG italic_κ end_ARG ( italic_t ) ⋅ italic_D ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) , (10)

ここでD(xt)𝐷subscript𝑥𝑡D(x_{t})italic_D ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTにおける接ベクトルで、x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTからϵitalic-ϵ\epsilonitalic_ϵへの測地線に沿って指し示し、その大きさはx0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTϵitalic-ϵ\epsilonitalic_ϵ間の測地線距離に等しい。 我々はモデルψ𝜓\psiitalic_ψを訓練して、この速度場を近似させるために以下を最小化する:

RFM=𝔼x0,c,ϵ,t[ψ(xt|c)v(xt)xt2],\displaystyle\mathcal{L}_{\text{RFM}}=\mathbb{E}_{x_{0},c,\epsilon,t}\left[% \left\|\psi(x_{t}|c)-v(x_{t})\right\|_{x_{t}}^{2}\right]~{},caligraphic_L start_POSTSUBSCRIPT RFM end_POSTSUBSCRIPT = blackboard_E start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c , italic_ϵ , italic_t end_POSTSUBSCRIPT [ ∥ italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_c ) - italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ∥ start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ] , (11)

ここで(x0,c)Ωsimilar-tosubscript𝑥0𝑐Ω(x_{0},c)\sim\Omega( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c ) ∼ roman_Ωϵ𝒰(𝒮2)similar-toitalic-ϵ𝒰subscript𝒮2\epsilon\sim\mathcal{U}(\mathcal{S}_{2})italic_ϵ ∼ caligraphic_U ( caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) t𝒰[0,1]similar-to𝑡𝒰01t\sim\mathcal{U}[0,1]italic_t ∼ caligraphic_U [ 0 , 1 ]、そしてxt\|\cdot\|_{x_{t}}∥ ⋅ ∥ start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUBSCRIPTxtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTにおける接空間上のリーマン計量によって誘導されるノルムを表す。 推論時には、ランダムな点ϵ𝒮2italic-ϵsuperscript𝒮2\epsilon\in\mathcal{S}^{2}italic_ϵ ∈ caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTから始まり、t=1𝑡1t=1italic_t = 1からt=0𝑡0t=0italic_t = 0まで後方に積分するODEを解く。その際、予測された速度を使用し、各ステップで反復を多様体上に射影する:

xtdt=expxt(dtψ(xtc)).subscript𝑥𝑡𝑑𝑡subscriptsubscript𝑥𝑡𝑑𝑡𝜓conditionalsubscript𝑥𝑡𝑐\displaystyle x_{t-dt}=\exp_{{x_{t}}}\left(-dt\psi(x_{t}\mid c)\right)~{}.italic_x start_POSTSUBSCRIPT italic_t - italic_d italic_t end_POSTSUBSCRIPT = roman_exp start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( - italic_d italic_t italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) ) . (12)

これにより、軌道が積分プロセス全体を通じて球面𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT上に留まることが保証される。

000.10.10.10.10.20.20.20.20.30.30.30.30.40.40.40.40.50.50.50.50.60.60.60.60.70.70.70.70.80.80.80.80.90.90.90.91111000.20.20.20.20.40.40.40.40.60.60.60.60.80.80.80.81111t𝑡titalic_tκ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t )我々のスケジューラシグモイドスケジューラ線形スケジューラ
図4: スケジューラ。 我々は拡散プロセスの初期により重みを割り当てるノイズスケジューラを選択した。

3.3 Guidance and Density Prediction

我々のモデルの精度を向上させるためにガイダンスを組み込み、画像c𝑐citalic_cに対する位置p(yc)𝑝conditional𝑦𝑐p(y\mid c)italic_p ( italic_y ∣ italic_c )の空間分布を計算することができる。

Guided Geolocation.

我々は分類器フリーガイダンスの考え方[34]を我々の設定に適応させる。ネットワークψ𝜓\psiitalic_ψを、条件付き分布p(yc)𝑝conditional𝑦𝑐p(y\mid c)italic_p ( italic_y ∣ italic_c )と無条件分布p(y)𝑝conditional𝑦p(y\mid\varnothing)italic_p ( italic_y ∣ ∅ )の両方を学習するように訓練する。これは、訓練サンプルの一部(例えば10%)について、画像c𝑐citalic_cによる条件付けをランダムに除外することで行う。推論時には、 38、および12のODEにおけるψ𝜓\psiitalic_ψを、以下のように定義されるψ^^𝜓\hat{\psi}over^ start_ARG italic_ψ end_ARGに置き換える:

ψ^(xtc)=ψ(xtc)+ω(ψ(xtc)ψ(xt)),^𝜓conditionalsubscript𝑥𝑡𝑐𝜓conditionalsubscript𝑥𝑡𝑐𝜔𝜓conditionalsubscript𝑥𝑡𝑐𝜓conditionalsubscript𝑥𝑡\displaystyle\hat{\psi}(x_{t}\mid c)={\psi}(x_{t}\mid c)+\omega\left({\psi}(x_% {t}\mid c)-{\psi}(x_{t}\mid\varnothing)\right)~{},over^ start_ARG italic_ψ end_ARG ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) = italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) + italic_ω ( italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) - italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ ∅ ) ) , (13)

ここで、ψ(xt,)𝜓subscript𝑥𝑡\psi(x_{t},\varnothing)italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , ∅ )は条件付けなしの予測であり、ω0𝜔0\omega\geq 0italic_ω ≥ 0はガイダンススケールである。ガイダンススケールω=0𝜔0\omega=0italic_ω = 0は標準的なアプローチに対応し、ω𝜔\omegaitalic_ωの値が大きくなるほど条件付けの重要性が増し、より鋭い分布が得られる。 ガイダンススケールの変更にはモデルの再訓練は必要ないことに注意されたい。

Predicting Distributions.

ψ𝜓\psiitalic_ψの訓練後、画像c𝑐citalic_cに対応する任意の座標y𝑦yitalic_yの尤度p(yc)𝑝conditional𝑦𝑐p(y\mid c)italic_p ( italic_y ∣ italic_c )を計算することができる。ここでは、最も直接的なユークリッドフローマッチング設定での導出を提供する。我々の導出は[45, Appendix C]に触発されており、対数質量保存定理[4, 75]に依拠している。詳細は付録に記載する。

Proposition 1.

位置y𝒮2𝑦superscript𝒮2y\in\mathcal{S}^{2}italic_y ∈ caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTと画像c𝑐citalic_cが与えられたとき、00から1111までt𝑡titalic_tについて以下の常微分方程式系を解くことを考える:

ddt[xtf(t)]=[ψ(x(t)c)divψ(xtc)]with[x0f(0)]=[y0],𝑑𝑑𝑡matrixsubscript𝑥𝑡𝑓𝑡matrix𝜓conditional𝑥𝑡𝑐div𝜓conditionalsubscript𝑥𝑡𝑐withmatrixsubscript𝑥0𝑓0matrix𝑦0\displaystyle\frac{d}{dt}\begin{bmatrix}x_{t}\\ f(t)\end{bmatrix}=\begin{bmatrix}\psi(x(t)\mid c)\\ -\operatorname{div}\,\psi(x_{t}\mid c)\end{bmatrix}\;\text{with}\;\begin{% bmatrix}x_{0}\\ f(0)\end{bmatrix}=\begin{bmatrix}y\\ 0\end{bmatrix}~{},divide start_ARG italic_d end_ARG start_ARG italic_d italic_t end_ARG [ start_ARG start_ROW start_CELL italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL italic_f ( italic_t ) end_CELL end_ROW end_ARG ] = [ start_ARG start_ROW start_CELL italic_ψ ( italic_x ( italic_t ) ∣ italic_c ) end_CELL end_ROW start_ROW start_CELL - roman_div italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) end_CELL end_ROW end_ARG ] with [ start_ARG start_ROW start_CELL italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL italic_f ( 0 ) end_CELL end_ROW end_ARG ] = [ start_ARG start_ROW start_CELL italic_y end_CELL end_ROW start_ROW start_CELL 0 end_CELL end_ROW end_ARG ] , (14)

すると、c𝑐citalic_cが与えられた時のy𝑦yitalic_yの対数確率密度は以下のようになる: logp(yc)=logpϵ(x(1)c)f(1)𝑝conditional𝑦𝑐subscript𝑝italic-ϵconditional𝑥1𝑐𝑓1\log p(y\mid c)=\log p_{\epsilon}(x(1)\mid c)-f(1)roman_log italic_p ( italic_y ∣ italic_c ) = roman_log italic_p start_POSTSUBSCRIPT italic_ϵ end_POSTSUBSCRIPT ( italic_x ( 1 ) ∣ italic_c ) - italic_f ( 1 ) ここで、pϵsubscript𝑝italic-ϵp_{\epsilon}italic_p start_POSTSUBSCRIPT italic_ϵ end_POSTSUBSCRIPTは純粋なノイズϵitalic-ϵ\epsilonitalic_ϵの既知の分布であり、f(t)𝑓𝑡f(t)italic_f ( italic_t )は軌道xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTに沿った速度場の負の発散を累積したものである。

我々はこのシステムを、TorchDiffEq[8]で実装されているRunge-Kutta法のDormand-Prince-Shampine変種(5次)[7, 18]を用いて数値的に解く。

3.4 Implementation

本稿では、全ての実装で共通するスケジューラとモデルアーキテクチャの選択について詳述する。

Scheduler.

我々は、ノイズ付加プロセスの初期段階、すなわち座標が真の位置に近い状態により多くの時間を割り当てるスケジューラ κ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t ) でより良い結果を観察した。我々の直感では、これによりネットワークが容易な大陸レベルの情報ではなく、画像内の細かな位置手がかりの学習に集中することを促進する。 4に示すように、我々は κ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t ) を歪んだシグモイド関数として設定した:

κ(t)=σ(α)σ(α+t(βα))σ(α)σ(β),𝜅𝑡𝜎𝛼𝜎𝛼𝑡𝛽𝛼𝜎𝛼𝜎𝛽\displaystyle\kappa(t)=\frac{\sigma(\alpha)-\sigma(\alpha+t(\beta-\alpha))}{% \sigma(\alpha)-\sigma(\beta)}~{},italic_κ ( italic_t ) = divide start_ARG italic_σ ( italic_α ) - italic_σ ( italic_α + italic_t ( italic_β - italic_α ) ) end_ARG start_ARG italic_σ ( italic_α ) - italic_σ ( italic_β ) end_ARG , (15)

ここで σ(t)=1/(1+exp(t))𝜎𝑡11𝑡\sigma(t)=1/(1+\exp(-t))italic_σ ( italic_t ) = 1 / ( 1 + roman_exp ( - italic_t ) ) はシグモイド関数であり、α,β𝛼𝛽\alpha,\betaitalic_α , italic_β はシグモイドの歪みを制御する。実際には、我々は α=3𝛼3\alpha=-3italic_α = - 3 および β=7𝛽7\beta=7italic_β = 7 を使用する。

Model Architecture.

全ての手法で使用されるネットワーク ψ𝜓\psiitalic_ψ は、現在のノイズのある座標 xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT、画像 c𝑐citalic_c の埋め込み、および現在のノイズレベル κ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t ) を入力として受け取る 6666 の残差ブロックで構成される。画像 c𝑐citalic_c は、事前学習済みで固定された画像エンコーダ ϕitalic-ϕ\phiitalic_ϕ を使用して d𝑑ditalic_d 次元のベクトルに埋め込まれる。さらに、細かな時間情報を捉えるために κ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t )d𝑑ditalic_d 次元フーリエ特徴量を計算する。

ψ𝜓\psiitalic_ψ の各ブロックは、DiTモデル [59] と同様のアーキテクチャに従い、GELU活性化関数 [30] を持つ多層パーセプトロン(MLP)で構成される。我々は、適応的層正規化(AdaLN)を用いて条件付けに従って座標埋め込みを変調する。ネットワークは、AdaLN層と予測されたノイズを出力する線形層で終了する。詳細については付録を参照されたい。

表1: ジオロケーションの性能。従来の視覚的ジオロケーション手法と生成的手法、および我々の生成的アプローチの3つの実装のジオロケーション精度を比較する。
OSV-5M [2] iNat21 [74]
geos. \uparrow dist \downarrow accuracy \uparrow (in %) dist \downarrow
/5000 (km) country region city (km)
deterministic SC 0-shot [25] 2273 2854 38.4 20.8 14.8
Regression [2] 3028 1481 56.5 16.3 10.7
ISNs [52] 3331 2308 66.8 39.4 14.2
Hybrid [2] 3361 1814 68.0 39.4 15.9
SC Retrieval [25] 3597 1386 73.4 45.8 19.9
generative Uniform 0131 10052 2.4 00.1 0.0 10,010
vMF 2776 2439 52.7 17.2 10.6 6270
vMFMix [36] 1746 5662 34.2 11.1 10.3 4701
Diff 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT (ours) 3762 1123 75.9 40.9 13.6 3057
FM 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT (ours) 3688 1149 74.9 40.0 14.2 2942
RFM 𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT (ours) 3767 1069 76.2 44.2 15.4 2500
YFCC-4k [1, 76]
geos. \uparrow dist \downarrow accuracy \uparrow (in %)
/5000 (km) 25km 200km 750km 2500km
deterministic PlaNet [77] 14.3 22.2 36.4 55.8
CPlaNet [66] 14.8 21.9 36.4 55.5
ISNs [52] 16.5 24.2 37.5 54.9
Translocator [63] 18.6 27.0 41.1 60.4
GeoDecoder [11] 24.4 33.9 50.0 68.7
PIGEON [26] 24.4 40.6 62.2 77.7
generative Uniform 131.2 10052 0.0 0.0 0.3 3.8
vMF 1847 3563 4.8 15.0 30.9 53.4
vMFMix [36] 1356 4394 0.4 8.8 20.9 41.0
Diff 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT (ours) 2845 2461 11.1 37.7 54.7 71.9
FM 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT (ours) 2838 2514 22.1 35.0 53.2 73.1
RFM 𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT (ours) 2889 2461 23.7 36.4 54.5 73.6
RFM10M10M{}_{\text{10M}}start_FLOATSUBSCRIPT 10M end_FLOATSUBSCRIPT 𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT (ours) 3210 2058 33.5 45.3 61.1 77.7

4 Experiments

我々は、グローバル視覚的ジオロケーションと確率的視覚的ジオロケーションという2つのタスクでモデルを評価する。最初のタスクでは、モデルが画像が撮影された最も可能性の高い場所を予測し(セクション 4.1)、2番目のタスクでは、モデルがすべての可能な場所に対する分布を推定する(セクション 4.2)。確率的視覚的ジオロケーションは新しいタスクであるため、評価のための新しい指標とベースラインを導入する。

我々は、ジオタグ付き画像の3つのデータセットを考慮する:

  • OpenStreetView-5M [2] (OSV-5M)は、世界中の225カ国と70,000以上の都市からの500万枚のストリートビュー訓練画像を含む。テストセットには20万枚の画像が含まれており、訓練セットとの間に1111kmのバッファーを設けて構築されている。

  • iNat21 [74]は、コミュニティ科学者によって収集・注釈付けされた10,000種の動物の270万枚の画像を含む。我々は、特集されている10,000種それぞれに10101010枚の画像を含む公開検証セットを使用する。

  • YFCC [1] Yahoo Flickr Creative Commonsデータセットは1億件の非常に多様なメディアオブジェクトを含み、そのうち我々は正確なジオタグが付けられた4,800万枚の画像のサブセットを使用する。他の手法との比較を可能にするため、我々は[76]で導入された4000400040004000枚の画像からなる公開サブセットYFCC4kですべての手法を評価する。

Baselines.

我々は結果を文脈化するために、いくつかの生成的ベースラインを実装する:

  • 一様分布。 このベースラインは地球上のどの点にも一定の密度確率 1/(4π)14𝜋1/(4\pi)1 / ( 4 italic_π ) ステラジアン-1を割り当てる。

  • フォン・ミーゼス-フィッシャー回帰 [22, 27] 我々のモデルを修正し、画像特徴を球面上のフォン・ミーゼス-フィッシャー(vMF)分布のパラメータ (μ,κ)𝜇𝜅(\mu,\kappa)( italic_μ , italic_κ ) にマッピングする。ここで、μ3𝜇superscript3\mu\in\mathbb{R}^{3}italic_μ ∈ blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT|μ|=1𝜇1|\mu|=1| italic_μ | = 1、そして κ>0𝜅0\kappa>0italic_κ > 0 である。ネットワークは真の位置 x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT における負の対数尤度を最小化するように訓練される:

    vMF(x0,c)subscriptvMFsubscript𝑥0𝑐\displaystyle\ell_{\text{vMF}}(x_{0},c)roman_ℓ start_POSTSUBSCRIPT vMF end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c ) =log2(vMF(x0μ,κ))absentsubscript2vMFconditionalsubscript𝑥0𝜇𝜅\displaystyle=-\log_{2}\left(\operatorname{\text{vMF}}(x_{0}\mid\mu,\kappa)\right)= - roman_log start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( vmf ( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ∣ italic_μ , italic_κ ) ) (16)
    =log2(κ4πsinh(κ))κμx0.absentsubscript2𝜅4𝜋𝜅𝜅superscript𝜇subscript𝑥0\displaystyle=-\log_{2}\left(\frac{\kappa}{4\pi\sinh(\kappa)}\right)-\kappa\mu% ^{\intercal}x_{0}~{}.= - roman_log start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( divide start_ARG italic_κ end_ARG start_ARG 4 italic_π roman_sinh ( italic_κ ) end_ARG ) - italic_κ italic_μ start_POSTSUPERSCRIPT ⊺ end_POSTSUPERSCRIPT italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT .
  • vMFの混合 [36] 多峰性分布を扱うために、モデルを拡張して K𝐾Kitalic_K 個のvMF分布の混合(vMFMix)を予測する。混合重み w1,,wK>0subscript𝑤1subscript𝑤𝐾0w_{1},\dots,w_{K}>0italic_w start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_w start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT > 0k=1Kwk=1superscriptsubscript𝑘1𝐾subscript𝑤𝑘1\sum_{k=1}^{K}w_{k}=1∑ start_POSTSUBSCRIPT italic_k = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT italic_w start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = 1、および分布パラメータ (μ1,,μK,κ1,,κK)subscript𝜇1subscript𝜇𝐾subscript𝜅1subscript𝜅𝐾(\mu_{1},\dots,\mu_{K},\kappa_{1},\dots,\kappa_{K})( italic_μ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_μ start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT , italic_κ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_κ start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT ) を用いる。損失は以下のように定義される:

    vMFMix(x,c)subscriptvMFMix𝑥𝑐\displaystyle\!\!\!\!\!\!\!\!\!\!\!\ell_{\text{vMFMix}}(x,c)roman_ℓ start_POSTSUBSCRIPT vMFMix end_POSTSUBSCRIPT ( italic_x , italic_c ) =log2(kwivMF(xμk,κk)).absentsubscript2subscript𝑘subscript𝑤𝑖vMFconditional𝑥subscript𝜇𝑘subscript𝜅𝑘\displaystyle=-\log_{2}\left(\sum_{k}w_{i}\operatorname{\text{vMF}}(x\mid\mu_{% k},\kappa_{k})\right)~{}.= - roman_log start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( ∑ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT italic_w start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT vmf ( italic_x ∣ italic_μ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT , italic_κ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) ) . (17)

Model Parameterization.

我々は3つの生成アプローチを評価する:3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTにおける拡散とフローマッチング(Diff 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTおよびFM 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT)、そして球面上のリーマンフローマッチング(RFM 𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT)である。すべてのモデルとベースラインは、評価対象のデータセットの訓練セットで訓練される。すべてのモデルは100万回の反復で訓練されるが、RFM10M10M{}_{\textbf{10M}}start_FLOATSUBSCRIPT 10M end_FLOATSUBSCRIPT 𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTは1000万回の反復を行う。

すべてのモデルとベースラインは、同じバックボーンϕitalic-ϕ\phiitalic_ϕを共有する:レジスター[14]を持つDINOv2-L [57]である。ただし、OpenStreetView-5Mで訓練する場合は、StreetCLIP(SC[25]でファインチューニングされたViT-Lモデル[19]を使用する。すべてのモデルは、ネットワークψ𝜓\psiitalic_ψに対して3600万パラメータの同じ構成を使用するが、iNat21の場合は920万パラメータのより小さなバージョンを使用する(詳細は付録参照)。 位置を予測する際のガイダンススケールは2222に、分布を計算する際は00に設定する。これは第4.2節で正当化される。

4.1 Visual Geolocation Performance

1248163264128256001,00010001{,}0001 , 0002,00020002{,}0002 , 0003,00030003{,}0003 , 0004,00040004{,}0004 , 000タイムステップ数GeoScore000.20.20.20.20.40.40.40.40.60.60.60.60.80.80.80.81111精度 GeoScore 地域 都市
図5: タイムステップ数の影響。 リーマンフローマッチングモデルについて、OpenStreetView-5Mにおける異なるタイムステップ数での様々な指標を示している。
表2: 確率的視覚ジオロケーション。 予測された分布の質を評価する。3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTで定義された分布の尤度は、異なる指標に基づいているため直接比較できないことに注意されたい。さらに、離散的な場合とは異なり、連続分布の対数尤度とエントロピーは負の値をとることがある。紙面の都合上、iNat21の生成指標のみを提供する。
OSV-5M YFCC iNat21
NLL \downarrow NLL \downarrow NLL \downarrow precision \uparrow recall \uparrow density \uparrow coverage \uparrow
Uniform 1.22 1.22 1.22 0.58 0.98 0.38 0.22
vMF Regression 10.13 0.01 1.99 0.52 0.98 0.37 0.24
vMFMix 0.06 -0.04 -0.23 0.63 0.98 0.47 0.29
RFlowMatch 𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT (ours) -1.51 -3.71 -1.94 0.88 0.95 0.78 0.59
Diffusion 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT (ours) 0.58 0.63 0.68 0.76 0.98 0.60 0.44
FlowMatch 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT (ours) -5.01 -7.15 -4.00 0.76 0.97 0.61 0.47

我々はまず、画像が撮影された場所を予測する我々のモデルの能力を評価し、その性能を既存の文献からのジオロケーション手法と比較する。

Metrics.

我々は以下のジオロケーション指標を使用し、テストセット全体で平均化する:

  • 距離: 真の位置と予測された位置の間のハバーサイン距離(km単位)。

  • GeoScore: GeoGuessrゲームにインスパイアされたスコアで、5000exp(δ/1492.7)5000𝛿1492.75000\exp(-\delta/1492.7)5000 roman_exp ( - italic_δ / 1492.7 ) [26]と定義される。ここでδ𝛿\deltaitalic_δはハバーサイン距離である。このスコアは00から5000500050005000の範囲で、高いスコアはより良い精度を示す。

  • 精度:正しい国、地域、都市、または真の位置から一定の距離内に予測が落ちる割合。

Results.

1は、我々のモデルを確立されたジオロケーション手法(分類、回帰、検索ベースのアプローチを含む)と比較している。また、セクション 4.2で導入した我々独自の生成ベースラインとも比較している。3つのデータセットすべてにおいて、我々のモデルは最先端のジオロケーション性能を達成し、判別的手法だけでなく、数百万枚の画像データベースに依存する検索ベースのアプローチも上回っている。

大規模なYFCCデータセットでは、我々の最良のモデル(RFM 𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT)の訓練を900万イテレーションまで延長すると、一貫した改善が見られる。全体として、我々の生成的アプローチは、検索やプロトタイプに基づかないすべての手法を大幅に上回っている。Astruc [2]の特殊なハイブリッドアプローチと比較して、我々はGeoScoreを406ポイント増加させ、平均距離を745 km削減し、国レベルの精度を8.2%改善している。我々の手法は様々なスケール(国レベルから25 kmまで)で優れた結果を示しているが、検索ベースの技術は、その広範な画像データベースのおかげで、非常に細かい解像度でも優位性を維持している。

生成的戦略の中では、フローマッチングが一貫して拡散を上回り、球面上のリーマン変種がユークリッド対応を上回っており、地球の幾何学をモデルに組み込むことの利点が強調されている。単一成分のvMFモデルは判別的回帰ベースラインと同様の性能を示しており、これは球面上の単一方向を予測することが本質的に位置回帰であるという事実と一致している。対照的に、vMF分布の混合はトレーニングセットに過適合し、より弱い性能につながっている。

Analysis.

5では、タイムステップ数がRFMモデルの性能に与える影響を表している。GeoScoreは591(1ステップ)から3744(16ステップ)まで改善し、その後3746付近で横ばいになる。同様に、国レベルの精度は9.4%から76%に、都市レベルの精度は0.02%から4.8%に増加する。これは、反復的な改良が一定のポイントまで我々のモデルに利益をもたらし、その後追加のステップは収穫逓減をもたらすことを示している。

4.2 Probabilistic Visual Geolocation

単一の位置を予測するだけでなく、我々のモデルは全ての可能な位置に対する分布を推定し、視覚的ジオロケーションに内在する不確実性を捉えることができる。

Metrics.

我々は、予測された分布 p(yc)𝑝conditional𝑦𝑐p(y\mid c)italic_p ( italic_y ∣ italic_c ) の品質を評価する。ここで、c𝑐citalic_c は画像であり、y𝒮2𝑦superscript𝒮2y\in\mathcal{S}^{2}italic_y ∈ caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT は地球表面上のあらゆる位置を表す。以下の指標を用いる:

  • 負の対数尤度 (NLL): 予測された分布下での真の位置の次元あたりの平均負対数尤度を計算する([9, F]を参照):

    NLL=13Ni=1Nlog2p(xici),NLL13𝑁superscriptsubscript𝑖1𝑁subscript2𝑝conditionalsubscript𝑥𝑖subscript𝑐𝑖\displaystyle\text{NLL}=-\frac{1}{3N}\sum_{i=1}^{N}\log_{2}p(x_{i}\mid c_{i})~% {},NLL = - divide start_ARG 1 end_ARG start_ARG 3 italic_N end_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT roman_log start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT italic_p ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∣ italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) , (18)

    ここで、(xi,ci)subscript𝑥𝑖subscript𝑐𝑖(x_{i},c_{i})( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) はテストセットにおける真の位置と画像のペアである。この指標は、予測された分布が真の位置とどの程度一致しているかを定量化する。

  • 位置特定可能性:画像 c𝑐citalic_c の位置特定可能性を、予測された分布の負のエントロピーとして定量化する:

    Localizability(c)=𝒮2p(yc)log2p(yc)𝑑y.Localizability𝑐subscriptsuperscript𝒮2𝑝conditional𝑦𝑐subscript2𝑝conditional𝑦𝑐differential-d𝑦\displaystyle\text{Localizability}(c)=\int_{\mathcal{S}^{2}}p(y\mid c)\log_{2}% p(y\mid c)dy~{}.Localizability ( italic_c ) = ∫ start_POSTSUBSCRIPT caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_POSTSUBSCRIPT italic_p ( italic_y ∣ italic_c ) roman_log start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT italic_p ( italic_y ∣ italic_c ) italic_d italic_y . (19)

    この積分は、10,000サンプルを用いたモンテカルロサンプリング [49] で推定する。

  • 生成指標我々は、古典的な適合率と再現率の指標 [40]、および最近の密度とカバレッジ [53] を報告する。詳細は付録を参照されたい。

OSV-5M [2] INat21 [74] YFCC [1]

High

Medium

Low

Refer to caption Refer to caption
(a) 位置特定可能性 = 1.20
Refer to caption Refer to caption
(b) 位置特定可能性 = 0.68
Refer to caption Refer to caption
(c) 位置特定可能性 = 1.75
Refer to caption Refer to caption
(d) 位置特定可能性 = 0.57
Refer to caption Refer to caption
(e) 位置特定可能性 = 0.51
Refer to caption Refer to caption
(f) 位置特定可能性 = 0.94
Refer to caption Refer to caption
(g) 位置特定可能性 = 0.49
Refer to caption Refer to caption
(h) 位置特定可能性 = 0.41
Refer to caption Refer to caption
(i) 位置特定可能性 = 0.47
図6: 位置特定可能性の推定 予測された分布のエントロピーを画像の位置特定可能性の代用として使用する。各データセットについて、高、中、低の位置特定可能性の例を示す。これらは人間の知覚とよく相関している。
002222444466668888101010103,40034003{,}4003 , 4003,50035003{,}5003 , 5003,60036003{,}6003 , 6003,70037003{,}7003 , 7003,80038003{,}8003 , 800ガイダンススケールGeoScoreGeoScoreF1スコア0.80.80.80.80.850.850.850.850.90.90.90.92×prec×recprec+rec2precrecprecrec\frac{2\times\text{prec}\times\text{rec}}{\text{prec}+\text{rec}}divide start_ARG 2 × prec × rec end_ARG start_ARG prec + rec end_ARG
図7: 分類器フリーガイダンスの影響 OSV-5Mデータセットにおいて、ガイダンススケール ω𝜔\omegaitalic_ω に応じたGeoScoreと生成指標の変化をプロットしている。

Results.

2は、確率的視覚ジオロケーションタスクにおける全モデルの性能を報告している。我々のモデルは、ベースラインよりも有意に低いNLLを達成しており、予測された分布がテスト画像の位置とより一致していることを明確に示している。3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTと球面𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT上で定義されたモデルの尤度を、異なる基礎的な指標のため直接比較することはできないが、3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTで行われたフローマッチングが拡散よりも良いNLLをもたらすことを観察している。vMF分布の混合は、全ての指標において単一のvMFモデルを改善している。これは、混合がジオロケーションの精度を向上させない可能性がある一方で、タスクに内在する曖昧さをより良く捉えている可能性があることを示している。多くの画像は、例えばアイルランドニュージーランドのように、複数の合理的な推測を持つ多峰性の分布を持っているためである。

生成指標に関しては、我々のリーマンフローマッチングモデルは全てのベースラインと3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTで動作するモデルを上回っており、地球表面上の分布をモデル化することの有効性を示している。 我々は、リーマンフローマッチングアプローチがより良い性能をもたらすと仮説を立てている。なぜなら、結果が生成プロセスによって直接出力されるからである。これに対し、3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTでは生成プロセスの出力を𝒮2superscript𝒮2\mathcal{S}^{2}caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTに投影する必要があり、微妙な誤差が加わる可能性がある。

Localizability.

6は、リーマンフローマッチングアプローチによって予測された分布の負のエントロピーで測定された、低、中、高の位置特定可能性を持つ画像の例を示している。 モデルは、道路標識(a)や植生(d)などの微妙な手がかりを検出し、ストリートビュー画像を比較的高い信頼度で位置特定することができる。 しかし、インドの田舎道(g)は位置特定可能性スコアが低く、国内のどこでも撮影された可能性がある。 動物の画像(b,e,h)の位置特定可能性は、人間中心やストリートビューの画像よりも低く、描かれている種の希少性と相関している。 印象的なことに、エッフェル塔の写真(c)のように、メートル単位の精度で位置を特定できる画像もある。NFLスタジアム内で撮影された画像(f)

5 Conclusion

我々は、拡散モデルと地球表面上のリーマン流マッチングに基づく、グローバルな視覚的ジオロケーションのための新しい生成的アプローチを導入した。我々の手法は、画像のジオロケーションに内在する曖昧性を効果的に捉えている—これは決定論的モデルではしばしば見過ごされる側面である。3つの標準的なベンチマークでの実験により、最先端のジオロケーション性能が実証された。さらに、我々は確率的視覚ジオロケーションのタスクを、そのメトリクスとベースラインとともに導入した。我々の生成的アプローチは、高い曖昧性にもかかわらず、データにより適合する確率分布を予測する。我々のアプローチは、特に曖昧または不明確な位置の手がかりを含む画像を扱うアプリケーションにおいて価値がある。これらは従来の手法では意味のある予測を提供するのが困難な場合である。

6 Acknowledgements

本研究はANRプロジェクトTOSAI ANR-20-IADJ-0009の支援を受けており、GENCIによる割り当て2024-AD011015664のもとでIDRISのHPCリソースへのアクセスを許可された。我々は、有益なフィードバックを提供してくれたJulie Mordacq、Elliot Vincent、およびYohann Perronに感謝の意を表する。

References

  • [1] YFCC100m. {https://gitlab.com/jfolz/yfcc100m}, accessed: 2023-10-10
  • [2] Astruc, G., Dufour, N., Siglidis, I., Aronssohn, C., Bouia, N., Fu, S., Loiseau, R., Nguyen, V.N., Raude, C., Vincent, E., et al.: OpenStreetView-5M: The many roads to global visual geolocation. In: CVPR (2024)
  • [3] Bamigbade, O., Sheppard, J., Scanlon, M.: Computer vision for multimedia geolocation in human trafficking investigation: A systematic literature review. In: arXiv preprint arXiv:2402.15448 (2024)
  • [4] Ben-Hamu, H., Cohen, S., Bose, J., Amos, B., Nickel, M., Grover, A., Chen, R.T., Lipman, Y.: Matching normalizing flows and probability paths on manifolds. In: ICML (2022)
  • [5] Berry, L., Brando, A., Meger, D.: Shedding light on large generative networks: Estimating epistemic uncertainty in diffusion models. In: UAI (2024)
  • [6] Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., et al.: Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127 (2023)
  • [7] Butcher, J.: Runge-Kutta methods for ordinary differential equations. Numerical Analysis and Optimization (2015)
  • [8] Chen, R.T.Q.: torchdiffeq (2018), https://github.com/rtqichen/torchdiffeq
  • [9] Chen, R.T., Lipman, Y.: Riemannian flow matching on general geometries. In: ICLR (2024)
  • [10] Chen, R.T., Lipman, Y.: Riemannian flow matching on general geometries. In: ICLR (2024)
  • [11] Clark, B., Kerrigan, A., Kulkarni, P.P., Cepeda, V.V., Shah, M.: Where we are and what we’re looking at: Query based worldwide image geo-localization using hierarchies and scenes. In: CVPR (2023)
  • [12] Courant, R., Dufour, N., Wang, X., Christie, M., Kalogeiton, V.: ET the exceptional trajectories: Text-to-camera-trajectory generation with character awareness. In: ECCV (2024)
  • [13] Daoud, M., Huang, J.X.: Mining query-driven contexts for geographic and temporal search. International Journal of Geographical Information Science (2013)
  • [14] Darcet, T., Oquab, M., Mairal, J., Bojanowski, P.: Vision transformers need registers. ICLR (2024)
  • [15] Dellaert, F., Fox, D., Burgard, W., Thrun, S.: Monte Carlo localization for mobile robots. In: ICRA (1999)
  • [16] DeLozier, G., Wing, B., Baldridge, J., Nesbit, S.: Creating a novel geolocation corpus from historical texts. In: ACL Linguistic Annotation Workshop (2016)
  • [17] Deng, H., Bui, M., Navab, N., Guibas, L., Ilic, S., Birdal, T.: Deep Bingham networks: Dealing with uncertainty and ambiguity in pose estimation. International Journal of Computer Vision (2022)
  • [18] Dormand, J.R., Prince, P.J.: A family of embedded Runge-Kutta formulae. Journal of computational and applied mathematics (1980)
  • [19] Dosovitskiy, A.: An image is worth 16x16 words: Transformers for image recognition at scale. ICLR (2021)
  • [20] Dufour, N., Besnier, V., Kalogeiton, V., Picard, D.: Don’t drop your samples! Coherence-aware training benefits conditional diffusion. In: CVPR (2024)
  • [21] Durrett, R., Durrett, R.: Probability: Theory and examples. Cambridge university press (2019)
  • [22] Fisher, R.A.: Dispersion on a sphere. Proceedings of the Royal Society of London. Series A. Mathematical and Physical Sciences (1953)
  • [23] Flatow, D., Naaman, M., Xie, K.E., Volkovich, Y., Kanza, Y.: On the accuracy of hyper-local geotagging of social media content. In: International Conference on Web Search and Data Mining (2015)
  • [24] Grathwohl, W., Chen, R.T., Bettencourt, J., Sutskever, I., Duvenaud, D.: FFJORD: Free-form continuous dynamics for scalable reversible generative models. In: ICLR (2019)
  • [25] Haas, L., Alberti, S., Skreta, M.: Learning generalized zero-shot learners for open-domain image geolocalization. In: arXiv preprint arXiv:2302.00275 (2023)
  • [26] Haas, L., Alberti, S., Skreta, M.: PIGEON: Predicting image geolocations. In: CVPR (2023)
  • [27] Hasnat, M.A., Bohné, J., Milgram, J., Gentric, S., Chen, L.: von Mises-Fisher mixture model-based deep learning: Application to face verification. In: arXiv preprint arXiv:1706.04264 (2017)
  • [28] Hays, J., Efros, A.A.: Im2GPSs: Estimating geographic information from a single image. In: CVPR (2008)
  • [29] Hays, J., Efros, A.A.: Large-scale image geolocalization. Multimodal location estimation of videos and images (2015)
  • [30] Hendrycks, D., Gimpel, K.: Gaussian error linear units (Gelus). In: arXiv preprint arXiv:1606.08415 (2016)
  • [31] Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., Kingma, D.P., Poole, B., Norouzi, M., Fleet, D.J., et al.: Imagen video: High definition video generation with diffusion models. arXiv (2022)
  • [32] Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. In: NeurIPS (2020)
  • [33] Ho, J., Saharia, C., Chan, W., Fleet, D.J., Norouzi, M., Salimans, T.: Cascaded diffusion models for high fidelity image generation. Journal of Machine Learning Research (2022)
  • [34] Ho, J., Salimans, T.: Classifier-free diffusion guidance. In: NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications (2021)
  • [35] Huang, B., Yu, W., Xie, R., Xiao, J., Huang, J.: Two-stage denoising diffusion model for source localization in graph inverse problems. In: ECML-PKDD. Springer (2023)
  • [36] Izbicki, M., Papalexakis, E.E., Tsotras, V.J.: Exploiting the Earth’s spherical geometry to geolocate images. In: MLKDD (2020)
  • [37] Kendall, A., Cipolla, R.: Modelling uncertainty in deep learning for camera relocalization. In: ICRA (2016)
  • [38] Kendall, A., Gal, Y.: What uncertainties do we need in bayesian deep learning for computer vision? In: NeurIPS (2017)
  • [39] Kordopatis-Zilos, G., Galopoulos, P., Papadopoulos, S., Kompatsiaris, I.: Leveraging EfficientNet and contrastive learning for accurate global-scale location estimation. In: International Conference on Multimedia Retrieval (2021)
  • [40] Kynkäänniemi, T., Karras, T., Laine, S., Lehtinen, J., Aila, T.: Improved precision and recall metric for assessing generative models. NeurIPS (2019)
  • [41] Levinson, J., Thrun, S.: Robust vehicle localization in urban environments using probabilistic maps. In: ICRA (2010)
  • [42] Li, A.C., Prabhudesai, M., Duggal, S., Brown, E., Pathak, D.: Your diffusion model is secretly a zero-shot classifier. In: CVPR (2023)
  • [43] Li, W., Yang, Y., Yu, S., Hu, G., Wen, C., Cheng, M., Wang, C.: Diffloc: Diffusion model for outdoor lidar localization. In: CVPR (2024)
  • [44] Lipman, Y., Chen, R.T., Ben-Hamu, H., Nickel, M., Le, M.: Flow matching for generative modeling. In: ICLR (2023)
  • [45] Lipman, Y., Chen, R.T., Ben-Hamu, H., Nickel, M., Le, M.: Flow matching for generative modeling. In: The Eleventh International Conference on Learning Representations (2024)
  • [46] Mackowiak, R., Ardizzone, L., Kothe, U., Rother, C.: Generative classifiers as a basis for trustworthy image classification. In: CVPR (2021)
  • [47] Martin, D., Fowlkes, C., Tal, D., Malik, J.: A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In: ICCV (2001)
  • [48] Merrill, N., Guo, Y., Zuo, X., Huang, X., Leutenegger, S., Peng, X., Ren, L., Huang, G.: Symmetry and uncertainty-aware object SLAM for 6DOF object pose estimation. In: CVPR (2022)
  • [49] Metropolis, N., Ulam, S.: The Monte Carlo method. Journal of the American statistical association (1949)
  • [50] Mittal, G., Engel, J., Hawthorne, C., Simon, I.: Symbolic music generation with diffusion models. ISMIR (2021)
  • [51] Mullane, J., Vo, B.N., Adams, M.D., Vo, B.T.: A random-finite-set approach to Bayesian SLAM. IEEE transactions on robotics (2011)
  • [52] Muller-Budack, E., Pustu-Iren, K., Ewerth, R.: Geolocation estimation of photos using a hierarchical model and scene classification. In: ECCV (2018)
  • [53] Naeem, M.F., Oh, S.J., Uh, Y., Choi, Y., Yoo, J.: Reliable fidelity and diversity metrics for generative models. In: ICML (2020)
  • [54] Nicolas Dufour, David Picard, V.K.: SCAM! Transferring humans between images with semantic cross attention modulation. In: ECCV (2022)
  • [55] Nikolaidou, K., Seuret, M., Mokayed, H., Liwicki, M.: A survey of historical document image datasets. International Journal on Document Analysis and Recognition (2022)
  • [56] Oliva, A., Torralba, A.: Building the gist of a scene: The role of global image features in recognition. Progress in brain research (2006)
  • [57] Oquab, M., Darcet, T., Moutakanni, T., Vo, H.V., Szafraniec, M., Khalidov, V., Fernandez, P., HAZIZA, D., Massa, F., El-Nouby, A., et al.: DINOv2: Learning robust visual features without supervision. TMLR
  • [58] Pavlakos, G., Zhou, X., Derpanis, K.G., Daniilidis, K.: Coarse-to-fine volumetric prediction for single-image 3D human pose. In: CVPR (2017)
  • [59] Peebles, W., Xie, S.: Scalable diffusion models with transformers. In: ICCV (2023)
  • [60] Petrovich, M., Litany, O., Iqbal, U., Black, M.J., Varol, G., Peng, X.B., Rempe, D.: Multi-track timeline control for text-driven 3D human motion generation. In: CVPR Workshop on Human Motion Generation (2024)
  • [61] Polyak, A., Zohar, A., Brown, A., Tjandra, A., Sinha, A., Lee, A., Vyas, A., Shi, B., Ma, C.Y., Chuang, C.Y., et al.: Movie Gen: A cast of media foundation models. arXiv (2024)
  • [62] Popov, V., Vovk, I., Gogoryan, V., Sadekova, T., Kudinov, M.: Grad-TTS: A diffusion probabilistic model for text-to-speech. In: ICML. PMLR (2021)
  • [63] Pramanick, S., Nowara, E.M., Gleason, J., Castillo, C.D., Chellappa, R.: Where in the world is this image? Transformer-based geo-localization in the wild. In: ECCV (2022)
  • [64] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: CVPR (2022)
  • [65] Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E.L., Ghasemipour, K., Gontijo Lopes, R., Karagol Ayan, B., Salimans, T., et al.: Photorealistic text-to-image diffusion models with deep language understanding. In: NeurIPS (2022)
  • [66] Seo, P.H., Weyand, T., Sim, J., Han, B.: Cplanet: Enhancing image geolocalization by combinatorial partitioning of maps. In: ECCV (2018)
  • [67] Smith, D.A., Crane, G.: Disambiguating geographic names in a historical digital library. In: International Conference on Theory and Practice of Digital Libraries. Springer Berlin Heidelberg, Berlin, Heidelberg (2001)
  • [68] Sommer, S., Fletcher, T., Pennec, X.: Introduction to differential and riemannian geometry. In: Riemannian Geometric Statistics in Medical Image Analysis. Elsevier (2020)
  • [69] Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. In: ICLR (2021)
  • [70] Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. In: ICLR (2021)
  • [71] Song, Y., Sohl-Dickstein, J., Kingma, D.P., Kumar, A., Ermon, S., Poole, B.: Score-based generative modeling through stochastic differential equations. In: ICLR (2021)
  • [72] Theiner, J., Müller-Budack, E., Ewerth, R.: Interpretable semantic photo geolocation. In: WACV (2022)
  • [73] Tompson, J.J., Jain, A., LeCun, Y., Bregler, C.: Joint training of a convolutional network and a graphical model for human pose estimation. In: NeurIPS (2014)
  • [74] Van Horn, G., Cole, E., Beery, S., Wilber, K., Belongie, S., Mac Aodha, O.: Benchmarking representation learning for natural world image collections. In: CVPR (2021)
  • [75] Villani, C.: Optimal transport: Old and new. Berlin: Springer (2009)
  • [76] Vo, N., Jacobs, N., Hays, J.: Revisiting IMG2GPS in the deep learning era. In: ICCV (2017)
  • [77] Weyand, T., Kostrikov, I., Philbin, J.: Planet-photo geolocation with convolutional neural networks. In: ECCV (2016)
  • [78] Wolleb, J., Sandkühler, R., Bieder, F., Valmaggia, P., Cattin, P.C.: Diffusion models for implicit image segmentation ensembles. In: International Conference on Medical Imaging with Deep Learning. PMLR (2022)
  • [79] Xu, L., Qu, H., Cai, Y., Liu, J.: 6D-diff: A keypoint diffusion framework for 6d object pose estimation. In: CVPR (2024)
  • [80] Yokota, R., Hawai, Y., Tsuchiya, K., Imoto, D., Hirabayashi, M., Akiba, N., Kakuda, H., Tanabe, K., Honma, M., Kurosawa, K.: A revisited visual-based geolocalization framework for forensic investigation support tools. Forensic Science International: Digital Investigation (2020)
  • [81] You, Y., Li, J., Reddi, S., Hseu, J., Kumar, S., Bhojanapalli, S., Song, X., Demmel, J., Keutzer, K., Hsieh, C.J.: Large batch optimization for deep learning: Training bert in 76 minutes. ICLR (2020)
  • [82] Zangeneh, F., Bruns, L., Dekel, A., Pieropan, A., Jensfelt, P.: A probabilistic framework for visual localization in ambiguous scenes. In: ICRA (2023)

A Ablation Study

我々はリーマン流マッチングアプローチに対してアブレーション実験を行い、設計上の選択の影響を評価し、その結果を Aに報告する。

  • ガイド付きサンプリング。 ガイド付きサンプリングはgeoscoreを改善するが、本稿の図7に示されているように、過度に自信のある予測のため、尤度スコアが低下する。

  • ガイドなしの単一サンプリング。 我々はガイダンスを追加しない(式13のω=0𝜔0\omega=0italic_ω = 0)。geoscoreが182ポイント低下する(3485対3767)が、NLLは改善される(-1.8対33.1)ことを観察した。ガイダンスは位置特定性能を向上させるが、確率的予測を著しく悪化させる。

  • アンサンブルサンプリング。 32個のランダムな点をサンプリングおよびデノイズし、最も尤度の高い予測を選択する。このアプローチは分布推定メトリクスにおいて最高の性能を示すが、複数のサンプルを生成し評価する必要があるため、計算コストが著しく高くなる。実際には、画像あたりの予測時間が約2ミリ秒から72ミリ秒に増加する。

  • 標準シグモイドスケジューラ。 本稿の式15で定義された我々の提案スケジューラを、α=3𝛼3\alpha=-3italic_α = - 3およびβ=3𝛽3\beta=3italic_β = 3を用いた標準の非歪みシグモイドスケジューラに置き換える。この変更はgeoscoreを向上させるが、生成メトリクスで測定される予測密度の品質を低下させる。標準シグモイドは拡散過程の初期段階(t𝑡titalic_tが0に近い:低ノイズ領域)に十分な重点を置かず、これは詳細な位置特定に重要である。

  • 線形シグモイドスケジューラ。 本稿の式15で定義された我々の提案スケジューラを線形スケジューラに置き換える。この変更はgeoscoreと予測密度の品質の両方を低下させる。

表A: アブレーション研究我々は異なる設計の影響を推定する。我々はリーマン拡散モデルを考慮し、OpenStreetView-5Mで評価を行う。
Geoscore \uparrow NLL \downarrow precision \uparrow recall \uparrow density \uparrow coverage \uparrow
Guided sampling 3746.79 33.1 0.841 0.896 0.797 0.590
Single sampling 3485.88 -1.81 0.844 0.924 0.790 0.560
Ensemble sampling 3588.25 -4.31 0.899 0.785 0.881 0.537
Linear sigmoid 3734.84 -1.28 0.775 0.931 0.687 0.536
Standard sigmoid 3767.21 -1.51 0.827 0.913 0.765 0.565
表B: 生成メトリクス我々は、OSV-5MとYFCCの無条件分布に対して、生成メトリクスを用いて予測された分布の品質を評価する。
OSV-5M YFCC
precision \uparrow recall \uparrow density \uparrow coverage \uparrow precision \uparrow recall \uparrow density \uparrow coverage \uparrow
Uniform 0.29 0.98 0.21 0.21 0.59 0.99 0.38 0.22
vMF Regression 0.598 0.982 0.499 0.446 0.667 0.993 0.542 0.599
vMF Mixture 0.513 0.980 0.422 0.358 0.626 0.988 0.474 0.498
RFlowMatch 𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT (ours) 0.841 0.896 0.797 0.590 0.957 0.952 1.060 0.926
Diffusion 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT (ours) 0.822 0.916 0.752 0.568 0.938 0.959 0.959 0.837
FlowMatch 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT (ours) 0.845 0.907 0.799 0.575 0.953 0.959 1.037 0.920

B Qualitative Illustration

Qualitative Illustrations.

我々のネットワークの詳細な説明を Aに示す。パラメトリックな手法であるvMFとvMF混合が高度に多峰性の分布を捉えられないことが観察される。対照的に、我々の分布はノンパラメトリックであり、非常に複雑な空間分布を予測することができる。vMF混合は単一のvMFに収束しており、これは予測の大部分で観察された。

両方のフローマッチング手法が視覚的に近い結果を与えることが観察される。ただし、両モデルは同じ計量空間に埋め込まれていないため、尤度の値は比較できないことに注意されたい。 Bに詳述されている生成メトリクスは、リーマンモデルがより細かいスケールで無条件分布によく適合することを示している。

Detailed Quantitative Results.

OSV-5MとYFCCデータセットの完全な生成メトリクスを Bに示す。本稿の主要部分でiNat21について観察したのと同様に、フローマッチング、特にリーマンフローマッチングが、サンプルの最も忠実な予測分布をもたらす。

C Implementation Details

Baseline Details.

我々は、全てのベースラインにおいて、我々のモデルと同じバックボーンと画像エンコーダーを使用している。これらをベースラインに適応させるために、以下の2つの修正を行った: (i) 欠落している入力(ノイズのある座標とスケジューラー)を学習可能なパラメータで置き換えた。 (ii) 最終的な予測ヘッドを、von Mises-Fisher (vMF) 分布のパラメータを予測するMLPに置き換えた:平均方向 μ𝒮2𝜇superscript𝒮2\mu\in\mathcal{S}^{2}italic_μ ∈ caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTL2subscript𝐿2L_{2}italic_L start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 正規化を使用)と集中パラメータ κ>0𝜅0\kappa>0italic_κ > 0 (ソフトプラス活性化を使用)。

vMFの混合モデルについては、K=3𝐾3K=3italic_K = 3 個のvMF分布を使用している。μ𝜇\muitalic_μκ𝜅\kappaitalic_κ のヘッドは現在3セットのパラメータを予測し、混合重みは別の専用ヘッド(ソフトマックス活性化を使用)によって予測される。

Architecture Details.

我々のモデルアーキテクチャは、 Bに示されているように、いくつかの主要な構成要素から成る:

  • 入力処理:モデルは3つの入力を受け取る:現在の座標xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT、画像埋め込みc𝑐citalic_c、およびノイズレベルκ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t )

  • 初期変換:座標xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTはまず、次元を3からd𝑑ditalic_dに拡張する線形層を通過し、その後パラメータα,β𝛼𝛽\alpha,\betaitalic_α , italic_βで条件付けされたADA-LN層を通過する。

  • 主処理ブロック:ネットワークの中核(灰色で示されている)はN𝑁Nitalic_N回繰り返され、以下で構成される:

    • 次元をd𝑑ditalic_dから4d4𝑑4d4 italic_dに拡張する線形層

    • GELU活性化関数

    • 次元を4d4𝑑4d4 italic_dからd𝑑ditalic_dに縮小する線形層

    • α,β𝛼𝛽\alpha,\betaitalic_α , italic_βで条件付けされたADA-LN層

  • AdaLN:AdaLN層は、画像特徴に基づいて入力をスケーリングおよびシフトする条件付き層正規化である:

    AdaLN(x)=γxμσ+βAdaLN𝑥direct-product𝛾𝑥𝜇𝜎𝛽\text{AdaLN}(x)=\gamma\odot\frac{x-\mu}{\sigma}+\betaAdaLN ( italic_x ) = italic_γ ⊙ divide start_ARG italic_x - italic_μ end_ARG start_ARG italic_σ end_ARG + italic_β (A)

    ここで、μ,σ𝜇𝜎\mu,\sigmaitalic_μ , italic_σは特徴次元におけるx𝑥xitalic_xの平均と標準偏差であり、γ,β𝛾𝛽\gamma,\betaitalic_γ , italic_βは学習可能なパラメータである。

  • スキップ接続:各処理ブロックには、以下のようなスキップ接続パスがある:

    • 処理ブロックをスキップし、入力を出力に直接接続することで、より良い勾配の流れを可能にする。

    • ゲーティングパラメータγ𝛾\gammaitalic_γによって変調され、ブロック出力がメインパスにどの程度追加されるかを制御する。

    このゲート付きスキップ接続により、ネットワークは各処理ブロック周りの情報の流れを適応的に制御できる。

  • 出力ヘッド:最終的な予測は、目標次元d3maps-to𝑑3d\mapsto 3italic_d ↦ 3にマッピングする線形層を通じて得られる。

  • タイムステップの条件付け:ノイズレベルκ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t )は、AdaLN層の条件付けに加算することで組み込まれる。

我々は、OSV-5MとYFCC-100Mには次元N=12𝑁12N=12italic_N = 12d=512𝑑512d=512italic_d = 512ブロックを使用し、iNat21には次元d=256𝑑256d=256italic_d = 256のブロックを使用する。

Optimization.

我々は、バッチサイズ1024で100万ステップのモデル訓練を行い、学習率81048superscript1048*10^{-4}8 ∗ 10 start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPTのLambオプティマイザ[81]を使用する。500ステップのウォームアップとコサイン減衰学習率スケジュールを採用する。モデルの重みには0.999のEMAを使用する。OSV-5MとYFCC-100Mには0.050.050.050.05の重み減衰を、iNaturalistには0.10.10.10.1を使用する。クラスフリーガイダンスを可能にするため、10%の確率で条件付け画像埋め込みをドロップアウトする。

xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT 線形 ×Nabsent𝑁\times N× italic_N ADA-LN 線形 GELU 線形 ADA-LN 線形 c𝑐citalic_cκ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t ) 線形 SILU 線形 SILU 線形 3dmaps-to3𝑑3\mapsto d3 ↦ italic_dd4dmaps-to𝑑4𝑑d\mapsto 4ditalic_d ↦ 4 italic_d4ddmaps-to4𝑑𝑑4d\mapsto d4 italic_d ↦ italic_dd3maps-to𝑑3d\mapsto 3italic_d ↦ 3ddmaps-to𝑑𝑑d\mapsto ditalic_d ↦ italic_dd𝑑ditalic_dd3dmaps-to𝑑3𝑑d\mapsto 3ditalic_d ↦ 3 italic_dd2dmaps-to𝑑2𝑑d\mapsto 2ditalic_d ↦ 2 italic_dα,β𝛼𝛽\alpha,\betaitalic_α , italic_βγ𝛾\gammaitalic_γα,β𝛼𝛽\alpha,\betaitalic_α , italic_β
図B: アーキテクチャ。 我々のモデルは、現在の座標xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT、画像埋め込みϕ(c)italic-ϕ𝑐\phi(c)italic_ϕ ( italic_c )、およびノイズレベルκ(t)𝜅𝑡\kappa(t)italic_κ ( italic_t )を入力として受け取る。このアーキテクチャは、決定論的ベースラインを含む我々のすべての定式化に使用される。

Metrics.

  • 適合率と再現率:我々は、地理的近接性を考慮して、従来の生成評価指標である適合率と再現率を我々の空間設定に適応させる[40]

    真の位置の集合をX𝑋Xitalic_Xとし、我々のモデルが予測する無条件分布からサンプリングされた位置の集合をY𝑌Yitalic_Yとする。 Z𝑍Zitalic_Zを位置の集合(X𝑋Xitalic_XまたはY𝑌Yitalic_Y)とし、zZ𝑧𝑍z\in Zitalic_z ∈ italic_Zに対して、B(z,Z)B𝑧𝑍\textbf{B}(z,Z)B ( italic_z , italic_Z )𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTを中心とし、半径がz𝑧zitalic_zk𝑘kitalic_k番目の最近傍の距離に等しい球と定義する。ここで、z𝑧zitalic_zZ𝑍Zitalic_Zに属する。これにより、位置の目標の近似多様体を定義できる:

    manifold(Z):=zZB(z,Z).assignmanifold𝑍subscript𝑧𝑍B𝑧𝑍\displaystyle\text{manifold}(Z):=\bigcup_{z\in Z}\textbf{B}(z,Z)~{}.manifold ( italic_Z ) := ⋃ start_POSTSUBSCRIPT italic_z ∈ italic_Z end_POSTSUBSCRIPT B ( italic_z , italic_Z ) . (B)

    ここで、適合率と再現率を、真の(それぞれ予測された)位置の多様体内にある予測された(それぞれ真の)位置の割合として定義する:

    precision :=1YyY[ymanifold(X)]assignabsent1delimited-∣∣𝑌subscript𝑦𝑌delimited-[]𝑦manifold𝑋\displaystyle:=\frac{1}{\mid Y\mid}\sum_{y\in Y}[y\in\text{manifold}(X)]:= divide start_ARG 1 end_ARG start_ARG ∣ italic_Y ∣ end_ARG ∑ start_POSTSUBSCRIPT italic_y ∈ italic_Y end_POSTSUBSCRIPT [ italic_y ∈ manifold ( italic_X ) ] (C)
    recall :=1XxX[xmanifold(Y)],assignabsent1delimited-∣∣𝑋subscript𝑥𝑋delimited-[]𝑥manifold𝑌\displaystyle:=\frac{1}{\mid X\mid}\sum_{x\in X}[x\in\text{manifold}(Y)]~{},:= divide start_ARG 1 end_ARG start_ARG ∣ italic_X ∣ end_ARG ∑ start_POSTSUBSCRIPT italic_x ∈ italic_X end_POSTSUBSCRIPT [ italic_x ∈ manifold ( italic_Y ) ] , (D)

    ここで、[P]delimited-[]𝑃[P][ italic_P ]はアイバーソンの括弧であり、文P𝑃Pitalic_Pが真の場合は1、それ以外は00である。本稿全体を通じて、近傍の数をk=3𝑘3k=3italic_k = 3に設定する。

  • 密度とカバレッジ:Naeem[53]、特に外れ値を含む分布に対して、より信頼性の高い適合率と再現率の指標を導入している。 我々は、これらの指標を我々の設定に適応させることを提案する。 密度は、予測された位置Y𝑌Yitalic_Yが真の位置X𝑋Xitalic_Xの周りにどれだけ密集しているかを測定する:

    density:=1kYyYxX[yB(x,X)].assigndensity1𝑘delimited-∣∣𝑌subscript𝑦𝑌subscript𝑥𝑋delimited-[]𝑦B𝑥𝑋\displaystyle\text{density}:=\frac{1}{k\mid Y\mid}\sum_{y\in Y}\sum_{x\in X}[y% \in\textbf{B}(x,X)]~{}.density := divide start_ARG 1 end_ARG start_ARG italic_k ∣ italic_Y ∣ end_ARG ∑ start_POSTSUBSCRIPT italic_y ∈ italic_Y end_POSTSUBSCRIPT ∑ start_POSTSUBSCRIPT italic_x ∈ italic_X end_POSTSUBSCRIPT [ italic_y ∈ B ( italic_x , italic_X ) ] . (E)

    再現率の指標は、予測された多様体が埋め込み空間を一様にカバーする場合に誤解を招くほど高くなる可能性がある。これは特に𝒮2subscript𝒮2\mathcal{S}_{2}caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTのような低次元空間で問題となる:一様分布はOSV-5Mにおいて0.980.980.980.98の再現率を持つ。 カバレッジは、生成された分布が真のデータのモードをどれだけよくカバーしているかを、そのような過大評価を報酬としないようにしつつ、より適切に捉える。これは、予測された分布が真のデータをどれだけよくカバーしているかを評価することで行う:

    coverage:=1XxX[yYB(x,X)].assigncoverage1delimited-∣∣𝑋subscript𝑥𝑋delimited-[]𝑦𝑌B𝑥𝑋\text{coverage}:=\frac{1}{\mid X\mid}\sum_{x\in X}[\exists y\in Y\cap\textbf{B% }(x,X)]~{}.coverage := divide start_ARG 1 end_ARG start_ARG ∣ italic_X ∣ end_ARG ∑ start_POSTSUBSCRIPT italic_x ∈ italic_X end_POSTSUBSCRIPT [ ∃ italic_y ∈ italic_Y ∩ B ( italic_x , italic_X ) ] . (F)

D Technical Details

本節では、球面上のリーマン幾何学の詳細と、命題1の証明の概要、およびその一般化に関する要素を提示する。

Spherical Geometry.

対数写像 logxsubscript𝑥\log_{x}roman_log start_POSTSUBSCRIPT italic_x end_POSTSUBSCRIPT は点 y𝒮2𝑦subscript𝒮2y\in\mathcal{S}_{2}italic_y ∈ caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTTxsubscript𝑇𝑥T_{x}italic_T start_POSTSUBSCRIPT italic_x end_POSTSUBSCRIPT、すなわち点 x𝑥xitalic_x における接空間に写像する [68]

logx(y)=θsinθ(ycosθx),subscript𝑥𝑦𝜃𝜃𝑦𝜃𝑥\displaystyle\log_{x}(y)=\frac{\theta}{\sin\theta}(y-\cos{\theta}x)~{},roman_log start_POSTSUBSCRIPT italic_x end_POSTSUBSCRIPT ( italic_y ) = divide start_ARG italic_θ end_ARG start_ARG roman_sin italic_θ end_ARG ( italic_y - roman_cos italic_θ italic_x ) , (G)

ここで θ=arccos(x,y)𝜃𝑥𝑦\theta=\arccos(\langle x,y\rangle)italic_θ = roman_arccos ( ⟨ italic_x , italic_y ⟩ )x𝑥xitalic_xy𝑦yitalic_y の間の角度である。 指数写像 expxsubscript𝑥\exp_{x}roman_exp start_POSTSUBSCRIPT italic_x end_POSTSUBSCRIPT は点 x𝒮2𝑥subscript𝒮2x\in\mathcal{S}_{2}italic_x ∈ caligraphic_S start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT の接ベクトル vTx𝑣subscript𝑇𝑥v\in T_{x}italic_v ∈ italic_T start_POSTSUBSCRIPT italic_x end_POSTSUBSCRIPT を球面上に戻す写像である:

expx(v)=cos(v)x+sin(v)vv,subscript𝑥𝑣norm𝑣𝑥norm𝑣norm𝑣𝑣\displaystyle\exp_{x}(v)=\cos(\|v\|)x+\frac{\sin(\|v\|)}{\|v\|}v~{},roman_exp start_POSTSUBSCRIPT italic_x end_POSTSUBSCRIPT ( italic_v ) = roman_cos ( ∥ italic_v ∥ ) italic_x + divide start_ARG roman_sin ( ∥ italic_v ∥ ) end_ARG start_ARG ∥ italic_v ∥ end_ARG italic_v , (H)

ここで vnorm𝑣\|v\|∥ italic_v ∥v𝑣vitalic_v のユークリッドノルムである。

Proof of Prop 1.

ここに修正された命題とその証明を示す。我々は今、[44, Appendix C]に触発された命題1の簡潔な証明を提案する。

Proposition 2.

位置y𝒮2𝑦superscript𝒮2y\in\mathcal{S}^{2}italic_y ∈ caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTと画像c𝑐citalic_cが与えられたとき、t𝑡titalic_tについて00から1111まで以下の常微分方程式系を解くことを考える:

ddt[x(t)f(t)]=[ψ(x(t)c)divψ(x(t)c)]with[x(0)f(0)]=[y0],𝑑𝑑𝑡matrix𝑥𝑡𝑓𝑡matrix𝜓conditional𝑥𝑡𝑐div𝜓conditional𝑥𝑡𝑐withmatrix𝑥0𝑓0matrix𝑦0\displaystyle\frac{d}{dt}\begin{bmatrix}x(t)\\ f(t)\end{bmatrix}=\begin{bmatrix}\psi(x(t)\mid c)\\ -\operatorname{div}\,\psi(x(t)\mid c)\end{bmatrix}\;\text{with}\;\begin{% bmatrix}x(0)\\ f(0)\end{bmatrix}=\begin{bmatrix}y\\ 0\end{bmatrix}~{},divide start_ARG italic_d end_ARG start_ARG italic_d italic_t end_ARG [ start_ARG start_ROW start_CELL italic_x ( italic_t ) end_CELL end_ROW start_ROW start_CELL italic_f ( italic_t ) end_CELL end_ROW end_ARG ] = [ start_ARG start_ROW start_CELL italic_ψ ( italic_x ( italic_t ) ∣ italic_c ) end_CELL end_ROW start_ROW start_CELL - roman_div italic_ψ ( italic_x ( italic_t ) ∣ italic_c ) end_CELL end_ROW end_ARG ] with [ start_ARG start_ROW start_CELL italic_x ( 0 ) end_CELL end_ROW start_ROW start_CELL italic_f ( 0 ) end_CELL end_ROW end_ARG ] = [ start_ARG start_ROW start_CELL italic_y end_CELL end_ROW start_ROW start_CELL 0 end_CELL end_ROW end_ARG ] , (I)

すると、y𝑦yitalic_yが与えられた場合のc𝑐citalic_cの対数確率密度は以下のようになる: logp(yc)=logpϵ(x(1)c)+f(1)𝑝conditional𝑦𝑐subscript𝑝italic-ϵconditional𝑥1𝑐𝑓1\log p(y\mid c)=\log p_{\epsilon}(x(1)\mid c)+f(1)roman_log italic_p ( italic_y ∣ italic_c ) = roman_log italic_p start_POSTSUBSCRIPT italic_ϵ end_POSTSUBSCRIPT ( italic_x ( 1 ) ∣ italic_c ) + italic_f ( 1 ) ここで、pϵsubscript𝑝italic-ϵp_{\epsilon}italic_p start_POSTSUBSCRIPT italic_ϵ end_POSTSUBSCRIPTはノイズϵitalic-ϵ\epsilonitalic_ϵの分布であり、f(t)𝑓𝑡f(t)italic_f ( italic_t )は軌道に沿った速度場の発散を蓄積する。

Proof.

対数質量保存定理[4, 75]は以下のように記述される:

ddtlogp(xtc)+divv(xt)=0.𝑑𝑑𝑡𝑝conditionalsubscript𝑥𝑡𝑐div𝑣subscript𝑥𝑡0\displaystyle\frac{d}{dt}\log p(x_{t}\mid c)+\operatorname{div}\,v(x_{t})=0~{}.divide start_ARG italic_d end_ARG start_ARG italic_d italic_t end_ARG roman_log italic_p ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c ) + roman_div italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) = 0 . (J)

ネットワークψ𝜓\psiitalic_ψv(xt)𝑣subscript𝑥𝑡v(x_{t})italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )に回帰するよう訓練した後、ψ(xtc)𝜓conditionalsubscript𝑥𝑡𝑐\psi(x_{t}\mid c)italic_ψ ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_c )v(xt)𝑣subscript𝑥𝑡v(x_{t})italic_v ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )に代入すると以下を得る:

ddtlogp(x(t)c)+divψ(x(t)c)=0.𝑑𝑑𝑡𝑝conditional𝑥𝑡𝑐div𝜓conditional𝑥𝑡𝑐0\displaystyle\frac{d}{dt}\log p(x(t)\mid c)+\operatorname{div}\,\psi(x(t)\mid c% )=0~{}.divide start_ARG italic_d end_ARG start_ARG italic_d italic_t end_ARG roman_log italic_p ( italic_x ( italic_t ) ∣ italic_c ) + roman_div italic_ψ ( italic_x ( italic_t ) ∣ italic_c ) = 0 . (K)

我々は00から1111まで積分する:

logp(x1c)logp(x(0)c)=01divψ(x(t)c).𝑝conditionalsubscript𝑥1𝑐𝑝conditional𝑥0𝑐superscriptsubscript01div𝜓conditional𝑥𝑡𝑐\displaystyle\log p(x_{1}\mid c)-\log p(x(0)\mid c)=-\int_{0}^{1}\operatorname% {div}\,\psi(x(t)\mid c)~{}.roman_log italic_p ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ∣ italic_c ) - roman_log italic_p ( italic_x ( 0 ) ∣ italic_c ) = - ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT roman_div italic_ψ ( italic_x ( italic_t ) ∣ italic_c ) . (L)

したがって、以下のシステムを得る:

ddt[x(t)f(t)]=[ψ(x(t)c)divψ(x(t)c)]𝑑𝑑𝑡matrix𝑥𝑡𝑓𝑡matrix𝜓conditional𝑥𝑡𝑐div𝜓conditional𝑥𝑡𝑐\displaystyle\frac{d}{dt}\begin{bmatrix}x(t)\\ f(t)\end{bmatrix}=\begin{bmatrix}\psi(x(t)\mid c)\\ -\operatorname{div}\,\psi(x(t)\mid c)\end{bmatrix}divide start_ARG italic_d end_ARG start_ARG italic_d italic_t end_ARG [ start_ARG start_ROW start_CELL italic_x ( italic_t ) end_CELL end_ROW start_ROW start_CELL italic_f ( italic_t ) end_CELL end_ROW end_ARG ] = [ start_ARG start_ROW start_CELL italic_ψ ( italic_x ( italic_t ) ∣ italic_c ) end_CELL end_ROW start_ROW start_CELL - roman_div italic_ψ ( italic_x ( italic_t ) ∣ italic_c ) end_CELL end_ROW end_ARG ] (M)

初期条件は以下の通りである:

[x(0)f(0)]=[y0].matrix𝑥0𝑓0matrix𝑦0\displaystyle\begin{bmatrix}x(0)\\ f(0)\end{bmatrix}=\begin{bmatrix}y\\ 0\end{bmatrix}~{}.[ start_ARG start_ROW start_CELL italic_x ( 0 ) end_CELL end_ROW start_ROW start_CELL italic_f ( 0 ) end_CELL end_ROW end_ARG ] = [ start_ARG start_ROW start_CELL italic_y end_CELL end_ROW start_ROW start_CELL 0 end_CELL end_ROW end_ARG ] . (N)

ここで、軌道に沿った速度場の発散を蓄積する:f(t)=0tdivψ(x(t)c)𝑓𝑡superscriptsubscript0𝑡div𝜓conditional𝑥𝑡𝑐f(t)=\int_{0}^{t}\operatorname{div}\psi(x(t)\mid c)italic_f ( italic_t ) = ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT roman_div italic_ψ ( italic_x ( italic_t ) ∣ italic_c )したがって、f(0)=0𝑓00f(0)=0italic_f ( 0 ) = 0となる。 Mのシステムは、すべてのt[0,1]𝑡01t\in[0,1]italic_t ∈ [ 0 , 1 ]に対して唯一の解を持つ。 Oから以下が得られる:

logp(x0c)=logp(x(1)c)f(1).𝑝conditionalsubscript𝑥0𝑐𝑝conditional𝑥1𝑐𝑓1\displaystyle\log p(x_{0}\mid c)=\log p(x(1)\mid c)-f(1)~{}.roman_log italic_p ( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ∣ italic_c ) = roman_log italic_p ( italic_x ( 1 ) ∣ italic_c ) - italic_f ( 1 ) . (O)

確率logp(x(1)c)𝑝conditional𝑥1𝑐\log p(x(1)\mid c)roman_log italic_p ( italic_x ( 1 ) ∣ italic_c )は初期ノイズの分布によって直接与えられ、f(1)𝑓1f(1)italic_f ( 1 )f𝑓fitalic_fに対するt=1𝑡1t=1italic_t = 1におけるシステムの解である。

Extending Prop 1.

命題1は、リーマン流マッチングに拡張することができる。これは、ODEを反復的に解く際に、各ステップで球面上に反復を射影するだけである M
拡散モデルの場合、我々は速度場に直接アクセスすることはできない。しかし、Song よると [71, Section D.2]、以下の形式の確率微分方程式において:

dx=f(x,t)dt+G(x,t)dω𝑑𝑥𝑓𝑥𝑡𝑑𝑡𝐺𝑥𝑡𝑑𝜔dx=f(x,t)dt+G(x,t)d\omegaitalic_d italic_x = italic_f ( italic_x , italic_t ) italic_d italic_t + italic_G ( italic_x , italic_t ) italic_d italic_ω (P)

ここで dω𝑑𝜔d\omegaitalic_d italic_ω はウィーナー過程である [21]。速度場 Ψ(x,t)Ψ𝑥𝑡\Psi(x,t)roman_Ψ ( italic_x , italic_t ) は以下のように表現できる:

v(x,t)𝑣𝑥𝑡\displaystyle v(x,t)italic_v ( italic_x , italic_t ) =f(x,t)12[G(x,t)G(x,t)T]absent𝑓𝑥𝑡12delimited-[]𝐺𝑥𝑡𝐺superscript𝑥𝑡𝑇\displaystyle=f(x,t)-\frac{1}{2}\nabla\cdot[G(x,t)G(x,t)^{T}]= italic_f ( italic_x , italic_t ) - divide start_ARG 1 end_ARG start_ARG 2 end_ARG ∇ ⋅ [ italic_G ( italic_x , italic_t ) italic_G ( italic_x , italic_t ) start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT ]
12G(x,t)G(x,t)Tlogpt(xtx0,c)12𝐺𝑥𝑡𝐺superscript𝑥𝑡𝑇subscript𝑝𝑡conditionalsubscript𝑥𝑡subscript𝑥0𝑐\displaystyle\quad-\frac{1}{2}G(x,t)G(x,t)^{T}\nabla\log p_{t}(x_{t}\mid x_{0}% ,c)- divide start_ARG 1 end_ARG start_ARG 2 end_ARG italic_G ( italic_x , italic_t ) italic_G ( italic_x , italic_t ) start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT ∇ roman_log italic_p start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c ) (Q)

我々の場合、前方ノイズ過程を以下のように定義した:

xt=1κ(t)x0+κ(t)ϵ,ϵ𝒩(0,I).formulae-sequencesubscript𝑥𝑡1𝜅𝑡subscript𝑥0𝜅𝑡italic-ϵsimilar-toitalic-ϵ𝒩0𝐼x_{t}=\sqrt{1-\kappa(t)}x_{0}+\sqrt{\kappa(t)}\epsilon,\quad\epsilon\sim% \mathcal{N}(0,I)~{}.italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = square-root start_ARG 1 - italic_κ ( italic_t ) end_ARG italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + square-root start_ARG italic_κ ( italic_t ) end_ARG italic_ϵ , italic_ϵ ∼ caligraphic_N ( 0 , italic_I ) . (R)

これにより、以下を選択することになる:

f(x,t)𝑓𝑥𝑡\displaystyle f(x,t)italic_f ( italic_x , italic_t ) =12xβ(t)absent12𝑥𝛽𝑡\displaystyle=-\frac{1}{2}x\beta(t)= - divide start_ARG 1 end_ARG start_ARG 2 end_ARG italic_x italic_β ( italic_t ) (S)
G(x,t)𝐺𝑥𝑡\displaystyle G(x,t)italic_G ( italic_x , italic_t ) =β(t),absent𝛽𝑡\displaystyle=\sqrt{\beta(t)}~{},= square-root start_ARG italic_β ( italic_t ) end_ARG , (T)

ここで β(t)𝛽𝑡\beta(t)italic_β ( italic_t )xtsubscript𝑥𝑡x_{t}italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTt𝑡titalic_tt+δt𝑡𝛿𝑡t+\delta titalic_t + italic_δ italic_t の間の無限小の変化を表す: β(t)=xt+δtxt𝛽𝑡subscript𝑥𝑡𝛿𝑡subscript𝑥𝑡\beta(t)=x_{t+\delta t}-x_{t}italic_β ( italic_t ) = italic_x start_POSTSUBSCRIPT italic_t + italic_δ italic_t end_POSTSUBSCRIPT - italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT[71, Eq 29] によると、このプロセスは以下を生成する:

xt𝒩(x0e120tβ(s)𝑑s,(1e0tβ(s)𝑑s)I)similar-tosubscript𝑥𝑡𝒩subscript𝑥0superscript𝑒12superscriptsubscript0𝑡𝛽𝑠differential-d𝑠1superscript𝑒superscriptsubscript0𝑡𝛽𝑠differential-d𝑠𝐼x_{t}\sim\mathcal{N}\left(x_{0}e^{-\frac{1}{2}\int_{0}^{t}\beta(s)ds},\left(1-% e^{-\int_{0}^{t}\beta(s)ds}\right)I\right)italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∼ caligraphic_N ( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT italic_e start_POSTSUPERSCRIPT - divide start_ARG 1 end_ARG start_ARG 2 end_ARG ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT italic_β ( italic_s ) italic_d italic_s end_POSTSUPERSCRIPT , ( 1 - italic_e start_POSTSUPERSCRIPT - ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT italic_β ( italic_s ) italic_d italic_s end_POSTSUPERSCRIPT ) italic_I ) (U)

これは以下を意味する [70, X]

β(t)=dlog(κ(t))dt𝛽𝑡𝑑𝜅𝑡𝑑𝑡\beta(t)=\frac{d\log(\kappa(t))}{dt}italic_β ( italic_t ) = divide start_ARG italic_d roman_log ( italic_κ ( italic_t ) ) end_ARG start_ARG italic_d italic_t end_ARG (V)

最後に、logpt(xtx0,c)subscript𝑝𝑡conditionalsubscript𝑥𝑡subscript𝑥0𝑐\nabla\log p_{t}(x_{t}\mid x_{0},c)∇ roman_log italic_p start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∣ italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_c )ϵθ(xt,t,c)subscriptitalic-ϵ𝜃subscript𝑥𝑡𝑡𝑐-\epsilon_{\theta}(x_{t},t,c)- italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , italic_c ) に置き換えることができる Qにおいて、我々のモデルはデータに追加されたノイズを予測することを学習するためである。これにより、以下の速度場が得られる:

ψ(x,t)=12β(t)(xϵθ(x,t,c)).𝜓𝑥𝑡12𝛽𝑡𝑥subscriptitalic-ϵ𝜃𝑥𝑡𝑐\psi(x,t)=-\frac{1}{2}\beta(t)(x-\epsilon_{\theta}(x,t,c))~{}.italic_ψ ( italic_x , italic_t ) = - divide start_ARG 1 end_ARG start_ARG 2 end_ARG italic_β ( italic_t ) ( italic_x - italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x , italic_t , italic_c ) ) . (W)