Around the World in 80 Timesteps:
A Generative Approach to Global Visual Geolocation
Abstract
グローバルな視覚的ジオロケーションとは、地球上のどこで画像が撮影されたかを予測することである。すべての画像が同じ精度で位置特定できるわけではないため、この課題には本質的に曖昧さが伴う。しかし、既存のアプローチは決定論的であり、この側面を見過ごしている。本稿では、拡散とフローマッチングに基づく視覚的ジオロケーションのための最初の生成的アプローチと、リーマンフローマッチングへの拡張を提案する。この拡張では、ノイズ除去プロセスが地球の表面上で直接作用する。我々のモデルは、OpenStreetView-5M、YFCC-100M、iNat21の3つの視覚的ジオロケーションベンチマークで最先端の性能を達成している。さらに、我々は確率的視覚的ジオロケーションというタスクを導入する。このタスクでは、モデルが単一の点ではなく、可能なすべての位置に対する確率分布を予測する。我々はこのタスクのための新しい評価指標とベースラインを実装し、我々の生成的アプローチの利点を実証する。コードとモデルはこちらで入手可能である。
1 Introduction
「世界は縮小した。今日、我々は100年前の10倍の速さで世界を旅している。」
— 80日間世界一周、ジュール・ヴェルヌ
画像がどこで撮影されたかを知ることは、多くのアプリケーションにとって極めて重要であるが、ほとんどの画像には位置情報メタデータが欠如している[23]。考古学や文化遺産の分野では、位置データは歴史的遺物のカタログ化と解釈を助け[13, 67]、より良い保存と文脈的理解を可能にする。法医学や調査ジャーナリズムのような分野では、意図的に削除されたGPSデータを復元することが重要な意味を持つ可能性がある[3, 80]。例えば、ニュース画像の真正性の確認や、犯罪現場または行方不明者の最後の既知の位置の再構築などである。さらに、位置情報はマルチメディアアーカイブを効率的に検索できるよう整理するのに役立つ[55, 16]。これらのアプリケーションは、グローバルな視覚的位置特定という長年のコンピュータビジョンの課題を動機づけている。すなわち、画像の視覚的内容のみからその位置を推論することである[28, 76]。
Modeling Spatial Ambiguity.
図1に示されているように、画像を位置特定できる精度—その位置特定可能性 [2, 36]—は大きく異なる。特徴のない海岸はほぼどこでも撮影された可能性があるが、エッフェル塔のようなランドマークは数メートルの精度で位置を特定できる。中間的な場合、例えばカンガルーのクローズアップ写真では、オーストラリアまで絞り込むことはできるが、正確な位置を特定することは困難である。この本質的な曖昧性は、位置特定の手法や評価指標に反映されるべきである。しかし、既存のアプローチの大半は、回帰[2, 26]、分類[77, 11, 72]、または検索ベースの技術[56, 47, 76]を用いて決定論的な予測を行っており、画像の位置特定可能性の変動を考慮していない。
Generative Geolocation.
本稿では、拡散またはフローマッチングを用いて、画像特徴に基づいてランダムな位置を正確な推定値にデノイズする、グローバルな視覚的ジオロケーションに対する新しい生成的アプローチを提示する。 我々は、最近の多様体ベースのフローマッチング技術[9]を拡張し、デノイジングが地理座標上で直接動作するようにした。これにより、我々のモデルは画像の内容とその位置の関係を学習する際に、地球の球面幾何学を考慮することができる。さらに、我々はフローマッチングの密度推定に関する最近の発展[45]を我々の設定に拡張し、モデルが画像が与えられた任意の位置の尤度を計算し、その位置特定可能性の定量的な推定を提供できるようにした。
我々のアプローチは、3つの標準的な大規模データセット:OpenStreetView-5M[2]、iNat21[74]、YFCC-100M[1]において、最先端のジオロケーション手法よりも高い精度を達成している。さらに、我々は確率的視覚ジオロケーションというタスクを導入する。これは、モデルが単一の点ではなく、可能なすべての位置に対する確率分布を予測するものである。我々はこのタスクに対する新しい評価指標とベースラインを実装し、曖昧ではあるが情報量の多い視覚的手がかりを捉える上で、我々の生成的アプローチの利点を実証する。 我々の貢献は以下の通りである:
-
•
我々は、視覚的ジオロケーションに対する拡散およびリーマン多様体フローマッチング手法の最初の応用を導入する。これは、空間座標を直接デノイズし、多様体ベースの手法を用いて地球の球面幾何学を考慮するものである。
-
•
我々は最近の密度推定手法を我々のジオロケーション設定に拡張し、位置に関する条件付き分布をモデル化し、位置特定可能性を定量化する。
-
•
我々は、ジオロケーションにおける曖昧さをモデル化することで性能が向上することを実証し、3つの公開データセットで最先端の結果を達成する。
-
•
我々は、確率的視覚ジオロケーションのタスクを、関連する評価指標とベースラインとともに提案する。
2 Related Work
Global Visual Geolocation.
視覚的位置推定は、画像の地理的座標を予測することであり、大規模かつ未見の地域への汎用性に焦点を当てている[29]。既存の手法は、画像検索ベース、分類ベース、およびハイブリッドアプローチに分類される。検索ベースの手法は、手作業で設計された特徴[28, 56, 47]や深層特徴[76]を用いてデータベース内で最も類似した画像を見つけることで位置を特定するが、密なデータベースを必要とし、疎な環境や動的な環境では苦戦する可能性がある。分類ベースの手法は、地球を離散的なセルに分割し、例えば規則的なグリッド[77]、適応的なセル[11]、意味的な領域[72]、または行政境界[63, 26]を用いて、位置推定を分類タスクとして扱う。ハイブリッドアプローチは、離散化の問題を緩和するために分類と回帰[2]または検索を組み合わせ、対比損失[76, 39]やプロトタイプネットワーク[26]を採用している。 Izbicki ら[36]は、地球上のどこでも確率分布を予測するモデルを提案しているが、その性能評価は位置推定の観点からのみ行われている。
Uncertainty-Aware Localization.
Generative Models.
拡散モデルは生成モデリングにおいて変革をもたらす力として台頭し[32, 71, 69]、画像合成[64, 65]、動画生成[31, 61]、人間中心のタスク[12, 60]など、多様な応用分野で顕著な成功を示している。フローマッチングモデル[44]は、簡素化された学習目的関数を提供することでこの分野をさらに進展させた。最近の研究では、データ分布マニフォールド上で直接学習することも探求されている[10]。生成モデルは、特に還元不可能な不確実性を持つデータの取り扱いにおいて特別な頑健性を示している[54, 20, 46]。これらのモデルは識別タスクにも適応されてきたが[42]、従来の識別モデルとの性能差を埋めることは依然として活発な研究課題である。我々の研究では、生成モデルが基礎となるデータ分布のマニフォールドを学習することで位置情報特定タスクを効果的に取り扱うことができ、最終的に識別アプローチを上回る性能を達成できることを示している。
3 Method
我々はまず拡散ベースのアプローチを提示し(セクション 3.1)、それをリーマン流マッチング枠組みに拡張する(セクション 3.2)。これらの技術の違いの視覚的要約については図 2を参照されたい。次に、位置分布の予測方法について説明する(セクション 3.3)。最後に、セクション Cで実装の選択について詳述する。
Notations.
画像が与えられたとき、我々はそれが撮影された最も可能性の高い位置を予測することを目指す。より広く、我々は条件付き確率分布をモデル化する。ここで、は地球上のどの点でもよく、における単位球としてモデル化される。本稿を通じて、純粋なランダムノイズを、タイムステップにおけるノイズのある座標を、最適化するネットワークをと表記する。
3.1 Geographic Diffusion
本節では、画像ジオロケーションのための我々の拡散ベースの生成的アプローチについて説明する。 従来の拡散モデルは、データにガウスノイズを段階的に追加し、このノイズ付加プロセスを逆転させるニューラルネットワークを訓練する[32, 71]。訓練後、モデルは純粋なノイズから始めて反復的なノイズ除去を行うことで、新しいデータサンプルを生成できる。
我々の設定では、ユークリッド空間で操作を行う。ジオタグ付き画像のデータセットから座標-画像ペアが与えられたとき、真の座標にノイズを加え、画像を条件としてこのノイズを予測するニューラルネットワークを訓練する。これにより、視覚的コンテンツと地理的位置の関係を学習する。その後、未見の画像の位置を、ランダムな初期座標から反復的にノイズを除去することで予測できる。
Training.
我々はから座標-画像ペアをサンプリングし、からランダムな座標をサンプリングする。ここではにおける単位行列である。拡散時間ステップを表す時間変数をランダムに選択し、およびを持つスケジューリング関数を使用して、座標に追加されるノイズレベルを制御する。ノイズの加えられた座標は以下のように定義される:
(1) |
我々のネットワークは、ノイズの加えられた座標、ノイズレベル、および画像埋め込みを入力として受け取り、対応する純粋なノイズを予測することが課題となる。表記を簡単にするため、本稿の残りの部分ではのに対する条件付き依存性を省略する。モデルは以下の拡散損失関数を最小化するように訓練される:
(2) |
ここで、期待値は、、および、上の一様分布に対するものである。
| 拡散 フローマッチング リーマンフローマッチング : ノイズスケジューラ |
Inference.
新しい画像の可能性の高い位置を
フロー・マッチングは、性能と汎用性を向上させた拡散モデルの一般化である[45]。我々はこの設定に我々のアプローチを拡張し、リーマンフロー・マッチングを活用して球面上で直接作業を行う。各設定において、我々のネットワークを引き続きと表記するが、代替的なノイズ付加プロセス(式 1)、損失関数(式 2)、およびノイズ除去手順(式 3)を再定義する。 フロー・マッチングでは、真の座標からランダムノイズへのマッピングを定義する: これは以下の速度場を定義する: ここではのに関する導関数である。
我々はモデルを訓練して、画像を条件として、この速度場を予測させる: ここで期待値は式 1と同じ分布に対して取られる。
推論時には、ランダムな座標から初期化された常微分方程式(ODE)を解き、予測された速度場を用いてからまで後方に積分する: 積分の終了時に、を球面に射影する。 我々のデータは球面上にあるため、フロー・マッチングプロセスをこの多様体に制約するのは自然である。リーマンフロー・マッチングアプローチ[9]はフロー・マッチングをリーマン多様体に拡張し、3つの条件を要求する:
(i) すべての真の座標が上にある、
(ii) ノイズサンプルが上にある、
そして
(iii) ノイズが付加された座標が上に留まる。 条件(i)は、我々が地球表面の座標を扱っているため自然に満たされる。条件(ii)については、を上で一様にランダムにサンプリングする。拡散モデルとは異なり、フロー・マッチングではノイズ分布がガウス分布である必要はない。
条件(iii)については、真の座標とノイズサンプル間の測地線に沿って、によってパラメータ化されたノイズが付加された座標を定義する: ここではの点をにおける接空間に写す対数写像であり、は接ベクトルを多様体に戻す指数写像である(詳細な表現については付録を参照)。
このパラメータ化は、の接空間上で定義された速度場を誘導する: ここではにおける接ベクトルで、からへの測地線に沿って指し示し、その大きさはと間の測地線距離に等しい。
我々はモデルを訓練して、この速度場を近似させるために以下を最小化する: ここで、 、そしてはにおける接空間上のリーマン計量によって誘導されるノルムを表す。
推論時には、ランダムな点から始まり、からまで後方に積分するODEを解く。その際、予測された速度を使用し、各ステップで反復を多様体上に射影する: これにより、軌道が積分プロセス全体を通じて球面上に留まることが保証される。 我々のモデルの精度を向上させるためにガイダンスを組み込み、画像に対する位置の空間分布を計算することができる。 我々は分類器フリーガイダンスの考え方[34]を我々の設定に適応させる。ネットワークを、条件付き分布と無条件分布の両方を学習するように訓練する。これは、訓練サンプルの一部(例えば10%)について、画像による条件付けをランダムに除外することで行う。推論時には、式 3、8、および12のODEにおけるを、以下のように定義されるに置き換える: ここで、は条件付けなしの予測であり、はガイダンススケールである。ガイダンススケールは標準的なアプローチに対応し、の値が大きくなるほど条件付けの重要性が増し、より鋭い分布が得られる。
ガイダンススケールの変更にはモデルの再訓練は必要ないことに注意されたい。 の訓練後、画像に対応する任意の座標の尤度を計算することができる。ここでは、最も直接的なユークリッドフローマッチング設定での導出を提供する。我々の導出は[45, Appendix C]に触発されており、対数質量保存定理[4, 75]に依拠している。詳細は付録に記載する。 位置と画像が与えられたとき、からまでについて以下の常微分方程式系を解くことを考える: すると、が与えられた時のの対数確率密度は以下のようになる:
ここで、は純粋なノイズの既知の分布であり、は軌道に沿った速度場の負の発散を累積したものである。 本稿では、全ての実装で共通するスケジューラとモデルアーキテクチャの選択について詳述する。 我々は、ノイズ付加プロセスの初期段階、すなわち座標が真の位置に近い状態により多くの時間を割り当てるスケジューラ でより良い結果を観察した。我々の直感では、これによりネットワークが容易な大陸レベルの情報ではなく、画像内の細かな位置手がかりの学習に集中することを促進する。図 4に示すように、我々は を歪んだシグモイド関数として設定した: ここで はシグモイド関数であり、 はシグモイドの歪みを制御する。実際には、我々は および を使用する。 全ての手法で使用されるネットワーク は、現在のノイズのある座標 、画像 の埋め込み、および現在のノイズレベル を入力として受け取る の残差ブロックで構成される。画像 は、事前学習済みで固定された画像エンコーダ を使用して 次元のベクトルに埋め込まれる。さらに、細かな時間情報を捉えるために の 次元フーリエ特徴量を計算する。 の各ブロックは、DiTモデル [59] と同様のアーキテクチャに従い、GELU活性化関数 [30] を持つ多層パーセプトロン(MLP)で構成される。我々は、適応的層正規化(AdaLN)を用いて条件付けに従って座標埋め込みを変調する。ネットワークは、AdaLN層と予測されたノイズを出力する線形層で終了する。詳細については付録を参照されたい。
3.2 Extension to Riemannian Flow Matching
Flow Matching in .
(5)
(6)
(7)
(8)
Riemannian Flow Matching on the Sphere.
(9)
(10)
(11)
(12)
3.3 Guidance and Density Prediction
Guided Geolocation.
(13)
Predicting Distributions.
Proposition 1.
(14)
3.4 Implementation
Scheduler.
(15)
Model Architecture.
OSV-5M [2]
iNat21 [74]
geos.
dist
accuracy (in %)
dist
/5000
(km)
country
region
city
(km)
deterministic
SC 0-shot [25]
2273
2854
38.4
20.8
14.8
Regression [2]
3028
1481
56.5
16.3
0.7
ISNs [52]
3331
2308
66.8
39.4
4.2
Hybrid [2]
3361
1814
68.0
39.4
5.9
SC Retrieval [25]
3597
1386
73.4
45.8
19.9
generative
Uniform
131
10052
2.4
0.1
0.0
10,010
vMF
2776
2439
52.7
17.2
0.6
6270
vMFMix [36]
1746
5662
34.2
11.1
0.3
4701
Diff (ours)
3762
1123
75.9
40.9
3.6
3057
FM (ours)
3688
1149
74.9
40.0
4.2
2942
RFM (ours)
3767
1069
76.2
44.2
5.4
2500
YFCC-4k [1, 76]
geos.
dist
accuracy (in %)
/5000
(km)
25km
200km
750km
2500km
deterministic
PlaNet [77]
14.3
22.2
36.4
55.8
CPlaNet [66]
14.8
21.9
36.4
55.5
ISNs [52]
16.5
24.2
37.5
54.9
Translocator [63]
18.6
27.0
41.1
60.4
GeoDecoder [11]
24.4
33.9
50.0
68.7
PIGEON [26]
24.4
40.6
62.2
77.7
generative
Uniform
131.2
10052
0.0
0.0
0.3
3.8
vMF
1847
3563
4.8
15.0
30.9
53.4
vMFMix [36]
1356
4394
0.4
8.8
20.9
41.0
Diff (ours)
2845
2461
11.1
37.7
54.7
71.9
FM (ours)
2838
2514
22.1
35.0
53.2
73.1
RFM (ours)
2889
2461
23.7
36.4
54.5
73.6
RFM (ours)
3210
2058
33.5
45.3
61.1
77.7
4 Experiments
我々は、グローバル視覚的ジオロケーションと確率的視覚的ジオロケーションという2つのタスクでモデルを評価する。最初のタスクでは、モデルが画像が撮影された最も可能性の高い場所を予測し(セクション 4.1)、2番目のタスクでは、モデルがすべての可能な場所に対する分布を推定する(セクション 4.2)。確率的視覚的ジオロケーションは新しいタスクであるため、評価のための新しい指標とベースラインを導入する。
我々は、ジオタグ付き画像の3つのデータセットを考慮する:
Baselines.
我々は結果を文脈化するために、いくつかの生成的ベースラインを実装する:
-
•
一様分布。 このベースラインは地球上のどの点にも一定の密度確率 ステラジアン-1を割り当てる。
- •
-
•
vMFの混合 [36]。 多峰性分布を扱うために、モデルを拡張して 個のvMF分布の混合(vMFMix)を予測する。混合重み と 、および分布パラメータ を用いる。損失は以下のように定義される:
(17)
Model Parameterization.
我々は3つの生成アプローチを評価する:における拡散とフローマッチング(Diff およびFM )、そして球面上のリーマンフローマッチング(RFM )である。すべてのモデルとベースラインは、評価対象のデータセットの訓練セットで訓練される。すべてのモデルは100万回の反復で訓練されるが、RFM は1000万回の反復を行う。
4.1 Visual Geolocation Performance
OSV-5M | YFCC | iNat21 | |||||
NLL | NLL | NLL | precision | recall | density | coverage | |
Uniform | 1.22 | 1.22 | 1.22 | 0.58 | 0.98 | 0.38 | 0.22 |
vMF Regression | 10.13 | 0.01 | 1.99 | 0.52 | 0.98 | 0.37 | 0.24 |
vMFMix | 0.06 | -0.04 | -0.23 | 0.63 | 0.98 | 0.47 | 0.29 |
RFlowMatch (ours) | -1.51 | -3.71 | -1.94 | 0.88 | 0.95 | 0.78 | 0.59 |
Diffusion (ours) | 0.58 | 0.63 | 0.68 | 0.76 | 0.98 | 0.60 | 0.44 |
FlowMatch (ours) | -5.01 | -7.15 | -4.00 | 0.76 | 0.97 | 0.61 | 0.47 |
我々はまず、画像が撮影された場所を予測する我々のモデルの能力を評価し、その性能を既存の文献からのジオロケーション手法と比較する。
Metrics.
我々は以下のジオロケーション指標を使用し、テストセット全体で平均化する:
-
•
距離: 真の位置と予測された位置の間のハバーサイン距離(km単位)。
-
•
GeoScore: GeoGuessrゲームにインスパイアされたスコアで、 [26]と定義される。ここではハバーサイン距離である。このスコアはからの範囲で、高いスコアはより良い精度を示す。
-
•
精度:正しい国、地域、都市、または真の位置から一定の距離内に予測が落ちる割合。
Results.
表1は、我々のモデルを確立されたジオロケーション手法(分類、回帰、検索ベースのアプローチを含む)と比較している。また、セクション 4.2で導入した我々独自の生成ベースラインとも比較している。3つのデータセットすべてにおいて、我々のモデルは最先端のジオロケーション性能を達成し、判別的手法だけでなく、数百万枚の画像データベースに依存する検索ベースのアプローチも上回っている。
大規模なYFCCデータセットでは、我々の最良のモデル(RFM )の訓練を900万イテレーションまで延長すると、一貫した改善が見られる。全体として、我々の生成的アプローチは、検索やプロトタイプに基づかないすべての手法を大幅に上回っている。Astruc ら [2]の特殊なハイブリッドアプローチと比較して、我々はGeoScoreを406ポイント増加させ、平均距離を745 km削減し、国レベルの精度を8.2%改善している。我々の手法は様々なスケール(国レベルから25 kmまで)で優れた結果を示しているが、検索ベースの技術は、その広範な画像データベースのおかげで、非常に細かい解像度でも優位性を維持している。
生成的戦略の中では、フローマッチングが一貫して拡散を上回り、球面上のリーマン変種がユークリッド対応を上回っており、地球の幾何学をモデルに組み込むことの利点が強調されている。単一成分のvMFモデルは判別的回帰ベースラインと同様の性能を示しており、これは球面上の単一方向を予測することが本質的に位置回帰であるという事実と一致している。対照的に、vMF分布の混合はトレーニングセットに過適合し、より弱い性能につながっている。
Analysis.
図5では、タイムステップ数がRFMモデルの性能に与える影響を表している。GeoScoreは591(1ステップ)から3744(16ステップ)まで改善し、その後3746付近で横ばいになる。同様に、国レベルの精度は9.4%から76%に、都市レベルの精度は0.02%から4.8%に増加する。これは、反復的な改良が一定のポイントまで我々のモデルに利益をもたらし、その後追加のステップは収穫逓減をもたらすことを示している。
4.2 Probabilistic Visual Geolocation
単一の位置を予測するだけでなく、我々のモデルは全ての可能な位置に対する分布を推定し、視覚的ジオロケーションに内在する不確実性を捉えることができる。
Metrics.
我々は、予測された分布 の品質を評価する。ここで、 は画像であり、 は地球表面上のあらゆる位置を表す。以下の指標を用いる:
-
•
負の対数尤度 (NLL): 予測された分布下での真の位置の次元あたりの平均負対数尤度を計算する([9, F]を参照):
(18) ここで、 はテストセットにおける真の位置と画像のペアである。この指標は、予測された分布が真の位置とどの程度一致しているかを定量化する。
- •
- •
Results.
表2は、確率的視覚ジオロケーションタスクにおける全モデルの性能を報告している。我々のモデルは、ベースラインよりも有意に低いNLLを達成しており、予測された分布がテスト画像の位置とより一致していることを明確に示している。と球面上で定義されたモデルの尤度を、異なる基礎的な指標のため直接比較することはできないが、で行われたフローマッチングが拡散よりも良いNLLをもたらすことを観察している。vMF分布の混合は、全ての指標において単一のvMFモデルを改善している。これは、混合がジオロケーションの精度を向上させない可能性がある一方で、タスクに内在する曖昧さをより良く捉えている可能性があることを示している。多くの画像は、例えばアイルランド対ニュージーランドのように、複数の合理的な推測を持つ多峰性の分布を持っているためである。
生成指標に関しては、我々のリーマンフローマッチングモデルは全てのベースラインとで動作するモデルを上回っており、地球表面上の分布をモデル化することの有効性を示している。 我々は、リーマンフローマッチングアプローチがより良い性能をもたらすと仮説を立てている。なぜなら、結果が生成プロセスによって直接出力されるからである。これに対し、では生成プロセスの出力をに投影する必要があり、微妙な誤差が加わる可能性がある。
Localizability.
図6は、リーマンフローマッチングアプローチによって予測された分布の負のエントロピーで測定された、低、中、高の位置特定可能性を持つ画像の例を示している。 モデルは、道路標識(a)や植生(d)などの微妙な手がかりを検出し、ストリートビュー画像を比較的高い信頼度で位置特定することができる。 しかし、インドの田舎道(g)は位置特定可能性スコアが低く、国内のどこでも撮影された可能性がある。 動物の画像(b,e,h)の位置特定可能性は、人間中心やストリートビューの画像よりも低く、描かれている種の希少性と相関している。 印象的なことに、エッフェル塔の写真(c)のように、メートル単位の精度で位置を特定できる画像もある。NFLスタジアム内で撮影された画像(f)
5 Conclusion
我々は、拡散モデルと地球表面上のリーマン流マッチングに基づく、グローバルな視覚的ジオロケーションのための新しい生成的アプローチを導入した。我々の手法は、画像のジオロケーションに内在する曖昧性を効果的に捉えている—これは決定論的モデルではしばしば見過ごされる側面である。3つの標準的なベンチマークでの実験により、最先端のジオロケーション性能が実証された。さらに、我々は確率的視覚ジオロケーションのタスクを、そのメトリクスとベースラインとともに導入した。我々の生成的アプローチは、高い曖昧性にもかかわらず、データにより適合する確率分布を予測する。我々のアプローチは、特に曖昧または不明確な位置の手がかりを含む画像を扱うアプリケーションにおいて価値がある。これらは従来の手法では意味のある予測を提供するのが困難な場合である。
6 Acknowledgements
本研究はANRプロジェクトTOSAI ANR-20-IADJ-0009の支援を受けており、GENCIによる割り当て2024-AD011015664のもとでIDRISのHPCリソースへのアクセスを許可された。我々は、有益なフィードバックを提供してくれたJulie Mordacq、Elliot Vincent、およびYohann Perronに感謝の意を表する。
References
- [1] YFCC100m. {https://gitlab.com/jfolz/yfcc100m}, accessed: 2023-10-10
- [2] Astruc, G., Dufour, N., Siglidis, I., Aronssohn, C., Bouia, N., Fu, S., Loiseau, R., Nguyen, V.N., Raude, C., Vincent, E., et al.: OpenStreetView-5M: The many roads to global visual geolocation. In: CVPR (2024)
- [3] Bamigbade, O., Sheppard, J., Scanlon, M.: Computer vision for multimedia geolocation in human trafficking investigation: A systematic literature review. In: arXiv preprint arXiv:2402.15448 (2024)
- [4] Ben-Hamu, H., Cohen, S., Bose, J., Amos, B., Nickel, M., Grover, A., Chen, R.T., Lipman, Y.: Matching normalizing flows and probability paths on manifolds. In: ICML (2022)
- [5] Berry, L., Brando, A., Meger, D.: Shedding light on large generative networks: Estimating epistemic uncertainty in diffusion models. In: UAI (2024)
- [6] Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., et al.: Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127 (2023)
- [7] Butcher, J.: Runge-Kutta methods for ordinary differential equations. Numerical Analysis and Optimization (2015)
- [8] Chen, R.T.Q.: torchdiffeq (2018), https://github.com/rtqichen/torchdiffeq
- [9] Chen, R.T., Lipman, Y.: Riemannian flow matching on general geometries. In: ICLR (2024)
- [10] Chen, R.T., Lipman, Y.: Riemannian flow matching on general geometries. In: ICLR (2024)
- [11] Clark, B., Kerrigan, A., Kulkarni, P.P., Cepeda, V.V., Shah, M.: Where we are and what we’re looking at: Query based worldwide image geo-localization using hierarchies and scenes. In: CVPR (2023)
- [12] Courant, R., Dufour, N., Wang, X., Christie, M., Kalogeiton, V.: ET the exceptional trajectories: Text-to-camera-trajectory generation with character awareness. In: ECCV (2024)
- [13] Daoud, M., Huang, J.X.: Mining query-driven contexts for geographic and temporal search. International Journal of Geographical Information Science (2013)
- [14] Darcet, T., Oquab, M., Mairal, J., Bojanowski, P.: Vision transformers need registers. ICLR (2024)
- [15] Dellaert, F., Fox, D., Burgard, W., Thrun, S.: Monte Carlo localization for mobile robots. In: ICRA (1999)
- [16] DeLozier, G., Wing, B., Baldridge, J., Nesbit, S.: Creating a novel geolocation corpus from historical texts. In: ACL Linguistic Annotation Workshop (2016)
- [17] Deng, H., Bui, M., Navab, N., Guibas, L., Ilic, S., Birdal, T.: Deep Bingham networks: Dealing with uncertainty and ambiguity in pose estimation. International Journal of Computer Vision (2022)
- [18] Dormand, J.R., Prince, P.J.: A family of embedded Runge-Kutta formulae. Journal of computational and applied mathematics (1980)
- [19] Dosovitskiy, A.: An image is worth 16x16 words: Transformers for image recognition at scale. ICLR (2021)
- [20] Dufour, N., Besnier, V., Kalogeiton, V., Picard, D.: Don’t drop your samples! Coherence-aware training benefits conditional diffusion. In: CVPR (2024)
- [21] Durrett, R., Durrett, R.: Probability: Theory and examples. Cambridge university press (2019)
- [22] Fisher, R.A.: Dispersion on a sphere. Proceedings of the Royal Society of London. Series A. Mathematical and Physical Sciences (1953)
- [23] Flatow, D., Naaman, M., Xie, K.E., Volkovich, Y., Kanza, Y.: On the accuracy of hyper-local geotagging of social media content. In: International Conference on Web Search and Data Mining (2015)
- [24] Grathwohl, W., Chen, R.T., Bettencourt, J., Sutskever, I., Duvenaud, D.: FFJORD: Free-form continuous dynamics for scalable reversible generative models. In: ICLR (2019)
- [25] Haas, L., Alberti, S., Skreta, M.: Learning generalized zero-shot learners for open-domain image geolocalization. In: arXiv preprint arXiv:2302.00275 (2023)
- [26] Haas, L., Alberti, S., Skreta, M.: PIGEON: Predicting image geolocations. In: CVPR (2023)
- [27] Hasnat, M.A., Bohné, J., Milgram, J., Gentric, S., Chen, L.: von Mises-Fisher mixture model-based deep learning: Application to face verification. In: arXiv preprint arXiv:1706.04264 (2017)
- [28] Hays, J., Efros, A.A.: Im2GPSs: Estimating geographic information from a single image. In: CVPR (2008)
- [29] Hays, J., Efros, A.A.: Large-scale image geolocalization. Multimodal location estimation of videos and images (2015)
- [30] Hendrycks, D., Gimpel, K.: Gaussian error linear units (Gelus). In: arXiv preprint arXiv:1606.08415 (2016)
- [31] Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., Kingma, D.P., Poole, B., Norouzi, M., Fleet, D.J., et al.: Imagen video: High definition video generation with diffusion models. arXiv (2022)
- [32] Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. In: NeurIPS (2020)
- [33] Ho, J., Saharia, C., Chan, W., Fleet, D.J., Norouzi, M., Salimans, T.: Cascaded diffusion models for high fidelity image generation. Journal of Machine Learning Research (2022)
- [34] Ho, J., Salimans, T.: Classifier-free diffusion guidance. In: NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications (2021)
- [35] Huang, B., Yu, W., Xie, R., Xiao, J., Huang, J.: Two-stage denoising diffusion model for source localization in graph inverse problems. In: ECML-PKDD. Springer (2023)
- [36] Izbicki, M., Papalexakis, E.E., Tsotras, V.J.: Exploiting the Earth’s spherical geometry to geolocate images. In: MLKDD (2020)
- [37] Kendall, A., Cipolla, R.: Modelling uncertainty in deep learning for camera relocalization. In: ICRA (2016)
- [38] Kendall, A., Gal, Y.: What uncertainties do we need in bayesian deep learning for computer vision? In: NeurIPS (2017)
- [39] Kordopatis-Zilos, G., Galopoulos, P., Papadopoulos, S., Kompatsiaris, I.: Leveraging EfficientNet and contrastive learning for accurate global-scale location estimation. In: International Conference on Multimedia Retrieval (2021)
- [40] Kynkäänniemi, T., Karras, T., Laine, S., Lehtinen, J., Aila, T.: Improved precision and recall metric for assessing generative models. NeurIPS (2019)
- [41] Levinson, J., Thrun, S.: Robust vehicle localization in urban environments using probabilistic maps. In: ICRA (2010)
- [42] Li, A.C., Prabhudesai, M., Duggal, S., Brown, E., Pathak, D.: Your diffusion model is secretly a zero-shot classifier. In: CVPR (2023)
- [43] Li, W., Yang, Y., Yu, S., Hu, G., Wen, C., Cheng, M., Wang, C.: Diffloc: Diffusion model for outdoor lidar localization. In: CVPR (2024)
- [44] Lipman, Y., Chen, R.T., Ben-Hamu, H., Nickel, M., Le, M.: Flow matching for generative modeling. In: ICLR (2023)
- [45] Lipman, Y., Chen, R.T., Ben-Hamu, H., Nickel, M., Le, M.: Flow matching for generative modeling. In: The Eleventh International Conference on Learning Representations (2024)
- [46] Mackowiak, R., Ardizzone, L., Kothe, U., Rother, C.: Generative classifiers as a basis for trustworthy image classification. In: CVPR (2021)
- [47] Martin, D., Fowlkes, C., Tal, D., Malik, J.: A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In: ICCV (2001)
- [48] Merrill, N., Guo, Y., Zuo, X., Huang, X., Leutenegger, S., Peng, X., Ren, L., Huang, G.: Symmetry and uncertainty-aware object SLAM for 6DOF object pose estimation. In: CVPR (2022)
- [49] Metropolis, N., Ulam, S.: The Monte Carlo method. Journal of the American statistical association (1949)
- [50] Mittal, G., Engel, J., Hawthorne, C., Simon, I.: Symbolic music generation with diffusion models. ISMIR (2021)
- [51] Mullane, J., Vo, B.N., Adams, M.D., Vo, B.T.: A random-finite-set approach to Bayesian SLAM. IEEE transactions on robotics (2011)
- [52] Muller-Budack, E., Pustu-Iren, K., Ewerth, R.: Geolocation estimation of photos using a hierarchical model and scene classification. In: ECCV (2018)
- [53] Naeem, M.F., Oh, S.J., Uh, Y., Choi, Y., Yoo, J.: Reliable fidelity and diversity metrics for generative models. In: ICML (2020)
- [54] Nicolas Dufour, David Picard, V.K.: SCAM! Transferring humans between images with semantic cross attention modulation. In: ECCV (2022)
- [55] Nikolaidou, K., Seuret, M., Mokayed, H., Liwicki, M.: A survey of historical document image datasets. International Journal on Document Analysis and Recognition (2022)
- [56] Oliva, A., Torralba, A.: Building the gist of a scene: The role of global image features in recognition. Progress in brain research (2006)
- [57] Oquab, M., Darcet, T., Moutakanni, T., Vo, H.V., Szafraniec, M., Khalidov, V., Fernandez, P., HAZIZA, D., Massa, F., El-Nouby, A., et al.: DINOv2: Learning robust visual features without supervision. TMLR
- [58] Pavlakos, G., Zhou, X., Derpanis, K.G., Daniilidis, K.: Coarse-to-fine volumetric prediction for single-image 3D human pose. In: CVPR (2017)
- [59] Peebles, W., Xie, S.: Scalable diffusion models with transformers. In: ICCV (2023)
- [60] Petrovich, M., Litany, O., Iqbal, U., Black, M.J., Varol, G., Peng, X.B., Rempe, D.: Multi-track timeline control for text-driven 3D human motion generation. In: CVPR Workshop on Human Motion Generation (2024)
- [61] Polyak, A., Zohar, A., Brown, A., Tjandra, A., Sinha, A., Lee, A., Vyas, A., Shi, B., Ma, C.Y., Chuang, C.Y., et al.: Movie Gen: A cast of media foundation models. arXiv (2024)
- [62] Popov, V., Vovk, I., Gogoryan, V., Sadekova, T., Kudinov, M.: Grad-TTS: A diffusion probabilistic model for text-to-speech. In: ICML. PMLR (2021)
- [63] Pramanick, S., Nowara, E.M., Gleason, J., Castillo, C.D., Chellappa, R.: Where in the world is this image? Transformer-based geo-localization in the wild. In: ECCV (2022)
- [64] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: CVPR (2022)
- [65] Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E.L., Ghasemipour, K., Gontijo Lopes, R., Karagol Ayan, B., Salimans, T., et al.: Photorealistic text-to-image diffusion models with deep language understanding. In: NeurIPS (2022)
- [66] Seo, P.H., Weyand, T., Sim, J., Han, B.: Cplanet: Enhancing image geolocalization by combinatorial partitioning of maps. In: ECCV (2018)
- [67] Smith, D.A., Crane, G.: Disambiguating geographic names in a historical digital library. In: International Conference on Theory and Practice of Digital Libraries. Springer Berlin Heidelberg, Berlin, Heidelberg (2001)
- [68] Sommer, S., Fletcher, T., Pennec, X.: Introduction to differential and riemannian geometry. In: Riemannian Geometric Statistics in Medical Image Analysis. Elsevier (2020)
- [69] Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. In: ICLR (2021)
- [70] Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. In: ICLR (2021)
- [71] Song, Y., Sohl-Dickstein, J., Kingma, D.P., Kumar, A., Ermon, S., Poole, B.: Score-based generative modeling through stochastic differential equations. In: ICLR (2021)
- [72] Theiner, J., Müller-Budack, E., Ewerth, R.: Interpretable semantic photo geolocation. In: WACV (2022)
- [73] Tompson, J.J., Jain, A., LeCun, Y., Bregler, C.: Joint training of a convolutional network and a graphical model for human pose estimation. In: NeurIPS (2014)
- [74] Van Horn, G., Cole, E., Beery, S., Wilber, K., Belongie, S., Mac Aodha, O.: Benchmarking representation learning for natural world image collections. In: CVPR (2021)
- [75] Villani, C.: Optimal transport: Old and new. Berlin: Springer (2009)
- [76] Vo, N., Jacobs, N., Hays, J.: Revisiting IMG2GPS in the deep learning era. In: ICCV (2017)
- [77] Weyand, T., Kostrikov, I., Philbin, J.: Planet-photo geolocation with convolutional neural networks. In: ECCV (2016)
- [78] Wolleb, J., Sandkühler, R., Bieder, F., Valmaggia, P., Cattin, P.C.: Diffusion models for implicit image segmentation ensembles. In: International Conference on Medical Imaging with Deep Learning. PMLR (2022)
- [79] Xu, L., Qu, H., Cai, Y., Liu, J.: 6D-diff: A keypoint diffusion framework for 6d object pose estimation. In: CVPR (2024)
- [80] Yokota, R., Hawai, Y., Tsuchiya, K., Imoto, D., Hirabayashi, M., Akiba, N., Kakuda, H., Tanabe, K., Honma, M., Kurosawa, K.: A revisited visual-based geolocalization framework for forensic investigation support tools. Forensic Science International: Digital Investigation (2020)
- [81] You, Y., Li, J., Reddi, S., Hseu, J., Kumar, S., Bhojanapalli, S., Song, X., Demmel, J., Keutzer, K., Hsieh, C.J.: Large batch optimization for deep learning: Training bert in 76 minutes. ICLR (2020)
- [82] Zangeneh, F., Bruns, L., Dekel, A., Pieropan, A., Jensfelt, P.: A probabilistic framework for visual localization in ambiguous scenes. In: ICRA (2023)
A Ablation Study
我々はリーマン流マッチングアプローチに対してアブレーション実験を行い、設計上の選択の影響を評価し、その結果を表 Aに報告する。
-
•
ガイド付きサンプリング。 ガイド付きサンプリングはgeoscoreを改善するが、本稿の図7に示されているように、過度に自信のある予測のため、尤度スコアが低下する。
-
•
ガイドなしの単一サンプリング。 我々はガイダンスを追加しない(式13の)。geoscoreが182ポイント低下する(3485対3767)が、NLLは改善される(-1.8対33.1)ことを観察した。ガイダンスは位置特定性能を向上させるが、確率的予測を著しく悪化させる。
-
•
アンサンブルサンプリング。 32個のランダムな点をサンプリングおよびデノイズし、最も尤度の高い予測を選択する。このアプローチは分布推定メトリクスにおいて最高の性能を示すが、複数のサンプルを生成し評価する必要があるため、計算コストが著しく高くなる。実際には、画像あたりの予測時間が約2ミリ秒から72ミリ秒に増加する。
-
•
標準シグモイドスケジューラ。 本稿の式15で定義された我々の提案スケジューラを、およびを用いた標準の非歪みシグモイドスケジューラに置き換える。この変更はgeoscoreを向上させるが、生成メトリクスで測定される予測密度の品質を低下させる。標準シグモイドは拡散過程の初期段階(が0に近い:低ノイズ領域)に十分な重点を置かず、これは詳細な位置特定に重要である。
-
•
線形シグモイドスケジューラ。 本稿の式15で定義された我々の提案スケジューラを線形スケジューラに置き換える。この変更はgeoscoreと予測密度の品質の両方を低下させる。
Geoscore | NLL | precision | recall | density | coverage | |
---|---|---|---|---|---|---|
Guided sampling | 3746.79 | 33.1 | 0.841 | 0.896 | 0.797 | 0.590 |
Single sampling | 3485.88 | -1.81 | 0.844 | 0.924 | 0.790 | 0.560 |
Ensemble sampling | 3588.25 | -4.31 | 0.899 | 0.785 | 0.881 | 0.537 |
Linear sigmoid | 3734.84 | -1.28 | 0.775 | 0.931 | 0.687 | 0.536 |
Standard sigmoid | 3767.21 | -1.51 | 0.827 | 0.913 | 0.765 | 0.565 |
OSV-5M | YFCC | |||||||
precision | recall | density | coverage | precision | recall | density | coverage | |
Uniform | 0.29 | 0.98 | 0.21 | 0.21 | 0.59 | 0.99 | 0.38 | 0.22 |
vMF Regression | 0.598 | 0.982 | 0.499 | 0.446 | 0.667 | 0.993 | 0.542 | 0.599 |
vMF Mixture | 0.513 | 0.980 | 0.422 | 0.358 | 0.626 | 0.988 | 0.474 | 0.498 |
RFlowMatch (ours) | 0.841 | 0.896 | 0.797 | 0.590 | 0.957 | 0.952 | 1.060 | 0.926 |
Diffusion (ours) | 0.822 | 0.916 | 0.752 | 0.568 | 0.938 | 0.959 | 0.959 | 0.837 |
FlowMatch (ours) | 0.845 | 0.907 | 0.799 | 0.575 | 0.953 | 0.959 | 1.037 | 0.920 |
B Qualitative Illustration
Qualitative Illustrations.
我々のネットワークの詳細な説明を図 Aに示す。パラメトリックな手法であるvMFとvMF混合が高度に多峰性の分布を捉えられないことが観察される。対照的に、我々の分布はノンパラメトリックであり、非常に複雑な空間分布を予測することができる。vMF混合は単一のvMFに収束しており、これは予測の大部分で観察された。
両方のフローマッチング手法が視覚的に近い結果を与えることが観察される。ただし、両モデルは同じ計量空間に埋め込まれていないため、尤度の値は比較できないことに注意されたい。表 Bに詳述されている生成メトリクスは、リーマンモデルがより細かいスケールで無条件分布によく適合することを示している。
Detailed Quantitative Results.
OSV-5MとYFCCデータセットの完全な生成メトリクスを表 Bに示す。本稿の主要部分でiNat21について観察したのと同様に、フローマッチング、特にリーマンフローマッチングが、サンプルの最も忠実な予測分布をもたらす。
C Implementation Details
Baseline Details.
我々は、全てのベースラインにおいて、我々のモデルと同じバックボーンと画像エンコーダーを使用している。これらをベースラインに適応させるために、以下の2つの修正を行った: (i) 欠落している入力(ノイズのある座標とスケジューラー)を学習可能なパラメータで置き換えた。 (ii) 最終的な予測ヘッドを、von Mises-Fisher (vMF) 分布のパラメータを予測するMLPに置き換えた:平均方向 ( 正規化を使用)と集中パラメータ (ソフトプラス活性化を使用)。
vMFの混合モデルについては、 個のvMF分布を使用している。 と のヘッドは現在3セットのパラメータを予測し、混合重みは別の専用ヘッド(ソフトマックス活性化を使用)によって予測される。
Architecture Details.
我々のモデルアーキテクチャは、図 Bに示されているように、いくつかの主要な構成要素から成る:
-
•
入力処理:モデルは3つの入力を受け取る:現在の座標、画像埋め込み、およびノイズレベル。
-
•
初期変換:座標はまず、次元を3からに拡張する線形層を通過し、その後パラメータで条件付けされたADA-LN層を通過する。
-
•
主処理ブロック:ネットワークの中核(灰色で示されている)は回繰り返され、以下で構成される:
-
–
次元をからに拡張する線形層
-
–
GELU活性化関数
-
–
次元をからに縮小する線形層
-
–
で条件付けされたADA-LN層
-
–
-
•
AdaLN:AdaLN層は、画像特徴に基づいて入力をスケーリングおよびシフトする条件付き層正規化である:
(A) ここで、は特徴次元におけるの平均と標準偏差であり、は学習可能なパラメータである。
-
•
スキップ接続:各処理ブロックには、以下のようなスキップ接続パスがある:
-
–
処理ブロックをスキップし、入力を出力に直接接続することで、より良い勾配の流れを可能にする。
-
–
ゲーティングパラメータによって変調され、ブロック出力がメインパスにどの程度追加されるかを制御する。
このゲート付きスキップ接続により、ネットワークは各処理ブロック周りの情報の流れを適応的に制御できる。
-
–
-
•
出力ヘッド:最終的な予測は、目標次元にマッピングする線形層を通じて得られる。
-
•
タイムステップの条件付け:ノイズレベルは、AdaLN層の条件付けに加算することで組み込まれる。
我々は、OSV-5MとYFCC-100Mには次元のブロックを使用し、iNat21には次元のブロックを使用する。
Optimization.
我々は、バッチサイズ1024で100万ステップのモデル訓練を行い、学習率のLambオプティマイザ[81]を使用する。500ステップのウォームアップとコサイン減衰学習率スケジュールを採用する。モデルの重みには0.999のEMAを使用する。OSV-5MとYFCC-100Mにはの重み減衰を、iNaturalistにはを使用する。クラスフリーガイダンスを可能にするため、10%の確率で条件付け画像埋め込みをドロップアウトする。
Metrics.
-
•
適合率と再現率:我々は、地理的近接性を考慮して、従来の生成評価指標である適合率と再現率を我々の空間設定に適応させる[40]。
真の位置の集合をとし、我々のモデルが予測する無条件分布からサンプリングされた位置の集合をとする。 を位置の集合(または)とし、に対して、をを中心とし、半径がの番目の最近傍の距離に等しい球と定義する。ここで、はに属する。これにより、位置の目標の近似多様体を定義できる:
(B) ここで、適合率と再現率を、真の(それぞれ予測された)位置の多様体内にある予測された(それぞれ真の)位置の割合として定義する:
precision (C) recall (D) ここで、はアイバーソンの括弧であり、文が真の場合は1、それ以外はである。本稿全体を通じて、近傍の数をに設定する。
-
•
密度とカバレッジ:Naeemらは[53]、特に外れ値を含む分布に対して、より信頼性の高い適合率と再現率の指標を導入している。 我々は、これらの指標を我々の設定に適応させることを提案する。 密度は、予測された位置が真の位置の周りにどれだけ密集しているかを測定する:
(E) 再現率の指標は、予測された多様体が埋め込み空間を一様にカバーする場合に誤解を招くほど高くなる可能性がある。これは特にのような低次元空間で問題となる:一様分布はOSV-5Mにおいての再現率を持つ。 カバレッジは、生成された分布が真のデータのモードをどれだけよくカバーしているかを、そのような過大評価を報酬としないようにしつつ、より適切に捉える。これは、予測された分布が真のデータをどれだけよくカバーしているかを評価することで行う:
(F)
D Technical Details
本節では、球面上のリーマン幾何学の詳細と、命題1の証明の概要、およびその一般化に関する要素を提示する。
Spherical Geometry.
対数写像 は点 を 、すなわち点 における接空間に写像する [68]:
(G) |
ここで は と の間の角度である。 指数写像 は点 の接ベクトル を球面上に戻す写像である:
(H) |
ここで は のユークリッドノルムである。
Proof of Prop 1.
ここに修正された命題とその証明を示す。我々は今、[44, Appendix C]に触発された命題1の簡潔な証明を提案する。
Proposition 2.
位置と画像が与えられたとき、についてからまで以下の常微分方程式系を解くことを考える:
(I) |
すると、が与えられた場合のの対数確率密度は以下のようになる: ここで、はノイズの分布であり、は軌道に沿った速度場の発散を蓄積する。
Extending Prop 1.
命題1は、リーマン流マッチングに拡張することができる。これは、ODEを反復的に解く際に、各ステップで球面上に反復を射影するだけである 式 M。
拡散モデルの場合、我々は速度場に直接アクセスすることはできない。しかし、Song らによると [71, Section D.2]、以下の形式の確率微分方程式において:
(P) |
ここで はウィーナー過程である [21]。速度場 は以下のように表現できる:
(Q) |
我々の場合、前方ノイズ過程を以下のように定義した:
(R) |
これにより、以下を選択することになる:
(S) | ||||
(T) |
ここで は の と の間の無限小の変化を表す: 。 [71, Eq 29] によると、このプロセスは以下を生成する:
(U) |
これは以下を意味する [70, X]:
(V) |
最後に、 を に置き換えることができる 式 Qにおいて、我々のモデルはデータに追加されたノイズを予測することを学習するためである。これにより、以下の速度場が得られる:
(W) |