arXiv	https://arxiv.org/abs/2412.06781
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Around the World in 80 Timesteps:
A Generative Approach to Global Visual Geolocation

Nicolas Dufour ^1,2 David Picard ¹ Vicky Kalogeiton ² Loic Landrieu¹ ¹ LIGM, Ecole des Ponts, IP Paris, CNRS, UGE ² LIX, Ecole Polytechnique, IP Paris

Abstract

グローバルな視覚的ジオロケーションとは、地球上のどこで画像が撮影されたかを予測することである。すべての画像が同じ精度で位置特定できるわけではないため、この課題には本質的に曖昧さが伴う。しかし、既存のアプローチは決定論的であり、この側面を見過ごしている。本稿では、拡散とフローマッチングに基づく視覚的ジオロケーションのための最初の生成的アプローチと、リーマンフローマッチングへの拡張を提案する。この拡張では、ノイズ除去プロセスが地球の表面上で直接作用する。我々のモデルは、OpenStreetView-5M、YFCC-100M、iNat21の3つの視覚的ジオロケーションベンチマークで最先端の性能を達成している。さらに、我々は確率的視覚的ジオロケーションというタスクを導入する。このタスクでは、モデルが単一の点ではなく、可能なすべての位置に対する確率分布を予測する。我々はこのタスクのための新しい評価指標とベースラインを実装し、我々の生成的アプローチの利点を実証する。コードとモデルはこちらで入手可能である。

1 Introduction

「世界は縮小した。今日、我々は100年前の10倍の速さで世界を旅している。」

— 80日間世界一周、ジュール・ヴェルヌ

画像がどこで撮影されたかを知ることは、多くのアプリケーションにとって極めて重要であるが、ほとんどの画像には位置情報メタデータが欠如している[23]。考古学や文化遺産の分野では、位置データは歴史的遺物のカタログ化と解釈を助け[13, 67]、より良い保存と文脈的理解を可能にする。法医学や調査ジャーナリズムのような分野では、意図的に削除されたGPSデータを復元することが重要な意味を持つ可能性がある[3, 80]。例えば、ニュース画像の真正性の確認や、犯罪現場または行方不明者の最後の既知の位置の再構築などである。さらに、位置情報はマルチメディアアーカイブを効率的に検索できるよう整理するのに役立つ[55, 16]。これらのアプリケーションは、グローバルな視覚的位置特定という長年のコンピュータビジョンの課題を動機づけている。すなわち、画像の視覚的内容のみからその位置を推論することである[28, 76]。

Modeling Spatial Ambiguity.

図1に示されているように、画像を位置特定できる精度—その位置特定可能性 [2, 36]—は大きく異なる。特徴のない海岸はほぼどこでも撮影された可能性があるが、エッフェル塔のようなランドマークは数メートルの精度で位置を特定できる。中間的な場合、例えばカンガルーのクローズアップ写真では、オーストラリアまで絞り込むことはできるが、正確な位置を特定することは困難である。この本質的な曖昧性は、位置特定の手法や評価指標に反映されるべきである。しかし、既存のアプローチの大半は、回帰[2, 26]、分類[77, 11, 72]、または検索ベースの技術[56, 47, 76]を用いて決定論的な予測を行っており、画像の位置特定可能性の変動を考慮していない。

物体位置特定などのコンピュータビジョンタスクにおいて空間的曖昧性をモデル化することで、それらの堅牢性と解釈可能性が向上している[48, 17, 79]。さらに、拡散[32, 71]やフローマッチング[45]などの生成モデルは、画像[33]、動画[6]、音声[62]、音楽[50]生成を含む、ノイズの多い教師あり学習を伴う複雑なタスクに成功裏に適用されている。これらの進歩に触発され、我々は従来の位置特定と現代の生成手法の間のギャップを埋めることを提案する。

Generative Geolocation.

本稿では、拡散またはフローマッチングを用いて、画像特徴に基づいてランダムな位置を正確な推定値にデノイズする、グローバルな視覚的ジオロケーションに対する新しい生成的アプローチを提示する。我々は、最近の多様体ベースのフローマッチング技術[9]を拡張し、デノイジングが地理座標上で直接動作するようにした。これにより、我々のモデルは画像の内容とその位置の関係を学習する際に、地球の球面幾何学を考慮することができる。さらに、我々はフローマッチングの密度推定に関する最近の発展[45]を我々の設定に拡張し、モデルが画像が与えられた任意の位置の尤度を計算し、その位置特定可能性の定量的な推定を提供できるようにした。

我々のアプローチは、3つの標準的な大規模データセット：OpenStreetView-5M[2]、iNat21[74]、YFCC-100M[1]において、最先端のジオロケーション手法よりも高い精度を達成している。さらに、我々は確率的視覚ジオロケーションというタスクを導入する。これは、モデルが単一の点ではなく、可能なすべての位置に対する確率分布を予測するものである。我々はこのタスクに対する新しい評価指標とベースラインを実装し、曖昧ではあるが情報量の多い視覚的手がかりを捉える上で、我々の生成的アプローチの利点を実証する。我々の貢献は以下の通りである：

•

我々は、視覚的ジオロケーションに対する拡散およびリーマン多様体フローマッチング手法の最初の応用を導入する。これは、空間座標を直接デノイズし、多様体ベースの手法を用いて地球の球面幾何学を考慮するものである。
•

我々は最近の密度推定手法を我々のジオロケーション設定に拡張し、位置に関する条件付き分布をモデル化し、位置特定可能性を定量化する。
•

我々は、ジオロケーションにおける曖昧さをモデル化することで性能が向上することを実証し、3つの公開データセットで最先端の結果を達成する。
•

我々は、確率的視覚ジオロケーションのタスクを、関連する評価指標とベースラインとともに提案する。

2 Related Work

Global Visual Geolocation.

視覚的位置推定は、画像の地理的座標を予測することであり、大規模かつ未見の地域への汎用性に焦点を当てている[29]。既存の手法は、画像検索ベース、分類ベース、およびハイブリッドアプローチに分類される。検索ベースの手法は、手作業で設計された特徴[28, 56, 47]や深層特徴[76]を用いてデータベース内で最も類似した画像を見つけることで位置を特定するが、密なデータベースを必要とし、疎な環境や動的な環境では苦戦する可能性がある。分類ベースの手法は、地球を離散的なセルに分割し、例えば規則的なグリッド[77]、適応的なセル[11]、意味的な領域[72]、または行政境界[63, 26]を用いて、位置推定を分類タスクとして扱う。ハイブリッドアプローチは、離散化の問題を緩和するために分類と回帰[2]または検索を組み合わせ、対比損失[76, 39]やプロトタイプネットワーク[26]を採用している。 Izbicki ら[36]は、地球上のどこでも確率分布を予測するモデルを提案しているが、その性能評価は位置推定の観点からのみ行われている。

Uncertainty-Aware Localization.

ニューラルネットワークにおける不確実性の推定は、コンピュータビジョンにおける長年の課題である[38]。これは特に、ロボット応用における精密な位置推定タスクにおいて重要である[15, 17, 41]。6自由度またはヒト身体姿勢推定[48]では、不確実性は位置推定ヒートマップを予測することでしばしばモデル化される[73, 58]。この課題は通常、ベイズ統計[51]と変分推論[82]を用いて取り組まれており、これらはディープラーニングモデルに適応されている[37]。

拡散モデル[5]や正規化フロー[24]などの生成的アプローチは、不確実性を説明する上で有望性を示している。これらの手法は、画像セグメンテーション[78]、音源位置推定[35]、LiDAR位置推定[43]などのタスクにおける不確実性推定に適用されている。

Generative Models.

拡散モデルは生成モデリングにおいて変革をもたらす力として台頭し[32, 71, 69]、画像合成[64, 65]、動画生成[31, 61]、人間中心のタスク[12, 60]など、多様な応用分野で顕著な成功を示している。フローマッチングモデル[44]は、簡素化された学習目的関数を提供することでこの分野をさらに進展させた。最近の研究では、データ分布マニフォールド上で直接学習することも探求されている[10]。生成モデルは、特に還元不可能な不確実性を持つデータの取り扱いにおいて特別な頑健性を示している[54, 20, 46]。これらのモデルは識別タスクにも適応されてきたが[42]、従来の識別モデルとの性能差を埋めることは依然として活発な研究課題である。我々の研究では、生成モデルが基礎となるデータ分布のマニフォールドを学習することで位置情報特定タスクを効果的に取り扱うことができ、最終的に識別アプローチを上回る性能を達成できることを示している。

3 Method

我々はまず拡散ベースのアプローチを提示し（セクション 3.1）、それをリーマン流マッチング枠組みに拡張する（セクション 3.2）。これらの技術の違いの視覚的要約については図 2を参照されたい。次に、位置分布の予測方法について説明する（セクション 3.3）。最後に、セクション Cで実装の選択について詳述する。

Notations.

画像 $c$ が与えられたとき、我々はそれが撮影された最も可能性の高い位置 $x_{0}$ を予測することを目指す。より広く、我々は条件付き確率分布 $p(y\mid c)$ をモデル化する。ここで、 $y$ は地球上のどの点でもよく、 $\mathbb{R}^{3}$ における単位球 $\mathcal{S}_{2}$ としてモデル化される。本稿を通じて、純粋なランダムノイズを $\epsilon$ 、タイムステップ $t$ におけるノイズのある座標を $x_{t}$ 、最適化するネットワークを $\psi$ と表記する。

3.1 Geographic Diffusion

本節では、画像ジオロケーションのための我々の拡散ベースの生成的アプローチについて説明する。従来の拡散モデルは、データにガウスノイズを段階的に追加し、このノイズ付加プロセスを逆転させるニューラルネットワークを訓練する[32, 71]。訓練後、モデルは純粋なノイズから始めて反復的なノイズ除去を行うことで、新しいデータサンプルを生成できる。

我々の設定では、ユークリッド空間 $\mathbb{R}^{3}$ で操作を行う。ジオタグ付き画像のデータセット $\Omega$ から座標-画像ペア $(x_{0},c)$ が与えられたとき、真の座標 $x_{0}$ にノイズを加え、画像 $c$ を条件としてこのノイズを予測するニューラルネットワーク $\psi$ を訓練する。これにより、視覚的コンテンツと地理的位置の関係を学習する。その後、未見の画像の位置を、ランダムな初期座標 $\epsilon$ から反復的にノイズを除去することで予測できる。

Training.

我々は $\Omega$ から座標-画像ペア $(x_{0},c)$ をサンプリングし、 $\mathcal{N}(0,\mathbf{I})$ からランダムな座標 $\epsilon$ をサンプリングする。ここで $\mathbf{I}$ は $\mathbb{R}^{3}$ における単位行列である。拡散時間ステップを表す時間変数 $t\in[0,1]$ をランダムに選択し、 $\kappa(0)=0$ および $\kappa(1)=1$ を持つスケジューリング関数 $\kappa(t):[0,1]\to[0,1]$ を使用して、座標に追加されるノイズレベルを制御する。ノイズの加えられた座標 $x_{t}$ は以下のように定義される：

\displaystyle x_{t}=\sqrt{1-\kappa(t)}x_{0}+\sqrt{\kappa(t)}\epsilon~{}.

(1)

我々のネットワーク $\psi$ は、ノイズの加えられた座標 $x_{t}$ 、ノイズレベル $\kappa(t)$ 、および画像埋め込み $c$ を入力として受け取り、対応する純粋なノイズ $\epsilon$ を予測することが課題となる。表記を簡単にするため、本稿の残りの部分では $\psi$ の $\kappa(t)$ に対する条件付き依存性を省略する。モデルは以下の拡散損失関数を最小化するように訓練される：

\mathcal{L}_{\text{D}}=\mathbb{E}_{x_{0},c,\epsilon,t}\left[\left\|\psi(x_{t}% \mid c)-\epsilon\right\|^{2}\right]~{},

(2)

ここで、期待値は $(x_{0},c)\sim\Omega$ 、 $\epsilon\sim\mathcal{N}(0,\mathbf{I})$ 、および $t\sim\mathcal{U}[0,1]$ 、 $[0,1]$ 上の一様分布に対するものである。

図2: 生成フレームワーク。我々はジオロケーションのための3つの生成的アプローチを実装する：

\mathbb{R}^{3}

における拡散、

\mathbb{R}^{3}

におけるフローマッチング、および

\mathcal{S}_{2}

上で直接行うリーマンフローマッチング。この図は、各アプローチのノイズ付加プロセスと損失関数の式を提供している。


	${x_{0}}$ : true location
	$\epsilon$ : sampled noise
	$x_{t}$ : noisy location
	$\psi(x_{t}\mid c)$ : prediction
	$v(x_{t})$ : velocity field

拡散

x_{t}=\sqrt{1-\kappa(t)}{x_{0}}+\sqrt{\kappa(t)}\epsilon

\mathcal{L}_{\text{D}}=\left\|\psi(x_{t}\mid c)-\epsilon\right\|^{2}

フローマッチング

x_{t}=(1-\kappa(t)){x_{0}}+\kappa(t)\epsilon

\mathcal{L}_{\text{FM}}=\left\|\psi(x_{t}\mid c)-v(x_{t})\right\|^{2}

リーマンフローマッチング

x_{t}=\exp_{{x_{0}}}\left(\kappa(t)\log_{{x_{0}}}(\epsilon)\right)

\mathcal{L}_{\text{RFM}}=\left\|\psi(x_{t}\mid c)-v(x_{t})\right\|^{2}_{x_{t}}

\kappa(t)

: ノイズスケジューラ

Refer to caption — 図3: 推論パイプライン。我々はまず、位置を特定する画像を凍結された画像エンコーダを使用してベクトルに埋め込む。次に、 $\mathbb{R}^{3}$ 内または $\mathcal{S}_{2}$ 上でランダムなノイズ $\epsilon$ をサンプリングし、ここでは球面に投影する。 $t=1$ から $0$ まで、逆拡散またはフローマッチング方程式を使用して反復的にノイズを除去する。この軌跡の最終点が我々の予測位置となる。さらに、我々のモデルは常微分方程式（ODE）システムを解くことで、球面上の任意の点における確率分布を予測するためにクエリを行うことができる。

Inference.

新しい画像 $c$ の可能性の高い位置を

3.2 Extension to Riemannian Flow Matching

フロー・マッチングは、性能と汎用性を向上させた拡散モデルの一般化である[45]。我々はこの設定に我々のアプローチを拡張し、リーマンフロー・マッチングを活用して球面 $\mathcal{S}^{2}$ 上で直接作業を行う。各設定において、我々のネットワークを引き続き $\psi$ と表記するが、代替的なノイズ付加プロセス（式 1）、損失関数（式 2）、およびノイズ除去手順（式 3）を再定義する。

Flow Matching in $\mathbb{R}^{3}$ .

フロー・マッチングでは、真の座標 $x_{0}$ からランダムノイズ $\epsilon$ へのマッピングを定義する：

\displaystyle x_{t}=(1-\kappa(t))x_{0}+\kappa(t)\epsilon~{}.

(5)

これは以下の速度場を定義する：

\displaystyle v(x_{t})=\frac{dx_{t}}{dt}=\dot{\kappa}(t)(\epsilon-x_{0})~{},

(6)

ここで $\dot{\kappa}$ は $\kappa$ の $t$ に関する導関数である。我々はモデル $\psi$ を訓練して、画像 $c$ を条件として、この速度場を予測させる：

\displaystyle\mathcal{L}_{\text{FM}}=\mathbb{E}_{x_{0},c,\epsilon,t}\left[% \left\|\psi(x_{t}\mid c)-v(x_{t})\right\|^{2}\right]~{},

(7)

ここで期待値は式 1と同じ分布に対して取られる。推論時には、ランダムな座標 $\epsilon$ から初期化された常微分方程式（ODE）を解き、予測された速度場 $\psi(x_{t}\mid c)$ を用いて $t=1$ から $t=0$ まで後方に積分する：

\displaystyle x_{t-dt}=x_{t}-\psi(x_{t}|c)dt~{}.

(8)

積分の終了時に、 $x_{0}$ を球面に射影する。

Riemannian Flow Matching on the Sphere.

我々のデータは球面 $\mathcal{S}^{2}$ 上にあるため、フロー・マッチングプロセスをこの多様体に制約するのは自然である。リーマンフロー・マッチングアプローチ[9]はフロー・マッチングをリーマン多様体に拡張し、3つの条件を要求する： (i) すべての真の座標 $x_{0}$ が $\mathcal{S}^{2}$ 上にある、 (ii) ノイズサンプル $\epsilon$ が $\mathcal{S}^{2}$ 上にある、そして (iii) ノイズが付加された座標 $x_{t}$ が $\mathcal{S}^{2}$ 上に留まる。

条件(i)は、我々が地球表面の座標を扱っているため自然に満たされる。条件(ii)については、 $\epsilon$ を $\mathcal{S}^{2}$ 上で一様にランダムにサンプリングする。拡散モデルとは異なり、フロー・マッチングではノイズ分布がガウス分布である必要はない。条件(iii)については、真の座標 $x_{0}$ とノイズサンプル $\epsilon$ 間の測地線に沿って、 $\kappa(t)$ によってパラメータ化されたノイズが付加された座標を定義する：

\displaystyle x_{t}=\exp_{{x_{0}}}\left(\kappa(t)\log_{{x_{0}}}(\epsilon)% \right)~{},

(9)

ここで $\log_{x_{0}}$ は $\mathcal{S}_{2}$ の点を $x_{0}$ における接空間に写す対数写像であり、 $\exp_{x_{0}}$ は接ベクトルを多様体に戻す指数写像である（詳細な表現については付録を参照）。このパラメータ化は、 $x_{t}$ の接空間上で定義された速度場 $v(x_{t})$ を誘導する：

\displaystyle v(x_{t})=\dot{\kappa}(t)\cdot D(x_{t})~{},

(10)

ここで $D(x_{t})$ は $x_{t}$ における接ベクトルで、 $x_{0}$ から $\epsilon$ への測地線に沿って指し示し、その大きさは $x_{0}$ と $\epsilon$ 間の測地線距離に等しい。我々はモデル $\psi$ を訓練して、この速度場を近似させるために以下を最小化する：

\displaystyle\mathcal{L}_{\text{RFM}}=\mathbb{E}_{x_{0},c,\epsilon,t}\left[% \left\|\psi(x_{t}|c)-v(x_{t})\right\|_{x_{t}}^{2}\right]~{},

(11)

ここで $(x_{0},c)\sim\Omega$ 、 $\epsilon\sim\mathcal{U}(\mathcal{S}_{2})$ $t\sim\mathcal{U}[0,1]$ 、そして $\|\cdot\|_{x_{t}}$ は $x_{t}$ における接空間上のリーマン計量によって誘導されるノルムを表す。推論時には、ランダムな点 $\epsilon\in\mathcal{S}^{2}$ から始まり、 $t=1$ から $t=0$ まで後方に積分するODEを解く。その際、予測された速度を使用し、各ステップで反復を多様体上に射影する：

\displaystyle x_{t-dt}=\exp_{{x_{t}}}\left(-dt\psi(x_{t}\mid c)\right)~{}.

(12)

これにより、軌道が積分プロセス全体を通じて球面 $\mathcal{S}^{2}$ 上に留まることが保証される。

図4: スケジューラ。我々は拡散プロセスの初期により重みを割り当てるノイズスケジューラを選択した。

3.3 Guidance and Density Prediction

我々のモデルの精度を向上させるためにガイダンスを組み込み、画像 $c$ に対する位置 $p(y\mid c)$ の空間分布を計算することができる。

Guided Geolocation.

我々は分類器フリーガイダンスの考え方[34]を我々の設定に適応させる。ネットワーク $\psi$ を、条件付き分布 $p(y\mid c)$ と無条件分布 $p(y\mid\varnothing)$ の両方を学習するように訓練する。これは、訓練サンプルの一部（例えば10%）について、画像 $c$ による条件付けをランダムに除外することで行う。推論時には、式 3、8、および12のODEにおける $\psi$ を、以下のように定義される $\hat{\psi}$ に置き換える：

\displaystyle\hat{\psi}(x_{t}\mid c)={\psi}(x_{t}\mid c)+\omega\left({\psi}(x_% {t}\mid c)-{\psi}(x_{t}\mid\varnothing)\right)~{},

(13)

ここで、 $\psi(x_{t},\varnothing)$ は条件付けなしの予測であり、 $\omega\geq 0$ はガイダンススケールである。ガイダンススケール $\omega=0$ は標準的なアプローチに対応し、 $\omega$ の値が大きくなるほど条件付けの重要性が増し、より鋭い分布が得られる。ガイダンススケールの変更にはモデルの再訓練は必要ないことに注意されたい。

Predicting Distributions.

$\psi$ の訓練後、画像 $c$ に対応する任意の座標 $y$ の尤度 $p(y\mid c)$ を計算することができる。ここでは、最も直接的なユークリッドフローマッチング設定での導出を提供する。我々の導出は[45, Appendix C]に触発されており、対数質量保存定理[4, 75]に依拠している。詳細は付録に記載する。

Proposition 1.

位置 $y\in\mathcal{S}^{2}$ と画像 $c$ が与えられたとき、 $0$ から $1$ まで $t$ について以下の常微分方程式系を解くことを考える：

\displaystyle\frac{d}{dt}\begin{bmatrix}x_{t}\\ f(t)\end{bmatrix}=\begin{bmatrix}\psi(x(t)\mid c)\\ -\operatorname{div}\,\psi(x_{t}\mid c)\end{bmatrix}\;\text{with}\;\begin{% bmatrix}x_{0}\\ f(0)\end{bmatrix}=\begin{bmatrix}y\\ 0\end{bmatrix}~{},

(14)

すると、 $c$ が与えられた時の $y$ の対数確率密度は以下のようになる： $\log p(y\mid c)=\log p_{\epsilon}(x(1)\mid c)-f(1)$ ここで、 $p_{\epsilon}$ は純粋なノイズ $\epsilon$ の既知の分布であり、 $f(t)$ は軌道 $x_{t}$ に沿った速度場の負の発散を累積したものである。

我々はこのシステムを、TorchDiffEq[8]で実装されているRunge-Kutta法のDormand-Prince-Shampine変種（5次）[7, 18]を用いて数値的に解く。

3.4 Implementation

本稿では、全ての実装で共通するスケジューラとモデルアーキテクチャの選択について詳述する。

Scheduler.

我々は、ノイズ付加プロセスの初期段階、すなわち座標が真の位置に近い状態により多くの時間を割り当てるスケジューラ $\kappa(t)$ でより良い結果を観察した。我々の直感では、これによりネットワークが容易な大陸レベルの情報ではなく、画像内の細かな位置手がかりの学習に集中することを促進する。図 4に示すように、我々は $\kappa(t)$ を歪んだシグモイド関数として設定した：

\displaystyle\kappa(t)=\frac{\sigma(\alpha)-\sigma(\alpha+t(\beta-\alpha))}{% \sigma(\alpha)-\sigma(\beta)}~{},

(15)

ここで $\sigma(t)=1/(1+\exp(-t))$ はシグモイド関数であり、 $\alpha,\beta$ はシグモイドの歪みを制御する。実際には、我々は $\alpha=-3$ および $\beta=7$ を使用する。

Model Architecture.

全ての手法で使用されるネットワーク $\psi$ は、現在のノイズのある座標 $x_{t}$ 、画像 $c$ の埋め込み、および現在のノイズレベル $\kappa(t)$ を入力として受け取る $6$ の残差ブロックで構成される。画像 $c$ は、事前学習済みで固定された画像エンコーダ $\phi$ を使用して $d$ 次元のベクトルに埋め込まれる。さらに、細かな時間情報を捉えるために $\kappa(t)$ の $d$ 次元フーリエ特徴量を計算する。

$\psi$ の各ブロックは、DiTモデル [59] と同様のアーキテクチャに従い、GELU活性化関数 [30] を持つ多層パーセプトロン（MLP）で構成される。我々は、適応的層正規化（AdaLN）を用いて条件付けに従って座標埋め込みを変調する。ネットワークは、AdaLN層と予測されたノイズを出力する線形層で終了する。詳細については付録を参照されたい。

表1: ジオロケーションの性能。従来の視覚的ジオロケーション手法と生成的手法、および我々の生成的アプローチの3つの実装のジオロケーション精度を比較する。

		OSV-5M [2]					iNat21 [74]
		geos. $\uparrow$	dist $\downarrow$	accuracy $\uparrow$ (in %)			dist $\downarrow$
		/5000	(km)	country	region	city	(km)
deterministic	SC 0-shot [25]	2273	2854	38.4	20.8	14.8
	Regression [2]	3028	1481	56.5	16.3	10.7
	ISNs [52]	3331	2308	66.8	39.4	14.2
	Hybrid [2]	3361	1814	68.0	39.4	15.9
	SC Retrieval [25]	3597	1386	73.4	45.8	19.9
generative	Uniform	0131	10052	2.4	00.1	0.0	10,010
	vMF	2776	2439	52.7	17.2	10.6	6270
	vMFMix [36]	1746	5662	34.2	11.1	10.3	4701
	Diff $\mathbb{R}^{3}$ (ours)	3762	1123	75.9	40.9	13.6	3057
	FM $\mathbb{R}^{3}$ (ours)	3688	1149	74.9	40.0	14.2	2942
	RFM $\mathcal{S}_{2}$ (ours)	3767	1069	76.2	44.2	15.4	2500

		YFCC-4k [1, 76]
		geos. $\uparrow$	dist $\downarrow$	accuracy $\uparrow$ (in %)
		/5000	(km)	25km	200km	750km	2500km
deterministic	PlaNet [77]			14.3	22.2	36.4	55.8
	CPlaNet [66]			14.8	21.9	36.4	55.5
	ISNs [52]			16.5	24.2	37.5	54.9
	Translocator [63]			18.6	27.0	41.1	60.4
	GeoDecoder [11]			24.4	33.9	50.0	68.7
	PIGEON [26]			24.4	40.6	62.2	77.7
generative	Uniform	131.2	10052	0.0	0.0	0.3	3.8
	vMF	1847	3563	4.8	15.0	30.9	53.4
	vMFMix [36]	1356	4394	0.4	8.8	20.9	41.0
	Diff $\mathbb{R}^{3}$ (ours)	2845	2461	11.1	37.7	54.7	71.9
	FM $\mathbb{R}^{3}$ (ours)	2838	2514	22.1	35.0	53.2	73.1
	RFM $\mathcal{S}_{2}$ (ours)	2889	2461	23.7	36.4	54.5	73.6
	RFM ${}_{\text{10M}}$ $\mathcal{S}_{2}$ (ours)	3210	2058	33.5	45.3	61.1	77.7

4 Experiments

我々は、グローバル視覚的ジオロケーションと確率的視覚的ジオロケーションという2つのタスクでモデルを評価する。最初のタスクでは、モデルが画像が撮影された最も可能性の高い場所を予測し（セクション 4.1）、2番目のタスクでは、モデルがすべての可能な場所に対する分布を推定する（セクション 4.2）。確率的視覚的ジオロケーションは新しいタスクであるため、評価のための新しい指標とベースラインを導入する。

我々は、ジオタグ付き画像の3つのデータセットを考慮する：

•

OpenStreetView-5M [2] (OSV-5M)は、世界中の225カ国と70,000以上の都市からの500万枚のストリートビュー訓練画像を含む。テストセットには20万枚の画像が含まれており、訓練セットとの間に $1$ kmのバッファーを設けて構築されている。
•

iNat21 [74]は、コミュニティ科学者によって収集・注釈付けされた10,000種の動物の270万枚の画像を含む。我々は、特集されている10,000種それぞれに $10$ 枚の画像を含む公開検証セットを使用する。
•

YFCC [1] Yahoo Flickr Creative Commonsデータセットは1億件の非常に多様なメディアオブジェクトを含み、そのうち我々は正確なジオタグが付けられた4,800万枚の画像のサブセットを使用する。他の手法との比較を可能にするため、我々は[76]で導入された $4000$ 枚の画像からなる公開サブセットYFCC4kですべての手法を評価する。

Baselines.

我々は結果を文脈化するために、いくつかの生成的ベースラインを実装する：

•

一様分布。このベースラインは地球上のどの点にも一定の密度確率 $1/(4\pi)$ ステラジアン^-1を割り当てる。

•

フォン・ミーゼス-フィッシャー回帰 [22, 27]。我々のモデルを修正し、画像特徴を球面上のフォン・ミーゼス-フィッシャー（vMF）分布のパラメータ $(\mu,\kappa)$ にマッピングする。ここで、 $\mu\in\mathbb{R}^{3}$ 、 $|\mu|=1$ 、そして $\kappa>0$ である。ネットワークは真の位置 $x_{0}$ における負の対数尤度を最小化するように訓練される：

	$\displaystyle\ell_{\text{vMF}}(x_{0},c)$	$\displaystyle=-\log_{2}\left(\operatorname{\text{vMF}}(x_{0}\mid\mu,\kappa)\right)$		(16)
		$\displaystyle=-\log_{2}\left(\frac{\kappa}{4\pi\sinh(\kappa)}\right)-\kappa\mu% ^{\intercal}x_{0}~{}.$

•

vMFの混合 [36]。多峰性分布を扱うために、モデルを拡張して $K$ 個のvMF分布の混合（vMFMix）を予測する。混合重み $w_{1},\dots,w_{K}>0$ と $\sum_{k=1}^{K}w_{k}=1$ 、および分布パラメータ $(\mu_{1},\dots,\mu_{K},\kappa_{1},\dots,\kappa_{K})$ を用いる。損失は以下のように定義される：

\displaystyle\!\!\!\!\!\!\!\!\!\!\!\ell_{\text{vMFMix}}(x,c)

\displaystyle=-\log_{2}\left(\sum_{k}w_{i}\operatorname{\text{vMF}}(x\mid\mu_{% k},\kappa_{k})\right)~{}.

(17)

Model Parameterization.

我々は3つの生成アプローチを評価する： $\mathbb{R}^{3}$ における拡散とフローマッチング（Diff $\mathbb{R}^{3}$ およびFM $\mathbb{R}^{3}$ ）、そして球面上のリーマンフローマッチング（RFM $\mathcal{S}_{2}$ ）である。すべてのモデルとベースラインは、評価対象のデータセットの訓練セットで訓練される。すべてのモデルは100万回の反復で訓練されるが、RFM ${}_{\textbf{10M}}$ $\mathcal{S}_{2}$ は1000万回の反復を行う。

すべてのモデルとベースラインは、同じバックボーン $\phi$ を共有する：レジスター[14]を持つDINOv2-L [57]である。ただし、OpenStreetView-5Mで訓練する場合は、StreetCLIP（SC）[25]でファインチューニングされたViT-Lモデル[19]を使用する。すべてのモデルは、ネットワーク $\psi$ に対して3600万パラメータの同じ構成を使用するが、iNat21の場合は920万パラメータのより小さなバージョンを使用する（詳細は付録参照）。位置を予測する際のガイダンススケールは $2$ に、分布を計算する際は $0$ に設定する。これは第4.2節で正当化される。

4.1 Visual Geolocation Performance

図5: タイムステップ数の影響。リーマンフローマッチングモデルについて、OpenStreetView-5Mにおける異なるタイムステップ数での様々な指標を示している。

表2: 確率的視覚ジオロケーション。予測された分布の質を評価する。

\mathbb{R}^{3}

と

\mathcal{S}_{2}

で定義された分布の尤度は、異なる指標に基づいているため直接比較できないことに注意されたい。さらに、離散的な場合とは異なり、連続分布の対数尤度とエントロピーは負の値をとることがある。紙面の都合上、iNat21の生成指標のみを提供する。

	OSV-5M	YFCC	iNat21
	NLL $\downarrow$	NLL $\downarrow$	NLL $\downarrow$	precision $\uparrow$	recall $\uparrow$	density $\uparrow$	coverage $\uparrow$
Uniform	1.22	1.22	1.22	0.58	0.98	0.38	0.22
vMF Regression	10.13	0.01	1.99	0.52	0.98	0.37	0.24
vMFMix	0.06	-0.04	-0.23	0.63	0.98	0.47	0.29
RFlowMatch $\mathcal{S}_{2}$ (ours)	-1.51	-3.71	-1.94	0.88	0.95	0.78	0.59
Diffusion $\mathbb{R}^{3}$ (ours)	0.58	0.63	0.68	0.76	0.98	0.60	0.44
FlowMatch $\mathbb{R}^{3}$ (ours)	-5.01	-7.15	-4.00	0.76	0.97	0.61	0.47

我々はまず、画像が撮影された場所を予測する我々のモデルの能力を評価し、その性能を既存の文献からのジオロケーション手法と比較する。

Metrics.

我々は以下のジオロケーション指標を使用し、テストセット全体で平均化する：

•

距離：真の位置と予測された位置の間のハバーサイン距離（km単位）。
•

GeoScore： GeoGuessrゲームにインスパイアされたスコアで、 $5000\exp(-\delta/1492.7)$ [26]と定義される。ここで $\delta$ はハバーサイン距離である。このスコアは $0$ から $5000$ の範囲で、高いスコアはより良い精度を示す。
•

精度：正しい国、地域、都市、または真の位置から一定の距離内に予測が落ちる割合。

Results.

表1は、我々のモデルを確立されたジオロケーション手法（分類、回帰、検索ベースのアプローチを含む）と比較している。また、セクション 4.2で導入した我々独自の生成ベースラインとも比較している。3つのデータセットすべてにおいて、我々のモデルは最先端のジオロケーション性能を達成し、判別的手法だけでなく、数百万枚の画像データベースに依存する検索ベースのアプローチも上回っている。

大規模なYFCCデータセットでは、我々の最良のモデル（RFM $\mathcal{S}_{2}$ ）の訓練を900万イテレーションまで延長すると、一貫した改善が見られる。全体として、我々の生成的アプローチは、検索やプロトタイプに基づかないすべての手法を大幅に上回っている。Astruc ら [2]の特殊なハイブリッドアプローチと比較して、我々はGeoScoreを406ポイント増加させ、平均距離を745 km削減し、国レベルの精度を8.2%改善している。我々の手法は様々なスケール（国レベルから25 kmまで）で優れた結果を示しているが、検索ベースの技術は、その広範な画像データベースのおかげで、非常に細かい解像度でも優位性を維持している。

生成的戦略の中では、フローマッチングが一貫して拡散を上回り、球面上のリーマン変種がユークリッド対応を上回っており、地球の幾何学をモデルに組み込むことの利点が強調されている。単一成分のvMFモデルは判別的回帰ベースラインと同様の性能を示しており、これは球面上の単一方向を予測することが本質的に位置回帰であるという事実と一致している。対照的に、vMF分布の混合はトレーニングセットに過適合し、より弱い性能につながっている。

Analysis.

図5では、タイムステップ数がRFMモデルの性能に与える影響を表している。GeoScoreは591（1ステップ）から3744（16ステップ）まで改善し、その後3746付近で横ばいになる。同様に、国レベルの精度は9.4%から76%に、都市レベルの精度は0.02%から4.8%に増加する。これは、反復的な改良が一定のポイントまで我々のモデルに利益をもたらし、その後追加のステップは収穫逓減をもたらすことを示している。

4.2 Probabilistic Visual Geolocation

単一の位置を予測するだけでなく、我々のモデルは全ての可能な位置に対する分布を推定し、視覚的ジオロケーションに内在する不確実性を捉えることができる。

Metrics.

我々は、予測された分布 $p(y\mid c)$ の品質を評価する。ここで、 $c$ は画像であり、 $y\in\mathcal{S}^{2}$ は地球表面上のあらゆる位置を表す。以下の指標を用いる：

•

負の対数尤度 (NLL)：予測された分布下での真の位置の次元あたりの平均負対数尤度を計算する（[9, F]を参照）：

\displaystyle\text{NLL}=-\frac{1}{3N}\sum_{i=1}^{N}\log_{2}p(x_{i}\mid c_{i})~% {},

(18)

ここで、 $(x_{i},c_{i})$ はテストセットにおける真の位置と画像のペアである。この指標は、予測された分布が真の位置とどの程度一致しているかを定量化する。

•

位置特定可能性：画像 $c$ の位置特定可能性を、予測された分布の負のエントロピーとして定量化する：

\displaystyle\text{Localizability}(c)=\int_{\mathcal{S}^{2}}p(y\mid c)\log_{2}% p(y\mid c)dy~{}.

(19)

この積分は、10,000サンプルを用いたモンテカルロサンプリング [49] で推定する。

•

生成指標我々は、古典的な適合率と再現率の指標 [40]、および最近の密度とカバレッジ [53] を報告する。詳細は付録を参照されたい。

図7: 分類器フリーガイダンスの影響 OSV-5Mデータセットにおいて、ガイダンススケール

\omega

に応じたGeoScoreと生成指標の変化をプロットしている。

Results.

表2は、確率的視覚ジオロケーションタスクにおける全モデルの性能を報告している。我々のモデルは、ベースラインよりも有意に低いNLLを達成しており、予測された分布がテスト画像の位置とより一致していることを明確に示している。 $\mathbb{R}^{3}$ と球面 $\mathcal{S}^{2}$ 上で定義されたモデルの尤度を、異なる基礎的な指標のため直接比較することはできないが、 $\mathbb{R}^{3}$ で行われたフローマッチングが拡散よりも良いNLLをもたらすことを観察している。vMF分布の混合は、全ての指標において単一のvMFモデルを改善している。これは、混合がジオロケーションの精度を向上させない可能性がある一方で、タスクに内在する曖昧さをより良く捉えている可能性があることを示している。多くの画像は、例えばアイルランド対ニュージーランドのように、複数の合理的な推測を持つ多峰性の分布を持っているためである。

生成指標に関しては、我々のリーマンフローマッチングモデルは全てのベースラインと $\mathbb{R}^{3}$ で動作するモデルを上回っており、地球表面上の分布をモデル化することの有効性を示している。我々は、リーマンフローマッチングアプローチがより良い性能をもたらすと仮説を立てている。なぜなら、結果が生成プロセスによって直接出力されるからである。これに対し、 $\mathbb{R}^{3}$ では生成プロセスの出力を $\mathcal{S}^{2}$ に投影する必要があり、微妙な誤差が加わる可能性がある。

Localizability.

図6は、リーマンフローマッチングアプローチによって予測された分布の負のエントロピーで測定された、低、中、高の位置特定可能性を持つ画像の例を示している。モデルは、道路標識(a)や植生(d)などの微妙な手がかりを検出し、ストリートビュー画像を比較的高い信頼度で位置特定することができる。しかし、インドの田舎道(g)は位置特定可能性スコアが低く、国内のどこでも撮影された可能性がある。動物の画像(b,e,h)の位置特定可能性は、人間中心やストリートビューの画像よりも低く、描かれている種の希少性と相関している。印象的なことに、エッフェル塔の写真(c)のように、メートル単位の精度で位置を特定できる画像もある。NFLスタジアム内で撮影された画像(f)

5 Conclusion

我々は、拡散モデルと地球表面上のリーマン流マッチングに基づく、グローバルな視覚的ジオロケーションのための新しい生成的アプローチを導入した。我々の手法は、画像のジオロケーションに内在する曖昧性を効果的に捉えている—これは決定論的モデルではしばしば見過ごされる側面である。3つの標準的なベンチマークでの実験により、最先端のジオロケーション性能が実証された。さらに、我々は確率的視覚ジオロケーションのタスクを、そのメトリクスとベースラインとともに導入した。我々の生成的アプローチは、高い曖昧性にもかかわらず、データにより適合する確率分布を予測する。我々のアプローチは、特に曖昧または不明確な位置の手がかりを含む画像を扱うアプリケーションにおいて価値がある。これらは従来の手法では意味のある予測を提供するのが困難な場合である。

6 Acknowledgements

本研究はANRプロジェクトTOSAI ANR-20-IADJ-0009の支援を受けており、GENCIによる割り当て2024-AD011015664のもとでIDRISのHPCリソースへのアクセスを許可された。我々は、有益なフィードバックを提供してくれたJulie Mordacq、Elliot Vincent、およびYohann Perronに感謝の意を表する。

References

[1] YFCC100m. {https://gitlab.com/jfolz/yfcc100m}, accessed: 2023-10-10
[2] Astruc, G., Dufour, N., Siglidis, I., Aronssohn, C., Bouia, N., Fu, S., Loiseau, R., Nguyen, V.N., Raude, C., Vincent, E., et al.: OpenStreetView-5M: The many roads to global visual geolocation. In: CVPR (2024)
[3] Bamigbade, O., Sheppard, J., Scanlon, M.: Computer vision for multimedia geolocation in human trafficking investigation: A systematic literature review. In: arXiv preprint arXiv:2402.15448 (2024)
[4] Ben-Hamu, H., Cohen, S., Bose, J., Amos, B., Nickel, M., Grover, A., Chen, R.T., Lipman, Y.: Matching normalizing flows and probability paths on manifolds. In: ICML (2022)
[5] Berry, L., Brando, A., Meger, D.: Shedding light on large generative networks: Estimating epistemic uncertainty in diffusion models. In: UAI (2024)
[6] Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., et al.: Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127 (2023)
[7] Butcher, J.: Runge-Kutta methods for ordinary differential equations. Numerical Analysis and Optimization (2015)
[8] Chen, R.T.Q.: torchdiffeq (2018), https://github.com/rtqichen/torchdiffeq
[9] Chen, R.T., Lipman, Y.: Riemannian flow matching on general geometries. In: ICLR (2024)
[10] Chen, R.T., Lipman, Y.: Riemannian flow matching on general geometries. In: ICLR (2024)
[11] Clark, B., Kerrigan, A., Kulkarni, P.P., Cepeda, V.V., Shah, M.: Where we are and what we’re looking at: Query based worldwide image geo-localization using hierarchies and scenes. In: CVPR (2023)
[12] Courant, R., Dufour, N., Wang, X., Christie, M., Kalogeiton, V.: ET the exceptional trajectories: Text-to-camera-trajectory generation with character awareness. In: ECCV (2024)
[13] Daoud, M., Huang, J.X.: Mining query-driven contexts for geographic and temporal search. International Journal of Geographical Information Science (2013)
[14] Darcet, T., Oquab, M., Mairal, J., Bojanowski, P.: Vision transformers need registers. ICLR (2024)
[15] Dellaert, F., Fox, D., Burgard, W., Thrun, S.: Monte Carlo localization for mobile robots. In: ICRA (1999)
[16] DeLozier, G., Wing, B., Baldridge, J., Nesbit, S.: Creating a novel geolocation corpus from historical texts. In: ACL Linguistic Annotation Workshop (2016)
[17] Deng, H., Bui, M., Navab, N., Guibas, L., Ilic, S., Birdal, T.: Deep Bingham networks: Dealing with uncertainty and ambiguity in pose estimation. International Journal of Computer Vision (2022)
[18] Dormand, J.R., Prince, P.J.: A family of embedded Runge-Kutta formulae. Journal of computational and applied mathematics (1980)
[19] Dosovitskiy, A.: An image is worth 16x16 words: Transformers for image recognition at scale. ICLR (2021)
[20] Dufour, N., Besnier, V., Kalogeiton, V., Picard, D.: Don’t drop your samples! Coherence-aware training benefits conditional diffusion. In: CVPR (2024)
[21] Durrett, R., Durrett, R.: Probability: Theory and examples. Cambridge university press (2019)
[22] Fisher, R.A.: Dispersion on a sphere. Proceedings of the Royal Society of London. Series A. Mathematical and Physical Sciences (1953)
[23] Flatow, D., Naaman, M., Xie, K.E., Volkovich, Y., Kanza, Y.: On the accuracy of hyper-local geotagging of social media content. In: International Conference on Web Search and Data Mining (2015)
[24] Grathwohl, W., Chen, R.T., Bettencourt, J., Sutskever, I., Duvenaud, D.: FFJORD: Free-form continuous dynamics for scalable reversible generative models. In: ICLR (2019)
[25] Haas, L., Alberti, S., Skreta, M.: Learning generalized zero-shot learners for open-domain image geolocalization. In: arXiv preprint arXiv:2302.00275 (2023)
[26] Haas, L., Alberti, S., Skreta, M.: PIGEON: Predicting image geolocations. In: CVPR (2023)
[27] Hasnat, M.A., Bohné, J., Milgram, J., Gentric, S., Chen, L.: von Mises-Fisher mixture model-based deep learning: Application to face verification. In: arXiv preprint arXiv:1706.04264 (2017)
[28] Hays, J., Efros, A.A.: Im2GPSs: Estimating geographic information from a single image. In: CVPR (2008)
[29] Hays, J., Efros, A.A.: Large-scale image geolocalization. Multimodal location estimation of videos and images (2015)
[30] Hendrycks, D., Gimpel, K.: Gaussian error linear units (Gelus). In: arXiv preprint arXiv:1606.08415 (2016)
[31] Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., Kingma, D.P., Poole, B., Norouzi, M., Fleet, D.J., et al.: Imagen video: High definition video generation with diffusion models. arXiv (2022)
[32] Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. In: NeurIPS (2020)
[33] Ho, J., Saharia, C., Chan, W., Fleet, D.J., Norouzi, M., Salimans, T.: Cascaded diffusion models for high fidelity image generation. Journal of Machine Learning Research (2022)
[34] Ho, J., Salimans, T.: Classifier-free diffusion guidance. In: NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications (2021)
[35] Huang, B., Yu, W., Xie, R., Xiao, J., Huang, J.: Two-stage denoising diffusion model for source localization in graph inverse problems. In: ECML-PKDD. Springer (2023)
[36] Izbicki, M., Papalexakis, E.E., Tsotras, V.J.: Exploiting the Earth’s spherical geometry to geolocate images. In: MLKDD (2020)
[37] Kendall, A., Cipolla, R.: Modelling uncertainty in deep learning for camera relocalization. In: ICRA (2016)
[38] Kendall, A., Gal, Y.: What uncertainties do we need in bayesian deep learning for computer vision? In: NeurIPS (2017)
[39] Kordopatis-Zilos, G., Galopoulos, P., Papadopoulos, S., Kompatsiaris, I.: Leveraging EfficientNet and contrastive learning for accurate global-scale location estimation. In: International Conference on Multimedia Retrieval (2021)
[40] Kynkäänniemi, T., Karras, T., Laine, S., Lehtinen, J., Aila, T.: Improved precision and recall metric for assessing generative models. NeurIPS (2019)
[41] Levinson, J., Thrun, S.: Robust vehicle localization in urban environments using probabilistic maps. In: ICRA (2010)
[42] Li, A.C., Prabhudesai, M., Duggal, S., Brown, E., Pathak, D.: Your diffusion model is secretly a zero-shot classifier. In: CVPR (2023)
[43] Li, W., Yang, Y., Yu, S., Hu, G., Wen, C., Cheng, M., Wang, C.: Diffloc: Diffusion model for outdoor lidar localization. In: CVPR (2024)
[44] Lipman, Y., Chen, R.T., Ben-Hamu, H., Nickel, M., Le, M.: Flow matching for generative modeling. In: ICLR (2023)
[45] Lipman, Y., Chen, R.T., Ben-Hamu, H., Nickel, M., Le, M.: Flow matching for generative modeling. In: The Eleventh International Conference on Learning Representations (2024)
[46] Mackowiak, R., Ardizzone, L., Kothe, U., Rother, C.: Generative classifiers as a basis for trustworthy image classification. In: CVPR (2021)
[47] Martin, D., Fowlkes, C., Tal, D., Malik, J.: A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In: ICCV (2001)
[48] Merrill, N., Guo, Y., Zuo, X., Huang, X., Leutenegger, S., Peng, X., Ren, L., Huang, G.: Symmetry and uncertainty-aware object SLAM for 6DOF object pose estimation. In: CVPR (2022)
[49] Metropolis, N., Ulam, S.: The Monte Carlo method. Journal of the American statistical association (1949)
[50] Mittal, G., Engel, J., Hawthorne, C., Simon, I.: Symbolic music generation with diffusion models. ISMIR (2021)
[51] Mullane, J., Vo, B.N., Adams, M.D., Vo, B.T.: A random-finite-set approach to Bayesian SLAM. IEEE transactions on robotics (2011)
[52] Muller-Budack, E., Pustu-Iren, K., Ewerth, R.: Geolocation estimation of photos using a hierarchical model and scene classification. In: ECCV (2018)
[53] Naeem, M.F., Oh, S.J., Uh, Y., Choi, Y., Yoo, J.: Reliable fidelity and diversity metrics for generative models. In: ICML (2020)
[54] Nicolas Dufour, David Picard, V.K.: SCAM! Transferring humans between images with semantic cross attention modulation. In: ECCV (2022)
[55] Nikolaidou, K., Seuret, M., Mokayed, H., Liwicki, M.: A survey of historical document image datasets. International Journal on Document Analysis and Recognition (2022)
[56] Oliva, A., Torralba, A.: Building the gist of a scene: The role of global image features in recognition. Progress in brain research (2006)
[57] Oquab, M., Darcet, T., Moutakanni, T., Vo, H.V., Szafraniec, M., Khalidov, V., Fernandez, P., HAZIZA, D., Massa, F., El-Nouby, A., et al.: DINOv2: Learning robust visual features without supervision. TMLR
[58] Pavlakos, G., Zhou, X., Derpanis, K.G., Daniilidis, K.: Coarse-to-fine volumetric prediction for single-image 3D human pose. In: CVPR (2017)
[59] Peebles, W., Xie, S.: Scalable diffusion models with transformers. In: ICCV (2023)
[60] Petrovich, M., Litany, O., Iqbal, U., Black, M.J., Varol, G., Peng, X.B., Rempe, D.: Multi-track timeline control for text-driven 3D human motion generation. In: CVPR Workshop on Human Motion Generation (2024)
[61] Polyak, A., Zohar, A., Brown, A., Tjandra, A., Sinha, A., Lee, A., Vyas, A., Shi, B., Ma, C.Y., Chuang, C.Y., et al.: Movie Gen: A cast of media foundation models. arXiv (2024)
[62] Popov, V., Vovk, I., Gogoryan, V., Sadekova, T., Kudinov, M.: Grad-TTS: A diffusion probabilistic model for text-to-speech. In: ICML. PMLR (2021)
[63] Pramanick, S., Nowara, E.M., Gleason, J., Castillo, C.D., Chellappa, R.: Where in the world is this image? Transformer-based geo-localization in the wild. In: ECCV (2022)
[64] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: CVPR (2022)
[65] Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E.L., Ghasemipour, K., Gontijo Lopes, R., Karagol Ayan, B., Salimans, T., et al.: Photorealistic text-to-image diffusion models with deep language understanding. In: NeurIPS (2022)
[66] Seo, P.H., Weyand, T., Sim, J., Han, B.: Cplanet: Enhancing image geolocalization by combinatorial partitioning of maps. In: ECCV (2018)
[67] Smith, D.A., Crane, G.: Disambiguating geographic names in a historical digital library. In: International Conference on Theory and Practice of Digital Libraries. Springer Berlin Heidelberg, Berlin, Heidelberg (2001)
[68] Sommer, S., Fletcher, T., Pennec, X.: Introduction to differential and riemannian geometry. In: Riemannian Geometric Statistics in Medical Image Analysis. Elsevier (2020)
[69] Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. In: ICLR (2021)
[70] Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. In: ICLR (2021)
[71] Song, Y., Sohl-Dickstein, J., Kingma, D.P., Kumar, A., Ermon, S., Poole, B.: Score-based generative modeling through stochastic differential equations. In: ICLR (2021)
[72] Theiner, J., Müller-Budack, E., Ewerth, R.: Interpretable semantic photo geolocation. In: WACV (2022)
[73] Tompson, J.J., Jain, A., LeCun, Y., Bregler, C.: Joint training of a convolutional network and a graphical model for human pose estimation. In: NeurIPS (2014)
[74] Van Horn, G., Cole, E., Beery, S., Wilber, K., Belongie, S., Mac Aodha, O.: Benchmarking representation learning for natural world image collections. In: CVPR (2021)
[75] Villani, C.: Optimal transport: Old and new. Berlin: Springer (2009)
[76] Vo, N., Jacobs, N., Hays, J.: Revisiting IMG2GPS in the deep learning era. In: ICCV (2017)
[77] Weyand, T., Kostrikov, I., Philbin, J.: Planet-photo geolocation with convolutional neural networks. In: ECCV (2016)
[78] Wolleb, J., Sandkühler, R., Bieder, F., Valmaggia, P., Cattin, P.C.: Diffusion models for implicit image segmentation ensembles. In: International Conference on Medical Imaging with Deep Learning. PMLR (2022)
[79] Xu, L., Qu, H., Cai, Y., Liu, J.: 6D-diff: A keypoint diffusion framework for 6d object pose estimation. In: CVPR (2024)
[80] Yokota, R., Hawai, Y., Tsuchiya, K., Imoto, D., Hirabayashi, M., Akiba, N., Kakuda, H., Tanabe, K., Honma, M., Kurosawa, K.: A revisited visual-based geolocalization framework for forensic investigation support tools. Forensic Science International: Digital Investigation (2020)
[81] You, Y., Li, J., Reddi, S., Hseu, J., Kumar, S., Bhojanapalli, S., Song, X., Demmel, J., Keutzer, K., Hsieh, C.J.: Large batch optimization for deep learning: Training bert in 76 minutes. ICLR (2020)
[82] Zangeneh, F., Bruns, L., Dekel, A., Pieropan, A., Jensfelt, P.: A probabilistic framework for visual localization in ambiguous scenes. In: ICRA (2023)

A Ablation Study

我々はリーマン流マッチングアプローチに対してアブレーション実験を行い、設計上の選択の影響を評価し、その結果を表 Aに報告する。

•

ガイド付きサンプリング。ガイド付きサンプリングはgeoscoreを改善するが、本稿の図7に示されているように、過度に自信のある予測のため、尤度スコアが低下する。
•

ガイドなしの単一サンプリング。我々はガイダンスを追加しない（式13の $\omega=0$ ）。geoscoreが182ポイント低下する（3485対3767）が、NLLは改善される（-1.8対33.1）ことを観察した。ガイダンスは位置特定性能を向上させるが、確率的予測を著しく悪化させる。
•

アンサンブルサンプリング。 32個のランダムな点をサンプリングおよびデノイズし、最も尤度の高い予測を選択する。このアプローチは分布推定メトリクスにおいて最高の性能を示すが、複数のサンプルを生成し評価する必要があるため、計算コストが著しく高くなる。実際には、画像あたりの予測時間が約2ミリ秒から72ミリ秒に増加する。
•

標準シグモイドスケジューラ。本稿の式15で定義された我々の提案スケジューラを、 $\alpha=-3$ および $\beta=3$ を用いた標準の非歪みシグモイドスケジューラに置き換える。この変更はgeoscoreを向上させるが、生成メトリクスで測定される予測密度の品質を低下させる。標準シグモイドは拡散過程の初期段階（ $t$ が0に近い：低ノイズ領域）に十分な重点を置かず、これは詳細な位置特定に重要である。
•

線形シグモイドスケジューラ。本稿の式15で定義された我々の提案スケジューラを線形スケジューラに置き換える。この変更はgeoscoreと予測密度の品質の両方を低下させる。

表A: アブレーション研究我々は異なる設計の影響を推定する。我々はリーマン拡散モデルを考慮し、OpenStreetView-5Mで評価を行う。

	Geoscore $\uparrow$	NLL $\downarrow$	precision $\uparrow$	recall $\uparrow$	density $\uparrow$	coverage $\uparrow$
Guided sampling	3746.79	33.1	0.841	0.896	0.797	0.590
Single sampling	3485.88	-1.81	0.844	0.924	0.790	0.560
Ensemble sampling	3588.25	-4.31	0.899	0.785	0.881	0.537
Linear sigmoid	3734.84	-1.28	0.775	0.931	0.687	0.536
Standard sigmoid	3767.21	-1.51	0.827	0.913	0.765	0.565

表B: 生成メトリクス我々は、OSV-5MとYFCCの無条件分布に対して、生成メトリクスを用いて予測された分布の品質を評価する。

	OSV-5M				YFCC
	precision $\uparrow$	recall $\uparrow$	density $\uparrow$	coverage $\uparrow$	precision $\uparrow$	recall $\uparrow$	density $\uparrow$	coverage $\uparrow$
Uniform	0.29	0.98	0.21	0.21	0.59	0.99	0.38	0.22
vMF Regression	0.598	0.982	0.499	0.446	0.667	0.993	0.542	0.599
vMF Mixture	0.513	0.980	0.422	0.358	0.626	0.988	0.474	0.498
RFlowMatch $\mathcal{S}_{2}$ (ours)	0.841	0.896	0.797	0.590	0.957	0.952	1.060	0.926
Diffusion $\mathbb{R}^{3}$ (ours)	0.822	0.916	0.752	0.568	0.938	0.959	0.959	0.837
FlowMatch $\mathbb{R}^{3}$ (ours)	0.845	0.907	0.799	0.575	0.953	0.959	1.037	0.920

B Qualitative Illustration

Qualitative Illustrations.

我々のネットワークの詳細な説明を図 Aに示す。パラメトリックな手法であるvMFとvMF混合が高度に多峰性の分布を捉えられないことが観察される。対照的に、我々の分布はノンパラメトリックであり、非常に複雑な空間分布を予測することができる。vMF混合は単一のvMFに収束しており、これは予測の大部分で観察された。

両方のフローマッチング手法が視覚的に近い結果を与えることが観察される。ただし、両モデルは同じ計量空間に埋め込まれていないため、尤度の値は比較できないことに注意されたい。表 Bに詳述されている生成メトリクスは、リーマンモデルがより細かいスケールで無条件分布によく適合することを示している。

Detailed Quantitative Results.

OSV-5MとYFCCデータセットの完全な生成メトリクスを表 Bに示す。本稿の主要部分でiNat21について観察したのと同様に、フローマッチング、特にリーマンフローマッチングが、サンプルの最も忠実な予測分布をもたらす。

C Implementation Details

Baseline Details.

我々は、全てのベースラインにおいて、我々のモデルと同じバックボーンと画像エンコーダーを使用している。これらをベースラインに適応させるために、以下の2つの修正を行った： (i) 欠落している入力（ノイズのある座標とスケジューラー）を学習可能なパラメータで置き換えた。 (ii) 最終的な予測ヘッドを、von Mises-Fisher (vMF) 分布のパラメータを予測するMLPに置き換えた：平均方向 $\mu\in\mathcal{S}^{2}$ （ $L_{2}$ 正規化を使用）と集中パラメータ $\kappa>0$ （ソフトプラス活性化を使用）。

vMFの混合モデルについては、 $K=3$ 個のvMF分布を使用している。 $\mu$ と $\kappa$ のヘッドは現在3セットのパラメータを予測し、混合重みは別の専用ヘッド（ソフトマックス活性化を使用）によって予測される。

Architecture Details.

我々のモデルアーキテクチャは、図 Bに示されているように、いくつかの主要な構成要素から成る：

•

入力処理：モデルは3つの入力を受け取る：現在の座標 $x_{t}$ 、画像埋め込み $c$ 、およびノイズレベル $\kappa(t)$ 。
•

初期変換：座標 $x_{t}$ はまず、次元を3から $d$ に拡張する線形層を通過し、その後パラメータ $\alpha,\beta$ で条件付けされたADA-LN層を通過する。
•
主処理ブロック：ネットワークの中核（灰色で示されている）は $N$ 回繰り返され、以下で構成される：
- –
  
  次元を $d$ から $4d$ に拡張する線形層
- –
  
  GELU活性化関数
- –
  
  次元を $4d$ から $d$ に縮小する線形層
- –
  
  $\alpha,\beta$ で条件付けされたADA-LN層

•

AdaLN：AdaLN層は、画像特徴に基づいて入力をスケーリングおよびシフトする条件付き層正規化である：

\text{AdaLN}(x)=\gamma\odot\frac{x-\mu}{\sigma}+\beta

(A)

ここで、 $\mu,\sigma$ は特徴次元における $x$ の平均と標準偏差であり、 $\gamma,\beta$ は学習可能なパラメータである。

•
スキップ接続：各処理ブロックには、以下のようなスキップ接続パスがある：
- –
  
  処理ブロックをスキップし、入力を出力に直接接続することで、より良い勾配の流れを可能にする。
- –
  
  ゲーティングパラメータ $\gamma$ によって変調され、ブロック出力がメインパスにどの程度追加されるかを制御する。
このゲート付きスキップ接続により、ネットワークは各処理ブロック周りの情報の流れを適応的に制御できる。
•

出力ヘッド：最終的な予測は、目標次元 $d\mapsto 3$ にマッピングする線形層を通じて得られる。
•

タイムステップの条件付け：ノイズレベル $\kappa(t)$ は、AdaLN層の条件付けに加算することで組み込まれる。

我々は、OSV-5MとYFCC-100Mには次元 $N=12$ の $d=512$ ブロックを使用し、iNat21には次元 $d=256$ のブロックを使用する。

Optimization.

我々は、バッチサイズ1024で100万ステップのモデル訓練を行い、学習率 $8*10^{-4}$ のLambオプティマイザ[81]を使用する。500ステップのウォームアップとコサイン減衰学習率スケジュールを採用する。モデルの重みには0.999のEMAを使用する。OSV-5MとYFCC-100Mには $0.05$ の重み減衰を、iNaturalistには $0.1$ を使用する。クラスフリーガイダンスを可能にするため、10%の確率で条件付け画像埋め込みをドロップアウトする。

図B: アーキテクチャ。我々のモデルは、現在の座標

x_{t}

、画像埋め込み

\phi(c)

、およびノイズレベル

\kappa(t)

を入力として受け取る。このアーキテクチャは、決定論的ベースラインを含む我々のすべての定式化に使用される。

Metrics.

•

適合率と再現率：我々は、地理的近接性を考慮して、従来の生成評価指標である適合率と再現率を我々の空間設定に適応させる[40]。

真の位置の集合を $X$ とし、我々のモデルが予測する無条件分布からサンプリングされた位置の集合を $Y$ とする。 $Z$ を位置の集合（ $X$ または $Y$ ）とし、 $z\in Z$ に対して、 $\textbf{B}(z,Z)$ を $\mathcal{S}_{2}$ を中心とし、半径が $z$ の $k$ 番目の最近傍の距離に等しい球と定義する。ここで、 $z$ は $Z$ に属する。これにより、位置の目標の近似多様体を定義できる：

\displaystyle\text{manifold}(Z):=\bigcup_{z\in Z}\textbf{B}(z,Z)~{}.

(B)

ここで、適合率と再現率を、真の（それぞれ予測された）位置の多様体内にある予測された（それぞれ真の）位置の割合として定義する：

	precision	$\displaystyle:=\frac{1}{\mid Y\mid}\sum_{y\in Y}[y\in\text{manifold}(X)]$		(C)
	recall	$\displaystyle:=\frac{1}{\mid X\mid}\sum_{x\in X}[x\in\text{manifold}(Y)]~{},$		(D)

ここで、 $[P]$ はアイバーソンの括弧であり、文 $P$ が真の場合は1、それ以外は $0$ である。本稿全体を通じて、近傍の数を $k=3$ に設定する。

•

密度とカバレッジ：Naeemらは[53]、特に外れ値を含む分布に対して、より信頼性の高い適合率と再現率の指標を導入している。我々は、これらの指標を我々の設定に適応させることを提案する。密度は、予測された位置 $Y$ が真の位置 $X$ の周りにどれだけ密集しているかを測定する：

\displaystyle\text{density}:=\frac{1}{k\mid Y\mid}\sum_{y\in Y}\sum_{x\in X}[y% \in\textbf{B}(x,X)]~{}.

(E)

再現率の指標は、予測された多様体が埋め込み空間を一様にカバーする場合に誤解を招くほど高くなる可能性がある。これは特に $\mathcal{S}_{2}$ のような低次元空間で問題となる：一様分布はOSV-5Mにおいて $0.98$ の再現率を持つ。カバレッジは、生成された分布が真のデータのモードをどれだけよくカバーしているかを、そのような過大評価を報酬としないようにしつつ、より適切に捉える。これは、予測された分布が真のデータをどれだけよくカバーしているかを評価することで行う：

\text{coverage}:=\frac{1}{\mid X\mid}\sum_{x\in X}[\exists y\in Y\cap\textbf{B% }(x,X)]~{}.

(F)

D Technical Details

本節では、球面上のリーマン幾何学の詳細と、命題1の証明の概要、およびその一般化に関する要素を提示する。

Spherical Geometry.

対数写像 $\log_{x}$ は点 $y\in\mathcal{S}_{2}$ を $T_{x}$ 、すなわち点 $x$ における接空間に写像する [68]：

\displaystyle\log_{x}(y)=\frac{\theta}{\sin\theta}(y-\cos{\theta}x)~{},

(G)

ここで $\theta=\arccos(\langle x,y\rangle)$ は $x$ と $y$ の間の角度である。指数写像 $\exp_{x}$ は点 $x\in\mathcal{S}_{2}$ の接ベクトル $v\in T_{x}$ を球面上に戻す写像である：

\displaystyle\exp_{x}(v)=\cos(\|v\|)x+\frac{\sin(\|v\|)}{\|v\|}v~{},

(H)

ここで $\|v\|$ は $v$ のユークリッドノルムである。

Proof of Prop 1.

ここに修正された命題とその証明を示す。我々は今、[44, Appendix C]に触発された命題1の簡潔な証明を提案する。

Proposition 2.

位置 $y\in\mathcal{S}^{2}$ と画像 $c$ が与えられたとき、 $t$ について $0$ から $1$ まで以下の常微分方程式系を解くことを考える：

\displaystyle\frac{d}{dt}\begin{bmatrix}x(t)\\ f(t)\end{bmatrix}=\begin{bmatrix}\psi(x(t)\mid c)\\ -\operatorname{div}\,\psi(x(t)\mid c)\end{bmatrix}\;\text{with}\;\begin{% bmatrix}x(0)\\ f(0)\end{bmatrix}=\begin{bmatrix}y\\ 0\end{bmatrix}~{},

(I)

すると、 $y$ が与えられた場合の $c$ の対数確率密度は以下のようになる： $\log p(y\mid c)=\log p_{\epsilon}(x(1)\mid c)+f(1)$ ここで、 $p_{\epsilon}$ はノイズ $\epsilon$ の分布であり、 $f(t)$ は軌道に沿った速度場の発散を蓄積する。

Proof.

対数質量保存定理[4, 75]は以下のように記述される：

\displaystyle\frac{d}{dt}\log p(x_{t}\mid c)+\operatorname{div}\,v(x_{t})=0~{}.

(J)

ネットワーク $\psi$ を $v(x_{t})$ に回帰するよう訓練した後、 $\psi(x_{t}\mid c)$ を $v(x_{t})$ に代入すると以下を得る：

\displaystyle\frac{d}{dt}\log p(x(t)\mid c)+\operatorname{div}\,\psi(x(t)\mid c% )=0~{}.

(K)

我々は $0$ から $1$ まで積分する：

\displaystyle\log p(x_{1}\mid c)-\log p(x(0)\mid c)=-\int_{0}^{1}\operatorname% {div}\,\psi(x(t)\mid c)~{}.

(L)

したがって、以下のシステムを得る：

\displaystyle\frac{d}{dt}\begin{bmatrix}x(t)\\ f(t)\end{bmatrix}=\begin{bmatrix}\psi(x(t)\mid c)\\ -\operatorname{div}\,\psi(x(t)\mid c)\end{bmatrix}

(M)

初期条件は以下の通りである：

\displaystyle\begin{bmatrix}x(0)\\ f(0)\end{bmatrix}=\begin{bmatrix}y\\ 0\end{bmatrix}~{}.

(N)

ここで、軌道に沿った速度場の発散を蓄積する： $f(t)=\int_{0}^{t}\operatorname{div}\psi(x(t)\mid c)$ したがって、 $f(0)=0$ となる。式 Mのシステムは、すべての $t\in[0,1]$ に対して唯一の解を持つ。式 Oから以下が得られる：

\displaystyle\log p(x_{0}\mid c)=\log p(x(1)\mid c)-f(1)~{}.

(O)

確率 $\log p(x(1)\mid c)$ は初期ノイズの分布によって直接与えられ、 $f(1)$ は $f$ に対する $t=1$ におけるシステムの解である。

∎

Extending Prop 1.

命題1は、リーマン流マッチングに拡張することができる。これは、ODEを反復的に解く際に、各ステップで球面上に反復を射影するだけである式 M。
拡散モデルの場合、我々は速度場に直接アクセスすることはできない。しかし、Song らによると [71, Section D.2]、以下の形式の確率微分方程式において：

dx=f(x,t)dt+G(x,t)d\omega

(P)

ここで $d\omega$ はウィーナー過程である [21]。速度場 $\Psi(x,t)$ は以下のように表現できる：

	$\displaystyle v(x,t)$	$\displaystyle=f(x,t)-\frac{1}{2}\nabla\cdot[G(x,t)G(x,t)^{T}]$
		$\displaystyle\quad-\frac{1}{2}G(x,t)G(x,t)^{T}\nabla\log p_{t}(x_{t}\mid x_{0}% ,c)$		(Q)

我々の場合、前方ノイズ過程を以下のように定義した：

x_{t}=\sqrt{1-\kappa(t)}x_{0}+\sqrt{\kappa(t)}\epsilon,\quad\epsilon\sim% \mathcal{N}(0,I)~{}.

(R)

これにより、以下を選択することになる：

	$\displaystyle f(x,t)$	$\displaystyle=-\frac{1}{2}x\beta(t)$		(S)
	$\displaystyle G(x,t)$	$\displaystyle=\sqrt{\beta(t)}~{},$		(T)

ここで $\beta(t)$ は $x_{t}$ の $t$ と $t+\delta t$ の間の無限小の変化を表す： $\beta(t)=x_{t+\delta t}-x_{t}$ 。 [71, Eq 29] によると、このプロセスは以下を生成する：

x_{t}\sim\mathcal{N}\left(x_{0}e^{-\frac{1}{2}\int_{0}^{t}\beta(s)ds},\left(1-% e^{-\int_{0}^{t}\beta(s)ds}\right)I\right)

(U)

これは以下を意味する [70, X]：

\beta(t)=\frac{d\log(\kappa(t))}{dt}

(V)

最後に、 $\nabla\log p_{t}(x_{t}\mid x_{0},c)$ を $-\epsilon_{\theta}(x_{t},t,c)$ に置き換えることができる式 Qにおいて、我々のモデルはデータに追加されたノイズを予測することを学習するためである。これにより、以下の速度場が得られる：

\psi(x,t)=-\frac{1}{2}\beta(t)(x-\epsilon_{\theta}(x,t,c))~{}.

(W)

	OSV-5M [2]	INat21 [74]	YFCC [1]
High
Medium
Low

Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

Abstract

1 Introduction

Modeling Spatial Ambiguity.

Generative Geolocation.

2 Related Work

Global Visual Geolocation.

Uncertainty-Aware Localization.

Generative Models.

3 Method

Notations.

3.1 Geographic Diffusion

Training.

Inference.

3.2 Extension to Riemannian Flow Matching

Flow Matching in ℝ3superscriptℝ3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT.

Riemannian Flow Matching on the Sphere.

3.3 Guidance and Density Prediction

Guided Geolocation.

Predicting Distributions.

Proposition 1.

3.4 Implementation

Scheduler.

Model Architecture.

4 Experiments

Baselines.

Model Parameterization.

4.1 Visual Geolocation Performance

Metrics.

Results.

Analysis.

4.2 Probabilistic Visual Geolocation

Metrics.

Results.

Localizability.

5 Conclusion

6 Acknowledgements

References

A Ablation Study

B Qualitative Illustration

Qualitative Illustrations.

Detailed Quantitative Results.

C Implementation Details

Baseline Details.

Architecture Details.

Optimization.

Metrics.

D Technical Details

Spherical Geometry.

Proof of Prop 1.

Proposition 2.

Proof.

Extending Prop 1.

Around the World in 80 Timesteps:
A Generative Approach to Global Visual Geolocation

Flow Matching in $\mathbb{R}^{3}$ .