JaLMS
最新の AI 研究を日本語で解読

VisualLens: Personalization through Visual History

Wang Bill Zhu    Deqing Fu    Kai Sun    Yi Lu    Zhaojiang Lin    Seungwhan Moon    Kanika Narang    Mustafa Canim    Yue Liu    Anuj Kumar    Xin Luna Dong [ [ [email protected]
Abstract

我々は、ユーザーの日常生活を反映した画像による視覚的履歴が、彼らの興味や嗜好に関する貴重な洞察を提供し、パーソナライゼーションに活用できるという仮説を立てている。この目標を達成するための多くの課題の中で、最も重要なのは視覚的履歴の多様性とノイズである。これには、必ずしもレコメンデーションタスクに関連しない画像、必ずしもユーザーの興味を反映していない画像、あるいは嗜好に関連しない画像さえも含まれる。既存のレコメンデーションシステムは、ショッピングレコメンデーションのためのオンラインショッピング履歴など、タスク固有のユーザーインタラクションログに依存するか、テキスト信号に焦点を当てている。本稿では、画像表現を抽出、フィルタリング、精緻化し、これらの信号をパーソナライゼーションに活用する新しいアプローチVisualLensを提案する。我々はタスクに依存しない視覚的履歴を持つ2つの新しいベンチマークを作成し、我々の手法が最先端のレコメンデーションよりもHit@3で5-10%改善し、GPT-4oよりも2-5%改善することを示す。 我々のアプローチは、従来の手法が失敗するシナリオにおいてパーソナライズされたレコメンデーションへの道を開くものである。

1 Introduction

Refer to caption
図1: VisualLensはユーザーのタスク非依存の視覚的履歴を活用して、個別化された推薦を提供する。我々の手法はGPT-4oを Hit@3 において1.6%similar-to\sim4.6%上回る性能を示す。

日常生活で行動を観察するパーソナルアシスタントを想像してみよう。鋭い洞察力を持つこのアシスタントは、あなたが楽しめることや興味を持つことについて、的確な推測ができる。レストランや活動、映画、本、製品などの推薦を求めると、あなたについての深い理解に基づいて、あなたの好みに特化した提案を提供するだろう。

この考え方は単純に思えるが、生活のさまざまな側面にわたって推薦を行う包括的なパーソナルアシスタントは、まだ現実のものとなっていない。既存の多くの推薦システムは特定の領域に限定されており、その特定の分野内での対話履歴に依存している(Tan and Jiang, 2023; Papadakis et al., 2023)。例えば、eコマースプラットフォームは過去の購入履歴に基づいて製品を提案するかもしれないが、食事の習慣や買い物以外の興味を考慮することはない。同様に、レストラン予約システムは過去の予約に基づいて飲食店を推薦するかもしれないが、料理に対する新しい興味や最近の旅行については知らない。動画ストリーミングサービスは視聴履歴に基づいて映画を提案するかもしれないが、文化的な好奇心については認識していない。

最近の個別化された対話システムの進歩により、タスク非依存の対話ログを活用して個別化された回答を提供することが可能になった(Harper and Konstan, 19; Ni et al., 2019; Liu et al., 2023)。しかし、これらのアプローチは主にテキストデータに依存している。

我々は、ユーザーの日常生活を反映する画像で構成される視覚的履歴が、ユーザーの興味や嗜好に関する貴重な洞察を提供すると仮定する。 本稿は、このような視覚的履歴が推薦システムにユーザーの個人的な嗜好をより良く理解させ、より個別化された推薦を提供できるかどうかを調査することを目的としている。

この目標を達成するには多くの課題がある。第一に、我々はVannevar BushのMemex(Bush, 1945)に類似した、ユーザーの同意のもとで視覚的履歴を記録できる未来のシステムを構想しているが、バッテリー寿命、熱制約、ストレージ容量などのハードウェアの制限により、そのようなシステムは依然として実現が困難である。第二に、ユーザーの視覚的履歴は本質的に多様でノイズが多く、特定の推薦要求に直接関連しない画像、ユーザーの嗜好を正確に反映しない要素(例えば、楽しむことなく美術館を訪れる)、嗜好を示さない要素(例えば、ゴミ箱のような背景オブジェクト)を含んでいる。最後に、多くの推薦タスクが即時の応答を必要とするため、低遅延のソリューションを開発する必要がある。

本稿では、ユーザーの視覚的履歴を活用したパーソナライズド推薦への第一歩として、新しいアプローチであるVisualLensを提案する。我々の最初の貢献は、ユーザーが撮影した写真を活用することで履歴の利用可能性の課題に取り組むことである。広範な視覚ログとは異なり、ユーザーが撮影する写真は格段に少ないストレージで済み、多くの場合レビューやソーシャルメディアの投稿で容易に入手でき、ユーザーの興味や嗜好についてより意味のあるシグナルを伝える。評価を容易にするため、我々は公開されている写真を使用してGoogle Review-VとYelp-Vという2つのベンチマークを作成し、パーソナライゼーションの評価の基盤を提供した。

我々の第二の貢献は、ユーザーの視覚的履歴を活用してパーソナライゼーションを改善する推薦ソリューションである。我々のソリューションの核心は、視覚的履歴から本質的なシグナルを効果的に抽出してユーザーの嗜好を推論する一連のモデルである。まず、推薦リクエストが与えられると、最も関連性の高い画像のみを選択的に取得し、不要なノイズや妨害要因を減らす。次に、写真が伝える可能性のあるシグナルを効果的に捉えるために、視覚的埋め込みだけでなく、画像から抽出されたテキストキャプションとアスペクト語も使用する。第三に、ユーザーの興味をより良く反映し、推薦に情報を提供するために、アスペクト抽出を継続的に改善する反復的な洗練プロセスを採用する。アスペクト語の抽出と予測タスクを統一モデル内で共同訓練することで、VisualLensは全体的なパラメータサイズを削減するだけでなく、視覚的履歴を理解し活用して正確な推薦を行うモデルの能力も向上させる。

我々の3つ目の貢献は、推薦生成を加速するために複数の最適化を適用するパイプラインである。オンライン処理時間を最小限に抑えるため、画像キャプションの事前生成とアスペクトの抽出をオフラインで行う。さらに、複数の画像をd×d𝑑𝑑d\times ditalic_d × italic_dグリッドに集約するグリッドベースのアプローチを導入し、複数の画像を同時に処理することで計算オーバーヘッドを大幅に削減する。

我々の包括的な実験研究は、VisualLensの有望な推薦品質を示している。Google Review-VとYelp-Vのベンチマークにおいて82-91%のHit@10を達成し、最先端の手法(UniMP、Wei et al. (2024a))をsimilar-to\sim10%percent1010\%10 %上回った。GPT-4oと比較しても、我々の8Bモデルはすべての指標で上回り、2つのベンチマークにおいてHit@3をそれぞれ1.6%と4.6%改善している。

2 Related Works

Recommendation system with large language models.

大規模言語モデル(LLM)は、その高度な言語処理能力により、推薦システムにおいて大きな可能性を示している(Tan and Jiang, 2023)。 アイテムベースの推薦に関しては、LLM4RS (Dai et al., 2023)、LLMRank (Hou et al., 2024)、 CLLM4Rec (Zhu et al., 2024b)、 P5 (Geng et al., 2022)、 および Sanner et al. (2023) などの研究が、様々なLLMのプロンプトとブートストラッピング戦略を探求し、特にコールドスタートシナリオにおいて競争力のある性能を示している。 オープンドメインのプロンプトを用いた生成型推薦は、GenRec (Ji et al., 2023) によって探求されているが、ファインチューニングは依然として重要である。 ファインチューニングアプローチには、パーソナライズされた側面抽出 (Li et al., 2023c) や、LLaMaモデルにおけるマルチタスキング (Yang et al., 2023) が含まれる。 ReLLaのような検索強化モデルは、関連する行動シーケンスを検索することで推薦を改善している (Lin et al., 2024)。 指示チューニングとグラフ拡張アプローチは、InstructRec (Zhang et al., 2023)、LLMRec (Wei et al., 2024b)、およびLKPNR (Hao et al., 2023) で探求されている。 LLMはまた、プロンプティングに関する Li et al. (2023a) や、ファインチューニングに関するONCE (Liu et al., 2023)、LoID (Xu et al., 2024) のように、コンテンツベースの推薦でも効果的に機能する。

Multimodal large language models.

マルチモーダル大規模言語モデル(LLM)は、画像や動画の処理、および人間のようなテキスト生成において、ますます強力になってきている。その例として、GPT-4ファミリー(OpenAI, 2024)、Claude 3.5ファミリー(Anthropic, 2024)、GeminiおよびPaliGemma(Google, 2023; Beyer et al., 2024)、LLaVAモデルファミリー(Liu et al., 2024)、Llama 3 Visionモデル(Meta, 2024)などが挙げられる。しかしながら、これらのモデルは依然として強力な言語バイアス(Fu et al., 2024a; Parcalabescu and Frank, 2024)、汎化性能の問題(Zhu et al., 2022)、幻覚(Fu et al., 2024b)に悩まされており、あるいは大量のテキスト転写を必要とする(Zhu et al., 2024a)。LLM推薦システムとの類推において、これらのモデルがユーザー履歴をどの程度理解できるかは、依然として不明確である。

Multimodal recommendation systems.

マルチモーダル推薦システムは、テキストや画像などの複数のデータタイプを活用して、推薦の関連性とパーソナライゼーションを向上させる。 LLM時代以前、Lee and Abu-El-Haija (2017)は類似性学習を用いたコンテンツのみのビデオ推薦システムを提案した。 PC2L (Yan et al., 2023)は、推薦にマルチモーダルな説明を提供するLLMモデルを開発した。 画像とテキスト以外のモダリティについて、LSVCR (Zheng et al., 2024)はコメントとビデオアイテムを統合した共同推薦システムを構築した (Davidson et al., 2010; Du et al., 2020; Gao et al., 2017; Zhou et al., 2024)。 現在の最先端の画像-テキスト推薦であるUniMP (Wei et al., 2024a)は、単一タスクのマルチモーダルパーソナライゼーション (He and McAuley, 2016; Tang et al., 2020; Wei et al., 2019, 2023)をウェブサイトベースのショッピングのマルチタスクに拡張した。RecFormer (Li et al., 2023b)やUniSRec (Hou et al., 2022)などの手法は、画像を短いキャプションに変換してテキストのみのモデルを利用している。 しかし、これらの手法はいずれも、ユーザーの視覚的履歴からのパーソナライズされた推薦のシナリオを考慮していない。 本稿では、視覚的履歴によるパーソナライゼーションを実現するマルチモーダルLLMを活用した新しい手法VisualLensを提示する。

Refer to caption
図2: VisualLensの推論パイプライン:オフラインプロセスでは視覚的履歴の画像にキャプションとアスペクトワードを付与し、ランタイム推薦プロセスでは関連画像を検索し、それに応じてユーザープロファイルを生成し、候補の選好を予測する。

3 Problem Definition

推薦QA(質問応答)タスクを考える。ここでユーザーは推薦質問q𝑞qitalic_qを尋ね、推薦システムはq𝑞qitalic_qとしてランク付けされたアイテムのリストで回答する。優れた推薦システムは、ユーザーがより興味を持つ可能性が高い、あるいは試してみたいと思うアイテムをリストの上位にランク付けするべきである。

推薦システムには、各ユーザーu𝑢uitalic_uに対してタスク非依存の視覚的履歴usubscript𝑢{\cal H}_{u}caligraphic_H start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPTが提供される。これには、ユーザーが撮影または投稿した一連の写真が含まれており、必ずしもq𝑞qitalic_qに関連しているわけではない。我々は汎用化を可能にするために3つの仮定を述べる。第一に、写真は質問に直接関連していない可能性がある。第二に、画像は必ずしも候補アイテムと関連付けられておらず、関連付けられていたとしても候補IDは与えられない。第三に、写真は必ずしも強い選好を示すものではない。図1は、質問、視覚的履歴、および候補の例を示している。

問題を簡略化するために、我々はユーザーの質問を満たすすべての候補を取得する候補検索器が存在すると仮定する。各候補s𝑠sitalic_s(xs,s)subscript𝑥𝑠subscript𝑠(x_{s},{\cal I}_{s})( italic_x start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT , caligraphic_I start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT )のペアで表現され、xssubscript𝑥𝑠x_{s}italic_x start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPTは名前とテキスト説明、ssubscript𝑠{\mathcal{I}}_{s}caligraphic_I start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPTはそのアイテムの画像セットである。

従来の推薦設定では、2種類のシグナルを考慮する。1つ目は、候補セット内のタスク固有のアイテムセットであり、これはユーザーの興味または少なくともユーザーの履歴を捉える。2つ目は、ユーザーの年齢、性別、興味などのユーザー固有の属性セットである。本稿ではタスク非依存の視覚的履歴に焦点を当て、これらの従来のシグナルの統合は将来の拡張のために残しておく。

4 Recommendation Method

我々はまず、VisualLensのソリューションについて説明する。我々のソリューションは2つの部分から成る:オフラインの履歴拡張実行時の推薦生成である。

  • オフラインの履歴拡張(§4.1)は、ビジュアル履歴内の各画像に、その画像から抽出されたキャプションアスペクトワードを付加する。図2は、ビジュアル履歴内の画像のキャプションとアスペクトワードの例を示している。

  • 実行時の推薦生成(§4.2)は、推薦質問q𝑞qitalic_qに3つのステップで答える。まず、履歴検索ステップでは、ビジュアル履歴が多様であり、すべての写真がすべての質問に関連するわけではないため、q𝑞qitalic_qに関連する画像のみを検索する。次に、嗜好プロファイリングステップでは、検索された画像とその拡張されたキャプションおよびアスペクトを使用して、ユーザーの嗜好プロファイルを生成する。最後に、候補マッチングステップでは、ユーザーの嗜好プロファイルと各候補をマッチングし、ランキングのために各候補の信頼度スコアを生成する。VisualLensは、アスペクト生成と候補マッチングに同じバックボーンモデルをパラメータθ𝜃\thetaitalic_θで使用する。

4.1 Offline history augmentation

画像内の様々な信号を最適に捉えるために、我々は画像を視覚的埋め込みにエンコードし、キャプションと一連のアスペクト語で拡張する。実験的なアブレーション研究(表6.3)で示すように、これらの拡張により、様々なエンコーディング技術の強みを活用し、推薦の品質を大幅に向上させることができる。これらの拡張は、実行時のレイテンシーを削減するために、推薦時に直接使用することができる。

Image encoding.

我々は、視覚的履歴内の各画像をCLIP ViT-L/14@336pxモデル(Radford et al., 2021)を用いてエンコードする。この埋め込みは、実行時の履歴検索ステップにおいて画像検索に直接活用される。

Caption generation.

我々は、凍結されたLLaVA-v1.6 8Bモデル(Liu et al., 2024)を使用して画像キャプションを生成する。キャプションが簡潔で幻覚が少なくなるように、30語以内でキャプションを生成するようモデルにプロンプトを与えた。

Aspect word generation.

アスペクト語は、画像の本質的な特徴や属性を捉える記述的な用語である(例えば、ドーム、バルコニー、植物)。 アスペクト語は画像に関する重要な詳細を提供する。我々は、バックボーンモデルに画像のアスペクト語をリストアップするようプロンプトを与えた。 各画像には最終的な嗜好予測に不可欠なアスペクト語の数が異なる可能性があるため、抽出するアスペクト語の数は制限していない。推薦タスクに最も有用なアスペクト語を生成するためにモデルをファインチューニングする方法については、セクション5.3で説明する。

4.2 Runtime recommendation generation

History retrieval.

クエリq𝑞qitalic_qとユーザーの視覚的履歴usubscript𝑢{\cal H}_{u}caligraphic_H start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPTが与えられると、VisualLensはまずq𝑞qitalic_qに関連する画像を取得し、これをu,qsubscript𝑢𝑞\mathcal{I}_{u,q}caligraphic_I start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPTと表す。我々は実行時に処理する画像数を制限するために最大w𝑤witalic_w枚の画像を選択し、文脈上最も関連性の高い画像のみを保持して更なる処理を行うことで、ノイズを低減している。

一般的に、DELG (Cao et al., 2020)のような任意の画像検索手法を使用できる。 ここでは、推薦タスクで一般的なレストラン美術館などのカテゴリー別推薦のための手法を紹介する。各カテゴリーc𝑐citalic_cに対して、そのカテゴリー内の候補アイテムをランダムに選択し、それらの画像の視覚的埋め込みを平均化してカテゴリーの画像埋め込みとし、これを𝐯csubscript𝐯𝑐\mathbf{v}_{c}bold_v start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPTと表す。具体的には、カテゴリー埋め込みは以下のように計算される:

𝐯c=1nj=1n𝐯c(j)subscript𝐯𝑐1𝑛superscriptsubscript𝑗1𝑛superscriptsubscript𝐯𝑐𝑗\mathbf{v}_{c}=\frac{1}{n}\sum_{j=1}^{n}\mathbf{v}_{c}^{(j)}bold_v start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG italic_n end_ARG ∑ start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT bold_v start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_j ) end_POSTSUPERSCRIPT

ここで、n𝑛nitalic_nは候補の数であり、𝐯c(j)superscriptsubscript𝐯𝑐𝑗\mathbf{v}_{c}^{(j)}bold_v start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_j ) end_POSTSUPERSCRIPTはカテゴリーc𝑐citalic_c内のj𝑗jitalic_j番目のアイテム画像の視覚的埋め込みを示す。 取得ステップでは、ユーザーの履歴内の各画像i𝑖i\in{\cal H}italic_i ∈ caligraphic_Hの視覚的埋め込み𝐯isubscript𝐯𝑖\mathbf{v}_{i}bold_v start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTと、関連するカテゴリーc𝑐citalic_cの画像埋め込み𝐯csubscript𝐯𝑐\mathbf{v}_{c}bold_v start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPTとのコサイン類似度を測定する。そして、コサイン類似度スコアに基づいて上位w𝑤witalic_w枚の画像を選択する。

Preference profiling

取得された画像セットu,qsubscript𝑢𝑞\mathcal{I}_{u,q}caligraphic_I start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPTが与えられると、VisualLensは画像、そのキャプション、および側面語に関連するユーザーの嗜好プロファイルを生成する。

このステップの重要な部分は画像エンコーディングである。取得後でも、画像の数w𝑤witalic_wは依然として多い。 ほとんどのマルチモーダルLLMは限られたサイズのコンテキストウィンドウを許容しており、処理できる画像の数を制限している。 例えば、解像度896×896896896896\times 896896 × 896の入力画像に対して、PaliGemmaモデルは最大4,096トークンの埋め込みを生成する。8,192トークンのコンテキストウィンドウを持つ典型的なLLMは、最大で2枚の画像しか扱えない。

我々は、関連する画像u,qsubscript𝑢𝑞\mathcal{I}_{u,q}caligraphic_I start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPTd×d𝑑𝑑d\times ditalic_d × italic_dのグリッドにグループ化することを提案する。ここでd2=wsuperscript𝑑2𝑤d^{2}=witalic_d start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT = italic_wであり、グリッド内のすべての画像を単一の画像として扱う。取得した画像がw𝑤witalic_w枚未満の場合は、黒い背景でパディングする。 hhitalic_hをマルチモーダルLLMで利用可能な最大解像度とする。グリッド化プロセスG𝐺Gitalic_Gd×d𝑑𝑑d\times ditalic_d × italic_dのグリッドを取り、固定サイズh×h×3superscript3\mathbb{R}^{h\times h\times 3}blackboard_R start_POSTSUPERSCRIPT italic_h × italic_h × 3 end_POSTSUPERSCRIPTの画像を生成する。 さらに、各画像に1からd2superscript𝑑2d^{2}italic_d start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTまでの番号を付け、画像が対応するキャプションと側面語に確実に紐付けられるようにする。

質問q𝑞qitalic_qに対するユーザーu𝑢uitalic_uの嗜好プロファイルを(iu,q,xu,q)subscript𝑖𝑢𝑞subscript𝑥𝑢𝑞(i_{u,q},x_{u,q})( italic_i start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPT )と表す。ここで、iu,qsubscript𝑖𝑢𝑞i_{u,q}italic_i start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPTはグリッド化された画像を、xu,qsubscript𝑥𝑢𝑞x_{u,q}italic_x start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPTは関連画像の連結されたキャプションと側面語を表す。

Candidate matching.

最後に、VisualLensはユーザーの嗜好プロファイル(iu,q,xu,q)subscript𝑖𝑢𝑞subscript𝑥𝑢𝑞(i_{u,q},x_{u,q})( italic_i start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT italic_u , italic_q end_POSTSUBSCRIPT )と、それぞれ(xs,s)subscript𝑥𝑠subscript𝑠(x_{s},{\mathcal{I}}_{s})( italic_x start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT , caligraphic_I start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT )で表される一連の候補を取り、各候補のマッチングスコアを生成する。このスコアはその後ランキングに使用される。 これはマルチモーダル候補予測器にプロンプトを与えることで達成され、ユーザープロファイルと候補を画像チャネルとテキストチャネルを通じて別々にプロンプトにパックする(テンプレートは付録Cを参照)。

5 Iterative Refinement and Joint Training

VisualLensは、画像エンコーディング、画像キャプション生成、アスペクト語生成、および最終的な嗜好-候補マッチングにLLMを必要とする。 そのままのLLMはうまく機能しないため、我々は3段階で微調整を行う。

  • まず、d×d𝑑𝑑d\times ditalic_d × italic_dグリッドの画像をより良くエンコードするために、複数画像キャプションタスクで画像エンコーディングの微調整を行う。

  • 次に、アスペクト生成は標準的なマルチモーダルタスクではないため、アスペクト語抽出器を反復的に改良し、キーワードが適切な粒度で画像のアスペクトを正確に捉えていることを確認する。

  • 第三に、画像埋め込み、キャプション、アスペクト語を含む個人プロファイル信号を最大限に活用するために、候補マッチングモデルの微調整を行う。これはアスペクト語生成との共同マルチタスク訓練を通じて行われる。

5.1 Multi-image caption pretraining

モデルが各グリッドに忠実にグラウンディングできるようにするため、我々は密なキャプションに対してLoRA継続的事前訓練を実施する。我々は15,000以上の画像とそれに対応する密なキャプションを含むDOCCIデータセット(Onoe et al., 2024)を採用する。 毎回、我々はランダムにw𝑤witalic_w枚の画像={i1,,iw}subscript𝑖1subscript𝑖𝑤\mathcal{I}=\{i_{1},\cdots,i_{w}\}caligraphic_I = { italic_i start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , ⋯ , italic_i start_POSTSUBSCRIPT italic_w end_POSTSUBSCRIPT }とそれに対応するキャプション𝒞={x1,,xw}𝒞subscript𝑥1subscript𝑥𝑤\mathcal{C}=\{x_{1},\cdots,x_{w}\}caligraphic_C = { italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , ⋯ , italic_x start_POSTSUBSCRIPT italic_w end_POSTSUBSCRIPT }をサンプリングし、グリッド化された入力画像G()𝐺G(\mathcal{I})italic_G ( caligraphic_I )と目標出力テキスト記述T(𝒞)=𝑇𝒞absentT(\mathcal{C})=italic_T ( caligraphic_C ) =画像1: x1subscript𝑥1x_{1}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT\cdots画像w: xwsubscript𝑥𝑤x_{w}italic_x start_POSTSUBSCRIPT italic_w end_POSTSUBSCRIPT」を構築する。その後、我々は事前訓練されたバックボーンモデル(例えば、MiniCPM-V2.5)をすべての画像-キャプションペア{G(),T(𝒞)}𝐺𝑇𝒞\{G(\mathcal{I}),T(\mathcal{C})\}{ italic_G ( caligraphic_I ) , italic_T ( caligraphic_C ) }に対してLoRA微調整し、モデルがグリッド化されたユーザー履歴をグリッドごとに処理できるようにする。 その後、我々は継続的に事前訓練されたモデルを出発点として使用し、§5.3で説明する共同訓練を適用する。

5.2 Iterative aspect word refinement

画像キャプション生成とは異なり、アスペクト語の生成は標準的なマルチモーダルタスクではなく、通常利用可能な広範な事前学習データが不足している。 そのため、ゼロショットプロンプティングでは、生成されたアスペクト語の品質が画像によって大きく異なり、抽出されたアスペクトがユーザーの嗜好を示さない可能性がある。

アスペクト語生成を微調整するために、我々はまず訓練データを生成する。 各画像i𝑖iitalic_iに対して、LLaVA-v1.6によって生成された初期アスペクト語集合を𝒲i(0)superscriptsubscript𝒲𝑖0\mathcal{W}_{i}^{(0)}caligraphic_W start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPTとする。jthsuperscript𝑗thj^{\text{th}}italic_j start_POSTSUPERSCRIPT th end_POSTSUPERSCRIPT回目の反復では、別のLlama-3.1 70Bモデルに𝒲i(j1)superscriptsubscript𝒲𝑖𝑗1\mathcal{W}_{i}^{(j-1)}caligraphic_W start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_j - 1 ) end_POSTSUPERSCRIPT、候補、および正解をプロンプトとして与え、正解の予測に役立つ有用なアスペクト語を選択するよう指示する。これらが𝒲i(j)superscriptsubscript𝒲𝑖𝑗\mathcal{W}_{i}^{(j)}caligraphic_W start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_j ) end_POSTSUPERSCRIPTを構成する。 この精緻化プロセスは数回続けられ、反復によって抽出されたアスペクト語がより正確で関連性の高い部分集合に収束することが可能となる。 経験的に、我々は精緻化が約4回の反復後に収束することを観察しており、4thth{}^{\textnormal{th}}start_FLOATSUPERSCRIPT th end_FLOATSUPERSCRIPT回目に精緻化されたアスペクト語集合𝒲i(4)superscriptsubscript𝒲𝑖4\mathcal{W}_{i}^{(4)}caligraphic_W start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( 4 ) end_POSTSUPERSCRIPT𝒲isubscript𝒲𝑖\mathcal{W}_{i}caligraphic_W start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTと表記し、これを訓練目標とする。

パラメータθ𝜃\thetaitalic_θを持つバックボーンモデルは、すべての画像\mathcal{I}caligraphic_Iに対するクロスエントロピー(CE)損失を最適化するように微調整される。

asp=1||iCE(𝒲i,pθ(xasp,i)),subscriptasp1subscript𝑖CEsubscript𝒲𝑖subscript𝑝𝜃subscript𝑥asp𝑖\displaystyle\mathcal{L}_{\text{asp}}=\frac{1}{|\mathcal{I}|}\sum_{i\in% \mathcal{I}}\textsc{CE}(\mathcal{W}_{i},p_{\theta}(x_{\text{asp}},i)),caligraphic_L start_POSTSUBSCRIPT asp end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG | caligraphic_I | end_ARG ∑ start_POSTSUBSCRIPT italic_i ∈ caligraphic_I end_POSTSUBSCRIPT CE ( caligraphic_W start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT asp end_POSTSUBSCRIPT , italic_i ) ) , (1)

ここで、xaspsubscript𝑥aspx_{\text{asp}}italic_x start_POSTSUBSCRIPT asp end_POSTSUBSCRIPTはアスペクト語生成のためのプロンプトである。

5.3 Joint training of aspect word generation and candidate matching

マルチモーダル推薦におけるマルチタスク学習の利点を活かすため(Wei et al., 2024a)、我々はバックボーンモデル上でアスペクト語生成器と候補予測器を共同で学習する。 この共同学習戦略により、モデルは有用なアスペクト語の特定と正確な予測を同時に学習でき、全体的な性能が向上する。

共同損失関数は、重み係数λ𝜆\lambdaitalic_λを用いてアスペクト語生成と候補マッチングのバランスを取る。ここで、候補マッチングは複数の正解ラベルを扱うためにバイナリクロスエントロピー(BCE)損失で最適化される。

pred=1Nj=1NBCE(𝒮j,pθ(xpred,j,iuj,qj)),subscriptpred1𝑁superscriptsubscript𝑗1𝑁BCEsubscript𝒮𝑗subscript𝑝𝜃subscript𝑥pred𝑗subscript𝑖subscript𝑢𝑗subscript𝑞𝑗\displaystyle\mathcal{L}_{\text{pred}}=\frac{1}{N}\sum_{j=1}^{N}\textsc{BCE}(% \mathcal{S}_{j},p_{\theta}(x_{\text{pred},j},i_{u_{j},q_{j}})),caligraphic_L start_POSTSUBSCRIPT pred end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG italic_N end_ARG ∑ start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT BCE ( caligraphic_S start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , italic_p start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT pred , italic_j end_POSTSUBSCRIPT , italic_i start_POSTSUBSCRIPT italic_u start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , italic_q start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) ) , (2)
joint=asp+λpred,subscriptjointsubscriptasp𝜆subscriptpred\displaystyle\mathcal{L}_{\text{joint}}=\mathcal{L}_{\text{asp}}+\lambda% \mathcal{L}_{\text{pred}},caligraphic_L start_POSTSUBSCRIPT joint end_POSTSUBSCRIPT = caligraphic_L start_POSTSUBSCRIPT asp end_POSTSUBSCRIPT + italic_λ caligraphic_L start_POSTSUBSCRIPT pred end_POSTSUBSCRIPT , (3)

ここでuj,qj,𝒮jsubscript𝑢𝑗subscript𝑞𝑗subscript𝒮𝑗u_{j},q_{j},\mathcal{S}_{j}italic_u start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , italic_q start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , caligraphic_S start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPTj𝑗jitalic_j番目の例のユーザー、質問、正解候補セットである。テキストプロンプトxpred,jsubscript𝑥pred𝑗x_{\text{pred},j}italic_x start_POSTSUBSCRIPT pred , italic_j end_POSTSUBSCRIPTは、質問qjsubscript𝑞𝑗q_{j}italic_q start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT、テキストユーザー嗜好プロファイルxuj,qjsubscript𝑥subscript𝑢𝑗subscript𝑞𝑗x_{u_{j},q_{j}}italic_x start_POSTSUBSCRIPT italic_u start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , italic_q start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT end_POSTSUBSCRIPT、および候補から構成される。 我々は共同損失jointsubscriptjoint\mathcal{L}_{\text{joint}}caligraphic_L start_POSTSUBSCRIPT joint end_POSTSUBSCRIPTの下でLoRAファインチューニングを行う。

{NiceTabular}

lccccccc \CodeBefore\Bodyデータセット名 訓練分割 開発分割 テスト分割 カテゴリ数 平均画像数 平均正解数 平均候補数
GR-V 15.69M 2K 200K 66 157.0 2.7 43.1
Yelp-V 4.12M 2K 100K 35 263.6 8.2 66.7

表1: Google Review-Vision (GR-V)とYelp-Vision (Yelp-V)のデータセット統計。
{NiceTabular}

llcrrrrrrrr \CodeBefore\Body Google Review-V Yelp-V
モダリティ サイズ Hit@1 Hit@3 Hit@10 MRR Hit@1 Hit@3 Hit@10 MRR
ナイーブベースライン
ランダム - - 7.6 21.0 55.0 21.2 13.0 33.6 72.7 30.0
評価順 - - 3.9 15.8 55.5 17.7 8.7 28.0 72.3 25.9
ファインチューニングモデル
UniMP (Wei et al., 2024a) T + I 3B 13.8 34.1 73.0 30.5 22.4 48.5 85.0 38.3
Llama-3.1-8B-Instruct (Meta, 2024) T 8B 15.8 36.3 77.2 32.9 24.1 52.2 88.5 39.6
MiniCPM-V2.5 (Yao et al., 2024b) T + I 8B 16.1 36.4 78.4 33.2 24.8 53.0 89.3 40.3
直接推論
Llama-3.1-70B-Instruct (Meta, 2024) T 70B 16.2 35.9 75.7 33.1 25.2 53.2 88.5 40.6
GPT-4o (OpenAI, 2024) T + I - 17.1 37.3 80.1 34.3 26.1 54.5 90.5 41.7
我々の手法
VisualLens
(PaliGemma) T + I 3B 16.7 36.3 77.1 33.5 27.8 58.8 90.4 44.3
VisualLens (MiniCPM-V2.5) T + I 8B 18.5 38.9 82.3 35.4 28.3 59.1 91.0 44.9
人間の注釈 - - 22.0 45.0 - - 36.0 66.0 - -

表2: Google Review-VとYelp-VにおけるVisualLensと複数のベースラインのヒット率とMRR。結果は以下を示している: (a) VisualLensは他のベースラインを上回るが、人間のオラクルとはまだギャップがある; (b) モデルサイズが性能に大きく影響する; (c) 単純に評価順にランク付けするのはランダムベースラインよりも悪い設計である。

6 Benchmarks and Experiments Setups

6.1 Benchmark creation

我々の知る限り、タスクに依存しない視覚的履歴を用いたパーソナライゼーションを評価するベンチマークは存在しない(Harper and Konstan, 19; Ni et al., 2019; Wu et al., 2020; Wan and McAuley, 2018; Salemi et al., 2023)。我々はGoogle Local Review (Li et al., 2022)とYelp (Asghar, 2016)の公開データを活用して、Google Review-VとYelp-Vという2つのベンチマークを作成した。

User logs:

2つのデータセットの各ユーザーについて、時系列順のレビューリストを取得する。各レビューには、ビジネスの名前、カテゴリ説明が関連付けられている。 Google Review-Vでは、各レビューに数枚の写真が関連付けられており、これを画像ログとして使用する。 Yelp-Vではレビューに写真が関連付けられていないため、店舗プロフィール画像の3分の1をランダムにサブサンプリングし、同じビジネスの異なるレビューに異なる画像を関連付けられるようにした。

Questions and visual history:

我々は特殊なタイプの質問であるカテゴリ推薦を考慮する。例えば「近くの美術館を推薦してください」のようなものである。このような質問は実際のアプリケーションで人気があり、かつ制約を満たす候補が多いため難しい。我々は小規模なカテゴリや「場所」「スポット」などの曖昧なカテゴリのほとんどを除外した。

カテゴリc𝑐citalic_cのビジネスに関するレビューr𝑟ritalic_rそれぞれについて、カテゴリc𝑐citalic_cのビジネスを推薦する質問を作成する。r𝑟ritalic_rより前のレビューにある写真のみ(かつすべて)を使用して視覚的履歴を生成する。カテゴリが非常に多様であり(図4参照)、写真も多様である(例えば、レビューで言及された幸福を表現するための公園の写真など)ため、我々は視覚的履歴をタスクに依存しないものと考える。 履歴が短すぎる(<<<10101010)場合や、質問されたカテゴリを含まない場合はインスタンスをフィルタリングする。

Candidates and ground truths:

レビューr𝑟ritalic_rについて、r𝑟ritalic_r以降のすべてのレビューを使用して候補と正解を生成する。現実的であるために、候補セットとしては同じカテゴリの近隣ビジネスのみを考慮し、候補数は[30,100]30100[30,100][ 30 , 100 ]の範囲でランダムな数とする。ユーザーの将来のレビューにも登場する候補を正解とみなす。 分類問題に陥るのを避けるため、Google Review-Vでは正解が1つのみ、Yelp-Vでは5つ未満の例をフィルタリングする。

Summary:

5.3にベンチマークの統計を示す。候補数の平均と正解数の平均の比率は、Google Review-Vで16:1、Yelp-Vで8:1であり、推薦の難しさを示している。デフォルトでは、訓練、開発、テストデータのユーザーは重複しない。表6.3で他の分割について議論する。

6.2 Evaluation measures

推薦品質を評価するために2つの指標を使用する。

Hit@𝐤𝐤\mathbf{k}bold_k.

Hit@k=1Ni=1N𝟙[rank(ri)k]Hit@𝑘1𝑁superscriptsubscript𝑖1𝑁1delimited-[]ranksubscript𝑟𝑖𝑘\text{Hit@}k=\frac{1}{N}\sum_{i=1}^{N}\mathbbm{1}[\text{rank}(r_{i})\leq k]Hit@ italic_k = divide start_ARG 1 end_ARG start_ARG italic_N end_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT blackboard_1 [ rank ( italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ≤ italic_k ] は上位k𝑘kitalic_k位のランク付け結果に関連アイテムが含まれているかどうかを確認する。 ここでN𝑁Nitalic_Nは例の数、rank(ri)ranksubscript𝑟𝑖\text{rank}(r_{i})rank ( italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT )は最初の関連アイテムのランクである。 通常、音声での推薦ではHit@3を、画面での推薦ではHit@10を確認する。