北京大學彭宇新教授團隊開源最新多輪交互式商品檢索模型、數(shù)據(jù)集及評測基準
相關論文已被 ICLR 2025 接收,并已開源。
原標題:北京大學彭宇新教授團隊開源最新多輪交互式商品檢索模型、數(shù)據(jù)集及評測基準
文章來源:機器之心
內容字數(shù):8463字
北京大學彭宇新教授團隊ICLR 2025論文:多輪組合圖像檢索新基準FashionMT及模型MAI
本文介紹了北京大學彭宇新教授團隊在多輪交互式商品檢索領域的最新研究成果,該成果已被ICLR 2025接收并開源。該研究針對現(xiàn)有多輪組合圖像檢索(MTCIR)方法存在的歷史上下文缺失和數(shù)據(jù)規(guī)模受限問題,提出了新的數(shù)據(jù)集和模型。
1. 現(xiàn)有MTCIR方法的不足
現(xiàn)有的MTCIR方法通常通過串聯(lián)單輪CIR數(shù)據(jù)集構建多輪數(shù)據(jù)集,存在兩大缺陷:首先,修改文本缺乏對歷史圖像的關聯(lián),導致檢索偏離實際場景;其次,數(shù)據(jù)規(guī)模受限,難以滿足研究和應用需求。
2. 新數(shù)據(jù)集FashionMT
為了解決上述問題,該研究構建了新的多輪組合圖像檢索數(shù)據(jù)集和評測基準FashionMT。FashionMT具有以下特點:
回溯性:每輪修改文本可能涉及歷史參考圖像信息,要求算法回溯利用多輪歷史信息。
多樣化:FashionMT包含的電商圖像數(shù)量和類別分別是MT FashionIQ的14倍和30倍,交互輪次數(shù)量接近其27倍,提供了豐富的多模態(tài)檢索場景。
FashionMT的構建利用了一個自動化的修改生成框架(MGF),該框架能夠自動生成具有回溯性(回滾和組合兩種情境)的修改文本。
3. 多輪聚合-迭代模型MAI
該研究提出了多輪聚合-迭代模型MAI,以應對MTCIR中的兩大挑戰(zhàn):多模態(tài)語義聚合和多輪信息優(yōu)化。
兩階段語義聚合(TSA):逐步將圖像與其描述文本聚合,再與修改文本聚合,并結合循環(huán)組合損失(CCL)計算,增強語義一致性和模態(tài)對齊。
無參數(shù)多輪迭代優(yōu)化(MIO):動態(tài)選擇具有高語義多樣性的代表性標記,有效壓縮了歷史數(shù)據(jù)表征的存儲空間。
MAI包含四個主要模塊:多模態(tài)語義聚合(BSA)、多輪迭代優(yōu)化(MIO)、修改語義聚合(MSA)和循環(huán)組合損失(CCL)。其中,MIO模塊利用基于聚類算法的token選擇策略,實現(xiàn)長程依賴建模中的信息優(yōu)化。
4. 實驗結果
實驗結果表明,MAI方法在FashionMT數(shù)據(jù)集上的召回指標平均提升了8%,優(yōu)于現(xiàn)有方法。MAI能夠有效處理細粒度需求和回溯性需求。
5. 總結
該研究通過構建新的數(shù)據(jù)集FashionMT和提出新的模型MAI,有效地解決了現(xiàn)有MTCIR方法的不足,為多輪交互式商品檢索提供了新的解決方案。FashionMT數(shù)據(jù)集和MAI模型的開源,將促進該領域的研究和發(fā)展。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產業(yè)服務平臺