基于亞馬遜真實在線購物數據打造
原標題:多樣任務真實數據,大模型在線購物基準Shopping MMLU開源|NeurIPS&KDD Cup 2024
文章來源:量子位
內容字數:5206字
在線購物領域最強大模型的評估基準——Shopping MMLU
近期,亞馬遜聯合香港科技大學和圣母大學,共同推出了一個針對在線購物領域的大規模評測基準——Shopping MMLU。該基準旨在全面評估大語言模型(LLM)在在線購物中的能力與潛力,尤其是面對多任務和少樣本學習的挑戰。
一、評測基準的必要性
在線購物的復雜性主要體現在以下幾個方面:
- 多任務性:在線購物涉及多種實體(商品、屬性、評論等)和用戶行為(瀏覽、查詢、購買等),需要模型具備聯合建模能力。
- 少樣本性:冷啟動場景導致新用戶和新商品的出現,模型需具備少樣本學習能力。
二、Shopping MMLU的構建
Shopping MMLU覆蓋了四項在線購物能力,共計57個任務,包括:
- 在線購物概念理解
- 在線購物知識推理
- 用戶行為理解
- 多語言能力
該基準大部分基于真實的亞馬遜在線購物數據構建,經過人工檢驗以確保數據質量。
三、實驗結果與發現
研究對27個主流大語言模型進行了評估,發現:
- 閉源模型(如Claude-3)整體表現優于開源模型,但后者逐漸縮小差距。
- 特定領域模型(如eCeLLM)并未在同參數量級下取得最佳成績,顯示出Shopping MMLU的難度。
四、模型強化的策略
研究分析了如何通過微調和大模型增強手段提升模型在Shopping MMLU上的表現。結果表明:
- 模型在不同能力和任務上的得分高度正相關,表明知識的共享性。
- 通用能力強的模型在特定領域的應用更為有效,微調需注重數據質量。
五、總結與展望
Shopping MMLU為在線購物領域提供了一個全面的評測標準,能夠有效評估大語言模型的能力與潛力。該基準的開源與維護,鼓勵研究人員深入探索相關應用,為后續研究奠定了基礎。未來,Shopping MMLU將繼續吸引新模型參與評估,推動在線購物領域的技術進步。
更多信息可參考論文和GitHub資源:
論文:鏈接
數據及評測代碼:鏈接
評估榜單:鏈接
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...