国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

<pre id="aasoe"></pre><s id="aasoe"></s>

揭開在線購物新紀(jì)元：多樣任務(wù)真實(shí)數(shù)據(jù)助力Shopping MMLU基準(zhǔn)發(fā)布！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

337 0 0

基于亞馬遜真實(shí)在線購物數(shù)據(jù)打造

揭開在線購物新紀(jì)元：多樣任務(wù)真實(shí)數(shù)據(jù)助力Shopping MMLU基準(zhǔn)發(fā)布！

原標(biāo)題：多樣任務(wù)真實(shí)數(shù)據(jù)，大模型在線購物基準(zhǔn)Shopping MMLU開源｜NeurIPS&KDD Cup 2024
文章來源：量子位
內(nèi)容字?jǐn)?shù)：5206字

在線購物領(lǐng)域最強(qiáng)大模型的評估基準(zhǔn)——Shopping MMLU

近期，亞馬遜聯(lián)合香港科技大學(xué)和圣母大學(xué)，共同推出了一個(gè)針對在線購物領(lǐng)域的大規(guī)模評測基準(zhǔn)——Shopping MMLU。該基準(zhǔn)旨在全面評估大語言模型（LLM）在在線購物中的能力與潛力，尤其是面對多任務(wù)和少樣本學(xué)習(xí)的挑戰(zhàn)。

一、評測基準(zhǔn)的必要性

在線購物的復(fù)雜性主要體現(xiàn)在以下幾個(gè)方面：

多任務(wù)性：在線購物涉及多種實(shí)體（商品、屬性、評論等）和用戶行為（瀏覽、查詢、購買等），需要模型具備聯(lián)合建模能力。
少樣本性：冷啟動(dòng)場景導(dǎo)致新用戶和新商品的出現(xiàn)，模型需具備少樣本學(xué)習(xí)能力。

二、Shopping MMLU的構(gòu)建

Shopping MMLU覆蓋了四項(xiàng)在線購物能力，共計(jì)57個(gè)任務(wù)，包括：

在線購物概念理解
在線購物知識(shí)推理
用戶行為理解
多語言能力

該基準(zhǔn)大部分基于真實(shí)的亞馬遜在線購物數(shù)據(jù)構(gòu)建，經(jīng)過人工檢驗(yàn)以確保數(shù)據(jù)質(zhì)量。

三、實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)

研究對27個(gè)主流大語言模型進(jìn)行了評估，發(fā)現(xiàn)：

閉源模型（如Claude-3）整體表現(xiàn)優(yōu)于開源模型，但后者逐漸縮小差距。
特定領(lǐng)域模型（如eCeLLM）并未在同參數(shù)量級下取得最佳成績，顯示出Shopping MMLU的難度。

四、模型強(qiáng)化的策略

研究分析了如何通過微調(diào)和大模型增強(qiáng)手段提升模型在Shopping MMLU上的表現(xiàn)。結(jié)果表明：

模型在不同能力和任務(wù)上的得分高度正相關(guān)，表明知識(shí)的共享性。
通用能力強(qiáng)的模型在特定領(lǐng)域的應(yīng)用更為有效，微調(diào)需注重?cái)?shù)據(jù)質(zhì)量。

五、總結(jié)與展望

Shopping MMLU為在線購物領(lǐng)域提供了一個(gè)全面的評測標(biāo)準(zhǔn)，能夠有效評估大語言模型的能力與潛力。該基準(zhǔn)的開源與維護(hù)，鼓勵(lì)研究人員深入探索相關(guān)應(yīng)用，為后續(xù)研究奠定了基礎(chǔ)。未來，Shopping MMLU將繼續(xù)吸引新模型參與評估，推動(dòng)在線購物領(lǐng)域的技術(shù)進(jìn)步。

更多信息可參考論文和GitHub資源：

論文：鏈接

數(shù)據(jù)及評測代碼：鏈接

評估榜單：鏈接