<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        揭開在線購物新紀元:多樣任務真實數據助力Shopping MMLU基準發布!

        AIGC動態6個月前發布 量子位
        327 0 0

        基于亞馬遜真實在線購物數據打造

        揭開在線購物新紀元:多樣任務真實數據助力Shopping MMLU基準發布!

        原標題:多樣任務真實數據,大模型在線購物基準Shopping MMLU開源|NeurIPS&KDD Cup 2024
        文章來源:量子位
        內容字數:5206字

        在線購物領域最強大模型的評估基準——Shopping MMLU

        近期,亞馬遜聯合香港科技大學和圣母大學,共同推出了一個針對在線購物領域的大規模評測基準——Shopping MMLU。該基準旨在全面評估大語言模型(LLM)在在線購物中的能力與潛力,尤其是面對多任務和少樣本學習的挑戰。

        一、評測基準的必要性

        在線購物的復雜性主要體現在以下幾個方面:

        1. 多任務性:在線購物涉及多種實體(商品、屬性、評論等)和用戶行為(瀏覽、查詢、購買等),需要模型具備聯合建模能力。
        2. 少樣本性:冷啟動場景導致新用戶和新商品的出現,模型需具備少樣本學習能力。

        二、Shopping MMLU的構建

        Shopping MMLU覆蓋了四項在線購物能力,共計57個任務,包括:

        1. 在線購物概念理解
        2. 在線購物知識推理
        3. 用戶行為理解
        4. 多語言能力

        該基準大部分基于真實的亞馬遜在線購物數據構建,經過人工檢驗以確保數據質量。

        三、實驗結果與發現

        研究對27個主流大語言模型進行了評估,發現:

        1. 閉源模型(如Claude-3)整體表現優于開源模型,但后者逐漸縮小差距。
        2. 特定領域模型(如eCeLLM)并未在同參數量級下取得最佳成績,顯示出Shopping MMLU的難度。

        四、模型強化的策略

        研究分析了如何通過微調和大模型增強手段提升模型在Shopping MMLU上的表現。結果表明:

        1. 模型在不同能力和任務上的得分高度正相關,表明知識的共享性。
        2. 通用能力強的模型在特定領域的應用更為有效,微調需注重數據質量。

        五、總結與展望

        Shopping MMLU為在線購物領域提供了一個全面的評測標準,能夠有效評估大語言模型的能力與潛力。該基準的開源與維護,鼓勵研究人員深入探索相關應用,為后續研究奠定了基礎。未來,Shopping MMLU將繼續吸引新模型參與評估,推動在線購物領域的技術進步。

        更多信息可參考論文和GitHub資源:

        論文:鏈接

        數據及評測代碼:鏈接

        評估榜單:鏈接


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 成人免费视频一区二区| 免费黄网站在线看| 久久影视国产亚洲| 日韩在线永久免费播放| 2020久久精品亚洲热综合一本| 国产zzjjzzjj视频全免费| 中文字幕永久免费| 亚洲色欲www综合网| 免费少妇a级毛片| 99久久国产免费中文无字幕| 日本亚洲色大成网站www久久| 亚洲国产一成久久精品国产成人综合| 久久久国产精品福利免费| 亚洲国产精品自在自线观看| 亚洲熟妇无码另类久久久| 免费无码又爽又刺激聊天APP| 国产福利在线观看永久免费| 亚洲一线产区二线产区精华| 亚洲情侣偷拍精品| 国产无人区码卡二卡三卡免费| 一区二区三区视频免费观看| 亚洲一区二区三区高清视频| 亚洲乱码精品久久久久..| 成年人网站在线免费观看| 野花香在线视频免费观看大全| 亚洲av永久无码精品网址| 久久亚洲AV成人无码国产| 亚洲va中文字幕无码| 国产精品视频免费一区二区 | 亚洲精品中文字幕无码A片老| 中文字幕精品亚洲无线码二区 | 成人片黄网站色大片免费观看APP| 亚洲午夜无码久久| 亚洲福利视频一区| 国产精品亚洲精品日韩已方| 午夜视频在线在免费| 最近免费中文字幕大全免费| 国产一区二区三区免费观在线| 久久精品国产亚洲av天美18| 亚洲第一成年网站大全亚洲| 亚洲AV永久精品爱情岛论坛|