<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

        AIGC動態1年前 (2024)發布 量子位
        434 0 0

        英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

        AIGC動態歡迎閱讀

        原標題:英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多
        關鍵字:模型,長度,上下文,任務,長上
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAI無情戳穿“長上下文”大模型的虛標現象——
        英偉達新研究發現,包括GPT-4在內的10個大模型,生成達到128k甚至1M上下文長度的都有。
        但一番考驗下來,在新指標“有效上下文”上縮水嚴重,能達到32K的都不多。
        新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。
        這項研究被學者評價為“非常有洞察力”。
        不少網友看到這項新研究后,也非常想看到上下文長度王者玩家Claude和Gemini的挑戰結果。(論文中并未覆蓋)
        一起來看英偉達是如何定義“有效上下文”指標的。
        測試任務更多、更難要評測大模型的長文本理解能力,得先選個好標準,現圈內流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評估了模型檢索能力,要么受限于先驗知識的干擾。
        所以英偉達剔除的RULER方法,一句話概括就是“確保評估側重于模型處理和理解長上下文的能力,而不是從訓練數據中回憶信息的能力”。
        RULER的


        原文鏈接:英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 青青草原1769久久免费播放| 国产国产成年年人免费看片| 国产三级免费观看| 亚洲日本久久久午夜精品| 久久黄色免费网站| 亚洲午夜国产精品| 一级特黄aa毛片免费观看| 亚洲av永久无码精品秋霞电影影院| 久久亚洲色WWW成人欧美| 3344永久在线观看视频免费首页 | 亚洲乱妇老熟女爽到高潮的片| 91香蕉在线观看免费高清| 亚洲乱亚洲乱淫久久| 久久久精品免费国产四虎| 亚洲国产精品无码AAA片| 久久久久久AV无码免费网站 | 亚洲日韩在线观看免费视频| 亚洲成AV人片高潮喷水| 成人毛片18女人毛片免费| 亚洲人成网国产最新在线| 久久亚洲中文字幕精品一区| 中文字幕在线免费播放| 亚洲精品视频久久久| 中文在线免费不卡视频| 国产亚洲sss在线播放| 国产精品四虎在线观看免费| 免费无码VA一区二区三区 | 日韩国产欧美亚洲v片| 亚洲第一福利网站| 91精品国产免费久久久久久青草| 亚洲国产夜色在线观看| 国产亚洲AV夜间福利香蕉149| 野花香高清在线观看视频播放免费 | 国拍在线精品视频免费观看 | 4虎1515hh永久免费| 中文在线免费看视频| 边摸边吃奶边做爽免费视频网站| 国产自偷亚洲精品页65页| 在线观看永久免费视频网站| 精品多毛少妇人妻AV免费久久| 亚洲va中文字幕无码久久不卡|