AIGC動態歡迎閱讀
原標題:英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多
關鍵字:模型,長度,上下文,任務,長上
文章來源:量子位
內容字數:0字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAI無情戳穿“長上下文”大模型的虛標現象——
英偉達新研究發現,包括GPT-4在內的10個大模型,生成達到128k甚至1M上下文長度的都有。
但一番考驗下來,在新指標“有效上下文”上縮水嚴重,能達到32K的都不多。
新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。
這項研究被學者評價為“非常有洞察力”。
不少網友看到這項新研究后,也非常想看到上下文長度王者玩家Claude和Gemini的挑戰結果。(論文中并未覆蓋)
一起來看英偉達是如何定義“有效上下文”指標的。
測試任務更多、更難要評測大模型的長文本理解能力,得先選個好標準,現圈內流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評估了模型檢索能力,要么受限于先驗知識的干擾。
所以英偉達剔除的RULER方法,一句話概括就是“確保評估側重于模型處理和理解長上下文的能力,而不是從訓練數據中回憶信息的能力”。
RULER的
原文鏈接:英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...