英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重，32K性能合格的都不多

AIGC動態(tài)歡迎閱讀

原標(biāo)題：英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重，32K性能合格的都不多
關(guān)鍵字：模型,長度,上下文,任務(wù),長上
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

西風(fēng) 發(fā)自凹非寺量子位 | 公眾號 QbitAI無情戳穿“長上下文”大模型的虛標(biāo)現(xiàn)象——
英偉達(dá)新研究發(fā)現(xiàn)，包括GPT-4在內(nèi)的10個大模型，生成達(dá)到128k甚至1M上下文長度的都有。
但一番考驗下來，在新指標(biāo)“有效上下文”上縮水嚴(yán)重，能達(dá)到32K的都不多。
新基準(zhǔn)名為RULER，包含檢索、多跳追蹤、聚合、問答四大類共13項任務(wù)。RULER定義了“有效上下文長度”，即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。
這項研究被學(xué)者評價為“非常有洞察力”。
不少網(wǎng)友看到這項新研究后，也非常想看到上下文長度王者玩家Claude和Gemini的挑戰(zhàn)結(jié)果。（論文中并未覆蓋）
一起來看英偉達(dá)是如何定義“有效上下文”指標(biāo)的。
測試任務(wù)更多、更難要評測大模型的長文本理解能力，得先選個好標(biāo)準(zhǔn)，現(xiàn)圈內(nèi)流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等，要么僅評估了模型檢索能力，要么受限于先驗知識的干擾。
所以英偉達(dá)剔除的RULER方法，一句話概括就是“確保評估側(cè)重于模型處理和理解長上下文的能力，而不是從訓(xùn)練數(shù)據(jù)中回憶信息的能力”。
RULER的

原文鏈接：英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重，32K性能合格的都不多