英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,32K性能合格的都不多
AIGC動態(tài)歡迎閱讀
原標(biāo)題:英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,32K性能合格的都不多
關(guān)鍵字:模型,長度,上下文,任務(wù),長上
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI無情戳穿“長上下文”大模型的虛標(biāo)現(xiàn)象——
英偉達(dá)新研究發(fā)現(xiàn),包括GPT-4在內(nèi)的10個大模型,生成達(dá)到128k甚至1M上下文長度的都有。
但一番考驗下來,在新指標(biāo)“有效上下文”上縮水嚴(yán)重,能達(dá)到32K的都不多。
新基準(zhǔn)名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務(wù)。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。
這項研究被學(xué)者評價為“非常有洞察力”。
不少網(wǎng)友看到這項新研究后,也非常想看到上下文長度王者玩家Claude和Gemini的挑戰(zhàn)結(jié)果。(論文中并未覆蓋)
一起來看英偉達(dá)是如何定義“有效上下文”指標(biāo)的。
測試任務(wù)更多、更難要評測大模型的長文本理解能力,得先選個好標(biāo)準(zhǔn),現(xiàn)圈內(nèi)流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評估了模型檢索能力,要么受限于先驗知識的干擾。
所以英偉達(dá)剔除的RULER方法,一句話概括就是“確保評估側(cè)重于模型處理和理解長上下文的能力,而不是從訓(xùn)練數(shù)據(jù)中回憶信息的能力”。
RULER的
原文鏈接:英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,32K性能合格的都不多
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破