Qwen2.5更新百萬(wàn)超長(zhǎng)上下文,推理速度4.3倍加速,網(wǎng)友:RAG要過(guò)時(shí)了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Qwen2.5更新百萬(wàn)超長(zhǎng)上下文,推理速度4.3倍加速,網(wǎng)友:RAG要過(guò)時(shí)了
關(guān)鍵字:上下文,模型,任務(wù),文本,代碼
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
魚(yú)羊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI國(guó)產(chǎn)大模型,最近有點(diǎn)卷。
這不,剛在寫(xiě)代碼這事兒上刷新SOTA,Qwen2.5系列又雙叒突然更新了——
一口氣讀三本《三體》不費(fèi)事,并且45秒左右就能完整總結(jié)出這69萬(wàn)token的主要內(nèi)容,be like:
還真不是糊弄事兒,“大海撈針”實(shí)驗(yàn)顯示,這個(gè)全新的Qwen2.5-Turbo在100萬(wàn)token上下文中有全綠的表現(xiàn)。
也就是說(shuō),這100萬(wàn)上下文里,有細(xì)節(jié)Qwen2.5-Turbo是真能100%捕捉到。
沒(méi)錯(cuò),Qwen2.5系列新成員Qwen2.5-Turbo,這回主打的就是支持超長(zhǎng)上下文,并且把性價(jià)比卷出了花兒:
上下文長(zhǎng)度從128k擴(kuò)展到1M,相當(dāng)于100萬(wàn)個(gè)英文單詞或150萬(wàn)個(gè)漢字,也就是10部長(zhǎng)篇小說(shuō)、150小時(shí)語(yǔ)音記錄、30000行代碼的量。
更快的推理速度:基于稀疏注意力機(jī)制,處理百萬(wàn)上下文時(shí),首字返回時(shí)間從4.9分鐘降低到了68秒,實(shí)現(xiàn)了4.3倍加速。
關(guān)鍵是還便宜:0.3元/1M tokens。這意味著,在相同成本下,Qwen2.5-Turbo可以處理的token數(shù)量是GPT-4o-mini的3.6倍。
看到這波更
原文鏈接:Qwen2.5更新百萬(wàn)超長(zhǎng)上下文,推理速度4.3倍加速,網(wǎng)友:RAG要過(guò)時(shí)了
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: