LLaMA2上下文長度暴漲至100萬tokens,只需調(diào)整1個(gè)超參數(shù)|復(fù)旦邱錫鵬團(tuán)隊(duì)出品
AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLaMA2上下文長度暴漲至100萬tokens,只需調(diào)整1個(gè)超參數(shù)|復(fù)旦邱錫鵬團(tuán)隊(duì)出品
關(guān)鍵字:模型,長度,位置,底數(shù),上下文
文章來源:量子位
內(nèi)容字?jǐn)?shù):5019字
內(nèi)容摘要:蕭簫 發(fā)自 凹非寺量子位 | 公眾號 QbitAI只需微調(diào)一下,大模型支持上下文大小就能從1.6萬tokens延長至100萬?!還是在只有70億參數(shù)的LLaMA 2上。要知道,即使是當(dāng)前最火的Claude 2和GPT-4,支持上下文長度也不過10萬和3.2萬,超出這個(gè)范圍大模型就會開始胡言亂語、記不住東西。現(xiàn)在,一項(xiàng)來自復(fù)旦大學(xué)和上海人工智能實(shí)驗(yàn)室的新研究,不僅找到了讓一系列大模型提升上下文窗口長…
原文鏈接:點(diǎn)此閱讀原文:LLaMA2上下文長度暴漲至100萬tokens,只需調(diào)整1個(gè)超參數(shù)|復(fù)旦邱錫鵬團(tuán)隊(duì)出品
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...