LLaMA2上下文長(zhǎng)度暴漲至100萬(wàn)tokens,只需調(diào)整1個(gè)超參數(shù)|復(fù)旦邱錫鵬團(tuán)隊(duì)出品
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LLaMA2上下文長(zhǎng)度暴漲至100萬(wàn)tokens,只需調(diào)整1個(gè)超參數(shù)|復(fù)旦邱錫鵬團(tuán)隊(duì)出品
關(guān)鍵字:模型,長(zhǎng)度,位置,底數(shù),上下文
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5019字
內(nèi)容摘要:蕭簫 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI只需微調(diào)一下,大模型支持上下文大小就能從1.6萬(wàn)tokens延長(zhǎng)至100萬(wàn)?!還是在只有70億參數(shù)的LLaMA 2上。要知道,即使是當(dāng)前最火的Claude 2和GPT-4,支持上下文長(zhǎng)度也不過(guò)10萬(wàn)和3.2萬(wàn),超出這個(gè)范圍大模型就會(huì)開始胡言亂語(yǔ)、記不住東西。現(xiàn)在,一項(xiàng)來(lái)自復(fù)旦大學(xué)和上海人工智能實(shí)驗(yàn)室的新研究,不僅找到了讓一系列大模型提升上下文窗口長(zhǎng)…
原文鏈接:點(diǎn)此閱讀原文:LLaMA2上下文長(zhǎng)度暴漲至100萬(wàn)tokens,只需調(diào)整1個(gè)超參數(shù)|復(fù)旦邱錫鵬團(tuán)隊(duì)出品
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...