將LLaMA2上下文擴(kuò)展至100k,MIT、港中文有了LongLoRA方法
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:將LLaMA2上下文擴(kuò)展至100k,MIT、港中文有了LongLoRA方法
關(guān)鍵字:上下文,模型,研究者,長(zhǎng)度,長(zhǎng)上
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6020字
內(nèi)容摘要:機(jī)器之心報(bào)道機(jī)器之心編輯部無(wú)需過(guò)多計(jì)算資源即可擴(kuò)展大模型上下文長(zhǎng)度。一般來(lái)說(shuō),大模型預(yù)訓(xùn)練時(shí)文本長(zhǎng)度是固定的,如果想要支持更長(zhǎng)文本,就需要對(duì)模型進(jìn)行微調(diào)。但是訓(xùn)練具有長(zhǎng)上下文的 LLM 計(jì)算成本很高,需要大量的訓(xùn)練時(shí)間和 GPU 資源。比如,訓(xùn)練一個(gè)具有 8192 長(zhǎng)度上下文的模型,相比于 2048 長(zhǎng)度上下文,需要 16 倍的計(jì)算資源。就算如此,上下文長(zhǎng)度對(duì)模型性能至關(guān)重要,因?yàn)樗砹?LLM…
原文鏈接:點(diǎn)此閱讀原文:將LLaMA2上下文擴(kuò)展至100k,MIT、港中文有了LongLoRA方法
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...