符堯大佬一作發(fā)文,僅改訓(xùn)練數(shù)據(jù),就讓LLaMa-2上下文長(zhǎng)度擴(kuò)展20倍!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:符堯大佬一作發(fā)文,僅改訓(xùn)練數(shù)據(jù),就讓LLaMa-2上下文長(zhǎng)度擴(kuò)展20倍!
關(guān)鍵字:長(zhǎng)上,模型,下文,長(zhǎng)度,數(shù)據(jù)
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):8378字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | Tscom、Python引言:探索語(yǔ)言模型的長(zhǎng)上下文能力近日,谷歌推出了Gemini Pro 1.5,將上下文窗口長(zhǎng)度擴(kuò)展到100萬(wàn)個(gè)tokens,目前領(lǐng)先世界。而其他語(yǔ)言模型也正在不斷探索長(zhǎng)上下文能力,也就是模型處理和理解超出其訓(xùn)練時(shí)所見(jiàn)上下文長(zhǎng)度的能力。例如,一個(gè)模型可能在訓(xùn)練時(shí)只看到了每個(gè)輸入中的4K tokens,但在實(shí)際應(yīng)用中,我們希望它能夠處理長(zhǎng)達(dá)128K tokens的文檔。這種能力對(duì)于多種應(yīng)用場(chǎng)景至關(guān)重要,如多文檔問(wèn)答、代碼庫(kù)級(jí)別的代碼理解、長(zhǎng)歷史對(duì)話建模,以及語(yǔ)言模型驅(qū)動(dòng)的自主代理等。
然而,由于注意力機(jī)制的二次復(fù)雜度,將模型的上下文長(zhǎng)度從4K擴(kuò)展到128K看上去似乎是不切實(shí)際的。本文將介紹一種數(shù)據(jù)工程方法,通過(guò)在適當(dāng)?shù)臄?shù)據(jù)混合上輕量級(jí)的持續(xù)預(yù)訓(xùn)練,來(lái)擴(kuò)展語(yǔ)言模型的上下文長(zhǎng)度至128K。
論文標(biāo)題:Data Engineering for Scaling Language Models to 128K Context
公眾號(hào)「夕小瑤科技說(shuō)」后臺(tái)回復(fù)“128K”獲取論文PDF!
長(zhǎng)上下文建模的重要性1. 128K上下文窗口的新應(yīng)用場(chǎng)景
隨著語(yǔ)
原文鏈接:符堯大佬一作發(fā)文,僅改訓(xùn)練數(shù)據(jù),就讓LLaMa-2上下文長(zhǎng)度擴(kuò)展20倍!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI一線開(kāi)發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)湫袠I(yè)嗅覺(jué)與報(bào)道深度。