兩只羊駝掐頭去尾拼一起,屠榜HuggingFace

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:兩只羊駝掐頭去尾拼一起,屠榜HuggingFace
關(guān)鍵字:報(bào)告,模型,數(shù)據(jù),版本,基礎(chǔ)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):2333字
內(nèi)容摘要:
夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIHuggingFace開(kāi)源大模型排行榜,又被屠榜了。
前排被清一色的SOLAR 10.7B微調(diào)版本占據(jù),把幾周之前的各種Mixtral 8x7B微調(diào)版本擠了下去。
SOLAR大模型什么來(lái)頭?
相關(guān)論文剛剛上傳到ArXiv,來(lái)自韓國(guó)公司Upstage AI,使用了新的大模型擴(kuò)展方法depth up-scaling(DUS)。
簡(jiǎn)單來(lái)說(shuō)就是兩只7B羊駝掐頭去尾,一只砍掉前8層,一只砍掉后8層。
剩下兩個(gè)24層縫合在一起,第一個(gè)模型的第24層與第二個(gè)模型的第9層拼接,最后變成新的48層10.7B大模型。
論文聲稱(chēng)新方法超過(guò)傳統(tǒng)擴(kuò)展方法如MoE,而且可以與沿用基礎(chǔ)大模型完全相同的基礎(chǔ)設(shè)施。
不需要門(mén)控網(wǎng)絡(luò)等附加模塊,針對(duì)MoE優(yōu)化訓(xùn)練框架了,也不需要自定義CUDA內(nèi)核來(lái)快速推理,可以無(wú)縫集成到現(xiàn)有方法中,同時(shí)保持高效。
團(tuán)隊(duì)選擇7B規(guī)模最強(qiáng)的單體大模型Mistral 7B作為底材,用新方法拼接起來(lái),再超越原版以及MoE版。
同時(shí),經(jīng)過(guò)對(duì)齊的Instruct版本也超越對(duì)應(yīng)的MoE Instruct版本。
將縫合進(jìn)行到底為什么是這種拼接方式,論文中
原文鏈接:兩只羊駝掐頭去尾拼一起,屠榜HuggingFace
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)