AIGC動態歡迎閱讀
原標題:兩只羊駝掐頭去尾拼一起,屠榜HuggingFace
關鍵字:報告,模型,數據,版本,基礎
文章來源:量子位
內容字數:2333字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAIHuggingFace開源大模型排行榜,又被屠榜了。
前排被清一色的SOLAR 10.7B微調版本占據,把幾周之前的各種Mixtral 8x7B微調版本擠了下去。
SOLAR大模型什么來頭?
相關論文剛剛上傳到ArXiv,來自韓國公司Upstage AI,使用了新的大模型擴展方法depth up-scaling(DUS)。
簡單來說就是兩只7B羊駝掐頭去尾,一只砍掉前8層,一只砍掉后8層。
剩下兩個24層縫合在一起,第一個模型的第24層與第二個模型的第9層拼接,最后變成新的48層10.7B大模型。
論文聲稱新方法超過傳統擴展方法如MoE,而且可以與沿用基礎大模型完全相同的基礎設施。
不需要門控網絡等附加模塊,針對MoE優化訓練框架了,也不需要自定義CUDA內核來快速推理,可以無縫集成到現有方法中,同時保持高效。
團隊選擇7B規模最強的單體大模型Mistral 7B作為底材,用新方法拼接起來,再超越原版以及MoE版。
同時,經過對齊的Instruct版本也超越對應的MoE Instruct版本。
將縫合進行到底為什么是這種拼接方式,論文中
原文鏈接:兩只羊駝掐頭去尾拼一起,屠榜HuggingFace
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...