將混合專家推向極限:只需更新0.32%的參數(shù)就能完成模型微調(diào)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:將混合專家推向極限:只需更新0.32%的參數(shù)就能完成模型微調(diào)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7971字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:Panda W微調(diào)無(wú)需更新全部模型參數(shù),這種方法只需更新不到 1% 的參數(shù)。眾所周知,大模型的訓(xùn)練成本很高,但其實(shí)對(duì)預(yù)訓(xùn)練后的模型進(jìn)行微調(diào)也需要一定的成本,還好我們已經(jīng)有了 (IA)3 或 LORA 等一些參數(shù)高效型微調(diào)(PEFT)方法。近日,AI 創(chuàng)業(yè)公司 Cohere 更進(jìn)一步,將混合專家方法與 PEFT 組合,實(shí)現(xiàn)了極其參數(shù)高效的微調(diào) —— 即使是在未曾見(jiàn)過(guò)的任務(wù)上,這種新…
原文鏈接:點(diǎn)此閱讀原文:將混合專家推向極限:只需更新0.32%的參數(shù)就能完成模型微調(diào)
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章

暫無(wú)評(píng)論...