模型合并就進(jìn)化,直接拿下SOTA!Transformer作者創(chuàng)業(yè)新成果火了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:模型合并就進(jìn)化,直接拿下SOTA!Transformer作者創(chuàng)業(yè)新成果火了
關(guān)鍵字:模型,日語,騰訊,方法,參數(shù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):5429字
內(nèi)容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號 QbitAI把Huggingface上的現(xiàn)成模型拿來“攢一攢”——
直接就能組合出新的強(qiáng)大模型?!
日本大模型公司sakana.ai腦洞大開(正是“Transformer八子”之一所創(chuàng)辦的公司),想出了這么一個(gè)進(jìn)化合并模型的妙招。
該方法不僅能自動(dòng)生成新的基礎(chǔ)模型,而且性能絕不賴:
他們得到的一個(gè)70億參數(shù)的日語數(shù)學(xué)大模型,直接在相關(guān)基準(zhǔn)測試上取得了SOTA,打敗了700億參數(shù)的Llama-2等前輩。
最重要的是,得出這樣的模型不需要任何梯度訓(xùn)練,因此需要的計(jì)算資源大大減少。
英偉達(dá)科學(xué)家Jim Fan看完大贊:
這是我最近讀過的最有想象力的論文之一。
合并進(jìn)化,自動(dòng)生成新基礎(chǔ)模型從開源大模型排行榜上表現(xiàn)最好的模型,大多不再是LLaMA或Mistral這種“原始”模型,而是一些微調(diào)或合并模型之后,我們就能看出:
一種新的趨勢出現(xiàn)了。
Sakana.ai介紹,開源基礎(chǔ)模型很容易在數(shù)百個(gè)不同的方向上進(jìn)行擴(kuò)展和微調(diào),然后產(chǎn)生在新的領(lǐng)域表現(xiàn)出色的新模型。
而在這之中,模型合并顯現(xiàn)出了巨大前景。
但,它可能是一種“黑魔法”,嚴(yán)重依賴直覺和專業(yè)知識。
因此,我
原文鏈接:模型合并就進(jìn)化,直接拿下SOTA!Transformer作者創(chuàng)業(yè)新成果火了
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破