模型合并就進化,直接拿下SOTA!Transformer作者創(chuàng)業(yè)新成果火了
AIGC動態(tài)歡迎閱讀
原標題:模型合并就進化,直接拿下SOTA!Transformer作者創(chuàng)業(yè)新成果火了
關鍵字:模型,日語,騰訊,方法,參數(shù)
文章來源:量子位
內容字數(shù):5429字
內容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號 QbitAI把Huggingface上的現(xiàn)成模型拿來“攢一攢”——
直接就能組合出新的強大模型?!
日本大模型公司sakana.ai腦洞大開(正是“Transformer八子”之一所創(chuàng)辦的公司),想出了這么一個進化合并模型的妙招。
該方法不僅能自動生成新的基礎模型,而且性能絕不賴:
他們得到的一個70億參數(shù)的日語數(shù)學大模型,直接在相關基準測試上取得了SOTA,打敗了700億參數(shù)的Llama-2等前輩。
最重要的是,得出這樣的模型不需要任何梯度訓練,因此需要的計算資源大大減少。
英偉達科學家Jim Fan看完大贊:
這是我最近讀過的最有想象力的論文之一。
合并進化,自動生成新基礎模型從開源大模型排行榜上表現(xiàn)最好的模型,大多不再是LLaMA或Mistral這種“原始”模型,而是一些微調或合并模型之后,我們就能看出:
一種新的趨勢出現(xiàn)了。
Sakana.ai介紹,開源基礎模型很容易在數(shù)百個不同的方向上進行擴展和微調,然后產生在新的領域表現(xiàn)出色的新模型。
而在這之中,模型合并顯現(xiàn)出了巨大前景。
但,它可能是一種“黑魔法”,嚴重依賴直覺和專業(yè)知識。
因此,我
原文鏈接:模型合并就進化,直接拿下SOTA!Transformer作者創(chuàng)業(yè)新成果火了
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破