模型合并就進化，直接拿下SOTA！Transformer作者創(chuàng)業(yè)新成果火了

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：模型合并就進化，直接拿下SOTA！Transformer作者創(chuàng)業(yè)新成果火了
關鍵字：模型,日語,騰訊,方法,參數(shù)
文章來源：量子位
內容字數(shù)：5429字

內容摘要：

豐色發(fā)自凹非寺量子位 | 公眾號 QbitAI把Huggingface上的現(xiàn)成模型拿來“攢一攢”——
直接就能組合出新的強大模型？！
日本大模型公司sakana.ai腦洞大開（正是“Transformer八子”之一所創(chuàng)辦的公司），想出了這么一個進化合并模型的妙招。
該方法不僅能自動生成新的基礎模型，而且性能絕不賴：
他們得到的一個70億參數(shù)的日語數(shù)學大模型，直接在相關基準測試上取得了SOTA，打敗了700億參數(shù)的Llama-2等前輩。
最重要的是，得出這樣的模型不需要任何梯度訓練，因此需要的計算資源大大減少。
英偉達科學家Jim Fan看完大贊：
這是我最近讀過的最有想象力的論文之一。
合并進化，自動生成新基礎模型從開源大模型排行榜上表現(xiàn)最好的模型，大多不再是LLaMA或Mistral這種“原始”模型，而是一些微調或合并模型之后，我們就能看出：
一種新的趨勢出現(xiàn)了。
Sakana.ai介紹，開源基礎模型很容易在數(shù)百個不同的方向上進行擴展和微調，然后產生在新的領域表現(xiàn)出色的新模型。
而在這之中，模型合并顯現(xiàn)出了巨大前景。
但，它可能是一種“黑魔法”，嚴重依賴直覺和專業(yè)知識。
因此，我

原文鏈接：模型合并就進化，直接拿下SOTA！Transformer作者創(chuàng)業(yè)新成果火了