AIGC動態歡迎閱讀
原標題:Mixtral-8x7B MoE大模型微調實踐,超越Llama2-65B
關鍵字:模型,李白,專家,參數,數據
文章來源:算法邦
內容字數:6642字
內容摘要:
直播預告 | 5月14日晚7點,「智猩猩AI新青年講座」第235講正式開講,慕尼黑工業大學視覺實驗室陳振宇博士將直播講解《三維室內場景紋理圖生成》歡迎掃名~01前言Mixtral-8x7B在各大榜單中取得了及其優異的表現,本文主要分享我們微調Mixtral-8x7B MoE模型的初步實踐。我們使用Firefly項目對其進行微調,在一張V100上,僅使用4.8萬條數據對Mixtral-8x7B-v0.1基座模型微調了3000步,取得了非常驚艷的效果。
我們的模型在?Open LLM Leaderboard上的分數為70.34分,比Mixtral-8x7B-v0.1提升1.92分,比官方的chat模型低2.28分。若對訓練數據和流程進行更精細的調整,應該還有較大的提升空間。注意,Mixtral-8x7B-v0.1為預訓練模型,具有非常弱的指令遵從能力,我們在此基礎上進行微調,旨在驗證方法的有效性。若讀者希望在自己的下游任務中進行微調,可基于Mixtral-8x7B-Instruct-v0.1進行微調。
我們也對比了其他主流的開源模型在?Open LLM Leaderboard的表現
原文鏈接:Mixtral-8x7B MoE大模型微調實踐,超越Llama2-65B
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...