Mixtral-8x7B MoE大模型微調(diào)實(shí)踐,超越Llama2-65B
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Mixtral-8x7B MoE大模型微調(diào)實(shí)踐,超越Llama2-65B
關(guān)鍵字:模型,李白,專家,參數(shù),數(shù)據(jù)
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):6642字
內(nèi)容摘要:
直播預(yù)告 | 5月14日晚7點(diǎn),「智猩猩AI新青年講座」第235講正式開(kāi)講,慕尼黑工業(yè)大學(xué)視覺(jué)實(shí)驗(yàn)室陳振宇博士將直播講解《三維室內(nèi)場(chǎng)景紋理圖生成》歡迎掃名~01前言Mixtral-8x7B在各大榜單中取得了及其優(yōu)異的表現(xiàn),本文主要分享我們微調(diào)Mixtral-8x7B MoE模型的初步實(shí)踐。我們使用Firefly項(xiàng)目對(duì)其進(jìn)行微調(diào),在一張V100上,僅使用4.8萬(wàn)條數(shù)據(jù)對(duì)Mixtral-8x7B-v0.1基座模型微調(diào)了3000步,取得了非常驚艷的效果。
我們的模型在??Open LLM Leaderboard上的分?jǐn)?shù)為70.34分,比Mixtral-8x7B-v0.1提升1.92分,比官方的chat模型低2.28分。若對(duì)訓(xùn)練數(shù)據(jù)和流程進(jìn)行更精細(xì)的調(diào)整,應(yīng)該還有較大的提升空間。注意,Mixtral-8x7B-v0.1為預(yù)訓(xùn)練模型,具有非常弱的指令遵從能力,我們?cè)诖嘶A(chǔ)上進(jìn)行微調(diào),旨在驗(yàn)證方法的有效性。若讀者希望在自己的下游任務(wù)中進(jìn)行微調(diào),可基于Mixtral-8x7B-Instruct-v0.1進(jìn)行微調(diào)。
我們也對(duì)比了其他主流的開(kāi)源模型在??Open LLM Leaderboard的表現(xiàn)
原文鏈接:Mixtral-8x7B MoE大模型微調(diào)實(shí)踐,超越Llama2-65B
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。