Mixtral-8x7B MoE大模型微調(diào)實(shí)踐，超越Llama2-65B

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Mixtral-8x7B MoE大模型微調(diào)實(shí)踐，超越Llama2-65B
關(guān)鍵字：模型,李白,專家,參數(shù),數(shù)據(jù)
文章來(lái)源：算法邦
內(nèi)容字?jǐn)?shù)：6642字

內(nèi)容摘要：

直播預(yù)告 | 5月14日晚7點(diǎn)，「智猩猩AI新青年講座」第235講正式開(kāi)講，慕尼黑工業(yè)大學(xué)視覺(jué)實(shí)驗(yàn)室陳振宇博士將直播講解《三維室內(nèi)場(chǎng)景紋理圖生成》歡迎掃名~01前言Mixtral-8x7B在各大榜單中取得了及其優(yōu)異的表現(xiàn)，本文主要分享我們微調(diào)Mixtral-8x7B MoE模型的初步實(shí)踐。我們使用Firefly項(xiàng)目對(duì)其進(jìn)行微調(diào)，在一張V100上，僅使用4.8萬(wàn)條數(shù)據(jù)對(duì)Mixtral-8x7B-v0.1基座模型微調(diào)了3000步，取得了非常驚艷的效果。
我們的模型在??Open LLM Leaderboard上的分?jǐn)?shù)為70.34分，比Mixtral-8x7B-v0.1提升1.92分，比官方的chat模型低2.28分。若對(duì)訓(xùn)練數(shù)據(jù)和流程進(jìn)行更精細(xì)的調(diào)整，應(yīng)該還有較大的提升空間。注意，Mixtral-8x7B-v0.1為預(yù)訓(xùn)練模型，具有非常弱的指令遵從能力，我們?cè)诖嘶A(chǔ)上進(jìn)行微調(diào)，旨在驗(yàn)證方法的有效性。若讀者希望在自己的下游任務(wù)中進(jìn)行微調(diào)，可基于Mixtral-8x7B-Instruct-v0.1進(jìn)行微調(diào)。
我們也對(duì)比了其他主流的開(kāi)源模型在??Open LLM Leaderboard的表現(xiàn)

原文鏈接：Mixtral-8x7B MoE大模型微調(diào)實(shí)踐，超越Llama2-65B