謝謝微軟,又又又Open了!一口氣發(fā)布3款Phi-3.5新模型,領(lǐng)先Llama3.1和谷歌同級模型
AIGC動態(tài)歡迎閱讀
原標(biāo)題:謝謝微軟,又又又Open了!一口氣發(fā)布3款Phi-3.5新模型,領(lǐng)先Llama3.1和谷歌同級模型
關(guān)鍵字:模型,微軟,參數(shù),基準(zhǔn),上下文
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 付奶茶家人們!微軟又用愛發(fā)電了!一覺醒來,微軟發(fā)布了最新的小模型三兄弟:
Phi-3.5-MoE-instruct
Phi-3.5-mini-instruct
Phi-3.5-vision-instruct
三兄弟的表現(xiàn)可以說是相當(dāng)?shù)牟诲e,其中,Phi-3.5-MoE 在基準(zhǔn)測試中擊敗了 Llama 3.1 8B、Mistral-Nemo-12B,Gemini 1.5 Flash。在推理能力方面它也優(yōu)于其他一些較大的模型,僅落后于 GPT-4o-mini,直接分分鐘登頂同級模型!
真不錯呀!讓奶茶帶大家看一下!
不同用途不同選擇!三個Phi 3.5模型有不同的專長!
Phi-3.5 MoE – 微軟專家大集合大哥Phi-3.5 MoE 是一個混合專家模型,將多個不同的模型類型組合成一個,其中每個模型類型專門從事不同的任務(wù)。該模型有420億個活動參數(shù)的架構(gòu),支持128k token上下文長度。
劃重點:
6.6B 活動參數(shù)(總參數(shù)42B)
128K 上下文、多語言和相同分詞器
在 4.9T tokens 上進(jìn)行訓(xùn)練
使用 512 張 H100 進(jìn)行訓(xùn)練(23
原文鏈接:謝謝微軟,又又又Open了!一口氣發(fā)布3款Phi-3.5新模型,領(lǐng)先Llama3.1和谷歌同級模型
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介: