微軟來大招:手機部署堪比GPT3.5高性能大模型!
AIGC動態(tài)歡迎閱讀
原標題:微軟來大招:手機部署堪比GPT3.5高性能大模型!
關鍵字:模型,基準,微軟,數(shù)據(jù),測試
文章來源:夕小瑤科技說
內(nèi)容字數(shù):4706字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 任同學
上周 LLaMa3 算是把關注度拉爆了,這才過了幾天,微軟已經(jīng)宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-3.5 的性能了。
▲圖1. Twitter:@haouarin一些直觀的數(shù)據(jù)供參考:
Phi-3-mini 在 3.3T token 上進行訓練,整體性能與 Mixtral 8x7B 和 GPT-3.5 相當,超越 Llama-3-instruct8b,而Llama-3在15T token上訓練,這意味著 Phi-3 數(shù)據(jù)利用率提高了約4倍;
將 Phi-3-mini 模型拓展到 7B (Phi-3-small) 和 14B (Phi-3-medium) 大小,在 4.8T token 上進行訓練,兩者都比 phi-3-mini 能力更強,例如,MMLU 基準上分別為 75% 和 78%,MT 基準上為 8.7 和 8.9。
面對這樣的結(jié)果,網(wǎng)友們紛紛表示不敢置信:
Meta 發(fā)布 Llama3 不到一周,難以置信微軟這么快就發(fā)布了 Phi-3,而且看起來很棒!
與此同時,Phi-3-mi
原文鏈接:微軟來大招:手機部署堪比GPT3.5高性能大模型!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務合作:zym5189