微軟來(lái)大招:手機(jī)部署堪比GPT3.5高性能大模型!

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微軟來(lái)大招:手機(jī)部署堪比GPT3.5高性能大模型!
關(guān)鍵字:模型,基準(zhǔn),微軟,數(shù)據(jù),測(cè)試
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):4706字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 任同學(xué)
上周 LLaMa3 算是把關(guān)注度拉爆了,這才過(guò)了幾天,微軟已經(jīng)宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-3.5 的性能了。
▲圖1. Twitter:@haouarin一些直觀的數(shù)據(jù)供參考:
Phi-3-mini 在 3.3T token 上進(jìn)行訓(xùn)練,整體性能與 Mixtral 8x7B 和 GPT-3.5 相當(dāng),超越 Llama-3-instruct8b,而Llama-3在15T token上訓(xùn)練,這意味著 Phi-3 數(shù)據(jù)利用率提高了約4倍;
將 Phi-3-mini 模型拓展到 7B (Phi-3-small) 和 14B (Phi-3-medium) 大小,在 4.8T token 上進(jìn)行訓(xùn)練,兩者都比 phi-3-mini 能力更強(qiáng),例如,MMLU 基準(zhǔn)上分別為 75% 和 78%,MT 基準(zhǔn)上為 8.7 和 8.9。
面對(duì)這樣的結(jié)果,網(wǎng)友們紛紛表示不敢置信:
Meta 發(fā)布 Llama3 不到一周,難以置信微軟這么快就發(fā)布了 Phi-3,而且看起來(lái)很棒!
與此同時(shí),Phi-3-mi
原文鏈接:微軟來(lái)大招:手機(jī)部署堪比GPT3.5高性能大模型!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專(zhuān)業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)