微軟發(fā)布Phi-3,性能超Llama-3,可手機(jī)端運(yùn)行
AIGC動態(tài)歡迎閱讀
原標(biāo)題:微軟發(fā)布Phi-3,性能超Llama-3,可手機(jī)端運(yùn)行
關(guān)鍵字:模型,報(bào)告,微軟,數(shù)據(jù),基準(zhǔn)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3522字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:小舟、澤南數(shù)據(jù)已成為提升大模型能力的重點(diǎn)。Llama-3 剛發(fā)布沒多久,競爭對手就來了,而且是可以在手機(jī)上運(yùn)行的小體量模型。
本周二,微軟發(fā)布了自研小尺寸模型 Phi-3。
新模型有三個版本,其中 Phi-3 mini 是一個擁有 38 億參數(shù)的語言模型,經(jīng)過 3.3 萬億 token 的訓(xùn)練,其整體性能在學(xué)術(shù)基準(zhǔn)和內(nèi)部測試上成績優(yōu)異。
盡管 Phi-3 mini 被優(yōu)化至可部署在手機(jī)上,但它的性能可以與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。微軟表示,創(chuàng)新主要在于用于訓(xùn)練的數(shù)據(jù)集。與此同時(shí),Phi-3 與 Llama-2 使用相同的架構(gòu),方便開源社區(qū)在其基礎(chǔ)上開發(fā)。此前,微軟的 Phi 系列模型曾經(jīng)引發(fā)了人們的熱議,去年 6 月,微軟發(fā)布了《Textbooks Are All You Need》論文,用規(guī)模僅為 7B token 的「教科書質(zhì)量」數(shù)據(jù)訓(xùn)練 1.3B 參數(shù)的模型 phi-1,實(shí)現(xiàn)了良好的性能。
去年 9 月,微軟進(jìn)一步探索這條道路,讓 1.3B 參數(shù)的 Transformer 架構(gòu)語言模型 Phi-1.5 顯示出強(qiáng)大的編碼能力。
原文鏈接:微軟發(fā)布Phi-3,性能超Llama-3,可手機(jī)端運(yùn)行
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺