手機可跑，3.8B參數量超越GPT-3.5！微軟發布Phi-3技術報告：秘密武器是洗干凈數據

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：手機可跑，3.8B參數量超越GPT-3.5！微軟發布Phi-3技術報告：秘密武器是洗干凈數據
關鍵字：模型,數據,參數,性能,語言
文章來源：新智元
內容字數：11723字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】Scaling Laws再次失效？微軟最新的phi-3-mini模型，只用3.8B模型就擊敗了一眾7B老大哥，用iPhone14每秒可生成12個tokens！過去幾年，借助Scaling Laws的魔力，預訓練的數據集不斷增大，使得大模型的參數量也可以越做越大，從五年前的數十億參數已經成長到今天的萬億級，在各個自然語言處理任務上的性能也越來越好。
但Scaling Laws的魔法只能施加在「固定」的數據源上，即模型如果能夠以一種新的方式與數據進行交互的話，就能實現「小模型戰勝大模型」的效果。
微軟此前關于Phi系列模型的研究工作，已經證實了「基于LLM的web數據過濾」和「LLM合成數據」的結合，使得2.7B參數量的Phi-2可以匹敵25倍參數量大模型的性能。
最近，微軟再次升級了Phi-3系列模型，最小尺寸的phi-3-mini（3.8B參數量）在更大、更干凈的數據集（包含3.3T個tokens）上進行訓練，在各大公開的學術基準和內部測試中，實現了與Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。論文鏈接：https://arxiv

原文鏈接：手機可跑，3.8B參數量超越GPT-3.5！微軟發布Phi-3技術報告：秘密武器是洗干凈數據