AIGC動態歡迎閱讀
原標題:手機可跑,3.8B參數量超越GPT-3.5!微軟發布Phi-3技術報告:秘密武器是洗干凈數據
關鍵字:模型,數據,參數,性能,語言
文章來源:新智元
內容字數:11723字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】Scaling Laws再次失效?微軟最新的phi-3-mini模型,只用3.8B模型就擊敗了一眾7B老大哥,用iPhone14每秒可生成12個tokens!過去幾年,借助Scaling Laws的魔力,預訓練的數據集不斷增大,使得大模型的參數量也可以越做越大,從五年前的數十億參數已經成長到今天的萬億級,在各個自然語言處理任務上的性能也越來越好。
但Scaling Laws的魔法只能施加在「固定」的數據源上,即模型如果能夠以一種新的方式與數據進行交互的話,就能實現「小模型戰勝大模型」的效果。
微軟此前關于Phi系列模型的研究工作,已經證實了「基于LLM的web數據過濾」和「LLM合成數據」的結合,使得2.7B參數量的Phi-2可以匹敵25倍參數量大模型的性能。
最近,微軟再次升級了Phi-3系列模型,最小尺寸的phi-3-mini(3.8B參數量)在更大、更干凈的數據集(包含3.3T個tokens)上進行訓練,在各大公開的學術基準和內部測試中,實現了與Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。論文鏈接:https://arxiv
原文鏈接:手機可跑,3.8B參數量超越GPT-3.5!微軟發布Phi-3技術報告:秘密武器是洗干凈數據
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...