微軟研究院發布了最強小參數模型——Phi-4。
微軟發布Phi-4:小參數模型的強大性能
2023年12月18日,紫光曉通的尚志遠和群聯電子的林緯博士將進行關于NVIDIA RTX 5880 Ada的直播講解,尤其聚焦于如何利用該技術部署私有化大模型。同時,微軟研究院推出了最新的小參數模型Phi-4,展現出其卓越的性能。
1. Phi-4的顯著優勢
Phi-4是微軟Phi系列模型的第五代,參數僅有140億,但在GPQA研究生水平和MATH數學基準中分別達到了56.1和80.4的高分,超越了GPT-4o及其他同類模型。這表明小參數模型在高質量數據和創新訓練方法的支持下,能夠在性能上與大參數模型相媲美。
2. 高質量合成數據的關鍵作用
Phi-4的成功在于其使用了高質量的合成訓練數據。與傳統模型依賴真實文本數據不同,Phi-4采用了種子策劃、多Agent提示、自我修訂工作流等方法,生成了更加多樣化和高質量的訓練數據。這種方法有效降低了噪聲和偏見的影響,提升了模型的學習效果。
3. 創新訓練方法的實施
為了提升Phi-4在不同任務上的表現,研究團隊采用了創新的訓練方法,特別是在長上下文理解能力上進行了優化。通過增加rope位置編碼的基礎頻率以及調整學習率,Phi-4在復雜信息處理上表現優異。此外,結合人工標注和自動構建的強化學習數據,進一步提升了模型的響應準確性和適應性。
4. 領域特定的強化訓練
Phi-4在特定領域的表現也得到了增強。以STEM領域為例,采用Math-Shepherd工具進行驗證,顯著提高了數學題目的解答準確率。在編程任務中,通過分析開源項目中的代碼片段,提升了執行效率和準確性。
5. 未來展望
隨著Phi-4的發布,微軟在小參數模型的研究上取得了突破,這不僅為AI領域帶來了新的思路,也為相關技術的應用和發展開辟了新的可能性。值得注意的是,Phi系列模型的核心人物Sébastien Bubeck已離開微軟加入OpenAI,未來將如何影響該領域仍值得關注。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。