2025 年大模型技術的加速,你感受到了嗎?
原標題:450美元訓練一個「o1-preview」?UC伯克利開源32B推理模型Sky-T1,AI社區沸騰了
文章來源:機器之心
內容字數:4780字
伯克利大學發布低成本高性能推理模型Sky-T1-32B-Preview
近日,加州大學伯克利分校天空計算實驗室的研究團隊NovaSky發布了Sky-T1-32B-Preview,一個32B參數的推理模型,其訓練成本僅為450美元。這引發了業界廣泛關注,因為它標志著大模型訓練成本的顯著下降,并為開源社區提供了寶貴的資源。
低成本高性能的突破
Sky-T1-32B-Preview的訓練成本遠低于以往同等性能模型動輒數百萬美元的成本。其低成本主要歸功于合成訓練數據和由其他模型生成的訓練數據的使用。 這與Writer公司發布的Palmyra X 004模型(70萬美元開發成本,主要基于合成數據)的案例相呼應,預示著未來大模型訓練成本將大幅降低。
開源與可復現性
Sky-T1的另一個重要特點是完全開源。團隊公開了訓練數據集、訓練代碼和模型權重,任何人都可以復現其訓練過程。這對于學術研究和開源社區的發展具有重要意義,打破了以往大型模型技術細節不透明的現狀。與之形成對比的是,像OpenAI的o1和Gemini 2.0等模型,其技術細節和模型權重并未公開。
性能與基準測試
Sky-T1在多個關鍵基準測試中與OpenAI o1的早期版本表現相當,甚至在某些測試中勝出。例如,它在MATH500(競賽級數學挑戰)和LiveCodeBench(編碼評估)上的表現優于o1的預覽版本。 然而,在GPQA-Diamond(涉及物理、生物和化學的難題)上,其表現不如o1的預覽版。
關鍵技術細節
Sky-T1的訓練數據由多個數據集混合構成,包括數學和編程任務的數據。團隊使用了QwQ-32B-Preview模型生成初始數據,并通過拒絕采樣和數據重寫等方法提高數據質量。模型的訓練使用了Qwen2.5-32B-Instruct作為基礎模型,并通過DeepSpeed Zero-3 offload在8個H100 GPU上進行訓練。
重要發現與未來展望
研究團隊發現模型大小和數據混合對最終性能至關重要。較小的模型(小于32B)容易生成重復內容,限制了其有效性。而均衡的數學和編程數據混合能夠使模型在兩個領域都表現出色。未來,隨著技術的進步,個人甚至可以在本地運行參數量小于萬億級的模型。
總而言之,Sky-T1-32B-Preview的出現標志著大模型訓練成本的顯著降低和開源趨勢的加強,為大模型技術的發展和應用帶來了新的可能性。 然而,也有一些研究者對該模型的性能和可復現性提出了質疑,需要進一步的驗證和討論。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺