近日,“李飛飛等斯坦福大學和華盛頓大學的研究人員以不到 50 美元的云計算費用,成功訓練出了一個名為 s1 的人工智能推理模型”的消息引起了很多人關注。
原標題:“李飛飛團隊 50 美元煉出 DeepSeek R1”被質疑,上海交大本科生新“低成本推理”或成新寵!
文章來源:AI前線
內容字數:8362字
斯坦福團隊低成本AI模型S1:突破與誤解
近日,斯坦福大學和華盛頓大學的研究人員發表論文,介紹了一個名為S1的AI推理模型,其訓練成本不到50美元,引發廣泛關注。該模型在部分數學和編碼能力測試中表現與OpenAI O1和DeepSeek R1等頂尖模型不相上下,但這其中存在諸多誤解。
1. 李飛飛團隊的貢獻
雖然論文署名包含李飛飛,但她并非主要貢獻者。主要工作由四位共同一作完成,李飛飛更多的是指導和資源支持。論文中提到的GPU和經濟贊助來自斯坦福大學。
2. 50美元的
50美元的成本僅指S1模型最終微調階段的GPU算力費用,不包含人力、數據收集和前期實驗等成本。S1并非從零開始訓練,而是基于預訓練模型Qwen2.5-32B-Instruct進行微調。因此,單純以50美元來衡量其整體成本是不準確的。
3. S1的真實性能
S1在特定測試集(如O1-preview)上表現優異,但并未超越O1正式版和DeepSeek R1。其成功依賴于精心挑選的1000個高質量問題數據集S1K,以及“預算法”這一測試時擴展方法。
4. 數據集的來源
S1K數據集并非單純“蒸餾”Gemini,而是利用Gemini生成1000個問題的推理軌跡和答案,然后用來微調Qwen模型。這與傳統的蒸餾方法有所不同,其對“蒸餾”概念的理解也存在一定的擴大化。
5. S1成功的關鍵因素
S1的成功主要歸功于兩個方面:一是精心挑選的高質量數據集S1K;二是“預算法”,該方法通過控制模型的計算量,延長模型的思考時間,從而提升模型的推理能力。
6. 模型的可用性
S1模型的論文、數據和代碼均已開源,但目前沒有線上服務供直接體驗。用戶可以自行下載代碼運行。
7. 與其他研究的比較
另一篇論文《LIMO: Less is More for Reasoning》也探索了低成本高性能模型的可能性,該論文僅使用817個精選樣本就取得了顯著成果,挑戰了大模型對海量數據的依賴。
8. 媒體報道的偏差
一些媒體報道夸大了S1模型的性能和低成本優勢,例如將S1與O1和R1直接等同,并忽略了其訓練成本的實際構成。這造成了公眾對S1模型的誤解。
9. 總結
S1模型的成功證明了在特定場景下,通過精心設計的數據集和測試時擴展方法,可以以相對較低的成本訓練出具有競爭力的AI推理模型。然而,其性能并非全面超越現有頂尖模型,媒體報道中存在夸大宣傳的成分。該研究具有重要意義,但其影響力不應被過度解讀。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。