“李飛飛團(tuán)隊(duì) 50 美元煉出 DeepSeek R1”被質(zhì)疑,上海交大本科生新“低成本推理”或成新寵!
近日,“李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到 50 美元的云計(jì)算費(fèi)用,成功訓(xùn)練出了一個(gè)名為 s1 的人工智能推理模型”的消息引起了很多人關(guān)注。
原標(biāo)題:“李飛飛團(tuán)隊(duì) 50 美元煉出 DeepSeek R1”被質(zhì)疑,上海交大本科生新“低成本推理”或成新寵!
文章來(lái)源:AI前線
內(nèi)容字?jǐn)?shù):8362字
斯坦福團(tuán)隊(duì)低成本AI模型S1:突破與誤解
近日,斯坦福大學(xué)和華盛頓大學(xué)的研究人員發(fā)表論文,介紹了一個(gè)名為S1的AI推理模型,其訓(xùn)練成本不到50美元,引發(fā)廣泛關(guān)注。該模型在部分?jǐn)?shù)學(xué)和編碼能力測(cè)試中表現(xiàn)與OpenAI O1和DeepSeek R1等頂尖模型不相上下,但這其中存在諸多誤解。
1. 李飛飛團(tuán)隊(duì)的貢獻(xiàn)
雖然論文署名包含李飛飛,但她并非主要貢獻(xiàn)者。主要工作由四位共同一作完成,李飛飛更多的是指導(dǎo)和資源支持。論文中提到的GPU和經(jīng)濟(jì)贊助來(lái)自斯坦福大學(xué)。
2. 50美元的
50美元的成本僅指S1模型最終微調(diào)階段的GPU算力費(fèi)用,不包含人力、數(shù)據(jù)收集和前期實(shí)驗(yàn)等成本。S1并非從零開始訓(xùn)練,而是基于預(yù)訓(xùn)練模型Qwen2.5-32B-Instruct進(jìn)行微調(diào)。因此,單純以50美元來(lái)衡量其整體成本是不準(zhǔn)確的。
3. S1的真實(shí)性能
S1在特定測(cè)試集(如O1-preview)上表現(xiàn)優(yōu)異,但并未超越O1正式版和DeepSeek R1。其成功依賴于精心挑選的1000個(gè)高質(zhì)量問題數(shù)據(jù)集S1K,以及“預(yù)算法”這一測(cè)試時(shí)擴(kuò)展方法。
4. 數(shù)據(jù)集的來(lái)源
S1K數(shù)據(jù)集并非單純“蒸餾”Gemini,而是利用Gemini生成1000個(gè)問題的推理軌跡和答案,然后用來(lái)微調(diào)Qwen模型。這與傳統(tǒng)的蒸餾方法有所不同,其對(duì)“蒸餾”概念的理解也存在一定的擴(kuò)大化。
5. S1成功的關(guān)鍵因素
S1的成功主要?dú)w功于兩個(gè)方面:一是精心挑選的高質(zhì)量數(shù)據(jù)集S1K;二是“預(yù)算法”,該方法通過控制模型的計(jì)算量,延長(zhǎng)模型的思考時(shí)間,從而提升模型的推理能力。
6. 模型的可用性
S1模型的論文、數(shù)據(jù)和代碼均已開源,但目前沒有線上服務(wù)供直接體驗(yàn)。用戶可以自行下載代碼運(yùn)行。
7. 與其他研究的比較
另一篇論文《LIMO: Less is More for Reasoning》也探索了低成本高性能模型的可能性,該論文僅使用817個(gè)精選樣本就取得了顯著成果,挑戰(zhàn)了大模型對(duì)海量數(shù)據(jù)的依賴。
8. 媒體報(bào)道的偏差
一些媒體報(bào)道夸大了S1模型的性能和低成本優(yōu)勢(shì),例如將S1與O1和R1直接等同,并忽略了其訓(xùn)練成本的實(shí)際構(gòu)成。這造成了公眾對(duì)S1模型的誤解。
9. 總結(jié)
S1模型的成功證明了在特定場(chǎng)景下,通過精心設(shè)計(jì)的數(shù)據(jù)集和測(cè)試時(shí)擴(kuò)展方法,可以以相對(duì)較低的成本訓(xùn)練出具有競(jìng)爭(zhēng)力的AI推理模型。然而,其性能并非全面超越現(xiàn)有頂尖模型,媒體報(bào)道中存在夸大宣傳的成分。該研究具有重要意義,但其影響力不應(yīng)被過度解讀。
聯(lián)系作者
文章來(lái)源:AI前線
作者微信:
作者簡(jiǎn)介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。