訓(xùn)練1000樣本就能超越o1,李飛飛等人畫出AI擴展新曲線
比 DeepSeek R1 更簡單,更厲害?
原標(biāo)題:訓(xùn)練1000樣本就能超越o1,李飛飛等人畫出AI擴展新曲線
文章來源:機器之心
內(nèi)容字數(shù):4896字
斯坦福大學(xué)提出S1:高效提升AI推理效率的新方法
本文總結(jié)了斯坦福大學(xué)等研究機構(gòu)提出的S1模型,該模型以極低的算力成本大幅提升了AI的推理能力,為通用人工智能(AGI)的研究提供了新的方向。
DeepSeek R1的啟發(fā)與S1的創(chuàng)新
今年1月,DeepSeek R1模型以其創(chuàng)新的低算力需求方法震驚了科技界。然而,DeepSeek R1需要大量數(shù)據(jù),且缺少OpenAI的O1模型的測試時間擴展圖。斯坦福大學(xué)的研究人員在此基礎(chǔ)上提出了S1模型,它僅使用1000個樣本和簡單的測試時間干預(yù),就重現(xiàn)并超越了O1的性能。
S1的核心方法:測試時間擴展與預(yù)算
S1的核心在于一種名為“測試時間擴展”的新方法。該方法通過在測試階段增加額外的計算來提高模型性能。S1采用了一種名為“預(yù)算”的簡單干預(yù)技術(shù)。該技術(shù)通過控制模型的“思考”token數(shù)量,模型在思考過程中進行更仔細的檢查,從而提高答案的準(zhǔn)確性。具體來說,它通過添加或抑制特定的token來控制模型思考時間的長短。
S1的實驗結(jié)果與性能對比
研究人員在競賽數(shù)學(xué)問題基準(zhǔn)上對S1-32B進行了評估。結(jié)果顯示,S1-32B在AIME24上的表現(xiàn)比O1-preview高出27%,并且與Gemini 2.0 Thinking的性能相近。此外,S1-32B展現(xiàn)出極高的樣本效率,僅用1000個樣本就取得了優(yōu)異的成績,遠超其他需要大量數(shù)據(jù)的模型。
S1的優(yōu)勢與意義
S1模型的優(yōu)勢在于其極高的樣本效率和簡單的實現(xiàn)方法。它證明了在通往AGI的道路上,不必一味追求算力規(guī)模的擴大,更高效的算法和方法同樣能夠帶來突破性的進展。S1模型的開源也為其他研究者提供了寶貴的資源和參考。
未來展望
S1模型的出現(xiàn)為AI推理效率的提升提供了新的思路。未來,研究人員可以進一步探索和改進測試時間擴展方法,并將其應(yīng)用于更廣泛的領(lǐng)域,推動AGI研究的快速發(fā)展。
總而言之,S1模型以其簡潔高效的方法,為AI領(lǐng)域帶來了令人振奮的進展,也為未來的研究方向指明了新的路徑。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺