顛覆數(shù)學(xué)界的創(chuàng)新:月之暗面推出k0-math模型,挑戰(zhàn)o1的霸主地位!
楊植麟:Kimi目前最核心的任務(wù)是提升留存。
原標(biāo)題:月之暗面發(fā)布首款數(shù)學(xué)模型 k0-math,對標(biāo)o1
文章來源:AI科技評論
內(nèi)容字?jǐn)?shù):3663字
Kimi數(shù)學(xué)模型k0-math發(fā)布:提升AI思考能力的新探索
近日,在京東科技大廈,月之暗面創(chuàng)始人楊植麟宣布Kimi數(shù)學(xué)模型k0-math正式發(fā)布。該模型的數(shù)學(xué)能力與OpenAI的o1系列相當(dāng),預(yù)計到2024年10月,Kimi的月活躍用戶將超過3600萬。楊植麟強調(diào),未來的重點在于基于強化學(xué)習(xí)的方法進行模型的擴展,而不僅限于簡單的下一個token預(yù)測。
1. 強化學(xué)習(xí)與深度思考
楊植麟指出,傳統(tǒng)的Next-Token預(yù)測方法無法培養(yǎng)AI的思考能力,而強化學(xué)習(xí)則能在一定程度上實現(xiàn)這一目標(biāo)。他以解數(shù)學(xué)題為例,強調(diào)了深度思考過程的重要性。k0-math模型的設(shè)計初衷便是從數(shù)學(xué)場景出發(fā),逐步推廣到其他復(fù)雜任務(wù)。
2. k0-math模型的表現(xiàn)
根據(jù)多項基準(zhǔn)測試,k0-math的初代模型在中考、高考和考研等多個數(shù)學(xué)測試中均超越了OpenAI的o1-mini和o1-preview模型。在更高難度的OMNI-MATH和AIME基準(zhǔn)測試中,k0-math的表現(xiàn)也達到了o1-mini的高水平。
3. 強化模型的特點與挑戰(zhàn)
在未來的一到兩周內(nèi),k0-math的強化模型將會加入Kimi探索版,具備意圖增強、信源分析和鏈?zhǔn)剿伎脊δ堋钪谗胩岬剑瑥娀瘜W(xué)習(xí)中的一個核心問題是如何處理生成的學(xué)習(xí)數(shù)據(jù)的有效性和正確性,以提升模型的學(xué)習(xí)質(zhì)量。
4. 控制過度思考
k0-math在思考簡單問題時可能出現(xiàn)「過度思考」,例如在回答1+1時,會給出詳細(xì)的推理過程。對此,楊植麟表示,可以通過調(diào)整獎勵模型的結(jié)構(gòu)來抑制這種現(xiàn)象。
5. 聚焦與創(chuàng)新
楊植麟強調(diào),Kimi當(dāng)前的核心任務(wù)是提升用戶留存率,并表示在產(chǎn)品策略上,月之暗面采取了更為克制的做法,專注于最有潛力的領(lǐng)域。他認(rèn)為,團隊的規(guī)模控制對創(chuàng)新至關(guān)重要,避免變成大型企業(yè)。
6. 未來展望
楊植麟相信,預(yù)訓(xùn)練模型仍有發(fā)展空間,尤其是結(jié)合強化學(xué)習(xí)的方法,將大幅提升模型的性能。他認(rèn)為,AI與人為標(biāo)注的結(jié)合,將為未來的模型發(fā)展開辟更大的可能性。
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。