楊植麟:Kimi目前最核心的任務是提升留存。
Kimi數學模型k0-math發布:提升AI思考能力的新探索
近日,在京東科技大廈,月之暗面創始人楊植麟宣布Kimi數學模型k0-math正式發布。該模型的數學能力與OpenAI的o1系列相當,預計到2024年10月,Kimi的月活躍用戶將超過3600萬。楊植麟強調,未來的重點在于基于強化學習的方法進行模型的擴展,而不僅限于簡單的下一個token預測。
1. 強化學習與深度思考
楊植麟指出,傳統的Next-Token預測方法無法培養AI的思考能力,而強化學習則能在一定程度上實現這一目標。他以解數學題為例,強調了深度思考過程的重要性。k0-math模型的設計初衷便是從數學場景出發,逐步推廣到其他復雜任務。
2. k0-math模型的表現
根據多項基準測試,k0-math的初代模型在中考、高考和考研等多個數學測試中均超越了OpenAI的o1-mini和o1-preview模型。在更高難度的OMNI-MATH和AIME基準測試中,k0-math的表現也達到了o1-mini的高水平。
3. 強化模型的特點與挑戰
在未來的一到兩周內,k0-math的強化模型將會加入Kimi探索版,具備意圖增強、信源分析和鏈式思考功能。楊植麟提到,強化學習中的一個核心問題是如何處理生成的學習數據的有效性和正確性,以提升模型的學習質量。
4. 控制過度思考
k0-math在思考簡單問題時可能出現「過度思考」,例如在回答1+1時,會給出詳細的推理過程。對此,楊植麟表示,可以通過調整獎勵模型的結構來抑制這種現象。
5. 聚焦與創新
楊植麟強調,Kimi當前的核心任務是提升用戶留存率,并表示在產品策略上,月之暗面采取了更為克制的做法,專注于最有潛力的領域。他認為,團隊的規模控制對創新至關重要,避免變成大型企業。
6. 未來展望
楊植麟相信,預訓練模型仍有發展空間,尤其是結合強化學習的方法,將大幅提升模型的性能。他認為,AI與人為標注的結合,將為未來的模型發展開辟更大的可能性。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。