在月亮的暗面,閃閃發光。
原標題:熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術
文章來源:AI科技評論
內容字數:3532字
Kimi k1.5 的成功與 SPPO 算法
本文主要講述了 Kimi k1.5 大型語言模型的成功與其背后所使用的 SPPO 算法的關聯,以及該算法發明者 Yue Wu 的學術背景和成就。
Kimi k1.5 的爆紅與爭議
2025年1月,Kimi k1.5 正式發布,其多模態推理能力引發熱議,被認為是全球范圍內除 OpenAI 外首個實現 o1 正式版多模態推理性能的公司。然而,一個月后,博主 Yue Wu 爆料 Kimi k1.5 使用的強化學習算法 SPPO,其實借鑒了他 2024 年 5 月提出的技術,引發了廣泛關注。
SPPO 算法詳解
SPPO 是一種自博弈算法,旨在刻畫廣泛意義上的人類偏好,并使用平方損失函數進行優化。它通過迭代求解,得到與人類偏好對齊良好的語言模型。 Yue Wu 指出 SPPO 與 RLHF 的策略梯度有著深層聯系,其平方損失等價于普通策略梯度的半在線變體,并具有輕量級的優勢,無需即時生成樣本。
研究表明,SPPO 的成功代表著大型語言模型后訓練階段的一個有趣發展趨勢:離線 DPO 方法逐漸取代 RLHF,而 SPPO 等迭代 DPO 方法則將離線方法轉化為在線對齊方法。 SPPO 的成功也凸顯了端到端強化學習的強大作用,甚至無需額外的技巧如價值函數、廣義優勢估計或梯度裁剪。
此外,SPPO 還暗中在詞匯級別優化最優最大熵策略,其平方損失隱含地最小化了學習到的策略與最優詞匯級別策略之間的 KL 散度。
Yue Wu 的學術成就和背景
Yue Wu 擁有強大的學術背景,本科畢業于北京大學,博士畢業于加州大學洛杉磯分校,目前是普林斯頓大學人工智能實驗室的博士后研究員。自 2023 年以來,他已發表 9 篇論文,其中 3 篇為第一作者。他的實習經歷也十分豐富,曾在 NEC 美研院、字節美國 AI lab 和 Meta 工作,并在個性化聯邦學習、藥物發現和詞匯級別獎勵建模等領域取得了顯著成果。
與他共同發表 SPPO 論文的第一作者 Zhiqing Sun 現已加入 OpenAI。
總而言之,Kimi k1.5 的成功與 Yue Wu 團隊提出的 SPPO 算法密切相關,SPPO 算法的創新性及 Yue Wu 本身強大的學術背景和研究能力,共同推動了大型語言模型技術的發展。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。