熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術(shù)
在月亮的暗面,閃閃發(fā)光。

原標題:熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術(shù)
文章來源:AI科技評論
內(nèi)容字數(shù):3532字
Kimi k1.5 的成功與 SPPO 算法
本文主要講述了 Kimi k1.5 大型語言模型的成功與其背后所使用的 SPPO 算法的關(guān)聯(lián),以及該算法發(fā)明者 Yue Wu 的學(xué)術(shù)背景和成就。
Kimi k1.5 的爆紅與爭議
2025年1月,Kimi k1.5 正式發(fā)布,其多模態(tài)推理能力引發(fā)熱議,被認為是全球范圍內(nèi)除 OpenAI 外首個實現(xiàn) o1 正式版多模態(tài)推理性能的公司。然而,一個月后,博主 Yue Wu 爆料 Kimi k1.5 使用的強化學(xué)習(xí)算法 SPPO,其實借鑒了他 2024 年 5 月提出的技術(shù),引發(fā)了廣泛關(guān)注。
SPPO 算法詳解
SPPO 是一種自博弈算法,旨在刻畫廣泛意義上的人類偏好,并使用平方損失函數(shù)進行優(yōu)化。它通過迭代求解,得到與人類偏好對齊良好的語言模型。 Yue Wu 指出 SPPO 與 RLHF 的策略梯度有著深層聯(lián)系,其平方損失等價于普通策略梯度的半在線變體,并具有輕量級的優(yōu)勢,無需即時生成樣本。
研究表明,SPPO 的成功代表著大型語言模型后訓(xùn)練階段的一個有趣發(fā)展趨勢:離線 DPO 方法逐漸取代 RLHF,而 SPPO 等迭代 DPO 方法則將離線方法轉(zhuǎn)化為在線對齊方法。 SPPO 的成功也凸顯了端到端強化學(xué)習(xí)的強大作用,甚至無需額外的技巧如價值函數(shù)、廣義優(yōu)勢估計或梯度裁剪。
此外,SPPO 還暗中在詞匯級別優(yōu)化最優(yōu)最大熵策略,其平方損失隱含地最小化了學(xué)習(xí)到的策略與最優(yōu)詞匯級別策略之間的 KL 散度。
Yue Wu 的學(xué)術(shù)成就和背景
Yue Wu 擁有強大的學(xué)術(shù)背景,本科畢業(yè)于北京大學(xué),博士畢業(yè)于加州大學(xué)洛杉磯分校,目前是普林斯頓大學(xué)人工智能實驗室的博士后研究員。自 2023 年以來,他已發(fā)表 9 篇論文,其中 3 篇為第一作者。他的實習(xí)經(jīng)歷也十分豐富,曾在 NEC 美研院、字節(jié)美國 AI lab 和 Meta 工作,并在個性化聯(lián)邦學(xué)習(xí)、藥物發(fā)現(xiàn)和詞匯級別獎勵建模等領(lǐng)域取得了顯著成果。
與他共同發(fā)表 SPPO 論文的第一作者 Zhiqing Sun 現(xiàn)已加入 OpenAI。
總而言之,Kimi k1.5 的成功與 Yue Wu 團隊提出的 SPPO 算法密切相關(guān),SPPO 算法的創(chuàng)新性及 Yue Wu 本身強大的學(xué)術(shù)背景和研究能力,共同推動了大型語言模型技術(shù)的發(fā)展。
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

粵公網(wǎng)安備 44011502001135號