<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

        AIGC動態2個月前發布 AI科技評論
        336 0 0

        在月亮的暗面,閃閃發光。

        推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

        原標題:熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術
        文章來源:AI科技評論
        內容字數:3532字

        Kimi k1.5 的成功與 SPPO 算法

        本文主要講述了 Kimi k1.5 大型語言模型的成功與其背后所使用的 SPPO 算法的關聯,以及該算法發明者 Yue Wu 的學術背景和成就。

        1. Kimi k1.5 的爆紅與爭議

          2025年1月,Kimi k1.5 正式發布,其多模態推理能力引發熱議,被認為是全球范圍內除 OpenAI 外首個實現 o1 正式版多模態推理性能的公司。然而,一個月后,博主 Yue Wu 爆料 Kimi k1.5 使用的強化學習算法 SPPO,其實借鑒了他 2024 年 5 月提出的技術,引發了廣泛關注。

        2. SPPO 算法詳解

          SPPO 是一種自博弈算法,旨在刻畫廣泛意義上的人類偏好,并使用平方損失函數進行優化。它通過迭代求解,得到與人類偏好對齊良好的語言模型。 Yue Wu 指出 SPPO 與 RLHF 的策略梯度有著深層聯系,其平方損失等價于普通策略梯度的半在線變體,并具有輕量級的優勢,無需即時生成樣本。

          研究表明,SPPO 的成功代表著大型語言模型后訓練階段的一個有趣發展趨勢:離線 DPO 方法逐漸取代 RLHF,而 SPPO 等迭代 DPO 方法則將離線方法轉化為在線對齊方法。 SPPO 的成功也凸顯了端到端強化學習的強大作用,甚至無需額外的技巧如價值函數、廣義優勢估計或梯度裁剪。

          此外,SPPO 還暗中在詞匯級別優化最優最大熵策略,其平方損失隱含地最小化了學習到的策略與最優詞匯級別策略之間的 KL 散度。

        3. Yue Wu 的學術成就和背景

          Yue Wu 擁有強大的學術背景,本科畢業于北京大學,博士畢業于加州大學洛杉磯分校,目前是普林斯頓大學人工智能實驗室的博士后研究員。自 2023 年以來,他已發表 9 篇論文,其中 3 篇為第一作者。他的實習經歷也十分豐富,曾在 NEC 美研院、字節美國 AI lab 和 Meta 工作,并在個性化聯邦學習、藥物發現和詞匯級別獎勵建模等領域取得了顯著成果。

          與他共同發表 SPPO 論文的第一作者 Zhiqing Sun 現已加入 OpenAI。

        總而言之,Kimi k1.5 的成功與 Yue Wu 團隊提出的 SPPO 算法密切相關,SPPO 算法的創新性及 Yue Wu 本身強大的學術背景和研究能力,共同推動了大型語言模型技術的發展。


        聯系作者

        文章來源:AI科技評論
        作者微信:
        作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲欧洲国产经精品香蕉网| 亚洲精品成人网站在线观看 | 亚洲国产一区视频| 亚洲爆乳少妇无码激情| 免费观看a级毛片| 亚洲国产精品无码观看久久| 四虎影视大全免费入口| 亚洲第一街区偷拍街拍| 国产三级免费观看| 四虎永久在线精品免费一区二区 | 中文字幕专区在线亚洲| 在线视频网址免费播放| 亚洲精品无码mv在线观看网站 | 成年人免费观看视频网站| 四虎必出精品亚洲高清| 日韩一级在线播放免费观看| 色屁屁在线观看视频免费| 国产精品亚洲w码日韩中文| a级毛片黄免费a级毛片| 1区1区3区4区产品亚洲| 我想看一级毛片免费的| 国内成人精品亚洲日本语音| 亚洲精品一级无码鲁丝片| 久操视频免费观看| 亚洲熟伦熟女专区hd高清| 亚洲国产小视频精品久久久三级| 久久成人18免费网站| 亚洲欧洲日产韩国在线| 国产无遮挡吃胸膜奶免费看视频| 一级毛片大全免费播放下载| 久久亚洲精品AB无码播放| 久九九精品免费视频| 九九久久精品国产免费看小说| 亚洲国产精品一区二区成人片国内| 国产成人精品免费视频大| 免费福利资源站在线视频| 久久精品a亚洲国产v高清不卡 | 午夜免费啪视频在线观看| 亚洲人成电影网站免费| 亚洲中文字幕无码久久2017| 又粗又大又黑又长的免费视频|