<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        20K合成數據就能讓大模型能力飆升!還能實現模型自我迭代,上海AI Lab數據合成新范式

        AIGC動態6個月前發布 量子位
        400 0 0

        基于世界知識樹打造高質量對話數據

        20K合成數據就能讓大模型能力飆升!還能實現模型自我迭代,上海AI Lab數據合成新范式

        原標題:20K合成數據就能讓大模型能力飆升!還能實現模型自我迭代,上海AI Lab數據合成新范式
        文章來源:量子位
        內容字數:3951字

        上海AI Lab提出Condor:基于合成數據提升LLM對話能力

        本文總結了上海AI Lab研究團隊提出的Condor數據合成引擎,該引擎利用合成數據顯著提升了大型語言模型(LLM)Qwen的主觀對話能力。Condor通過“世界知識樹”和“自我反思”機制,高效生成高質量的監督微調(SFT)數據,并展現出模型性能與數據量正相關的特性,尤其在20K數據量級下取得了顯著效果,之后增益趨于平緩。此項研究為LLM數據合成提供了新的范式。

        1. Condor數據合成引擎:世界知識樹與自我反思

        Condor數據合成引擎包含兩個階段:Condor Void和Condor Refine。它巧妙地利用單一LLM完成問題合成、回復合成、回復評價和回復改進等多個角色。核心機制在于:

        1. 世界知識樹:Condor通過給定關鍵詞,讓模型遞歸生成子關鍵詞,形成知識樹。每個節點作為Tag,用于指導后續數據生成,確保指令的多樣性和知識覆蓋范圍。
        2. 任務多樣性和難度多樣性:Condor設計不同問題模板,生成不同類型(日常、角色扮演、創意創作等)和不同難度的問題,提升合成指令的多樣性。
        3. 自我反思:Condor Refine Pipeline引入自我反思策略,模型對初始回復進行評價和修改,迭代優化回復質量,最終生成高質量SFT數據。

        2. 實驗結果:顯著提升主觀對話能力

        研究人員使用Qwen2.5-72B-Instruct模型進行數據合成,并用Qwen2.5-7B模型進行SFT訓練。實驗結果表明:使用Condor合成數據訓練的模型在主觀對話能力上與Qwen2.5-7B-Instruct具有競爭力,并在主流客觀評測基準上保持了性能,顯著優于其他基線方法。 更重要的是,實驗驗證了模型性能隨著合成數據量增加而提升,在5K到20K數據量區間提升顯著,之后增益放緩。

        3. 模型自我迭代與性能分析

        研究團隊還驗證了Condor合成數據在模型自我迭代中的作用。使用Condor生成的數據訓練7B和72B的基模型,均實現了自我迭代,性能進一步提升。通過對主觀評測集按能力維度拆解,發現Condor在Creation、QA和Chat維度上的增益尤為顯著。對比分析顯示,Condor合成的數據與其他方法相比,能夠實現更廣泛的知識覆蓋,并提升模型回復的擬人化程度和細節。

        4. 結論與展望

        Condor數據合成引擎為LLM的訓練提供了高效、高質量的數據生成方案,成功提升了模型的主觀對話能力。 然而,高質量推理數據和多輪對話數據的有效合成策略、真實數據和合成數據的協作配比機制,以及如何突破合成數據的Scaling Law等問題,仍有待進一步研究。Condor的合成數據和訓練后的模型已開源,方便社區用戶進行體驗和探索。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品第五页中文字幕| 亚洲国产成人精品女人久久久| 久久青青草原亚洲av无码| 色噜噜的亚洲男人的天堂| 国产精品va无码免费麻豆| 亚洲av成人一区二区三区观看在线| 无码人妻一区二区三区免费手机| 亚洲精品91在线| 999久久久免费精品国产| 亚洲av无码片在线观看| 57PAO成人国产永久免费视频| 亚洲成aⅴ人片在线观| 永久免费的网站在线观看| 亚洲午夜无码久久久久小说| 精品亚洲一区二区三区在线播放| 国产一区二区三区亚洲综合| 午夜无码A级毛片免费视频| 国产裸模视频免费区无码| MM1313亚洲国产精品| 亚洲一级黄色视频| 国产日韩AV免费无码一区二区| 亚洲国产成人一区二区精品区| 久久国产精品免费观看| 亚洲一卡2卡4卡5卡6卡残暴在线| 成在人线AV无码免费| 黄网站色视频免费观看45分钟| 亚洲午夜福利717| 国产精品亚洲专一区二区三区| 亚洲乱码中文字幕手机在线| 国产成人高清精品免费观看| 亚洲国产老鸭窝一区二区三区| 久久国内免费视频| 四虎影视在线看免费观看| 亚洲av中文无码乱人伦在线播放| 免费观看无遮挡www的小视频| 亚洲精品又粗又大又爽A片| 亚洲一区无码精品色| 95老司机免费福利| 真正全免费视频a毛片| 亚洲AV无码专区国产乱码电影| 四虎成人免费网站在线|