大模型合成數據機理分析，人大劉勇團隊：信息增益影響泛化能力

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：大模型合成數據機理分析，人大劉勇團隊：信息增益影響泛化能力
關鍵字：數據,模型,過程,增益,上界
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在大語言模型（LLMs）后訓練任務中，由于高質量的特定領域數據十分稀缺，合成數據已成為重要資源。雖然已有多種方法被用于生成合成數據，但合成數據的理論理解仍存在缺口。為了解決這一問題，本文首先對當前流行的合成數據生成過程進行了數學建模。在此基礎上，本文證明了后訓練模型的泛化能力關鍵取決于生成模型帶來的信息增益，并從一個新的反向瓶頸視角進行了分析。此外，本文引入了互信息泛化增益（GGMI）的概念，闡明了泛化增益與信息增益之間的關系。我們希望為合成數據的應用提供理論基礎，進而為合成數據生成技術的設計與后訓練過程的優化提供新的理解。
It’s not the form of data, but the information it brings that truly

原文鏈接：大模型合成數據機理分析，人大劉勇團隊：信息增益影響泛化能力