?但 Claude、豆包、Gemini 除外。
原標題:原來,這些頂級大模型都是蒸餾的
文章來源:機器之心
內容字數:5813字
機器之心報道:LLM蒸餾程度量化研究揭示模型同質化風險
近日,中國科學院深圳先進技術研究院、北大、零一萬物等機構的研究者發表論文,對多個知名閉源和開源LLM的蒸餾程度進行了量化評估,發現除了Claude、豆包和Gemini之外,許多模型都存在高程度蒸餾現象,引發了對模型同質化和魯棒性下降的擔憂。
1. 研究背景與意義
隨著模型蒸餾技術的興起,越來越多的LLM利用蒸餾方法提升小模型性能,這在降低成本的同時,也帶來了一些問題。一些頂尖AI公司可能已經構建了更強大的模型,但由于成本等原因,只將其用于內部,并通過蒸餾技術改進小模型,最終通過這些小模型來盈利。此種做法雖然有效,但也可能導致模型同質化,降低模型的多樣性和處理復雜任務的能力。因此,對LLM蒸餾程度的量化研究至關重要。
2. 研究方法
研究者提出了兩種方法來量化LLM的蒸餾程度:
- 響應相似度評估(RSE): 通過比較待評估模型與參考模型(GPT)的輸出相似度來衡量模型的同質化程度,從響應風格、邏輯結構和內容細節三個方面進行評估。
- 身份一致性評估(ICE): 利用GPTFuzz越獄框架,通過構造迭代提示來繞過LLM的自我認知,評估模型在感知和表示身份相關信息方面的差異。該方法通過檢測模型在身份信息上與訓練數據源LLM(例如GPT4o-0806)是否一致來判斷蒸餾程度。
3. 實驗結果
實驗結果表明:
- ICE結果顯示,GLM-4-Plus、Qwen-Max和Deepseek-V3的可疑響應數量最多,表明其蒸餾程度較高;Claude-3.5-Sonnet和Doubao-Pro-32k則幾乎沒有可疑響應。
- RSE結果顯示,GPT系列模型響應相似度最高,而Llama3.1-70B-Instruct和Doubao-Pro-32k相似度較低;DeepSeek-V3和Qwen-Max-0919則與GPT4o-0806相似度較高。
- 閉源模型Qwen-Max-0919比開源Qwen 2.5系列具有更高的蒸餾程度。
- 基礎LLM通常比經過監督微調的LLM具有更高程度的蒸餾。
4. 結論與展望
研究發現,除了Claude、豆包和Gemini之外,許多LLM都存在高程度蒸餾現象。過度蒸餾可能導致模型同質化,降低模型多樣性和魯棒性。研究者希望通過提出的方法,系統地量化蒸餾過程及其影響,提高LLM數據蒸餾的透明度。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...