原來，這些頂級大模型都是蒸餾的

?但 Claude、豆包、Gemini 除外。

原來，這些頂級大模型都是蒸餾的

原標題：原來，這些頂級大模型都是蒸餾的
文章來源：機器之心
內容字數：5813字

機器之心報道：LLM蒸餾程度量化研究揭示模型同質化風險

近日，中國科學院深圳先進技術研究院、北大、零一萬物等機構的研究者發表論文，對多個知名閉源和開源LLM的蒸餾程度進行了量化評估，發現除了Claude、豆包和Gemini之外，許多模型都存在高程度蒸餾現象，引發了對模型同質化和魯棒性下降的擔憂。

1. 研究背景與意義

隨著模型蒸餾技術的興起，越來越多的LLM利用蒸餾方法提升小模型性能，這在降低成本的同時，也帶來了一些問題。一些頂尖AI公司可能已經構建了更強大的模型，但由于成本等原因，只將其用于內部，并通過蒸餾技術改進小模型，最終通過這些小模型來盈利。此種做法雖然有效，但也可能導致模型同質化，降低模型的多樣性和處理復雜任務的能力。因此，對LLM蒸餾程度的量化研究至關重要。

2. 研究方法

研究者提出了兩種方法來量化LLM的蒸餾程度：

響應相似度評估(RSE): 通過比較待評估模型與參考模型(GPT)的輸出相似度來衡量模型的同質化程度，從響應風格、邏輯結構和內容細節三個方面進行評估。
身份一致性評估(ICE): 利用GPTFuzz越獄框架，通過構造迭代提示來繞過LLM的自我認知，評估模型在感知和表示身份相關信息方面的差異。該方法通過檢測模型在身份信息上與訓練數據源LLM(例如GPT4o-0806)是否一致來判斷蒸餾程度。

3. 實驗結果

實驗結果表明：

ICE結果顯示，GLM-4-Plus、Qwen-Max和Deepseek-V3的可疑響應數量最多，表明其蒸餾程度較高；Claude-3.5-Sonnet和Doubao-Pro-32k則幾乎沒有可疑響應。
RSE結果顯示，GPT系列模型響應相似度最高，而Llama3.1-70B-Instruct和Doubao-Pro-32k相似度較低；DeepSeek-V3和Qwen-Max-0919則與GPT4o-0806相似度較高。
閉源模型Qwen-Max-0919比開源Qwen 2.5系列具有更高的蒸餾程度。
基礎LLM通常比經過監督微調的LLM具有更高程度的蒸餾。

4. 結論與展望

研究發現，除了Claude、豆包和Gemini之外，許多LLM都存在高程度蒸餾現象。過度蒸餾可能導致模型同質化，降低模型多樣性和魯棒性。研究者希望通過提出的方法，系統地量化蒸餾過程及其影響，提高LLM數據蒸餾的透明度。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 大模型壓縮方法 # 大模型蒸餾技術 # 輕量級大模型 # 預訓練模型蒸餾 # 高效大模型推理

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

原來，這些頂級大模型都是蒸餾的

?但 Claude、豆包、Gemini 除外。

機器之心報道：LLM蒸餾程度量化研究揭示模型同質化風險

1. 研究背景與意義

2. 研究方法

3. 實驗結果

4. 結論與展望

聯系作者

我們決定用50個關鍵詞，來總結2024這AI狂奔的一年。

“DeepSeek甚至繞過了CUDA”，論文細節再引熱議，工程師靈魂提問：英偉達護城河還在嗎？

相關文章

暫無評論

ChatGPT

玩虛擬模特？