微調的陷阱：大模型為何可能變“傻”？

原標題：關于微調導致大模型“降智”的一些思考
文章來源：夕小瑤科技說
內容字數：3202字

探索SFT模型的知識掌握與幻覺現象

在最近一次輕松的討論中，我們聚焦于SFT（Supervised Fine-Tuning）后模型與預訓練模型在知識掌握層面的差異。盡管SFT后模型在某些應用中表現不如預訓練模型，但其原因卻值得深入探討。

1. 數據分布差異

首先，從統計學的角度來看，SFT數據與預訓練數據的分布差異顯著。這種偏離導致模型在知識掌握上出現幻覺現象。為了解決這個問題，學術界提出了多種解決方案，比如在SFT階段引入預訓練數據，或在預訓練階段采用SFT數據等。這些方法旨在縮小兩者之間的分布差異。

2. 訓練過程中的局部最優

其次，從訓練過程來看，SFT過程中的訓練周期較長、學習率設置較小、數據質量高等因素，可能導致模型陷入局部最優。因此，SFT的過程似乎像是一個大的退火階段，但卻并未引入明顯的幻覺現象。

3. 捷徑思維的影響

討論的來自于一個哲學角度的思考，即“捷徑”。SFT模型試圖通過“捷徑”直接給出答案，而非逐步推導。這種方式雖然提升了回答的效率，但相應地增加了幻覺現象的風險。以中國的首都問題為例，預訓練模型可能需要多次推導，而SFT模型則直接給出“北京”。這背后的信息量和推導過程的缺失，容易導致模型在其他知識上也產生幻覺。

4. 反思與未來的實驗方向

最后，我們提出了一個實驗設想：將預訓練模型的推理過程延長，通過續寫大量token再總結，從而避免模型在知識推導時走捷徑。這一思路雖然引向了O1（OpenAI提出的技術路線），但也引發了對該方法實際可行性的思考。

此次討論不僅拓寬了我們對模型學習過程的理解，也為未來的研究方向提供了新的視角。希望下次能夠繼續探討與O1相關的其他話題。

聯系作者

文章來源：夕小瑤科技說
作者微信：
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

微調的陷阱：大模型為何可能變“傻”？

探索SFT模型的知識掌握與幻覺現象

1. 數據分布差異

2. 訓練過程中的局部最優

3. 捷徑思維的影響

4. 反思與未來的實驗方向

聯系作者

鹽城30億“耐心資本”母基金啟動，戰略性新興產業迎來蓬勃發展新機遇！

馬斯克“討薪”夢碎：4000億獎金化為泡影，富豪之路再遇挑戰！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點