在噪聲環境中依然保持強勁表現
原標題:大模型訓練或無需“純凈數據”!北大團隊新研究:隨機噪聲影響有限,新方法讓模型更抗噪
文章來源:量子位
內容字數:4549字
北大團隊:大模型訓練并非必須依賴“純凈數據”
傳統的大語言模型訓練依賴于“純凈數據”,即經過仔細篩選、語確且邏輯嚴密的文本。然而,北京大學的研究團隊近期的一項研究挑戰了這一觀點,認為適量的“噪聲數據”并不會顯著影響模型性能,甚至可能帶來意想不到的益處。
核心發現:噪聲數據對大模型訓練的影響
研究團隊通過在訓練數據中添加高達20%的隨機亂碼,訓練了多個GPT-2模型。結果顯示,即使面對如此高比例的噪聲數據,模型的Next-token Prediction (NTP) loss僅上升約1%。更令人驚訝的是,在一些下游任務測試中,含噪模型甚至表現出更低的NTP loss。這表明,傳統的“純凈數據”假設可能過于嚴格。
理論解釋:隨機噪聲與模型性能的復雜關系
研究團隊從理論角度分析了這一現象。他們將NTP過程建模為一個分類任務,并證明了在特定條件下,隨機噪聲的存在不會改變NTP loss的全局最小值。該理論解釋了為什么多語言模型和在充滿背景噪音的數據集上訓練的音頻模型能夠成功。他們還通過實驗驗證了這一理論的正確性,包括使用高斯分布生成的噪聲。
解決方法:局部梯度匹配(LGM)損失函數
盡管預訓練損失變化微弱,但下游任務性能卻可能受到影響。研究團隊發現,在高斯噪聲上訓練的模型,盡管NTP loss更低,但在文本分類下游任務中的準確率卻下降。為了解決這個問題,他們提出了一種名為“局部梯度匹配”(LGM)的即插即用解決方案。LGM通過在特征中添加高斯噪聲并約束原始/擾動特征的梯度差異,增強分類頭的抗噪能力,從而彌補噪聲導致的特征偏移。實驗結果表明,LGM可以顯著提升受噪聲影響的模型在下游任務中的性能,甚至在干凈模型上也能提升1%-3%的準確率。
啟示與展望:數據清洗的新思考
這項研究為大規模預訓練提供了新的視角:首先,它表明適度保留隨機噪聲可以降低數據清洗成本;其次,它為多語言模型的成功提供了理論解釋;第三,它提出了一種新的數據增強方法,即可控噪聲注入,可以提升模型的泛化能力。然而,研究也存在局限性,例如實驗僅基于GPT-2規模模型,未來需要進一步研究超大規模模型的噪聲耐受性以及LGM在其他模態中的應用。
總而言之,北大團隊的研究挑戰了大語言模型訓練對“純凈數據”的依賴,為降低數據清洗成本、提升模型泛化能力提供了新的思路和方法。這項研究的成果具有重要的理論意義和實際應用價值。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破