AIGC動態歡迎閱讀
原標題:用RLHF 2%的算力讓LLM停止有害輸出,字節提出LLM遺忘學習
文章來源:機器之心
內容字數:5422字
內容摘要:機器之心專欄機器之心編輯部如何讓LLM “忘記” 學到的有害內容?隨著大型語言模型(LLM)的發展,從業者面臨更多挑戰。如何避免 LLM 產生有害回復?如何快速刪除訓練數據中的版權保護內容?如何減少 LLM 幻覺(hallucinations,即錯誤事實)? 如何在數據政策更改后快速迭代 LLM?這些問題在人工智能法律和道德的合規要求日益成熟的大趨勢下,對于 LLM 的安全可信部署至關重要。目前業界的主流解決方案為 LLM 對齊 (alignment),即通過建立對比數據(正樣本和負樣本)用強化學習的方式來對 LLM 進行微調 (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,從而保證 LLM 輸出符合人類預期和價值觀。但對齊過程往往受到 (1) 數據收集;(2) 計算資源的限制。字節跳動提出讓 L…
原文鏈接:點此閱讀原文:用RLHF 2%的算力讓LLM停止有害輸出,字節提出LLM遺忘學習
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...