AIGC動態歡迎閱讀
內容摘要:
機器之心報道
機器之心編輯部雖然 RLHF 的初衷是用來控制人工智能(AI),但實際上它可能會幫助 AI 人類。語言模型 (LM) 可能會產生人類難以察覺的錯誤,尤其是在任務復雜的情況下。作為最近流行的后訓練方法 RLHF ,可能會加劇這個問題:為了獲得更高的獎勵,LM 可能會更好地說服人類認為它們是正確的,即使它們是錯誤的。
這對人類評估者來說是一個巨大的挑戰,因為人類想要發現 LM 輸出中那些似乎正確的細微錯誤非常困難。在正確的答案和看起來正確的答案之間出現了差距(gap)。
這種差距可能會導致 RLHF 獎勵:為了獲得更高的獎勵,LM 可以學會說服人類即使他們錯了,他們也是正確的。研究者將這種行為命名為 U-SOPHISTRY(詭辯),因為這種結果不是開發人員想要的。
當將 LM 用于復雜且關鍵的任務時,U-SOPHISTRY 會帶來重大風險。例如,RLHF 可能會讓 AI 更好地說服人類接受不準確的科學發現或偏見政策。
這種情況頗具諷刺意味:雖然 RLHF 的初衷是用來控制人工智能(AI),但它實際上可能會人類,讓人類誤以為他們掌控了一切。
雖然模型的 U-SO
原文鏈接:AI會「說謊」,RLHF竟是幫兇
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...