AIGC動態歡迎閱讀
原標題:LLM 比之前預想的更像人類,竟也能「三省吾身」
關鍵字:報告,模型,行為,自我,數據
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:Panda子曾經曰過:「見賢思齊焉,見不賢而內自省也。」自省可以幫助我們更好地認識自身和反思世界,對 AI 來說也同樣如此嗎?
近日,一個多機構聯合團隊證實了這一點。他們的研究表明,語言模型可以通過內省來了解自身。論文標題:Looking Inward: Language Models Can Learn About Themselves by Introspection
論文地址:https://arxiv.org/pdf/2410.13787
讓 LLM 學會自省(introspection)其實是一件利害皆有的事情。
好的方面講,自省式模型可以根據其內部狀態的屬性回答有關自身的問題 —— 即使這些答案無法從其訓練數據中推斷出來。這種能力可用于創造誠實的模型,讓它們能準確地報告其信念、世界模型、性格和目標。此外,這還能幫助人類了解模型的道德狀態。
壞的方面呢,具備自省能力的模型能更好地感知其所處的情形,于是它可能利用這一點來避開人類的監督。舉個例子,自省式模型可通過檢視自身的知識范圍來了解其被評估和部署的方式。
為了測試 AI 模型的自省能力,該團隊做了一些實驗
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...