AIGC動態歡迎閱讀
原標題:Meta對Transformer架構下手了:新注意力機制更懂推理
文章來源:機器之心
內容字數:5038字
內容摘要:機器之心報道編輯:杜偉、陳萍作者表示,這種全新注意力機制(Sytem 2 Attention)或許你也需要呢。大型語言模型(LLM)很強已經是一個不爭的事實,但它們有時仍然容易犯一些簡單的錯誤,表現出較弱的推理能力。舉個例子,LLM 可能會因不相關的上下文或者輸入提示中固有的偏好或意見做出錯誤的判斷。后一種情況表現出的問題被叫做「阿諛奉承」,即模型與輸入保持一致。有沒有方法來緩解這類問題呢?有些學者試圖通過添加更多監督訓練數據或通過強化學習策略來解決,但這些無法從根本上解決問題。近日 Meta 研究者在論文《System 2 Attention (is something you might need too)》中認為,根本問題在于 Transformer 本身固有的構建方式,尤其是其注意力機制。也就是說,軟注意力既傾向于將概率分配給大部分上下文(包括不相關的部分),也傾向于過度關注重復的…
原文鏈接:點此閱讀原文:Meta對Transformer架構下手了:新注意力機制更懂推理
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...