
AIGC動態歡迎閱讀
原標題:GPT、Llama等大模型存在「逆轉詛咒」,這個bug該如何緩解?
文章來源:機器之心
內容字數:8747字
內容摘要:機器之心專欄作者:呂昂,張凱翼,解曙方,涂權,陳雨涵,文繼榮,嚴睿中國人民大學我們是否正在掉入中等智能陷阱?一個關于大語言模型 “逆轉詛咒” 的分析與緩解方法。來自中國人民大學的研究者將 Llama 等因果語言模型所遭遇的 “逆轉詛咒” 歸咎于 next-token prediction + causal language model 的本質缺陷,并發現 GLM 采用的自回歸填空的訓練方法對這種 “逆轉詛咒” 顯示出更強的魯棒性。通過將雙向注意力機制引入 Llama 模型進行微調,該研究實現了對 Llama 的 “逆轉詛咒” 的緩解。該研究認為當前主流的這種大模型結構與訓練范式存在著很多潛在的缺陷,希望有更多的研究者能夠在模型結構或者預訓練范式上進行創新突破,以獲得更高的智能水平。論文地址:https://arxiv.org/pdf/2311.07468.pdf背景Lukas Berglu…
原文鏈接:點此閱讀原文:GPT、Llama等大模型存在「逆轉詛咒」,這個bug該如何緩解?
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號