COLM 24 | 從正確中學習？大模型的自我糾正新視角

AIGC動態歡迎閱讀

原標題：COLM 24 | 從正確中學習？大模型的自我糾正新視角
關鍵字：步驟,華為,模型,方法,分數
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文作者來自香港城市大學和華為諾亞方舟實驗室。其中，第一作者姚宇璇是香港城市大學計算機系的二年級博士生，研究方向涉及大模型的復雜推理和生成，師從宋林琦教授。吳涵，郭志江是華為諾亞方舟實驗室研究員。
大型語言模型（LLMs）雖然進展很快，很強大，但是它們仍然存在會產生幻覺、生成有害內容和不遵守人類指令等問題。一種流行的解決方案就是基于【自我糾正】，大概就是看自己輸出的結果，自己反思一下有沒有錯，如果有錯就自己改正。目前自己糾正還是比較關注于讓大模型從錯誤中進行學習。更多相關內容可以參考這篇 TACL 的 survey [1]。
但是呢，現有的很多自我糾正的方法依賴于復雜的 prompt engineering，人類反饋，或外部工具，但這些方法往往比較麻煩（試 p

原文鏈接：COLM 24 | 從正確中學習？大模型的自我糾正新視角