AIGC動態歡迎閱讀
原標題:4訓,Llama 7B擊敗GPT-4!Meta等讓LLM「分飾三角」自評自進化
關鍵字:模型,長度,數據,人類,評價
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】Meta、UC伯克利、NYU共同提出元獎勵語言模型,給「超級對齊」指條明路:讓AI自己當裁判,自我改進對齊,效果秒殺自我獎勵模型。LLM對數據的大量消耗,不僅體現在預訓練語料上,還體現在RLHF、DPO等對齊階段。
后者不僅依賴昂貴的人工標注數據,而且很可能讓人類水平限制LLM的進一步發展。
今年1月,Meta和NYU的團隊就提出了語言模型的自我獎勵機制,使用LLM-as-a-Judge的提示機制,讓模型在訓練期間進行自我反饋。
論文地址:https://arxiv.org/abs/2401.10020
論文發現,即使不依靠人類標注者,LLM也能通過評價自己的響應實現性能提升。
最近,這個團隊又發表了一篇研究,將LLM「自我獎勵」這件事情再拔高了一個層次。
論文地址:https://arxiv.org/abs/2407.19594
畢竟是自己給自己打分,因此不能只關注模型作為actor如何從反饋中優化,也需要保證模型作為judge具備優秀的自我評價能力。
之前的研究就因為過于關注前者而忽略后者,造成了迭代訓練期間性能的過快飽和。
甚至,還有可能造
原文鏈接:4訓,Llama 7B擊敗GPT-4!Meta等讓LLM「分飾三角」自評自進化
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...