AIGC動態歡迎閱讀
原標題:只需幾個演示就能對齊大模型,楊笛一團隊提出的DITTO竟如此高效
關鍵字:數據,演示,策略,模型,團隊
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:Panda人類的教育方式,對大模型而言也很適用。養育孩子時,古往今來人們都會談到一種重要方法:以身作則。也就是讓自己成為孩子模仿學習的范例,而不是單純地告訴他們應該怎么做。在訓練大語言模型(LLM)時,我們或許也能采用這樣的方法 —— 向模型進行演示。
近日,斯坦福大學楊笛一團隊提出了一種新框架 DITTO,可通過少量演示(用戶提供的期望行為示例)來將 LLM 與特定設置對齊。這些示例可以從用戶現有的交互日志獲取,也能通過直接編輯 LLM 的輸出得到。這樣就可以讓模型針對不同的用戶和任務高效地理解并對齊用戶偏好。論文標題:Show, Don’t Tell: Aligning Language Models with Demonstrated Feedback
論文地址:https://arxiv.org/pdf/2406.00888
DITTO 可基于少量演示(少于 10)自動創建一個包含大量偏好比較數據的數據集(這個過程被稱為 scaffold),其具體做法是默認這一點:相比于原始 LLM 及早期迭代版本的輸出,用戶更偏好演示。然后,將演示與模型輸出組成數據對,得
原文鏈接:只需幾個演示就能對齊大模型,楊笛一團隊提出的DITTO竟如此高效
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...