AIGC動態歡迎閱讀
原標題:大模型免微調解鎖對話能力,RLHF沒必要了!一作上交大校友:節省大量成本和時間
文章來源:量子位
內容字數:4668字
內容摘要:夢晨 發自 凹非寺量子位 | 公眾號 QbitAI要搞大模型AI助手,像ChatGPT一樣對齊微調已經是行業標準做法,通常分為SFT+RLHF兩步走。來自艾倫研究所的新研究卻發現,這兩步都不是必要的???新論文指出,預訓練完成剛出爐的基礎模型已經掌握了遵循指令的能力,只需要提示工程就能引導出來,引起開發社區強烈關注。因為RLHF的成本非常高訓練還不穩定,這樣可就省了大錢了。研究據此提出一種新的免微調對齊法URIAL。論文中把新方法形容為“解鎖基礎模型潛力的咒語”,能夠節省大量算力資源和時間。更值得關注的是,不掌握穩定RLHF(人類強化學習)能力的小型團隊,也能低成本開發出可以對話、遵循指令的對齊模型了。目前URIAL代碼和新評估基準Just-Eval-Instruct已開源,剛剛上傳不久。研究來自艾倫研究所和華盛頓大學Yejin Choi團隊,過去曾提出Top_p采樣,在如今大模型AP…
原文鏈接:點此閱讀原文:大模型免微調解鎖對話能力,RLHF沒必要了!一作上交大校友:節省大量成本和時間
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...