微調(diào)都不要了?3個(gè)樣本、1個(gè)提示搞定LLM對(duì)齊,提示工程師:全都回來了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微調(diào)都不要了?3個(gè)樣本、1個(gè)提示搞定LLM對(duì)齊,提示工程師:全都回來了
關(guān)鍵字:報(bào)告,基礎(chǔ),模型,研究者,樣本
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8670字
內(nèi)容摘要:機(jī)器之心報(bào)道機(jī)器之心編輯部大模型的效果好不好,有時(shí)候?qū)R調(diào)優(yōu)很關(guān)鍵。但近來很多研究開始探索無微調(diào)的方法,艾倫人工智能研究所和華盛頓大學(xué)的研究者用「免調(diào)優(yōu)」對(duì)齊新方法超越了使用監(jiān)督調(diào)優(yōu)(SFT)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的 LLM 性能。我們知道,僅在無監(jiān)督文本語料庫上預(yù)訓(xùn)練的基礎(chǔ)大語言模型(LLM)通常無法直接用作開源域的 AI 助手(如 ChatGPT)。因此,為了讓這些基礎(chǔ)的 LLM 成為有用且無害的 AI 助手,研究人員往往使用指令調(diào)優(yōu)和偏好學(xué)習(xí)對(duì)它們進(jìn)行微調(diào)。先來看下指令調(diào)優(yōu)的定義,它是一種監(jiān)督微調(diào)(SFT)過程,主要使用人工注釋或者從 GPT-4 等專有 LLM 中收集的數(shù)據(jù)。偏好學(xué)習(xí)則是一種典型的人類反饋強(qiáng)化學(xué)習(xí)(RLHF),它不斷地調(diào)優(yōu)監(jiān)督微調(diào)后的 LLM 以進(jìn)一步對(duì)齊人類偏好。基于調(diào)優(yōu)的對(duì)齊促使 LLM 顯著改進(jìn),似乎釋放了令人印象深刻的能力,并表明廣泛的微調(diào)對(duì)構(gòu)建 A…
原文鏈接:點(diǎn)此閱讀原文:微調(diào)都不要了?3個(gè)樣本、1個(gè)提示搞定LLM對(duì)齊,提示工程師:全都回來了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)