LLM對(duì)齊綜述|邁向可擴(kuò)展的大模型自動(dòng)對(duì)齊,中科院軟件所&阿里千問發(fā)布
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LLM對(duì)齊綜述|邁向可擴(kuò)展的大模型自動(dòng)對(duì)齊,中科院軟件所&阿里千問發(fā)布
關(guān)鍵字:模型,人類,反饋,信號(hào),指令
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 中科院軟件所&阿里千問近年來,大模型的高速發(fā)展極大地改變了人工智能的格局。對(duì)齊(Alignment) 是使大模型的行為符合人類意圖和價(jià)值觀,引導(dǎo)大模型按照人類的需求和期望進(jìn)化的核心步驟,因此受到學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。
先前的對(duì)齊工作主要依賴于人工標(biāo)注的、包含有人類偏好信息的對(duì)齊數(shù)據(jù)來對(duì)模型進(jìn)行繼續(xù)訓(xùn)練,從而實(shí)現(xiàn)模型的對(duì)齊。具體來說,有兩種形式的最為常用的對(duì)齊數(shù)據(jù):1)指令-回復(fù)對(duì),這類數(shù)據(jù)通常包含有一個(gè)指令以及一個(gè)人類撰寫的標(biāo)準(zhǔn)回復(fù),通常被用來對(duì)大模型進(jìn)行有監(jiān)督微調(diào),從而將其中包含有的人類偏好信息注入到模型當(dāng)中;2)偏好數(shù)據(jù),這類數(shù)據(jù)通常包含有一個(gè)指令,若干個(gè)潛在的回復(fù)以及人類對(duì)這些回復(fù)的偏好信息。偏好數(shù)據(jù)既可以被用在DPO、IPO、PRO等各類算法中來會(huì)直接對(duì)大模型進(jìn)行優(yōu)化,也可以被用來訓(xùn)練reward model,然后通過使用reward model對(duì)模型進(jìn)行反饋的方式,間接地將偏好數(shù)據(jù)中的對(duì)齊信號(hào)注入到模型當(dāng)中。然而,無論是指令回復(fù)對(duì)還是偏好數(shù)據(jù),在它們構(gòu)建過程當(dāng)中都需要非常昂貴、精細(xì)同時(shí)對(duì)標(biāo)注質(zhì)量要求非常高的人類標(biāo)注的參與,這使得這類方法的每一步
原文鏈接:LLM對(duì)齊綜述|邁向可擴(kuò)展的大模型自動(dòng)對(duì)齊,中科院軟件所&阿里千問發(fā)布
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡(jiǎn)介: