LLM對(duì)齊綜述｜邁向可擴(kuò)展的大模型自動(dòng)對(duì)齊，中科院軟件所&阿里千問發(fā)布

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：LLM對(duì)齊綜述｜邁向可擴(kuò)展的大模型自動(dòng)對(duì)齊，中科院軟件所&阿里千問發(fā)布
關(guān)鍵字：模型,人類,反饋,信號(hào),指令
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 中科院軟件所&阿里千問近年來，大模型的高速發(fā)展極大地改變了人工智能的格局。對(duì)齊（Alignment）是使大模型的行為符合人類意圖和價(jià)值觀，引導(dǎo)大模型按照人類的需求和期望進(jìn)化的核心步驟，因此受到學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。
先前的對(duì)齊工作主要依賴于人工標(biāo)注的、包含有人類偏好信息的對(duì)齊數(shù)據(jù)來對(duì)模型進(jìn)行繼續(xù)訓(xùn)練，從而實(shí)現(xiàn)模型的對(duì)齊。具體來說，有兩種形式的最為常用的對(duì)齊數(shù)據(jù)：1）指令-回復(fù)對(duì)，這類數(shù)據(jù)通常包含有一個(gè)指令以及一個(gè)人類撰寫的標(biāo)準(zhǔn)回復(fù)，通常被用來對(duì)大模型進(jìn)行有監(jiān)督微調(diào)，從而將其中包含有的人類偏好信息注入到模型當(dāng)中；2）偏好數(shù)據(jù)，這類數(shù)據(jù)通常包含有一個(gè)指令，若干個(gè)潛在的回復(fù)以及人類對(duì)這些回復(fù)的偏好信息。偏好數(shù)據(jù)既可以被用在DPO、IPO、PRO等各類算法中來會(huì)直接對(duì)大模型進(jìn)行優(yōu)化，也可以被用來訓(xùn)練reward model，然后通過使用reward model對(duì)模型進(jìn)行反饋的方式，間接地將偏好數(shù)據(jù)中的對(duì)齊信號(hào)注入到模型當(dāng)中。然而，無論是指令回復(fù)對(duì)還是偏好數(shù)據(jù)，在它們構(gòu)建過程當(dāng)中都需要非常昂貴、精細(xì)同時(shí)對(duì)標(biāo)注質(zhì)量要求非常高的人類標(biāo)注的參與，這使得這類方法的每一步

原文鏈接：LLM對(duì)齊綜述｜邁向可擴(kuò)展的大模型自動(dòng)對(duì)齊，中科院軟件所&阿里千問發(fā)布