大模型二次開發(fā)技術(shù)選型思路
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型二次開發(fā)技術(shù)選型思路
關(guān)鍵字:模型,任務(wù),數(shù)據(jù),方法,階段
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
導(dǎo)讀作者為StormBlafe
原文來自知乎,地址:https://zhuanlan.zhihu.com/p/708059967
本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。01開發(fā)方法分類1、領(lǐng)域知識注入:Continue PreTraining(增量預(yù)訓(xùn)練): 一般垂直大模型是基于通用大模型進(jìn)行二次的開發(fā),需要用領(lǐng)域內(nèi)的語料進(jìn)行繼續(xù)預(yù)訓(xùn)練。
2、知識召回(激發(fā)):SFT( Supervised Finetuning,有監(jiān)督微調(diào)): 通過SFT可以激發(fā)大模型理解領(lǐng)域內(nèi)的各種問題并進(jìn)行回答的能力。
3、基礎(chǔ)偏好對齊:獎勵模型(RM)、強(qiáng)化學(xué)習(xí)(RL),可以讓大模型的回答對齊人們的偏好,比如行文的風(fēng)格。
4、高階偏好對齊:RLHF(人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練)、DPO(直接偏好優(yōu)化)。
NOTES:要想大模型有領(lǐng)域知識,得增量預(yù)訓(xùn)練(靠指令微調(diào)記知識不靠譜,不是幾十w條數(shù)據(jù)能做到的)02開發(fā)階段分類模型分成3個階段:
NOTES:大語言模型的一般訓(xùn)練過程(3步):1、預(yù)訓(xùn)練學(xué)知識,2、指令微調(diào)學(xué)格式,3、強(qiáng)化學(xué)習(xí)對齊人類偏好(1)、第一階段:(Continue PreTraining)增量預(yù)訓(xùn)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: