大模型二次開發(fā)技術(shù)選型思路

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布智猩猩GenAI

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：大模型二次開發(fā)技術(shù)選型思路
關(guān)鍵字：模型,任務(wù),數(shù)據(jù),方法,階段
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

導(dǎo)讀作者為StormBlafe
原文來自知乎，地址：https://zhuanlan.zhihu.com/p/708059967
本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。01開發(fā)方法分類1、領(lǐng)域知識(shí)注入：Continue PreTraining(增量預(yù)訓(xùn)練): 一般垂直大模型是基于通用大模型進(jìn)行二次的開發(fā)，需要用領(lǐng)域內(nèi)的語料進(jìn)行繼續(xù)預(yù)訓(xùn)練。
2、知識(shí)召回（激發(fā)）：SFT( Supervised Finetuning,有監(jiān)督微調(diào)): 通過SFT可以激發(fā)大模型理解領(lǐng)域內(nèi)的各種問題并進(jìn)行回答的能力。
3、基礎(chǔ)偏好對(duì)齊：獎(jiǎng)勵(lì)模型（RM）、強(qiáng)化學(xué)習(xí)（RL），可以讓大模型的回答對(duì)齊人們的偏好，比如行文的風(fēng)格。
4、高階偏好對(duì)齊：RLHF(人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練)、DPO(直接偏好優(yōu)化)。
NOTES:要想大模型有領(lǐng)域知識(shí)，得增量預(yù)訓(xùn)練（靠指令微調(diào)記知識(shí)不靠譜，不是幾十w條數(shù)據(jù)能做到的）02開發(fā)階段分類模型分成3個(gè)階段:
NOTES:大語言模型的一般訓(xùn)練過程（3步）：1、預(yù)訓(xùn)練學(xué)知識(shí)，2、指令微調(diào)學(xué)格式，3、強(qiáng)化學(xué)習(xí)對(duì)齊人類偏好(1)、第一階段:(Continue PreTraining)增量預(yù)訓(xùn)

原文鏈接：大模型二次開發(fā)技術(shù)選型思路