關(guān)于post-training和一些思考
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:關(guān)于post-training和一些思考
關(guān)鍵字:報(bào)告,模型,數(shù)據(jù),算法,里面
文章來源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
生成式AI時(shí)代最火AI芯片峰會(huì)下月來襲!9月6-7日,智猩猩發(fā)起主辦的2024全球AI芯片峰會(huì)將在北京盛大舉行。峰會(huì)設(shè)有開幕式、數(shù)據(jù)中心AI芯片專場、邊緣/端側(cè)AI芯片專場、智算集群技術(shù)論壇等7大板塊。目前,來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵(lì)飛、中國移動(dòng)研究院、北極雄芯等40+企業(yè)的嘉賓已確認(rèn)演講或討論。掃碼申請免費(fèi)票或購票參會(huì)~Author: [yanwushen]
Link: [https://zhuanlan.zhihu.com/p/710936230]
最近有趨勢是要擴(kuò)大post-training規(guī)模,本文討論的就是Llama3.1等開源大模型的技術(shù)報(bào)告里的post-training部分,已經(jīng)有很多文章提到其中的細(xì)節(jié)要點(diǎn)了,這里更著重于比較大的層面。
01DPO vs PPO整個(gè)93頁報(bào)告當(dāng)然是很有份量的,很大程度的推進(jìn)了領(lǐng)域內(nèi)的發(fā)展,但令人失望的是,沒有像在 Llama 2 中使用 PPO 那樣對(duì) SFT->DPO 進(jìn)行徹底的分析。另外,本來以為會(huì)有很多關(guān)于 DPO 與 PPO 怎么選擇的內(nèi)容,但文章里面只說了“我們還探索
原文鏈接:關(guān)于post-training和一些思考
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介: