AIGC動態歡迎閱讀
原標題:關于post-training和一些思考
關鍵字:報告,模型,數據,算法,里面
文章來源:智猩猩AGI
內容字數:0字
內容摘要:
生成式AI時代最火AI芯片峰會下月來襲!9月6-7日,智猩猩發起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設有開幕式、數據中心AI芯片專場、邊緣/端側AI芯片專場、智算集群技術論壇等7大板塊。目前,來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵飛、中國移動研究院、北極雄芯等40+企業的嘉賓已確認演講或討論。掃碼申請免費票或購票參會~Author: [yanwushen]
Link: [https://zhuanlan.zhihu.com/p/710936230]
最近有趨勢是要擴大post-training規模,本文討論的就是Llama3.1等開源大模型的技術報告里的post-training部分,已經有很多文章提到其中的細節要點了,這里更著重于比較大的層面。
01DPO vs PPO整個93頁報告當然是很有份量的,很大程度的推進了領域內的發展,但令人失望的是,沒有像在 Llama 2 中使用 PPO 那樣對 SFT->DPO 進行徹底的分析。另外,本來以為會有很多關于 DPO 與 PPO 怎么選擇的內容,但文章里面只說了“我們還探索
原文鏈接:關于post-training和一些思考
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...