AIGC動態歡迎閱讀
原標題:淺談大模型 SFT 的實踐落地:10 問 10 答
關鍵字:模型,數據,任務,解讀,報告
文章來源:算法邦
內容字數:0字
內容摘要:
來源|知乎—周星星
地址|https://zhuanlan.zhihu.com/p/685582706
前言SFT 是“低端”的工作,但它與業務緊密相連。相較于難以實施且多數公司沒資源訓練的預訓練,以及調試難度高的強化學習,SFT 可謂效果立竿見影,SFT在實際應用中更易顯現成效。
本文關注如何通過 SFT 逼近大模型的表現,既確保效果又兼顧模型的泛化能力,從而滿足業務需求,實現大模型的有效落地。接下來,我將采用 10 問 10 答的分享分享一些經驗,這些經驗源自實際業務中的實踐、社區的交流和 閱讀過的 Paper 中,不斷總結出來的個人心得,這些經驗也會隨時間不斷更新。期待與大家的交流探討。
Q1: 常見 SFT的開發流程是如何的?第一步,根據業務場景調整提示詞(prompt):業務團隊會提供具體場景,或者給出他們編寫的prompt,也可能只提供場景和數據,需要算法工程師自行編寫。編寫優秀的 prompt 對發揮模型的最大性能至關重要,一個出色的 prompt 可能將性能提升至80分以上直接得到業務要求,而一個普通的prompt可能只能得到50分。這里可以參考 OpenAI 和文心一
原文鏈接:淺談大模型 SFT 的實踐落地:10 問 10 答
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...