AIGC動態歡迎閱讀
內容摘要:
講座預告11月1日上午10點,南開大學在讀博士李森茂,將以《基于擴散模型編碼器模塊的推理加速》為主題進行直播講解,歡迎掃名~導讀作者為lym
原文來自知乎,地址:https://zhuanlan.zhihu.com/p/890327005
本文只做學術/技術分享,如有侵權,聯系刪文。如果可以用prompt解決,盡量用prompt解決,因為訓練(精調)的模型往往通用能力會下降,訓練和長期部署成本都比較高,這個成本也包括時間成本。
基于prompt確實不行(情況包括格式輸出不穩定、格式輸出基本不對、任務不完全會、任務完全不會等情況,難度逐漸加大),選擇上SFT微調。
業務場景基本用不到強化學習,強化解決的是最后一公里的問題,可以理解為有兩種非常接近的輸出(這兩種輸出都非常接近目標輸出,此時已經解決了90%的問題),強化學習會對相同的輸入,打壓其中一種不希望的輸出,同時增強另一種更接近目標的希望的輸出(從DPO loss就可以看出)。強化是用來應對細微輸出差異的,并且業務場景優先用DPO,DPO只需要pair對數據,更好構造。PPO的reward model幾乎沒有開源的,需要的數據更多
原文鏈接:訓練視覺語言模型VLM的經驗
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...