最近學強化的過程中,總是遇到“拒絕采樣”這個概念,我嘗試科普一下,爭取用最大白話的方式讓每個感興趣的同學都理解其中思想。
原標題:LLM實踐系列-細聊LLM的拒絕采樣
文章來源:智猩猩GenAI
內容字數:4727字
拒絕采樣的概念及其在生成式AI中的應用
隨著生成式AI的快速發展,拒絕采樣這一概念逐漸引起了大家的關注。本文將通過簡單易懂的語言對拒絕采樣進行闡釋,并探討其在大型語言模型(LLM)中的應用。
1. 拒絕采樣的基本原理
拒絕采樣最早源于統計學,是一種從復雜目標概率分布中生成隨機樣本的方法。當直接從目標分布中采樣困難時,采用一個易于采樣的提議分布,并根據某種接受概率來決定是否接受樣本。其過程主要包括:選擇提議分布、確定縮放常數、生成樣本并進行接受檢測。
2. 拒絕采樣的關鍵要素
拒絕采樣包括幾個重要要素:首先,提議分布應該易于采樣并覆蓋目標分布;其次,需找到一個縮放常數,以確保提議分布包裹住目標分布;最后,需要有方法來判斷樣本是否符合目標分布。
3. LLM中的拒絕采樣
在LLM中,拒絕采樣的過程較為簡單。模型針對給定的提示生成多個候選響應,然后使用獎勵模型(reward_model)篩選出高質量的響應。這一過程可以被視為對提議分布的反復采樣,最終得到符合最佳語言模型的樣本。
4. 統計學與LLM的映射關系
統計學中的拒絕采樣和LLM的拒絕采樣之間有相似之處。兩者均需要易于采樣的提議分布和有效的接受標準。然而,LLM面臨的挑戰在于如何確保反復采樣能夠覆蓋最佳語言模型的表達方式。
5. RLHF與拒絕采樣的結合
在強化學習與人類反饋(RLHF)的框架下,優化目標并非是單純獲得最佳語言模型,而是使獎勵模型與參考模型共同認可的模型。因此,雖然LLM進行多次采樣,但仍需通過迭代來接近最優目標分布。
總結
拒絕采樣作為一種有效的采樣方法,雖然沒有應用具體的策略優化算法,但其核心思想與RLHF相通。通過對原始模型的反復采樣,結合獎勵模型的反饋,最終能夠達到更接近最佳語言模型的效果。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號之一,聚焦大模型開啟的通用人工智能浪潮。