LLM實踐系列-細(xì)聊LLM的拒絕采樣

AIGC動態(tài)1年前 (2024)發(fā)布智猩猩GenAI

AIGC動態(tài)歡迎閱讀

原標(biāo)題：LLM實踐系列-細(xì)聊LLM的拒絕采樣
關(guān)鍵字：模型,騰訊,知乎,樣本,語言
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

大會預(yù)告12月5-6日，智猩猩共同主辦的2024中國生成式AI大會（上海站）將舉辦。北大（臨港）大模型對齊中心執(zhí)行主任徐驊，騰訊優(yōu)圖實驗室天衍研究中心負(fù)責(zé)人吳賢，銀河通用機器人合伙人張直政，西湖心辰CEO醒辰，趣丸科技副總裁賈朔等20+位嘉賓已確認(rèn)參會演講。歡迎報名~今天給大家?guī)硪黄鹾糜袬ybq的文章，《拒絕采樣》。
最近學(xué)強化的過程中，總是遇到“拒絕采樣”這個概念，我嘗試科普一下，爭取用最大白話的方式讓每個感興趣的同學(xué)都理解其中思想。
拒絕采樣是 LLM 從統(tǒng)計學(xué)借鑒過來的一個概念。其實大家很早就接觸過這個概念，每個刷過 leetcode 的同學(xué)大概率都遇到過這樣一個問題：“如何用一枚骰子獲得 1/7 的概率？”
答案很簡單：把骰子扔兩次，獲得 6 * 6 = 36 種可能的結(jié)果，丟棄最后一個結(jié)果，剩下的 35 個結(jié)果平分成 7 份，對應(yīng)的概率值便為 1/7 。使用這種思想，我們可以利用一枚骰子獲得任意 1/N 的概率。
在這個問題中，我們可以看到拒絕采樣的一些關(guān)鍵要素：
采樣：從易于采樣的分布（兩個骰子的所有可能結(jié)果）中生成樣本；
縮放：（扔兩次骰子）獲得更大的樣本分布；
拒

原文鏈接：LLM實踐系列-細(xì)聊LLM的拒絕采樣