LLM實(shí)踐系列-細(xì)聊LLM的拒絕采樣
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LLM實(shí)踐系列-細(xì)聊LLM的拒絕采樣
關(guān)鍵字:模型,騰訊,知乎,樣本,語言
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大會(huì)預(yù)告12月5-6日,智猩猩共同主辦的2024中國(guó)生成式AI大會(huì)(上海站)將舉辦。北大(臨港)大模型對(duì)齊中心執(zhí)行主任徐驊,騰訊優(yōu)圖實(shí)驗(yàn)室天衍研究中心負(fù)責(zé)人吳賢,銀河通用機(jī)器人合伙人張直政,西湖心辰CEO醒辰,趣丸科技副總裁賈朔等20+位嘉賓已確認(rèn)參會(huì)演講。歡迎報(bào)名~今天給大家?guī)硪黄鹾糜袬ybq的文章,《拒絕采樣》。
最近學(xué)強(qiáng)化的過程中,總是遇到“拒絕采樣”這個(gè)概念,我嘗試科普一下,爭(zhēng)取用最大白話的方式讓每個(gè)感興趣的同學(xué)都理解其中思想。
拒絕采樣是 LLM 從統(tǒng)計(jì)學(xué)借鑒過來的一個(gè)概念。其實(shí)大家很早就接觸過這個(gè)概念,每個(gè)刷過 leetcode 的同學(xué)大概率都遇到過這樣一個(gè)問題:“如何用一枚骰子獲得 1/7 的概率?”
答案很簡(jiǎn)單:把骰子扔兩次,獲得 6 * 6 = 36 種可能的結(jié)果,丟棄最后一個(gè)結(jié)果,剩下的 35 個(gè)結(jié)果平分成 7 份,對(duì)應(yīng)的概率值便為 1/7 。使用這種思想,我們可以利用一枚骰子獲得任意 1/N 的概率。
在這個(gè)問題中,我們可以看到拒絕采樣的一些關(guān)鍵要素:
采樣:從易于采樣的分布(兩個(gè)骰子的所有可能結(jié)果)中生成樣本;
縮放:(扔兩次骰子)獲得更大的樣本分布;
拒
原文鏈接:LLM實(shí)踐系列-細(xì)聊LLM的拒絕采樣
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介: