今日arXiv最熱大模型論文:學(xué)提出用于大模型生成的動(dòng)態(tài)溫度采樣法,簡(jiǎn)單有效!

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱大模型論文:學(xué)提出用于大模型生成的動(dòng)態(tài)溫度采樣法,簡(jiǎn)單有效!
關(guān)鍵字:溫度,字節(jié)跳動(dòng),任務(wù),模型,策略
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):9772字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 松果引言:溫度采樣在大型語(yǔ)言模型中的作用與局限在自然語(yǔ)言處理(NLP)的領(lǐng)域,大語(yǔ)言模型(LLMs)已經(jīng)在各種下游語(yǔ)言任務(wù)中展現(xiàn)出了卓越的性能。這些任務(wù)包括但不限于問(wèn)答、摘要、機(jī)器翻譯等。LLMs的強(qiáng)大能力在于其生成的文本質(zhì)量和多樣性。為了控制生成過(guò)程,溫度采樣(temperature sampling)策略被廣泛應(yīng)用于調(diào)整下一個(gè)生成詞的概率分布,從而影響模型的性能。
然而,現(xiàn)有的方法大多采用固定的溫度參數(shù),這在實(shí)際應(yīng)用中可能并非最佳選擇。固定溫度在平衡生成質(zhì)量和多樣性方面存在局限性。如果模型每次生成高度相似甚至相同的內(nèi)容,那么在需要多次生成的情況下,固定的溫度設(shè)置就顯得不夠合理。
鑒于此,研究者們開(kāi)始探索動(dòng)態(tài)選擇溫度參數(shù)的方法,以期在生成質(zhì)量和多樣性之間實(shí)現(xiàn)更好的平衡。本文將介紹一種基于熵的動(dòng)態(tài)溫度采樣(EDT)方法,該方法能夠在每個(gè)解碼步驟動(dòng)態(tài)選擇溫度參數(shù),以期在幾乎不增加計(jì)算成本的情況下,顯著提升模型在不同任務(wù)中的表現(xiàn)。
論文標(biāo)題:EDT: Improving Large Language Models’ Generation by Entropy-b
原文鏈接:今日arXiv最熱大模型論文:學(xué)提出用于大模型生成的動(dòng)態(tài)溫度采樣法,簡(jiǎn)單有效!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)