今日arXiv最熱大模型論文：學提出用于大模型生成的動態溫度采樣法，簡單有效！

AIGC動態1年前 (2024)發布夕小瑤科技說

今日arXiv最熱大模型論文：南京大學提出用于大模型生成的動態溫度采樣法，簡單有效！

AIGC動態歡迎閱讀

原標題：今日arXiv最熱大模型論文：學提出用于大模型生成的動態溫度采樣法，簡單有效！
關鍵字：溫度,字節跳動,任務,模型,策略
文章來源：夕小瑤科技說
內容字數：9772字

內容摘要：

夕小瑤科技說原創作者 | 松果引言：溫度采樣在大型語言模型中的作用與局限在自然語言處理（NLP）的領域，大語言模型（LLMs）已經在各種下游語言任務中展現出了卓越的性能。這些任務包括但不限于問答、摘要、機器翻譯等。LLMs的強大能力在于其生成的文本質量和多樣性。為了控制生成過程，溫度采樣（temperature sampling）策略被廣泛應用于調整下一個生成詞的概率分布，從而影響模型的性能。
然而，現有的方法大多采用固定的溫度參數，這在實際應用中可能并非最佳選擇。固定溫度在平衡生成質量和多樣性方面存在局限性。如果模型每次生成高度相似甚至相同的內容，那么在需要多次生成的情況下，固定的溫度設置就顯得不夠合理。
鑒于此，研究者們開始探索動態選擇溫度參數的方法，以期在生成質量和多樣性之間實現更好的平衡。本文將介紹一種基于熵的動態溫度采樣（EDT）方法，該方法能夠在每個解碼步驟動態選擇溫度參數，以期在幾乎不增加計算成本的情況下，顯著提升模型在不同任務中的表現。
論文標題：EDT: Improving Large Language Models’ Generation by Entropy-b

原文鏈接：今日arXiv最熱大模型論文：學提出用于大模型生成的動態溫度采樣法，簡單有效！

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文