AIGC動態歡迎閱讀
原標題:沒想到!AlphaZero式樹搜索也能用來增強大語言模型推理與訓練
關鍵字:模型,語言,算法,函數,價值
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com萬梓煜是上海交通大學的三年級在讀博士生,導師為溫穎教授和張偉楠教授,主要研究興趣為強化學習與大語言模型、決策大模型。馮熙棟是倫敦大學學院四年級博士生,導師為汪軍老師。同時目前也是Google DeepMind的student researcher。主要研究方向是強化學習與大語言模型,多智能體以及元強化學習。
2016年 DeepMind 的 AlphaZero 展示了強大的學習和適應能力,登上《自然》雜志封面,并在之后通過自我對弈不斷提升自身水平,最終戰勝了人類冠軍,而這也為之后學者在大語言模型與樹搜索的結構化結合奠定了基礎。
大語言模型樹搜索
大語言模型與思維鏈(Chain-of-Thought, CoT)的結合增強了其復雜推理能力,使其在數學和邏輯推理等任
原文鏈接:沒想到!AlphaZero式樹搜索也能用來增強大語言模型推理與訓練
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...