AIGC動態歡迎閱讀
原標題:3倍生成速度還降內存成本,超越Medusa2的高效解碼框架終于來了
關鍵字:模型,軌跡,報告,序列,目標
文章來源:機器之心
內容字數:9364字
內容摘要:
機器之心報道
編輯:亞鸝高效解碼n -token序列,CLLMs+Jacobi解碼框架。??????
傳統上,大型語言模型(LLMs)被認為是順序解碼器,逐個解碼每個token。
來自上海交通大學、加利福尼亞大學的研究團隊展示了預訓練的LLMs可以輕松地被教導成為高效的并行解碼器,并介紹了一種新的并行解碼器族,稱為一致性大語言模型(CLLMs),能夠通過在每個推斷步驟中高效地解碼一個n -token序列來降低推斷延遲。
在此篇論文中,研究表明:「模仿人類在頭腦中形成完整句子后逐字表達的認知過程,可以通過簡單地微調預訓練的LLMs來有效地學習。」
具體而言,CLLMs通過將任何隨機初始化的n -token序列映射到盡可能少的步驟中,產生與自回歸(AR)解碼相同結果,來進行并行解碼的訓練。
實驗結果表明,使用該研究團隊所提出的方法獲得的CLLMs非常有效,在生成速度上顯示出該方法獲得了2.4倍至3.4倍的改進,與其他快速推斷技術如Medusa2和Eagle相媲美甚至更好,且在推斷時不需要額外的內存成本來容納輔助模型組件。論文名稱:《CLLMs:Consistency Large Langu
原文鏈接:3倍生成速度還降內存成本,超越Medusa2的高效解碼框架終于來了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...