AIGC動態歡迎閱讀
原標題:Llama-2+Mistral+MPT=? 融合多個異構大模型顯奇效
關鍵字:模型,騰訊,表征,語言,權重
文章來源:機器之心
內容字數:5206字
內容摘要:
機器之心專欄
機器之心編輯部融合多個異構大語言模型,中山大學、騰訊 AI Lab 推出 FuseLLM隨著 LLaMA、Mistral 等大語言模型的成功,各家大廠和初創公司都紛紛創建自己的大語言模型。但從頭訓練新的大語言模型所需要的成本十分高昂,且新舊模型之間可能存在能力的冗余。
近日,中山大學和騰訊 AI Lab 的研究人員提出了 FuseLLM,用于「融合多個異構大模型」。
不同于以往的模型集成和權重合并,前者需要在推理時同時部署多個大語言模型,后者需要合并模型具備相同的結果,FuseLLM 能夠從多個異構大語言模型中外化知識,將各自的知識和能力通過輕量的持續訓練轉移到一個融合大語言模型中。
該論文剛剛在 arXiv 上發布就引起了網友的大量關注和轉發。有人認為,「當想要在另一種語言上訓練模型時,使用這種方法是非常有趣的」,「我一直在思考這件事」。目前該論文已被 ICLR 2024 接受。論文標題:Knowledge Fusion of Large Language Models
論文地址:https://arxiv.org/abs/2401.10491
論文倉庫:https:/
原文鏈接:Llama-2+Mistral+MPT=? 融合多個異構大模型顯奇效
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...