像調(diào)一樣調(diào)制多技能大模型,智源等機(jī)構(gòu)發(fā)布LM-Cocktail模型治理策略
AIGC動態(tài)歡迎閱讀
原標(biāo)題:像調(diào)一樣調(diào)制多技能大模型,智源等機(jī)構(gòu)發(fā)布LM-Cocktail模型治理策略
關(guān)鍵字:模型,任務(wù),報(bào)告,目標(biāo),準(zhǔn)確度
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4663字
內(nèi)容摘要:機(jī)器之心專欄機(jī)器之心編輯部隨著大模型技術(shù)的發(fā)展與落地,「模型治理」已經(jīng)成為了目前受到重點(diǎn)關(guān)注的命題。只不過,在實(shí)踐中,研究者往往感受到多重挑戰(zhàn)。一方面,為了高其在目標(biāo)任務(wù)的性能表現(xiàn),研究者會收集和構(gòu)建目標(biāo)任務(wù)數(shù)據(jù)集并對大語言模型(LLM)進(jìn)行微調(diào),但這種方式通常會導(dǎo)致除目標(biāo)任務(wù)以外的一般任務(wù)的性能明顯下降,損害 LLM 原本具備的通用能力。另一方面,開源社區(qū)的模型逐漸增多,大模型開發(fā)者也可能在多次訓(xùn)練中累計(jì)了越來越多的模型,每個(gè)模型都具有各自的優(yōu)勢,如何選擇合適的模型執(zhí)行任務(wù)或進(jìn)一步微調(diào)反而成為一個(gè)問題。近日,智源研究院信息檢索與知識計(jì)算組發(fā)布 LM-Cocktail 模型治理策略,旨在為大模型開發(fā)者提供一個(gè)低成本持續(xù)提升模型性能的方式:通過少量樣例計(jì)算融合權(quán)重,借助模型融合技術(shù)融合微調(diào)模型和原模型的優(yōu)勢,實(shí)現(xiàn)「模型資源」的高效利用。技術(shù)報(bào)告:https://arxiv.org/abs/2…
原文鏈接:點(diǎn)此閱讀原文:像調(diào)一樣調(diào)制多技能大模型,智源等機(jī)構(gòu)發(fā)布LM-Cocktail模型治理策略
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺