多模態(tài)大模型學(xué)雜了能力反下降?新研究:MoE+通用專家解決沖突
AIGC動態(tài)歡迎閱讀
原標(biāo)題:多模態(tài)大模型學(xué)雜了能力反下降?新研究:MoE+通用專家解決沖突
關(guān)鍵字:華為,任務(wù),模型,專家,指令
文章來源:量子位
內(nèi)容字?jǐn)?shù):4906字
內(nèi)容摘要:
港科大&南科大&華為諾亞方舟實(shí)驗(yàn)室量子位 | 公眾號 QbitAI微調(diào),能讓通用大模型更加適配具體的行業(yè)應(yīng)用。
但現(xiàn)在,研究人員們卻發(fā)現(xiàn):
對多模態(tài)大模型做“多任務(wù)指令微調(diào)”,大模型可能會“學(xué)得多錯(cuò)得多”,因?yàn)椴煌蝿?wù)之間的沖突,導(dǎo)致泛化能力下降。
△多模態(tài)指令微調(diào)存在任務(wù)沖突舉個(gè)例子,多模態(tài)問答任務(wù)可能要求回復(fù)盡可能簡潔準(zhǔn)確,文檔理解任務(wù)卻會反過來要求大模型盡可能詳細(xì)地做出描述。
不同下游任務(wù)指令微調(diào)數(shù)據(jù)分布差異較大,導(dǎo)致一個(gè)大模型難以在多個(gè)下游任務(wù)中均達(dá)到最優(yōu)性能。
如何解決這個(gè)問題?
來自香港科技大學(xué)、南方科技大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的聯(lián)合研究團(tuán)隊(duì),受MoE(混合專家模型)開源大模型Mixtral-8×7B的啟發(fā),提出利用稀疏專家模型,打造下游任務(wù)泛化性能更好、理解能力更強(qiáng)的多模態(tài)大模型。
具體細(xì)節(jié),一起來看。
多模態(tài)指令微調(diào)存在任務(wù)沖突為了驗(yàn)證多模態(tài)指令微調(diào)中不同類型任務(wù)數(shù)據(jù)對模型性能的影響,研究人員將數(shù)據(jù)進(jìn)行如下劃分:
VQA(視覺問答):VQAv2、OKVQA、A-OKVQA、OCRVQA,
Captioning(圖像描述):COCO Caption、Web CapFilt
原文鏈接:多模態(tài)大模型學(xué)雜了能力反下降?新研究:MoE+通用專家解決沖突
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破