多模態(tài)大模型學(xué)雜了能力反下降？新研究：MoE+通用專家解決沖突

AIGC動態(tài)2年前 (2023)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：多模態(tài)大模型學(xué)雜了能力反下降？新研究：MoE+通用專家解決沖突
關(guān)鍵字：華為,任務(wù),模型,專家,指令
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4906字

內(nèi)容摘要：

港科大&南科大&華為諾亞方舟實(shí)驗(yàn)室量子位 | 公眾號 QbitAI微調(diào)，能讓通用大模型更加適配具體的行業(yè)應(yīng)用。
但現(xiàn)在，研究人員們卻發(fā)現(xiàn)：
對多模態(tài)大模型做“多任務(wù)指令微調(diào)”，大模型可能會“學(xué)得多錯(cuò)得多”，因?yàn)椴煌蝿?wù)之間的沖突，導(dǎo)致泛化能力下降。
△多模態(tài)指令微調(diào)存在任務(wù)沖突舉個(gè)例子，多模態(tài)問答任務(wù)可能要求回復(fù)盡可能簡潔準(zhǔn)確，文檔理解任務(wù)卻會反過來要求大模型盡可能詳細(xì)地做出描述。
不同下游任務(wù)指令微調(diào)數(shù)據(jù)分布差異較大，導(dǎo)致一個(gè)大模型難以在多個(gè)下游任務(wù)中均達(dá)到最優(yōu)性能。
如何解決這個(gè)問題？
來自香港科技大學(xué)、南方科技大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的聯(lián)合研究團(tuán)隊(duì)，受MoE（混合專家模型）開源大模型Mixtral-8×7B的啟發(fā)，提出利用稀疏專家模型，打造下游任務(wù)泛化性能更好、理解能力更強(qiáng)的多模態(tài)大模型。
具體細(xì)節(jié)，一起來看。
多模態(tài)指令微調(diào)存在任務(wù)沖突為了驗(yàn)證多模態(tài)指令微調(diào)中不同類型任務(wù)數(shù)據(jù)對模型性能的影響，研究人員將數(shù)據(jù)進(jìn)行如下劃分：
VQA（視覺問答）：VQAv2、OKVQA、A-OKVQA、OCRVQA，
Captioning（圖像描述）：COCO Caption、Web CapFilt

原文鏈接：多模態(tài)大模型學(xué)雜了能力反下降？新研究：MoE+通用專家解決沖突