AIGC動態歡迎閱讀
原標題:多模態大模型學雜了能力反下降?新研究:MoE+通用專家解決沖突
關鍵字:華為,任務,模型,專家,指令
文章來源:量子位
內容字數:4906字
內容摘要:
港科大&南科大&華為諾亞方舟實驗室量子位 | 公眾號 QbitAI微調,能讓通用大模型更加適配具體的行業應用。
但現在,研究人員們卻發現:
對多模態大模型做“多任務指令微調”,大模型可能會“學得多錯得多”,因為不同任務之間的沖突,導致泛化能力下降。
△多模態指令微調存在任務沖突舉個例子,多模態問答任務可能要求回復盡可能簡潔準確,文檔理解任務卻會反過來要求大模型盡可能詳細地做出描述。
不同下游任務指令微調數據分布差異較大,導致一個大模型難以在多個下游任務中均達到最優性能。
如何解決這個問題?
來自香港科技大學、南方科技大學和華為諾亞方舟實驗室的聯合研究團隊,受MoE(混合專家模型)開源大模型Mixtral-8×7B的啟發,提出利用稀疏專家模型,打造下游任務泛化性能更好、理解能力更強的多模態大模型。
具體細節,一起來看。
多模態指令微調存在任務沖突為了驗證多模態指令微調中不同類型任務數據對模型性能的影響,研究人員將數據進行如下劃分:
VQA(視覺問答):VQAv2、OKVQA、A-OKVQA、OCRVQA,
Captioning(圖像描述):COCO Caption、Web CapFilt
原文鏈接:多模態大模型學雜了能力反下降?新研究:MoE+通用專家解決沖突
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...