只需將感知推理能力拆分,2B大模型就能戰(zhàn)勝20B!國產(chǎn)新框架高效處理視覺任務(wù)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:只需將感知推理能力拆分,2B大模型就能戰(zhàn)勝20B!國產(chǎn)新框架高效處理視覺任務(wù)
關(guān)鍵字:模型,視覺,指令,性能,能力
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Prism團(tuán)隊(duì) 投稿至 凹非寺量子位 | 公眾號 QbitAI只要把推理和感知能力拆分,2B大模型就能戰(zhàn)勝20B?!
上海AI Lab聯(lián)合學(xué)、香港中文大學(xué)等機(jī)構(gòu),共同推出了一套兩階段框架——Prism。
這一框架不僅顯式地解耦了視覺語言模型(VLM)的感知和推理,還提供了一種更高效的處理視覺語言任務(wù)的方案。
最終讓2B VLM和ChatGPT的組合表現(xiàn)出相當(dāng)于10倍參數(shù)量VLM的性能。
Prism框架架構(gòu)及功能在解決復(fù)雜的視覺語言任務(wù)時(shí),模型的感知和推理能力至關(guān)重要。當(dāng)模型在基準(zhǔn)測試中表現(xiàn)不佳時(shí),我們?nèi)绾螀^(qū)分問題源自感知能力還是推理能力?
針對這一問題,Prism框架將視覺語言任務(wù)處理拆分為兩個(gè)階段:
感知階段:VLM作為感知模塊遵循指令提取輸入圖片的視覺信息,并以文本形式輸出
推理階段:LLM作為推理模塊根據(jù)提取得到的文本信息,結(jié)合輸入文本生成回復(fù)
框架架構(gòu)如下圖所示:
Prism框架中用于引導(dǎo)VLM生成圖片描述的指令可以是問題相關(guān)的,也可以是問題無關(guān)的。
VLM在框架中只用于視覺感知,而推理任務(wù)則由LLM解決。通過固定框架中的LLM,可以測試不同VLM的感知能力;相對應(yīng)地
原文鏈接:只需將感知推理能力拆分,2B大模型就能戰(zhàn)勝20B!國產(chǎn)新框架高效處理視覺任務(wù)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破