只需將感知推理能力拆分，2B大模型就能戰(zhàn)勝20B！國產(chǎn)新框架高效處理視覺任務(wù)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：只需將感知推理能力拆分，2B大模型就能戰(zhàn)勝20B！國產(chǎn)新框架高效處理視覺任務(wù)
關(guān)鍵字：模型,視覺,指令,性能,能力
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

Prism團(tuán)隊(duì) 投稿至凹非寺量子位 | 公眾號 QbitAI只要把推理和感知能力拆分，2B大模型就能戰(zhàn)勝20B？！
上海AI Lab聯(lián)合學(xué)、香港中文大學(xué)等機(jī)構(gòu)，共同推出了一套兩階段框架——Prism。
這一框架不僅顯式地解耦了視覺語言模型（VLM）的感知和推理，還提供了一種更高效的處理視覺語言任務(wù)的方案。
最終讓2B VLM和ChatGPT的組合表現(xiàn)出相當(dāng)于10倍參數(shù)量VLM的性能。
Prism框架架構(gòu)及功能在解決復(fù)雜的視覺語言任務(wù)時(shí)，模型的感知和推理能力至關(guān)重要。當(dāng)模型在基準(zhǔn)測試中表現(xiàn)不佳時(shí)，我們?nèi)绾螀^(qū)分問題源自感知能力還是推理能力？
針對這一問題，Prism框架將視覺語言任務(wù)處理拆分為兩個(gè)階段：
感知階段：VLM作為感知模塊遵循指令提取輸入圖片的視覺信息，并以文本形式輸出
推理階段：LLM作為推理模塊根據(jù)提取得到的文本信息，結(jié)合輸入文本生成回復(fù)
框架架構(gòu)如下圖所示：
Prism框架中用于引導(dǎo)VLM生成圖片描述的指令可以是問題相關(guān)的，也可以是問題無關(guān)的。
VLM在框架中只用于視覺感知，而推理任務(wù)則由LLM解決。通過固定框架中的LLM，可以測試不同VLM的感知能力；相對應(yīng)地

原文鏈接：只需將感知推理能力拆分，2B大模型就能戰(zhàn)勝20B！國產(chǎn)新框架高效處理視覺任務(wù)

聯(lián)系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# 性能 # 指令 # 模型 # 能力 # 視覺

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

只需將感知推理能力拆分，2B大模型就能戰(zhàn)勝20B！國產(chǎn)新框架高效處理視覺任務(wù)

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

哈工大提出創(chuàng)新迭代推理框架 DPE-MNER ：充分發(fā)揮多模態(tài)表示潛力

爆火AI慘遭閹割，1600萬美國年輕人集體「失戀」？ Character AI被爆資金斷裂，00后炸了

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

只需將感知推理能力拆分，2B大模型就能戰(zhàn)勝20B！國產(chǎn)新框架高效處理視覺任務(wù)

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

哈工大提出創(chuàng)新迭代推理框架 DPE-MNER ：充分發(fā)揮多模態(tài)表示潛力

爆火AI慘遭閹割，1600萬美國年輕人集體「失戀」？ Character AI被爆資金斷裂，00后炸了

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

只需將感知推理能力拆分，2B大模型就能戰(zhàn)勝20B！國產(chǎn)新框架高效處理視覺任務(wù)

爆火AI慘遭閹割，1600萬美國年輕人集體「失戀」？ Character AI被爆資金斷裂，00后炸了