上交&阿里:掀開多模態(tài)大模型的頭蓋骨,解密黑盒模型推理過程

AIGC動態(tài)歡迎閱讀
原標題:上交&阿里:掀開多模態(tài)大模型的頭蓋骨,解密黑盒模型推理過程
關鍵字:圖像,模型,顯著特征,注意力,特征
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年多模態(tài)大模型的發(fā)展勢頭正猛,研究者們熱衷于通過微調模型,打造出具有更高輸入分辨率、更復雜功能、更強感知能力以及更精細粒度的模型。
但是,當我們深究這些模型時,不禁要問:這些多模態(tài)大模型的內部機制是如何運作的?它們是如何憑借系統(tǒng)token、圖像token、用戶Token這些復雜的輸入,推導出準確的答案呢?
由于大模型固有的黑盒特性,再加上多模態(tài)的輸入輸出和復雜深層次的結構,理解MLLMs的內部機制變得異常困難。
知其然更要知其所以然,為了揭開這一謎團,上海交通大學與阿里巴巴的研究團隊最近引入了一種信息流方法,來可視化圖像和文本在復雜推理任務中的交互過程。這種方法利用注意力得分和Grad-CAM技術量化圖像、用戶和系統(tǒng)token對答案token的影響程度,展示了信息流的動態(tài)變化,并發(fā)現(xiàn)了一些非常有趣的現(xiàn)象。
下圖展示了在多模態(tài)大模型不同層中token信息流的注意力得分。從左到右依次是系統(tǒng)token、圖像token和用戶token,他們的信息流向輸出token匯聚。
可以發(fā)現(xiàn),在淺層與深層中不同token信息流匯聚情況有所區(qū)別。在深層(12-32),系統(tǒng)to
原文鏈接:上交&阿里:掀開多模態(tài)大模型的頭蓋骨,解密黑盒模型推理過程
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯(lián)網大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務合作:zym5189

粵公網安備 44011502001135號