上交&阿里：掀開多模態大模型的頭蓋骨，解密黑盒模型推理過程

AIGC動態歡迎閱讀

原標題：上交&阿里：掀開多模態大模型的頭蓋骨，解密黑盒模型推理過程
關鍵字：圖像,模型,顯著特征,注意力,特征
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 謝年年多模態大模型的發展勢頭正猛，研究者們熱衷于通過微調模型，打造出具有更高輸入分辨率、更復雜功能、更強感知能力以及更精細粒度的模型。
但是，當我們深究這些模型時，不禁要問：這些多模態大模型的內部機制是如何運作的？它們是如何憑借系統token、圖像token、用戶Token這些復雜的輸入，推導出準確的答案呢？
由于大模型固有的黑盒特性，再加上多模態的輸入輸出和復雜深層次的結構，理解MLLMs的內部機制變得異常困難。
知其然更要知其所以然，為了揭開這一謎團，上海交通大學與阿里巴巴的研究團隊最近引入了一種信息流方法，來可視化圖像和文本在復雜推理任務中的交互過程。這種方法利用注意力得分和Grad-CAM技術量化圖像、用戶和系統token對答案token的影響程度，展示了信息流的動態變化，并發現了一些非常有趣的現象。
下圖展示了在多模態大模型不同層中token信息流的注意力得分。從左到右依次是系統token、圖像token和用戶token，他們的信息流向輸出token匯聚。
可以發現，在淺層與深層中不同token信息流匯聚情況有所區別。在深層（12-32），系統to

原文鏈接：上交&阿里：掀開多模態大模型的頭蓋骨，解密黑盒模型推理過程

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文