AIGC動態歡迎閱讀
原標題:上交&阿里:掀開多模態大模型的頭蓋骨,解密黑盒模型推理過程
關鍵字:圖像,模型,顯著特征,注意力,特征
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年多模態大模型的發展勢頭正猛,研究者們熱衷于通過微調模型,打造出具有更高輸入分辨率、更復雜功能、更強感知能力以及更精細粒度的模型。
但是,當我們深究這些模型時,不禁要問:這些多模態大模型的內部機制是如何運作的?它們是如何憑借系統token、圖像token、用戶Token這些復雜的輸入,推導出準確的答案呢?
由于大模型固有的黑盒特性,再加上多模態的輸入輸出和復雜深層次的結構,理解MLLMs的內部機制變得異常困難。
知其然更要知其所以然,為了揭開這一謎團,上海交通大學與阿里巴巴的研究團隊最近引入了一種信息流方法,來可視化圖像和文本在復雜推理任務中的交互過程。這種方法利用注意力得分和Grad-CAM技術量化圖像、用戶和系統token對答案token的影響程度,展示了信息流的動態變化,并發現了一些非常有趣的現象。
下圖展示了在多模態大模型不同層中token信息流的注意力得分。從左到右依次是系統token、圖像token和用戶token,他們的信息流向輸出token匯聚。
可以發現,在淺層與深層中不同token信息流匯聚情況有所區別。在深層(12-32),系統to
原文鏈接:上交&阿里:掀開多模態大模型的頭蓋骨,解密黑盒模型推理過程
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189