ECCV 2024｜是真看到了，還是以為自己看到了？多模態大模型對文本預訓練知識的過度依賴該解決了

AIGC動態歡迎閱讀

原標題：ECCV 2024｜是真看到了，還是以為自己看到了？多模態大模型對文本預訓練知識的過度依賴該解決了
關鍵字：模型,數據,圖像,偏見,樣本
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com
本文第一作者皮仁杰是香港科技大學三年級博士生，師從張潼教授和周曉方教授。此前獲得香港大學計算機工程學士學位。研究興趣為多模態大語言模型，以數據為中心的人工智能，以及自動化機器學習。
隨著大型語言模型（LLMs）的進步，多模態大型語言模型（MLLMs）迅速發展。它們使用預訓練的視覺編碼器處理圖像，并將圖像與文本信息一同作為 Token 嵌入輸入至 LLMs，從而擴展了模型處理圖像輸入的對話能力。這種能力的提升為自動駕駛和醫療助手等多種潛在應用領域帶來了可能性。
盡管 MLLMs 具有出色的圖文理解能力，但它們仍然會出現錯誤或幻覺，生成與輸入圖像不相符的相應，例如回答不存在的對象或錯誤識別屬性等。我們認為多模態大模型在不同訓練階段的數據量和訓練時間的不平衡是產生

原文鏈接：ECCV 2024｜是真看到了，還是以為自己看到了？多模態大模型對文本預訓練知識的過度依賴該解決了