西安交大發表魯棒視覺問答綜述，揭秘AI視覺問答的“超強大腦”丨IEEE TPAMI

AIGC動態2年前 (2024)發布 AI科技評論

AIGC動態歡迎閱讀

原標題：西安交大發表魯棒視覺問答綜述，揭秘AI視覺問答的“超強大腦”丨IEEE TPAMI
關鍵字：視覺,數據,模型,問答,答案
文章來源：AI科技評論
內容字數：6350字

內容摘要：

2024年2月，西安交通大學智能網絡與網絡安全教育部重點實驗室與陜西省大數據知識工程實驗室（跨媒體知識融合與工程應用研究所）師生，在人工智能頂級期刊IEEE TPAMI（影響因子：23.6）上發表題為“Robust Visual Question Answering: Datasets, Methods, and Future Challenges”（魯棒視覺問答：數據集、方法與挑戰）的綜述論文，對魯棒視覺問答方法與測評數據集進行了深入探討與梳理，并對該方向下一步的關注重點進行了凝練與總結。
文章作者依次為：馬杰（助理教授）、王平輝（教授）、孔德辰（碩士生）、王澤偉（碩士生）、劉均（教授）、裴紅斌（助理教授）、趙俊舟（副教授）。1視覺問答任務簡要介紹模態（Modality）是由德國物理學家Helmholtz提出的一種生物學概念，即生物依靠感官與經驗接收信息的通道，如人類具有視覺、聽覺、觸覺、味覺及嗅覺。多模態交互與推理指人通過聲音、肢體語言、信息載體（文本、圖像、音頻、視頻）、環境等多種通道與計算機進行交流，從而充分模擬人與人之間的交互與推理方式。
近年來，如何使計算機具有類人的多模態

原文鏈接：西安交大發表魯棒視覺問答綜述，揭秘AI視覺問答的“超強大腦”丨IEEE TPAMI