21.5萬張X光，78萬個問題！德州大學NIH等聯合發布醫學視覺問答數據集Medical-CXR-VQA

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：21.5萬張X光，78萬個問題！德州大學NIH等聯合發布醫學視覺問答數據集Medical-CXR-VQA
關鍵字：報告,方法,問題,作者,數據
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRST 好困
【新智元導讀】多模態大語言模型（MLLM）在醫學視覺問答（VQA）領域展現出巨大潛力，通過提供針對醫學圖像的具體臨床問題的回答，有助于提高醫療專業人員的工作效率。然而，現有醫學VQA數據集規模較小且問題過于簡單，限制了模型訓練和微調。為了解決這一問題，研究團隊提出了Medical-CXR-VQA，這是一個大規模的X光胸片問答數據庫，覆蓋了更廣泛的問題類型，包括異常、存在、位置等七種問題類型，為構建更準確的醫學VQA模型提供了基礎。多模態大語言模型 (Multimodal Large Language Moodel, MLLM) 以其強大的語言理解能力和生成能力，在各個領域取得了巨大成功。
在醫學領域上，視覺問答 (VQA) 是醫學多模態大語言模型的一項重要任務，它可以通過回答針對醫學圖像的具體臨床問題，有效提高醫療專業人員的效率。這一類工作可以減輕公共衛生系統的負擔，對于醫療資源貧乏的國家來說尤其重要。
然而，現有的醫學 VQA 數據集規模較小，僅包含相當于分類任務的簡單問題，缺乏語義推理和臨床知識。
如圖1所示，現有的ImageCLF VQA-MED

原文鏈接：21.5萬張X光，78萬個問題！德州大學NIH等聯合發布醫學視覺問答數據集Medical-CXR-VQA