AIGC動態歡迎閱讀
原標題:21.5萬張X光,78萬個問題!德州大學NIH等聯合發布醫學視覺問答數據集Medical-CXR-VQA
關鍵字:報告,方法,問題,作者,數據
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRST 好困
【新智元導讀】多模態大語言模型(MLLM)在醫學視覺問答(VQA)領域展現出巨大潛力,通過提供針對醫學圖像的具體臨床問題的回答,有助于提高醫療專業人員的工作效率。然而,現有醫學VQA數據集規模較小且問題過于簡單,限制了模型訓練和微調。為了解決這一問題,研究團隊提出了Medical-CXR-VQA,這是一個大規模的X光胸片問答數據庫,覆蓋了更廣泛的問題類型,包括異常、存在、位置等七種問題類型,為構建更準確的醫學VQA模型提供了基礎。多模態大語言模型 (Multimodal Large Language Moodel, MLLM) 以其強大的語言理解能力和生成能力,在各個領域取得了巨大成功。
在醫學領域上,視覺問答 (VQA) 是醫學多模態大語言模型的一項重要任務,它可以通過回答針對醫學圖像的具體臨床問題,有效提高醫療專業人員的效率。這一類工作可以減輕公共衛生系統的負擔,對于醫療資源貧乏的國家來說尤其重要。
然而,現有的醫學 VQA 數據集規模較小,僅包含相當于分類任務的簡單問題,缺乏語義推理和臨床知識。
如圖1所示,現有的ImageCLF VQA-MED
原文鏈接:21.5萬張X光,78萬個問題!德州大學NIH等聯合發布醫學視覺問答數據集Medical-CXR-VQA
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...