開源1760億參數通用醫學語言模型!北郵/北大/三峽大學提出MedFound,推理能力接近專家醫師
成果登 Nature 子刊
原標題:開源1760億參數通用醫學語言模型!北郵/北大/三峽大學提出MedFound,推理能力接近專家醫師
文章來源:HyperAI超神經
內容字數:9492字
MedFound:突破性生物醫學大語言模型
本文介紹了由北京郵電大學、北京大學第三醫院和三峽大學組成的醫工交叉團隊研發的MedFound,一個擁有1760億參數的生物醫學大語言模型,其成果已發表在《自然-醫學》雜志上。MedFound旨在解決醫學領域誤診率高的問題,該問題不僅給患者帶來精神、財產甚至生命損失,也影響醫療體系公信力。據統計,國內外誤診率普遍在20%至40%左右。
MedFound的創新之處
最大規模的開源生物醫學大語言模型
MedFound基于BLOOM-176B預訓練,并利用MedCorpus數據集進行訓練,該數據集包含63億個文本標記,涵蓋中英文醫學文獻、專業書籍和870萬份真實電子病歷記錄。MedFound的開源特性使其能夠為全球科研人員和醫療機構提供服務。
創新的臨床診斷推理能力
MedFound-DX-PA模型在MedFound的基礎上,通過兩階段訓練優化,具備了接近專家知識和推理能力。第一階段采用思維鏈方法,使其能夠自動生成診斷依據和推理過程;第二階段引入統一的偏好對齊框架,確保診斷結果科學合理且符合臨床實踐。
驚人的演示成績
在MedDX-Bench數據集上的評估顯示,MedFound-DX-PA的性能優于其他領先的LLM,在常見和罕見疾病診斷中均表現出色。在與醫生的對比中,其診斷準確率與高年資醫生相當,甚至在某些方面能夠提高醫生的診斷精度。
AI4S的應用落地
MedFound的成功案例展示了AI for Science (AI4S)在生物醫學領域的巨大潛力。王光宇教授團隊長期致力于AI與生物醫學的融合研究,此前已在Cell和Nature Medicine等期刊發表多篇具有國際影響力的論文。 其他團隊也在積極探索LLM在醫療領域的應用,例如香港中文大學的DrHouse系統和上海交通大學的多語言醫學大語言模型MMed-Llama 3。
未來展望
AI與生物醫學的融合正加速發展,AI強大的計算能力和數據處理能力為傳統醫學研究帶來了新的效率和可能性。MedFound等模型的出現,標志著AI輔助診斷技術正走向成熟,有望顯著提高疾病診斷的準確性和可及性,為智慧化臨床診療和個性化醫療提供有力支持。 “落地為王”的時代已經到來,AI技術將在實際應用中發揮越來越重要的作用。
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:解構技術先進性與普適性,報道更前沿的 AIforScience 案例