開源1760億參數(shù)通用醫(yī)學(xué)語言模型!北郵/北大/三峽大學(xué)提出MedFound,推理能力接近專家醫(yī)師
成果登 Nature 子刊
原標(biāo)題:開源1760億參數(shù)通用醫(yī)學(xué)語言模型!北郵/北大/三峽大學(xué)提出MedFound,推理能力接近專家醫(yī)師
文章來源:HyperAI超神經(jīng)
內(nèi)容字數(shù):9492字
MedFound:突破性生物醫(yī)學(xué)大語言模型
本文介紹了由北京郵電大學(xué)、北京大學(xué)第三醫(yī)院和三峽大學(xué)組成的醫(yī)工交叉團隊研發(fā)的MedFound,一個擁有1760億參數(shù)的生物醫(yī)學(xué)大語言模型,其成果已發(fā)表在《自然-醫(yī)學(xué)》雜志上。MedFound旨在解決醫(yī)學(xué)領(lǐng)域誤診率高的問題,該問題不僅給患者帶來精神、財產(chǎn)甚至生命損失,也影響醫(yī)療體系公信力。據(jù)統(tǒng)計,國內(nèi)外誤診率普遍在20%至40%左右。
MedFound的創(chuàng)新之處
最大規(guī)模的開源生物醫(yī)學(xué)大語言模型
MedFound基于BLOOM-176B預(yù)訓(xùn)練,并利用MedCorpus數(shù)據(jù)集進行訓(xùn)練,該數(shù)據(jù)集包含63億個文本標(biāo)記,涵蓋中英文醫(yī)學(xué)文獻、專業(yè)書籍和870萬份真實電子病歷記錄。MedFound的開源特性使其能夠為全球科研人員和醫(yī)療機構(gòu)提供服務(wù)。
創(chuàng)新的臨床診斷推理能力
MedFound-DX-PA模型在MedFound的基礎(chǔ)上,通過兩階段訓(xùn)練優(yōu)化,具備了接近專家知識和推理能力。第一階段采用思維鏈方法,使其能夠自動生成診斷依據(jù)和推理過程;第二階段引入統(tǒng)一的偏好對齊框架,確保診斷結(jié)果科學(xué)合理且符合臨床實踐。
驚人的演示成績
在MedDX-Bench數(shù)據(jù)集上的評估顯示,MedFound-DX-PA的性能優(yōu)于其他領(lǐng)先的LLM,在常見和罕見疾病診斷中均表現(xiàn)出色。在與醫(yī)生的對比中,其診斷準(zhǔn)確率與高年資醫(yī)生相當(dāng),甚至在某些方面能夠提高醫(yī)生的診斷精度。
AI4S的應(yīng)用落地
MedFound的成功案例展示了AI for Science (AI4S)在生物醫(yī)學(xué)領(lǐng)域的巨大潛力。王光宇教授團隊長期致力于AI與生物醫(yī)學(xué)的融合研究,此前已在Cell和Nature Medicine等期刊發(fā)表多篇具有國際影響力的論文。 其他團隊也在積極探索LLM在醫(yī)療領(lǐng)域的應(yīng)用,例如香港中文大學(xué)的DrHouse系統(tǒng)和上海交通大學(xué)的多語言醫(yī)學(xué)大語言模型MMed-Llama 3。
未來展望
AI與生物醫(yī)學(xué)的融合正加速發(fā)展,AI強大的計算能力和數(shù)據(jù)處理能力為傳統(tǒng)醫(yī)學(xué)研究帶來了新的效率和可能性。MedFound等模型的出現(xiàn),標(biāo)志著AI輔助診斷技術(shù)正走向成熟,有望顯著提高疾病診斷的準(zhǔn)確性和可及性,為智慧化臨床診療和個性化醫(yī)療提供有力支持。 “落地為王”的時代已經(jīng)到來,AI技術(shù)將在實際應(yīng)用中發(fā)揮越來越重要的作用。
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介:解構(gòu)技術(shù)先進性與普適性,報道更前沿的 AIforScience 案例