醫(yī)療領(lǐng)域基準測試超越Llama 3、接近GPT-4,上海交大團隊發(fā)布多語言醫(yī)學(xué)大模型,覆蓋6國語言
AIGC動態(tài)歡迎閱讀
原標題:醫(yī)療領(lǐng)域基準測試超越Llama 3、接近GPT-4,上海交大團隊發(fā)布多語言醫(yī)學(xué)大模型,覆蓋6國語言
關(guān)鍵字:模型,語料庫,醫(yī)療,醫(yī)學(xué),研究人員
文章來源:HyperAI超神經(jīng)
內(nèi)容字數(shù):0字
內(nèi)容摘要:
作者:李寶珠
編輯:三羊
上海交通大學(xué)王延峰教授與謝偉迪教授團隊創(chuàng)建了一個包含 255 億 tokens 的多語言醫(yī)療語料庫 MMedC,開發(fā)了一個覆蓋 6 種語言的多語言醫(yī)療問答評測標準 MMedBench,同時還構(gòu)建了一個 8B 的基座模型 MMed-Llama 3。此外,恰逢「1024 程序員節(jié)」,我們還為大家準備了超值算力福利,僅限今日,先到先得!隨著醫(yī)療信息化的普及,醫(yī)療數(shù)據(jù)從規(guī)模到質(zhì)量都實現(xiàn)了不同程度的提升。進入大模型時代以來,面向精準醫(yī)療、診斷輔助、醫(yī)患交互等不同場景的各類大模型層出不窮。
但值得注意的是,正如通用模型所面臨的多語言能力滯后問題一樣,醫(yī)療大模型大多依賴于英語的基座模型,同時也受限于多語言醫(yī)療專業(yè)數(shù)據(jù)的匱乏、分散,導(dǎo)致模型在處理非英語任務(wù)時的表現(xiàn)欠佳。即便是醫(yī)療相關(guān)的開源文本數(shù)據(jù),也主要以高資源語種為主,所支持的語種十分有限。
從模型訓(xùn)練的角度來看,多語言醫(yī)療模型能夠更加全面地利用全球的數(shù)據(jù)資源,甚至是擴展到多模態(tài)訓(xùn)練數(shù)據(jù),從而提升模型對其他模態(tài)信息的表征質(zhì)量。從應(yīng)用的層面來講,多語言醫(yī)療模型能夠幫助緩解醫(yī)患之間的語言溝通障礙,在醫(yī)患交互、遠程診斷等多場景下
原文鏈接:醫(yī)療領(lǐng)域基準測試超越Llama 3、接近GPT-4,上海交大團隊發(fā)布多語言醫(yī)學(xué)大模型,覆蓋6國語言
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介: