醫療領域基準測試超越Llama 3、接近GPT-4，上海交大團隊發布多語言醫學大模型，覆蓋6國語言

AIGC動態1年前 (2024)發布 HyperAI超神經

AIGC動態歡迎閱讀

原標題：醫療領域基準測試超越Llama 3、接近GPT-4，上海交大團隊發布多語言醫學大模型，覆蓋6國語言
關鍵字：模型,語料庫,醫療,醫學,研究人員
文章來源：HyperAI超神經
內容字數：0字

內容摘要：

作者：李寶珠
編輯：三羊
上海交通大學王延峰教授與謝偉迪教授團隊創建了一個包含 255 億 tokens 的多語言醫療語料庫 MMedC，開發了一個覆蓋 6 種語言的多語言醫療問答評測標準 MMedBench，同時還構建了一個 8B 的基座模型 MMed-Llama 3。此外，恰逢「1024 程序員節」，我們還為大家準備了超值算力福利，僅限今日，先到先得！隨著醫療信息化的普及，醫療數據從規模到質量都實現了不同程度的提升。進入大模型時代以來，面向精準醫療、診斷輔助、醫患交互等不同場景的各類大模型層出不窮。
但值得注意的是，正如通用模型所面臨的多語言能力滯后問題一樣，醫療大模型大多依賴于英語的基座模型，同時也受限于多語言醫療專業數據的匱乏、分散，導致模型在處理非英語任務時的表現欠佳。即便是醫療相關的開源文本數據，也主要以高資源語種為主，所支持的語種十分有限。
從模型訓練的角度來看，多語言醫療模型能夠更加全面地利用全球的數據資源，甚至是擴展到多模態訓練數據，從而提升模型對其他模態信息的表征質量。從應用的層面來講，多語言醫療模型能夠幫助緩解醫患之間的語言溝通障礙，在醫患交互、遠程診斷等多場景下

原文鏈接：醫療領域基準測試超越Llama 3、接近GPT-4，上海交大團隊發布多語言醫學大模型，覆蓋6國語言