10 大中文醫學數據集匯總:涵蓋神農中醫藥、中醫藥古籍、醫學推理、醫學問答……
內含數據集下載地址
原標題:10 大中文醫學數據集匯總:涵蓋神農中醫藥、中醫藥古籍、醫學推理、醫學問答……
文章來源:HyperAI超神經
內容字數:4015字
HyperAI超神經推薦:10個中文醫學數據集助力醫療AI發展
本文介紹了HyperAI超神經推薦的10個中文醫學數據集,這些數據集涵蓋了中醫藥、醫學問答、醫學推理等多個領域,旨在為醫療人工智能研究提供高質量的數據資源。文章由李姝撰寫,李寶珠編輯,轉載需獲得授權并注明來源HyperAI超神經。
1. 數據集概述
醫療人工智能的快速發展依賴于高質量的數據集。這些數據集應用于疾病診斷、藥物研發和個性化醫療等領域,推動機器視覺、大模型等技術在醫學領域的應用。本文列出的數據集形式多樣,涵蓋不同維度和領域的數據資源,例如問答數據集、中醫藥數據集、醫學對話數據集等,為研究人員提供豐富的選擇。
2. 十個中文醫學數據集詳解
首個中文醫療專科問答推理數據集
該數據集由螞蟻集團和上海交通大學醫學院附屬仁濟醫院合作創建,專注于泌尿外科,采用Q-context-A格式,數據由專業醫生編寫,保護患者隱私。預估大小:2.34 MB。
中文醫療問答數據集
這是一個包含6個不同醫療科室(男科、內科、婦產科、腫瘤科、兒科、外科)的問答數據集,總計792,099條數據,每個科室的數據以CSV文件形式存儲。預估大小:279.64 MB。
醫學對話數據集
該數據集包含256,916條患者與醫生之間的對話,用于訓練醫學機器人。預估大小:118.35 MB。
神農中醫藥數據集
這是一個專門為中醫藥領域設計的大規模語言模型訓練和評估數據集,包含超過11萬個指令數據,用于提升模型在中醫藥相關問題的回答能力和輔助中醫診斷。預估大小:28.98 MB。
中醫藥古籍數據集
該數據集包含約700項中醫藥古籍文本,涵蓋從先秦至清末民國的歷代醫藥典籍,內容包括醫學理論、方劑學、藥物學等。預估大小:80.49 MB。
中醫診斷數據集
這是一個高質量的中醫數據集,包含約1GB的中醫臨床案例、名家典籍、醫學百科等內容,適用于預訓練或繼續預訓練用途。預估大小:341.69 MB。
中醫對話數據集
這是一個用于開發和訓練醫療領域語言模型的綜合數據集,包含百科知識、教材文本、醫患對話和評價數據。預估大小:737.32 MB。
醫學推理數據集
該數據集由香港中文大學和深圳市大數據研究院發布,用于微調HuatuoGPT-o1醫學大語言模型,提升其在復雜醫學推理任務中的表現。
多語言醫學能力測試基準數據集
該數據集由上海交通大學人工智能學院開發,用于評估醫學領域多語言模型,涵蓋6種語言和21種醫學子領域。預估大小:20.69 MB。
MMedC大規模多語言醫療語料庫
該數據集由上海交通大學人工智能學院構建,包含約255億個tokens,涵蓋英語、中文、日語、法語、俄語和西班牙語等6種語言。預估大小:31.05 GB。
3. 總結
HyperAI超神經提供的這10個中文醫學數據集,為醫療人工智能研究提供了寶貴的數據資源。 讀者可以通過文章中提供的鏈接訪問和下載這些數據集,并進一步探索其在各自研究領域的應用。
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:解構技術先進性與普適性,報道更前沿的 AIforScience 案例