10 大中文醫(yī)學(xué)數(shù)據(jù)集匯總:涵蓋神農(nóng)中醫(yī)藥、中醫(yī)藥古籍、醫(yī)學(xué)推理、醫(yī)學(xué)問答……
內(nèi)含數(shù)據(jù)集下載地址
原標(biāo)題:10 大中文醫(yī)學(xué)數(shù)據(jù)集匯總:涵蓋神農(nóng)中醫(yī)藥、中醫(yī)藥古籍、醫(yī)學(xué)推理、醫(yī)學(xué)問答……
文章來源:HyperAI超神經(jīng)
內(nèi)容字?jǐn)?shù):4015字
HyperAI超神經(jīng)推薦:10個中文醫(yī)學(xué)數(shù)據(jù)集助力醫(yī)療AI發(fā)展
本文介紹了HyperAI超神經(jīng)推薦的10個中文醫(yī)學(xué)數(shù)據(jù)集,這些數(shù)據(jù)集涵蓋了中醫(yī)藥、醫(yī)學(xué)問答、醫(yī)學(xué)推理等多個領(lǐng)域,旨在為醫(yī)療人工智能研究提供高質(zhì)量的數(shù)據(jù)資源。文章由李姝撰寫,李寶珠編輯,轉(zhuǎn)載需獲得授權(quán)并注明來源HyperAI超神經(jīng)。
1. 數(shù)據(jù)集概述
醫(yī)療人工智能的快速發(fā)展依賴于高質(zhì)量的數(shù)據(jù)集。這些數(shù)據(jù)集應(yīng)用于疾病診斷、藥物研發(fā)和個性化醫(yī)療等領(lǐng)域,推動機器視覺、大模型等技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用。本文列出的數(shù)據(jù)集形式多樣,涵蓋不同維度和領(lǐng)域的數(shù)據(jù)資源,例如問答數(shù)據(jù)集、中醫(yī)藥數(shù)據(jù)集、醫(yī)學(xué)對話數(shù)據(jù)集等,為研究人員提供豐富的選擇。
2. 十個中文醫(yī)學(xué)數(shù)據(jù)集詳解
首個中文醫(yī)療專科問答推理數(shù)據(jù)集
該數(shù)據(jù)集由螞蟻集團和上海交通大學(xué)醫(yī)學(xué)院附屬仁濟醫(yī)院合作創(chuàng)建,專注于泌尿外科,采用Q-context-A格式,數(shù)據(jù)由專業(yè)醫(yī)生編寫,保護患者隱私。預(yù)估大小:2.34 MB。
中文醫(yī)療問答數(shù)據(jù)集
這是一個包含6個不同醫(yī)療科室(男科、內(nèi)科、婦產(chǎn)科、腫瘤科、兒科、外科)的問答數(shù)據(jù)集,總計792,099條數(shù)據(jù),每個科室的數(shù)據(jù)以CSV文件形式存儲。預(yù)估大小:279.64 MB。
醫(yī)學(xué)對話數(shù)據(jù)集
該數(shù)據(jù)集包含256,916條患者與醫(yī)生之間的對話,用于訓(xùn)練醫(yī)學(xué)機器人。預(yù)估大小:118.35 MB。
神農(nóng)中醫(yī)藥數(shù)據(jù)集
這是一個專門為中醫(yī)藥領(lǐng)域設(shè)計的大規(guī)模語言模型訓(xùn)練和評估數(shù)據(jù)集,包含超過11萬個指令數(shù)據(jù),用于提升模型在中醫(yī)藥相關(guān)問題的回答能力和輔助中醫(yī)診斷。預(yù)估大小:28.98 MB。
中醫(yī)藥古籍?dāng)?shù)據(jù)集
該數(shù)據(jù)集包含約700項中醫(yī)藥古籍文本,涵蓋從先秦至清末民國的歷代醫(yī)藥典籍,內(nèi)容包括醫(yī)學(xué)理論、方劑學(xué)、藥物學(xué)等。預(yù)估大小:80.49 MB。
中醫(yī)診斷數(shù)據(jù)集
這是一個高質(zhì)量的中醫(yī)數(shù)據(jù)集,包含約1GB的中醫(yī)臨床案例、名家典籍、醫(yī)學(xué)百科等內(nèi)容,適用于預(yù)訓(xùn)練或繼續(xù)預(yù)訓(xùn)練用途。預(yù)估大小:341.69 MB。
中醫(yī)對話數(shù)據(jù)集
這是一個用于開發(fā)和訓(xùn)練醫(yī)療領(lǐng)域語言模型的綜合數(shù)據(jù)集,包含百科知識、教材文本、醫(yī)患對話和評價數(shù)據(jù)。預(yù)估大小:737.32 MB。
醫(yī)學(xué)推理數(shù)據(jù)集
該數(shù)據(jù)集由香港中文大學(xué)和深圳市大數(shù)據(jù)研究院發(fā)布,用于微調(diào)HuatuoGPT-o1醫(yī)學(xué)大語言模型,提升其在復(fù)雜醫(yī)學(xué)推理任務(wù)中的表現(xiàn)。
多語言醫(yī)學(xué)能力測試基準(zhǔn)數(shù)據(jù)集
該數(shù)據(jù)集由上海交通大學(xué)人工智能學(xué)院開發(fā),用于評估醫(yī)學(xué)領(lǐng)域多語言模型,涵蓋6種語言和21種醫(yī)學(xué)子領(lǐng)域。預(yù)估大小:20.69 MB。
MMedC大規(guī)模多語言醫(yī)療語料庫
該數(shù)據(jù)集由上海交通大學(xué)人工智能學(xué)院構(gòu)建,包含約255億個tokens,涵蓋英語、中文、日語、法語、俄語和西班牙語等6種語言。預(yù)估大小:31.05 GB。
3. 總結(jié)
HyperAI超神經(jīng)提供的這10個中文醫(yī)學(xué)數(shù)據(jù)集,為醫(yī)療人工智能研究提供了寶貴的數(shù)據(jù)資源。 讀者可以通過文章中提供的鏈接訪問和下載這些數(shù)據(jù)集,并進一步探索其在各自研究領(lǐng)域的應(yīng)用。
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介:解構(gòu)技術(shù)先進性與普適性,報道更前沿的 AIforScience 案例