干貨! 一鍵領取超火的 20 個 LLM 中文數據集
AIGC動態歡迎閱讀
原標題:干貨! 一鍵領取超火的 20 個 LLM 中文數據集
關鍵字:數據,中文,問答,華為,標簽
文章來源:HyperAI超神經
內容字數:11753字
內容摘要:
HyperAI超神經自 ChatGPT 重磅推出以來,大語言模型 (large language Model, LLM) 以其卓越的學習能力在各個領域引起轟動。大模型的訓練和調優離不開優質龐大的數據支撐,精心構建的數據集不僅為大模型提供了充分的燃料,還為大模型在垂直領域的應用和性能提升提供了可能。
本文整理了一些適用于大模型訓練調優的熱門中文公開數據集(按照首字母 A-Z 順序排列),以供大家了解和使用。溫馨提示:
本文列舉的所有數據集,均可在 OpenBayes.com 平臺一鍵 Input 直接在模型訓練和部署中使用。
鏈接直達:
https://openbayes.com/console/public/datasets1Ape210K
中國小學水平數學問題* 發布機構:猿輔導 AI Lab、西北大學
* 相關標簽:算術任務、文本生成
* 直接使用:https://hyper.ai/datasets/28445
Ape210K 是一個新的大規模和模板豐富的數學單詞問題數據集,包含 210k 個中國小學水平的數學問題。每個問題都包含最佳答案和得出答案所需的方程式。2Belle 數據集
原文鏈接:干貨! 一鍵領取超火的 20 個 LLM 中文數據集
聯系作者
文章來源:HyperAI超神經
作者微信:HyperAI
作者簡介:解構技術先進性與普適性,解讀更前沿的 AIForScience 案例
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...