為大模型惡補(bǔ)數(shù)學(xué),上交開(kāi)源MathPile語(yǔ)料庫(kù),95億tokens,還可商用
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:為大模型惡補(bǔ)數(shù)學(xué),上交開(kāi)源MathPile語(yǔ)料庫(kù),95億tokens,還可商用
關(guān)鍵字:語(yǔ)料,數(shù)學(xué),數(shù)據(jù),團(tuán)隊(duì),語(yǔ)料庫(kù)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5574字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部在當(dāng)前智能對(duì)話(huà)模型的發(fā)展中,強(qiáng)大的底層模型起著至關(guān)重要的作用。這些先進(jìn)模型的預(yù)訓(xùn)練往往依賴(lài)于高質(zhì)量且多樣化的語(yǔ)料庫(kù),而如何構(gòu)建這樣的語(yǔ)料庫(kù),已成為行業(yè)中的一大挑戰(zhàn)。
在備受矚目的 AI for Math 領(lǐng)域,由于高質(zhì)量的數(shù)學(xué)語(yǔ)料相對(duì)稀缺,這限制了生成式人工智能在數(shù)學(xué)應(yīng)用方面的潛力。
為了應(yīng)對(duì)這一挑戰(zhàn),上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室推出了「MathPile」。這是一套專(zhuān)門(mén)針對(duì)數(shù)學(xué)領(lǐng)域的高質(zhì)量、多樣化預(yù)訓(xùn)練語(yǔ)料庫(kù),其中包含約 95 億 tokens,旨在提升大型模型在數(shù)學(xué)推理方面的能力。
此外,實(shí)驗(yàn)室還推出了 MathPile 的商業(yè)版 ——「MathPile_Commercial」,進(jìn)一步拓寬其應(yīng)用范圍和商業(yè)潛力。論文地址:https://huggingface.co/papers/2312.17120
項(xiàng)目地址:https://gair-nlp.github.io/MathPile/
代碼地址:https://github.com/GAIR-NLP/MathPile
數(shù)據(jù)集地址:
研究使用:https://huggingface.co/datasets/
原文鏈接:為大模型惡補(bǔ)數(shù)學(xué),上交開(kāi)源MathPile語(yǔ)料庫(kù),95億tokens,還可商用
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)