消費(fèi)級(jí)顯卡可用!李開復(fù)零一萬(wàn)物發(fā)布并開源90億參數(shù)Yi模型,代碼數(shù)學(xué)能力史上最強(qiáng)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:消費(fèi)級(jí)顯卡可用!李開復(fù)零一萬(wàn)物發(fā)布并開源90億參數(shù)Yi模型,代碼數(shù)學(xué)能力史上最強(qiáng)
關(guān)鍵字:騰訊,模型,性能,萬(wàn)物,數(shù)據(jù)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):4607字
內(nèi)容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI李開復(fù)旗下AI公司零一萬(wàn)物,又一位大模型選手登場(chǎng):
90億參數(shù)Yi-9B。
它號(hào)稱Yi系列中的“理科狀元”,“惡補(bǔ)”了代碼數(shù)學(xué),同時(shí)綜合能力也沒(méi)落下。
在一系列類似規(guī)模的開源模型(包括Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5等)中,表現(xiàn)最佳。
老規(guī)矩,發(fā)布即開源,尤其對(duì)開發(fā)者友好:
Yi-9B(BF 16) 和其量化版 Yi-9B(Int8)都能在消費(fèi)級(jí)顯卡上部署。
一塊RTX 4090、一塊RTX 3090就可以。
深度擴(kuò)增+多階段增量訓(xùn)練而成零一萬(wàn)物的Yi家族此前已經(jīng)發(fā)布了Yi-6B和Yi-34B系列。
這兩者都是在3.1T token中英文數(shù)據(jù)上進(jìn)行的預(yù)訓(xùn)練,Yi-9B則在此基礎(chǔ)上,增加了0.8T token繼續(xù)訓(xùn)練而成。
數(shù)據(jù)的截止日期是2023年6月。
開頭提到,Yi-9B最大的進(jìn)步在于數(shù)學(xué)和代碼,那么這倆能力究竟如何提升呢?
零一萬(wàn)物介紹:
單靠增加數(shù)據(jù)量并沒(méi)法達(dá)到預(yù)期。
靠的是先增加模型大小,在Yi-6B的基礎(chǔ)上增至9B,再進(jìn)行多階段數(shù)據(jù)增量訓(xùn)練
原文鏈接:消費(fèi)級(jí)顯卡可用!李開復(fù)零一萬(wàn)物發(fā)布并開源90億參數(shù)Yi模型,代碼數(shù)學(xué)能力史上最強(qiáng)
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破