小模型狂飆!6家巨頭爭(zhēng)相發(fā)布小模型,Andrej Karpathy:大語言模型的尺寸競(jìng)爭(zhēng)正在倒退…
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:小模型狂飆!6家巨頭爭(zhēng)相發(fā)布小模型,Andrej Karpathy:大語言模型的尺寸競(jìng)爭(zhēng)正在倒退…
關(guān)鍵字:模型,數(shù)據(jù),參數(shù),函數(shù),性能
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 21#過去一周,可謂是小模型戰(zhàn)場(chǎng)最瘋狂的一周,商業(yè)巨頭改變賽道,向大模型say byebye~。
OpenAI、Apple、Mistral等“百花齊放”,紛紛帶著自家性能優(yōu)越的輕量化小模型入場(chǎng)。
小模型(SLM),是相對(duì)于大語言模型(LLM)而言的,它們一般來說具有較少的參數(shù)和較低的計(jì)算資源需求。
前OpenAI和特斯拉AI研究員Andrej Karpathy更是直言LLM大小競(jìng)爭(zhēng)會(huì)出現(xiàn)逆轉(zhuǎn)的趨勢(shì),預(yù)測(cè)模型將向著更小更智能的方向發(fā)展。
為了快速理解,中文翻譯如下:
大語言模型的尺寸競(jìng)爭(zhēng)正在倒退…
我打賭我們會(huì)看到非常非常小的模型“思考”得非常好且可靠。很可能存在一個(gè)GPT-2參數(shù)的設(shè)置,大多數(shù)人會(huì)認(rèn)為GPT-2是“聰明的”。當(dāng)前模型如此大的原因是因?yàn)槲覀冊(cè)谟?xùn)練期間仍然非常浪費(fèi)——我們要求它們記住互聯(lián)網(wǎng),令人驚訝的是,它們確實(shí)做到了,并且可以例如背誦常見數(shù)字的SHA哈希值,或回憶非常深?yuàn)W的事實(shí)。(實(shí)際上,大語言模型在記憶方面非常出色,質(zhì)量上遠(yuǎn)勝于人類,有時(shí)只需要一次更新就能記住大量細(xì)節(jié),并且長時(shí)間記住)。但想象一下,如果你要在閉卷考試中背誦互聯(lián)網(wǎng)的任意段落
原文鏈接:小模型狂飆!6家巨頭爭(zhēng)相發(fā)布小模型,Andrej Karpathy:大語言模型的尺寸競(jìng)爭(zhēng)正在倒退…
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡(jiǎn)介: