小模型狂飆!6家巨頭爭相發(fā)布小模型,Andrej Karpathy:大語言模型的尺寸競爭正在倒退…
AIGC動態(tài)歡迎閱讀
原標(biāo)題:小模型狂飆!6家巨頭爭相發(fā)布小模型,Andrej Karpathy:大語言模型的尺寸競爭正在倒退…
關(guān)鍵字:模型,數(shù)據(jù),參數(shù),函數(shù),性能
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 21#過去一周,可謂是小模型戰(zhàn)場最瘋狂的一周,商業(yè)巨頭改變賽道,向大模型say byebye~。
OpenAI、Apple、Mistral等“百花齊放”,紛紛帶著自家性能優(yōu)越的輕量化小模型入場。
小模型(SLM),是相對于大語言模型(LLM)而言的,它們一般來說具有較少的參數(shù)和較低的計算資源需求。
前OpenAI和特斯拉AI研究員Andrej Karpathy更是直言LLM大小競爭會出現(xiàn)逆轉(zhuǎn)的趨勢,預(yù)測模型將向著更小更智能的方向發(fā)展。
為了快速理解,中文翻譯如下:
大語言模型的尺寸競爭正在倒退…
我打賭我們會看到非常非常小的模型“思考”得非常好且可靠。很可能存在一個GPT-2參數(shù)的設(shè)置,大多數(shù)人會認(rèn)為GPT-2是“聰明的”。當(dāng)前模型如此大的原因是因為我們在訓(xùn)練期間仍然非常浪費——我們要求它們記住互聯(lián)網(wǎng),令人驚訝的是,它們確實做到了,并且可以例如背誦常見數(shù)字的SHA哈希值,或回憶非常深奧的事實。(實際上,大語言模型在記憶方面非常出色,質(zhì)量上遠(yuǎn)勝于人類,有時只需要一次更新就能記住大量細(xì)節(jié),并且長時間記住)。但想象一下,如果你要在閉卷考試中背誦互聯(lián)網(wǎng)的任意段落
原文鏈接:小模型狂飆!6家巨頭爭相發(fā)布小模型,Andrej Karpathy:大語言模型的尺寸競爭正在倒退…
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介: