小模型狂飆！6家巨頭爭相發(fā)布小模型，Andrej Karpathy：大語言模型的尺寸競爭正在倒退…

小模型狂飆！6家巨頭爭相發(fā)布小模型，Andrej Karpathy：大語言模型的尺寸競爭正在倒退...

AIGC動態(tài)歡迎閱讀

原標(biāo)題：小模型狂飆！6家巨頭爭相發(fā)布小模型，Andrej Karpathy：大語言模型的尺寸競爭正在倒退…
關(guān)鍵字：模型,數(shù)據(jù),參數(shù),函數(shù),性能
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 21#過去一周，可謂是小模型戰(zhàn)場最瘋狂的一周，商業(yè)巨頭改變賽道，向大模型say byebye~。
OpenAI、Apple、Mistral等“百花齊放”，紛紛帶著自家性能優(yōu)越的輕量化小模型入場。
小模型(SLM)，是相對于大語言模型（LLM）而言的，它們一般來說具有較少的參數(shù)和較低的計算資源需求。
前OpenAI和特斯拉AI研究員Andrej Karpathy更是直言LLM大小競爭會出現(xiàn)逆轉(zhuǎn)的趨勢，預(yù)測模型將向著更小更智能的方向發(fā)展。
為了快速理解，中文翻譯如下：
大語言模型的尺寸競爭正在倒退…
我打賭我們會看到非常非常小的模型“思考”得非常好且可靠。很可能存在一個GPT-2參數(shù)的設(shè)置，大多數(shù)人會認(rèn)為GPT-2是“聰明的”。當(dāng)前模型如此大的原因是因為我們在訓(xùn)練期間仍然非常浪費——我們要求它們記住互聯(lián)網(wǎng)，令人驚訝的是，它們確實做到了，并且可以例如背誦常見數(shù)字的SHA哈希值，或回憶非常深奧的事實。（實際上，大語言模型在記憶方面非常出色，質(zhì)量上遠(yuǎn)勝于人類，有時只需要一次更新就能記住大量細(xì)節(jié)，并且長時間記住）。但想象一下，如果你要在閉卷考試中背誦互聯(lián)網(wǎng)的任意段落

原文鏈接：小模型狂飆！6家巨頭爭相發(fā)布小模型，Andrej Karpathy：大語言模型的尺寸競爭正在倒退…