Llama架構(gòu)比不上GPT2?神奇token提升10倍記憶?

AIGC動態(tài)歡迎閱讀
原標題:Llama架構(gòu)比不上GPT2?神奇token提升10倍記憶?
關(guān)鍵字:模型,知識,數(shù)據(jù),作者,時間
文章來源:機器之心
內(nèi)容字數(shù):5672字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部一個 7B 規(guī)模的語言模型 LLM 能存儲多少人類知識?如何量化這一數(shù)值?訓(xùn)練時間、模型架構(gòu)的不同將如何影響這一數(shù)值?浮點數(shù)壓縮 quantization、混合專家模型 MoE、以及數(shù)據(jù)質(zhì)量的差異 (百科知識 vs 網(wǎng)絡(luò)垃圾) 又將對 LLM 的知識容量產(chǎn)生何種影響?
近日,朱澤園 (Meta AI) 和李遠志 (MBZUAI) 的最新研究《語言模型物理學(xué) Part 3.3:知識的 Scaling Laws》用海量實驗(50,000 條任務(wù),總計 4,200,000 GPU 小時)總結(jié)了 12 條定律,為 LLM 在不同條件下的知識容量提供了較為精確的計量方法。作者首先指出,通過開源模型在基準數(shù)據(jù)集 (benchmark) 上的表現(xiàn)來衡量 LLM 的 scaling law 是不現(xiàn)實的。例如,LlaMA-70B 在知識數(shù)據(jù)集上的表現(xiàn)比 LlaMA-7B 好 30%,這并不能說明模型擴大 10 倍僅僅能在容量上提高 30%。如果使用網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練模型,我們也將很難估計其中包含的知識總量。
再舉個例子,我們比較 Mistral 和 Llama 模型的好壞之時,到底
原文鏈接:Llama架構(gòu)比不上GPT2?神奇token提升10倍記憶?
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號