神經(jīng)網(wǎng)絡架構「殊途同歸」？ICML 2024論文：模型不同，但學習內(nèi)容相同

AIGC動態(tài)歡迎閱讀

原標題：神經(jīng)網(wǎng)絡架構「殊途同歸」？ICML 2024論文：模型不同，但學習內(nèi)容相同
關鍵字：神經(jīng)網(wǎng)絡,表征,模型,據(jù)點,架構
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：喬楊
【新智元導讀】深度神經(jīng)網(wǎng)絡有多種規(guī)模和架構，大家普遍認為這會影響到模型學習到的抽象表示。然而，UCL兩位學者發(fā)表在ICML 2024上第一篇論文指出，如果模型的架構足夠靈活，某些網(wǎng)絡行為在不同架構間是廣泛存在的。自從AI跨入大模型時代以來，Scaling Law幾乎成為了一個。
論文地址：https://arxiv.org/abs/2001.08361
OpenAI的研究人員在2020年的這篇論文中提出，模型的性能與三方面的指標呈冪律關系：參數(shù)量N、數(shù)據(jù)集規(guī)模D以及訓練算力C。
除了這三方面外，在合理范圍內(nèi)，超參數(shù)的選擇和模型的寬度、深度等因素對性能的影響很小。
而且，這種冪律關系的存在沒有對模型架構做出任何規(guī)定。換言之，我們可以認為Scaling Law幾乎適用于任何模型架構。
此外2021年發(fā)表的一篇神經(jīng)科學領域的論文似乎也從另一個角度觸碰到了這個現(xiàn)象。
論文地址：https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.6258

原文鏈接：神經(jīng)網(wǎng)絡架構「殊途同歸」？ICML 2024論文：模型不同，但學習內(nèi)容相同