神經(jīng)網(wǎng)絡架構「殊途同歸」?ICML 2024論文:模型不同,但學習內(nèi)容相同
AIGC動態(tài)歡迎閱讀
原標題:神經(jīng)網(wǎng)絡架構「殊途同歸」?ICML 2024論文:模型不同,但學習內(nèi)容相同
關鍵字:神經(jīng)網(wǎng)絡,表征,模型,據(jù)點,架構
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:喬楊
【新智元導讀】深度神經(jīng)網(wǎng)絡有多種規(guī)模和架構,大家普遍認為這會影響到模型學習到的抽象表示。然而,UCL兩位學者發(fā)表在ICML 2024上第一篇論文指出,如果模型的架構足夠靈活,某些網(wǎng)絡行為在不同架構間是廣泛存在的。自從AI跨入大模型時代以來,Scaling Law幾乎成為了一個。
論文地址:https://arxiv.org/abs/2001.08361
OpenAI的研究人員在2020年的這篇論文中提出,模型的性能與三方面的指標呈冪律關系:參數(shù)量N、數(shù)據(jù)集規(guī)模D以及訓練算力C。
除了這三方面外,在合理范圍內(nèi),超參數(shù)的選擇和模型的寬度、深度等因素對性能的影響很小。
而且,這種冪律關系的存在沒有對模型架構做出任何規(guī)定。換言之,我們可以認為Scaling Law幾乎適用于任何模型架構。
此外2021年發(fā)表的一篇神經(jīng)科學領域的論文似乎也從另一個角度觸碰到了這個現(xiàn)象。
論文地址:https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.6258
原文鏈接:神經(jīng)網(wǎng)絡架構「殊途同歸」?ICML 2024論文:模型不同,但學習內(nèi)容相同
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。