AIGC動態歡迎閱讀
原標題:大模型承重墻,去掉了就開始擺爛!蘋果給出了「超級權重」
關鍵字:權重,模型,報告,研究者,方法
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:蛋醬、佳琪去掉一個「超權重」的影響,比去掉其他 7000 個離群值權重加起來還要嚴重。大模型的參數量越來越大,越來越聰明,但它們也越來越奇怪了。
兩年前,有研究者發現了一些古怪之處:在大模型中,有一小部分特別重要的特征(稱之為「超權重」),它們雖然數量不多,但對模型的表現非常重要。
如果去掉這些「超權重」,模型就完全擺爛了,開始胡言亂語,文本都不會生成了。但是如果去掉其他一些不那么重要的特征,模型的表現只會受到一點點影響。有趣的是,不同的大模型的「超權重」卻出奇地相似,比如:
它們總是出現在層中。
它們會放大輸入 token 激活的離群值,這種現象研究者們稱之為「超激活」(super activation)。無論輸入什么提示詞,「超激活」在整個模型中都以完全相同的幅度和位置持續存在。而這源于神經網絡中的「跨層連接」。
它們還能減少模型對常用但不重要的詞匯,比如「的」、「這」、「了」的注意力。
得到了這些發現,圣母大學和蘋果的研究團隊進一步對「超權重」進行了探索。
他們改進了 round-to-nearest quantization(RNQ)技術,提出了一種對算力特
原文鏈接:大模型承重墻,去掉了就開始擺爛!蘋果給出了「超級權重」
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...