大模型承重墻,去掉了就開始擺爛!蘋果給出了「超級(jí)權(quán)重」

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型承重墻,去掉了就開始擺爛!蘋果給出了「超級(jí)權(quán)重」
關(guān)鍵字:權(quán)重,模型,報(bào)告,研究者,方法
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:蛋醬、佳琪去掉一個(gè)「超權(quán)重」的影響,比去掉其他 7000 個(gè)離群值權(quán)重加起來還要嚴(yán)重。大模型的參數(shù)量越來越大,越來越聰明,但它們也越來越奇怪了。
兩年前,有研究者發(fā)現(xiàn)了一些古怪之處:在大模型中,有一小部分特別重要的特征(稱之為「超權(quán)重」),它們雖然數(shù)量不多,但對(duì)模型的表現(xiàn)非常重要。
如果去掉這些「超權(quán)重」,模型就完全擺爛了,開始胡言亂語,文本都不會(huì)生成了。但是如果去掉其他一些不那么重要的特征,模型的表現(xiàn)只會(huì)受到一點(diǎn)點(diǎn)影響。有趣的是,不同的大模型的「超權(quán)重」卻出奇地相似,比如:
它們總是出現(xiàn)在層中。
它們會(huì)放大輸入 token 激活的離群值,這種現(xiàn)象研究者們稱之為「超激活」(super activation)。無論輸入什么提示詞,「超激活」在整個(gè)模型中都以完全相同的幅度和位置持續(xù)存在。而這源于神經(jīng)網(wǎng)絡(luò)中的「跨層連接」。
它們還能減少模型對(duì)常用但不重要的詞匯,比如「的」、「這」、「了」的注意力。
得到了這些發(fā)現(xiàn),圣母大學(xué)和蘋果的研究團(tuán)隊(duì)進(jìn)一步對(duì)「超權(quán)重」進(jìn)行了探索。
他們改進(jìn)了 round-to-nearest quantization(RNQ)技術(shù),提出了一種對(duì)算力特
原文鏈接:大模型承重墻,去掉了就開始擺爛!蘋果給出了「超級(jí)權(quán)重」
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)