LLM可解釋性的未來希望?稀疏自編碼器是如何工作的,這里有一份直觀說明
AIGC動態(tài)歡迎閱讀
原標題:LLM可解釋性的未來希望?稀疏自編碼器是如何工作的,這里有一份直觀說明
關鍵字:向量,編碼器,特征,解碼器,解釋性
文章來源:機器之心
內容字數(shù):0字
內容摘要:
機器之心報道
編輯:Panda簡而言之:矩陣 → ReLU 激活 → 矩陣在解釋機器學習模型方面,稀疏自編碼器(SAE)是一種越來越常用的工具(雖然 SAE 在 1997 年左右就已經(jīng)問世了)。
機器學習模型和 LLM 正變得越來越強大、越來越有用,但它們仍舊是黑箱,我們并不理解它們完成任務的方式。理解它們的工作方式應當大有助益。
SAE 可幫助我們將模型的計算分解成可以理解的組件。近日,LLM 可解釋性研究者 Adam Karvonen 發(fā)布了一篇博客文章,直觀地解釋了 SAE 的工作方式。
可解釋性的難題
神經(jīng)網(wǎng)絡最自然的組件是各個神經(jīng)元。不幸的是,單個神經(jīng)元并不能便捷地與單個概念相對應,比如學術引用、英語對話、HTTP 請求和韓語文本。在神經(jīng)網(wǎng)絡中,概念是通過神經(jīng)元的組合表示的,這被稱為疊加(superposition)。
之所以會這樣,是因為世界上很多變量天然就是稀疏的。
舉個例子,某位名人的出生地可能出現(xiàn)在不到十億分之一的訓練 token 中,但現(xiàn)代 LLM 依然能學到這一事實以及有關這個世界的大量其它知識。訓練數(shù)據(jù)中單個事實和概念的數(shù)量多于模型中神經(jīng)元的數(shù)量,這可能就是疊加
原文鏈接:LLM可解釋性的未來希望?稀疏自編碼器是如何工作的,這里有一份直觀說明
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...