
AIGC動態歡迎閱讀
原標題:LLM可解釋性的未來希望?稀疏自編碼器是如何工作的,這里有一份直觀說明
關鍵字:向量,編碼器,特征,解碼器,解釋性
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:Panda簡而言之:矩陣 → ReLU 激活 → 矩陣在解釋機器學習模型方面,稀疏自編碼器(SAE)是一種越來越常用的工具(雖然 SAE 在 1997 年左右就已經問世了)。
機器學習模型和 LLM 正變得越來越強大、越來越有用,但它們仍舊是黑箱,我們并不理解它們完成任務的方式。理解它們的工作方式應當大有助益。
SAE 可幫助我們將模型的計算分解成可以理解的組件。近日,LLM 可解釋性研究者 Adam Karvonen 發布了一篇博客文章,直觀地解釋了 SAE 的工作方式。
可解釋性的難題
神經網絡最自然的組件是各個神經元。不幸的是,單個神經元并不能便捷地與單個概念相對應,比如學術引用、英語對話、HTTP 請求和韓語文本。在神經網絡中,概念是通過神經元的組合表示的,這被稱為疊加(superposition)。
之所以會這樣,是因為世界上很多變量天然就是稀疏的。
舉個例子,某位名人的出生地可能出現在不到十億分之一的訓練 token 中,但現代 LLM 依然能學到這一事實以及有關這個世界的大量其它知識。訓練數據中單個事實和概念的數量多于模型中神經元的數量,這可能就是疊加
原文鏈接:LLM可解釋性的未來希望?稀疏自編碼器是如何工作的,這里有一份直觀說明
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號