LLM可解釋性的未來希望？稀疏自編碼器是如何工作的，這里有一份直觀說明

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：LLM可解釋性的未來希望？稀疏自編碼器是如何工作的，這里有一份直觀說明
關(guān)鍵字：向量,編碼器,特征,解碼器,解釋性
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機器之心報道
編輯：Panda簡而言之：矩陣 → ReLU 激活 → 矩陣在解釋機器學(xué)習(xí)模型方面，稀疏自編碼器（SAE）是一種越來越常用的工具（雖然 SAE 在 1997 年左右就已經(jīng)問世了）。
機器學(xué)習(xí)模型和 LLM 正變得越來越強大、越來越有用，但它們?nèi)耘f是黑箱，我們并不理解它們完成任務(wù)的方式。理解它們的工作方式應(yīng)當(dāng)大有助益。
SAE 可幫助我們將模型的計算分解成可以理解的組件。近日，LLM 可解釋性研究者 Adam Karvonen 發(fā)布了一篇博客文章，直觀地解釋了 SAE 的工作方式。
可解釋性的難題
神經(jīng)網(wǎng)絡(luò)最自然的組件是各個神經(jīng)元。不幸的是，單個神經(jīng)元并不能便捷地與單個概念相對應(yīng)，比如學(xué)術(shù)引用、英語對話、HTTP 請求和韓語文本。在神經(jīng)網(wǎng)絡(luò)中，概念是通過神經(jīng)元的組合表示的，這被稱為疊加（superposition）。
之所以會這樣，是因為世界上很多變量天然就是稀疏的。
舉個例子，某位名人的出生地可能出現(xiàn)在不到十億分之一的訓(xùn)練 token 中，但現(xiàn)代 LLM 依然能學(xué)到這一事實以及有關(guān)這個世界的大量其它知識。訓(xùn)練數(shù)據(jù)中單個事實和概念的數(shù)量多于模型中神經(jīng)元的數(shù)量，這可能就是疊加

原文鏈接：LLM可解釋性的未來希望？稀疏自編碼器是如何工作的，這里有一份直觀說明