OpenAI新作署名Ilya，提取1600萬個特征看透GPT-4大腦！

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：OpenAI新作署名Ilya，提取1600萬個特征看透GPT-4大腦！
關鍵字：模型,變量,解釋性,編碼器,論文
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：喬楊好困
【新智元導讀】今天，OpenAI發布了一篇GPT-4可解釋性的論文，似乎是作為前兩天員工聯名信的回應。網友細看論文才發現，這居然是已經解散的「超級對齊」團隊的「最后之作」。前兩天，OpenAI的一群員工剛剛聯名發表公開信，表示自主的AI系統正在失控，呼吁公眾提高警惕。
今天OpenAI就甩出了一篇論文來回應。
這篇文章通過逆向工程，為GPT-4做了一次「解剖」，旨在探索LLM的可解釋性。更讓人唏噓的是，這項新研究由最近剛剛分崩離析的「超級對齊」團隊完成，文章還有Ilya Sutskever和Jan Leike的署名。
論文地址：https://cdn.openai.com/papers/sparse-autoencoders.pdf
文章是發表了，但團隊卻早已解散。
物是人非，似乎也從另一個側面說明了，OpenAI在AGI安全方面進行的重大轉向。
論文提出，模型的可解釋性與AI安全息息相關。
目前我們仍不了解語言模型的內部運作原理，而且它無法被輕易分解為可識別的部分。這意味著無法像推理汽車安全那樣推理人工智能安全。
為了理解和解釋神經網絡，首先需要找到神經

原文鏈接：OpenAI新作署名Ilya，提取1600萬個特征看透GPT-4大腦！