AIGC動態歡迎閱讀
原標題:OpenAI新作署名Ilya,提取1600萬個特征看透GPT-4大腦!
關鍵字:模型,變量,解釋性,編碼器,論文
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊 好困
【新智元導讀】今天,OpenAI發布了一篇GPT-4可解釋性的論文,似乎是作為前兩天員工聯名信的回應。網友細看論文才發現,這居然是已經解散的「超級對齊」團隊的「最后之作」。前兩天,OpenAI的一群員工剛剛聯名發表公開信,表示自主的AI系統正在失控,呼吁公眾提高警惕。
今天OpenAI就甩出了一篇論文來回應。
這篇文章通過逆向工程,為GPT-4做了一次「解剖」,旨在探索LLM的可解釋性。更讓人唏噓的是,這項新研究由最近剛剛分崩離析的「超級對齊」團隊完成,文章還有Ilya Sutskever和Jan Leike的署名。
論文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf
文章是發表了,但團隊卻早已解散。
物是人非,似乎也從另一個側面說明了,OpenAI在AGI安全方面進行的重大轉向。
論文提出,模型的可解釋性與AI安全息息相關。
目前我們仍不了解語言模型的內部運作原理,而且它無法被輕易分解為可識別的部分。這意味著無法像推理汽車安全那樣推理人工智能安全。
為了理解和解釋神經網絡,首先需要找到神經
原文鏈接:OpenAI新作署名Ilya,提取1600萬個特征看透GPT-4大腦!
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...