AIGC動態歡迎閱讀
原標題:從Claude 3中提取數百萬特征,首次詳細理解大模型的「思維」
關鍵字:特征,模型,神經元,研究者,表征
文章來源:機器之心
內容字數:5993字
內容摘要:
機器之心報道
編輯:陳萍、小舟剛剛,Anthropic 宣布在理解人工智能模型內部運作機制方面取得重大進展。Anthropic 已經確定了如何在 Claude Sonnet 中表征數百萬個概念。這是對現代生產級大型語言模型的首次詳細理解。這種可解釋性將幫助我們提高人工智能模型的安全性,具有里程碑意義。研究論文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
當前,我們通常將人工智能模型視為一個黑匣子:有東西進去就會有響應出來,但不清楚為什么模型會給出特定的響應。這使人們很難相信這些模型是安全的:如果我們不知道它們是如何工作的,我們怎么知道它們不會給出有害的、有偏見的、不真實的或其他危險的響應?我們如何相信它們會安全可靠?
打開「黑匣子」并不一定有幫助:模型的內部狀態(模型在編寫響應之前「思考」的內容)由一長串數字(「神經元激活」)組成,沒有明確的含義。
Anthropic 的研究團隊通過與 Claude 等模型進行交互發現,很明顯模型能夠理解和運用廣泛的概念,但研究團隊無法通過直接觀察神經
原文鏈接:從Claude 3中提取數百萬特征,首次詳細理解大模型的「思維」
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...