重磅：AI機(jī)制可解釋性的理論基礎(chǔ)：抽象因果

AIGC動(dòng)態(tài)9個(gè)月前發(fā)布人工智能學(xué)家

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：重磅：AI機(jī)制可解釋性的理論基礎(chǔ)：抽象因果
關(guān)鍵字：因果,模型,變量,概念,解釋性
文章來(lái)源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

來(lái)源：圖靈人工智能
Causal Abstraction:A Theoretical Foundation for Mechanistic Interpretability
https://arxiv.org/pdf/2301.04709 v3 2024
摘要
因果抽象為機(jī)制可解釋性提供了理論基礎(chǔ)，該領(lǐng)域涉及提供可理解的算法，這些算法是對(duì)已知但不透明的黑盒AI模型低層次細(xì)節(jié)的忠實(shí)簡(jiǎn)化。我們的貢獻(xiàn)包括：(1) 將因果抽象理論從機(jī)制替換（即硬干預(yù)和軟干預(yù)）推廣到任意機(jī)制轉(zhuǎn)換（即從舊機(jī)制到新機(jī)制的泛函），(2) 提供了一種靈活且精確的形式化定義，用于模塊化特征、多義性神經(jīng)元和分級(jí)忠實(shí)度的核心概念，以及(3) 在因果抽象的共同語(yǔ)言下統(tǒng)一了多種機(jī)制可解釋性方法，即激活和路徑修補(bǔ)、因果中介分析、因果清洗、因果追蹤、電路分析、概念擦除、稀疏自編碼器、差分二進(jìn)制掩蔽、分布式對(duì)齊搜索和激活引導(dǎo)。
關(guān)鍵詞：機(jī)制可解釋性、因果關(guān)系、抽象、可解釋AI、可解釋性1. 引言
我們將可解釋人工智能的基本目標(biāo)視為解釋AI模型為何做出其預(yù)測(cè)。在許多情況下，解釋的范式是因果解釋（Woodward, 2003; Pearl

原文鏈接：重磅：AI機(jī)制可解釋性的理論基礎(chǔ)：抽象因果