重磅:AI機(jī)制可解釋性的理論基礎(chǔ):抽象因果
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:重磅:AI機(jī)制可解釋性的理論基礎(chǔ):抽象因果
關(guān)鍵字:因果,模型,變量,概念,解釋性
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
來(lái)源:圖靈人工智能
Causal Abstraction:A Theoretical Foundation for Mechanistic Interpretability
https://arxiv.org/pdf/2301.04709 v3 2024
摘要
因果抽象為機(jī)制可解釋性提供了理論基礎(chǔ),該領(lǐng)域涉及提供可理解的算法,這些算法是對(duì)已知但不透明的黑盒AI模型低層次細(xì)節(jié)的忠實(shí)簡(jiǎn)化。我們的貢獻(xiàn)包括:(1) 將因果抽象理論從機(jī)制替換(即硬干預(yù)和軟干預(yù))推廣到任意機(jī)制轉(zhuǎn)換(即從舊機(jī)制到新機(jī)制的泛函),(2) 提供了一種靈活且精確的形式化定義,用于模塊化特征、多義性神經(jīng)元和分級(jí)忠實(shí)度的核心概念,以及(3) 在因果抽象的共同語(yǔ)言下統(tǒng)一了多種機(jī)制可解釋性方法,即激活和路徑修補(bǔ)、因果中介分析、因果清洗、因果追蹤、電路分析、概念擦除、稀疏自編碼器、差分二進(jìn)制掩蔽、分布式對(duì)齊搜索和激活引導(dǎo)。
關(guān)鍵詞:機(jī)制可解釋性、因果關(guān)系、抽象、可解釋AI、可解釋性1. 引言
我們將可解釋人工智能的基本目標(biāo)視為解釋AI模型為何做出其預(yù)測(cè)。在許多情況下,解釋的范式是因果解釋(Woodward, 2003; Pearl
原文鏈接:重磅:AI機(jī)制可解釋性的理論基礎(chǔ):抽象因果
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:
作者簡(jiǎn)介: