AxBench

AxBench – 斯坦福大學推出評估語言模控制方法的基準測試框架

AxBench 是斯坦福大學推出的一款創新評估框架，旨在對語言模型（LM）控制方法的有效性進行系統評估。它通過合成數據的生成，比較不同模型控制技術在概念檢測和模型轉向方面的表現。AxBench 提供了一個統一的平臺，用于研究者評估各種語言模型控制方法，從而推動語言模型在安全性和可靠性方面的研究進展。

AxBench是什么

AxBench 是斯坦福大學開發的一個評估語言模型（LM）可解釋性方法的基準測試框架。通過生成合成數據，AxBench 旨在比較不同的模型控制技術在概念檢測和模型轉向兩個關鍵領域的表現。概念檢測任務評估模型對特定概念的識別能力，基于帶標簽的合成數據；而模型轉向任務則使用長文本生成任務來評估模型在干預后的表現，并且由另一個語言模型作為“裁判”來評分。AxBench 為研究人員提供了一個統一的評估平臺，以系統地評估和比較各種語言模型控制方法的效果，促進對語言模型的安全性和可靠性研究。

AxBench

AxBench的主要功能

評估語言模型控制方法：
- 概念檢測（Concept Detection， C）：通過帶標簽的合成數據，評估模型對特定概念的識別能力。
- 模型轉向（Model Steering， S）：基于長文本生成任務，評估模型在干預后的表現。
提供統一的評估框架：為各種語言模型控制方法（如提示、微調、稀疏自編碼器等）提供一個整合的評估平臺，便于不同方法的比較。支持多種模型和任務設置，適用于不同的語言模型和概念描述。
生成合成數據：AxBench 能夠根據自然語言概念描述生成訓練和評估數據，支持大規模實驗和基準測試。其數據生成過程包括正例（包含目標概念的文本）和負例（不包含目標概念的文本），并支持生成“難負例”（與目標概念語義相關但不激活該概念的文本），以提高評估的挑戰性和區分度。
支持多種評估指標：
- 概念檢測：使用ROC AUC（接收者操作特征曲線下面積）評估模型對概念的分類能力。
- 模型轉向：通過語言模型“裁判”對生成文本的三個維度（概念相關性、指令相關性、流暢性）進行評分，以綜合評估轉向效果。

AxBench的技術原理

合成數據生成：
- 正例：通過提示語言模型生成包含目標概念的文本。
- 負例：通過提示語言模型生成不包含目標概念的文本。
- 難負例：生成與目標概念語義相關但不激活該概念的文本，以提升評估的難度和區分度。
概念檢測評估：使用帶標簽的合成數據作為訓練集，訓練概念檢測器（如線性探針、差值均值等），并基于ROC AUC評估其對概念的分類能力，即模型在區分正例和負例時的表現。
模型轉向評估：
- 通過干預模型的內部表示（如添加特定方向的向量），使得模型生成的文本更符合目標概念。
- 使用語言模型“裁判”對生成文本的三個維度（概念相關性、指令相關性、流暢性）進行評分，以綜合評估轉向效果。
支持多種方法：
- AxBench 支持多種語言模型控制方法，包括提示（Prompting）、微調（Finetuning）、稀疏自編碼器（SAEs）、線性探針（Linear Probes）等。
- 提供多種表示干預方法（如ReFT-r1）的實現，基于學習特定方向的向量對模型的內部表示進行干預，從而實現對模型輸出的控制。