DGM

DGM – 自改進AI Agent系統(tǒng)，會迭代修改自身代碼提升性能

DGM

DGM (Darwin G?del Machine) 是一款自進化人工智能系統(tǒng)，它通過不斷迭代修改自身代碼來提高性能。DGM 從其維護的編碼代理庫中挑選一個代理，利用基礎(chǔ)模型生成新版本，并在編碼基準(zhǔn)測試中檢驗其性能。如果新代理表現(xiàn)更出色，就會被添加到代理庫中。

## 揭秘 DGM：自進化人工智能的先鋒

DGM，全稱 Darwin G?del Machine，正如其名，靈感源于達爾文進化論和哥德爾不完備性定理。它是一個**自我改進的人工智能系統(tǒng)**，其核心在于**通過迭代修改自身代碼來持續(xù)提升性能**。DGM 就像一個不斷學(xué)習(xí)、自我完善的“程序員”，它從自身維護的編碼代理檔案中挑選一個“藍本”，基于基礎(chǔ)模型生成新版本，然后在編碼基準(zhǔn)測試中進行嚴格的“實戰(zhàn)”檢驗。如果新版本表現(xiàn)更優(yōu)異，就會被加入到檔案中，從而不斷壯大自身的“知識庫”。

### 核心功能：讓 AI 變得更強大

DGM 擁有多項令人矚目的核心功能，使其在人工智能領(lǐng)域獨樹一幟：

* **自我優(yōu)化**：DGM 能夠不斷地修改自身代碼，實現(xiàn)性能和功能的優(yōu)化。通過自我修改模塊讀取自身源代碼，并基于基礎(chǔ)模型生成修改建議，讓 AI 變得更聰明。
* **實證檢驗**：每次代碼修改都會經(jīng)過嚴格的編碼基準(zhǔn)測試（如 SWE-bench 和 Polyglot）驗證，確保每次改進都真實有效。評估引擎在 Docker 容器中進行隔離和評估，確保結(jié)果的可靠性。
* **開放探索**：DGM 秉承達爾文進化論的理念，采用開放性探索策略，從不同的起點探索多種進化路徑，避免陷入局部最優(yōu)解。它維護一個編碼代理檔案，不斷積累生成的變體，支持從檔案中的任何代理分支出新的進化路徑。
* **安全護航**：DGM 的執(zhí)行和自我修改過程都在隔離的沙盒環(huán)境中進行，從而最大程度地降低了對宿主系統(tǒng)的潛在影響，確保了系統(tǒng)的安全性。

### 工作原理：AI 進化的“秘訣”

DGM 的工作流程可以概括為以下三個關(guān)鍵階段：

1. **自修改階段**：DGM 從其維護的編碼代理（coding agents）檔案中選擇一個代理，并利用基礎(chǔ)模型（foundation model）生成該代理的一個新版本。
2. **驗證階段**：新生成的代理在編碼基準(zhǔn)測試中接受嚴格的評估，以確定其性能是否有所提升。
3. **檔案更新**：經(jīng)過驗證的改進代理會被添加到檔案中，檔案不斷積累所有生成的變體，為未來的進化奠定基礎(chǔ)。

### 探索 DGM 的世界

* **官方網(wǎng)站：**由于沒有提品官網(wǎng)，請您關(guān)注 DGM 的 Github 倉庫和 arXiv 論文，以獲取最新的信息。
* **Github 倉庫：**https://github.com/jennyzzt/dgm
* **arXiv 技術(shù)論文：**https://arxiv.org/pdf/2505.22954

### 應(yīng)用場景：無限可能

DGM 在多個領(lǐng)域展現(xiàn)出巨大的潛力：

* **自動化編程**：DGM 可以自動生成和優(yōu)化代碼，減輕開發(fā)人員的負擔(dān)，提高編程效率。通過自我改進生成更高效的代碼，提升軟件的整體性能。
* **代碼優(yōu)化**：DGM 能夠自動檢測代碼中的問題并進行優(yōu)化，提高代碼的可讀性和執(zhí)行效率。通過不斷迭代改進，DGM 能生成更優(yōu)的代碼版本，減少開發(fā)時間和成本。
* **自動修復(fù)**：DGM 通過自我進化可以自動修復(fù)發(fā)現(xiàn)的問題，降低軟件維護成本。能識別代碼中的潛在問題，生成修復(fù)方案，減少人工干預(yù)。
* **研究平臺**：DGM 為研究自我改進系統(tǒng)提供了實踐平臺，有助于學(xué)術(shù)界對該領(lǐng)域的研究。研究人員可以用 DGM 探索新的算法和模型，推動人工智能技術(shù)的發(fā)展。

### 常見問題

* **DGM 的安全性如何保障？** DGM 的執(zhí)行和自我修改過程都在隔離的沙盒環(huán)境中進行，限制對宿主系統(tǒng)的影響，確保了安全性。
* **DGM 的性能提升有多大？** 在實驗中，DGM 在多個基準(zhǔn)測試中的性能顯著提升，例如在 SWE-bench 基準(zhǔn)測試中性能從 20.0% 提升至 50.0%，在 Polyglot 基準(zhǔn)測試中從 14.2% 提升至 30.7%。
* **DGM 的未來發(fā)展方向是什么？** 隨著技術(shù)的不斷進步，DGM 有望在更多領(lǐng)域發(fā)揮作用，例如在軟件開發(fā)、代碼維護、問題修復(fù)等方面。

閱讀原文