推理模型規(guī)劃任務(wù)成功率從5%到95%，DeepMind遺傳算法新研究火了

成本也降低了，且無(wú)需微調(diào)

原標(biāo)題：推理模型規(guī)劃任務(wù)成功率從5%到95%，DeepMind 遺傳算法新研究火了
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：5261字

DeepMind的Mind Evolution：升級(jí)LLM推理能力的進(jìn)化算法

DeepMind最新研究提出了一種名為“Mind Evolution”的進(jìn)化搜索策略，顯著提升了大型語(yǔ)言模型（LLMs）在規(guī)劃和推理任務(wù)中的性能。該方法結(jié)合了遺傳算法和LLMs的自然語(yǔ)言能力，無(wú)需微調(diào)即可實(shí)現(xiàn)顯著效果，引發(fā)了Reddit和??平臺(tái)的廣泛討論。

1. Mind Evolution的核心思想

Mind Evolution旨在優(yōu)化LLMs的推理時(shí)擴(kuò)展（Inference-time scaling）。它借鑒了先前研究中自一致性、基于反饋的順序修正以及由評(píng)估器引導(dǎo)的搜索等方法，并在此基礎(chǔ)上引入了進(jìn)化搜索的思想。通過(guò)迭代生成、評(píng)估和改進(jìn)解決方案，Mind Evolution能夠在規(guī)劃和推理任務(wù)中找到更優(yōu)的答案。

2. 工作機(jī)制：遺傳算法與LLM的結(jié)合

Mind Evolution主要由兩個(gè)組件構(gòu)成：搜索算法和遺傳算法。搜索算法幫助LLM找到最佳推理路徑，而遺傳算法則通過(guò)迭代優(yōu)化候選解決方案，模擬生物進(jìn)化過(guò)程中的選擇、交叉和變異，最終得到更優(yōu)的解。其流程包括：樣本解決方案生成、評(píng)估、改進(jìn)（選擇、交叉、變異）和終止條件。

值得注意的是，Mind Evolution巧妙地利用“適應(yīng)度函數(shù)”解決了傳統(tǒng)方法中需要將問(wèn)題形式化的問(wèn)題。適應(yīng)度函數(shù)直接處理自然語(yǔ)言問(wèn)題，并提供文本反饋，從而簡(jiǎn)化了流程，降低了對(duì)領(lǐng)域?qū)I(yè)知識(shí)的需求。

3. 實(shí)驗(yàn)結(jié)果：顯著優(yōu)于基線方法

實(shí)驗(yàn)結(jié)果顯示，Mind Evolution在旅行規(guī)劃和會(huì)議規(guī)劃等任務(wù)中顯著優(yōu)于其他基線方法，例如1-pass、Best-of-N和Sequential Revisions+。尤其是在任務(wù)復(fù)雜度增加時(shí)，Mind Evolution的優(yōu)勢(shì)更加明顯。例如，在Gemini 1.5 Flash模型上，Mind Evolution將旅行規(guī)劃任務(wù)的成功率從5.6%提升至95.6%，會(huì)議規(guī)劃任務(wù)的成功率從20.8%提升至85.0%。同時(shí)，它還比Sequential Revisions+消耗更少的tokens。

此外，Mind Evolution還在一項(xiàng)新的創(chuàng)意寫作任務(wù)（StegPoet）中取得了成功，證明其在更復(fù)雜、更具創(chuàng)造性的自然語(yǔ)言規(guī)劃任務(wù)中的適用性。

4. 總結(jié)：高效且經(jīng)濟(jì)的LLM推理升級(jí)

Mind Evolution通過(guò)結(jié)合廣泛搜索和深度搜索，有效提升了LLMs在規(guī)劃和推理方面的能力。它無(wú)需對(duì)模型進(jìn)行微調(diào)，且成本更低，為提升LLM的推理能力提供了一種高效且經(jīng)濟(jì)的方法。這項(xiàng)研究被網(wǎng)友譽(yù)為“給大語(yǔ)言模型升級(jí)大腦而不刷爆信用卡”。