推理模型規(guī)劃任務(wù)成功率從5%到95%,DeepMind遺傳算法新研究火了
成本也降低了,且無需微調(diào)
原標題:推理模型規(guī)劃任務(wù)成功率從5%到95%,DeepMind遺傳算法新研究火了
文章來源:量子位
內(nèi)容字數(shù):5261字
DeepMind的Mind Evolution:升級LLM推理能力的進化算法
DeepMind最新研究提出了一種名為“Mind Evolution”的進化搜索策略,顯著提升了大型語言模型(LLMs)在規(guī)劃和推理任務(wù)中的性能。該方法結(jié)合了遺傳算法和LLMs的自然語言能力,無需微調(diào)即可實現(xiàn)顯著效果,引發(fā)了Reddit和??平臺的廣泛討論。
1. Mind Evolution的核心思想
Mind Evolution旨在優(yōu)化LLMs的推理時擴展(Inference-time scaling)。它借鑒了先前研究中自一致性、基于反饋的順序修正以及由評估器引導(dǎo)的搜索等方法,并在此基礎(chǔ)上引入了進化搜索的思想。通過迭代生成、評估和改進解決方案,Mind Evolution能夠在規(guī)劃和推理任務(wù)中找到更優(yōu)的答案。
2. 工作機制:遺傳算法與LLM的結(jié)合
Mind Evolution主要由兩個組件構(gòu)成:搜索算法和遺傳算法。搜索算法幫助LLM找到最佳推理路徑,而遺傳算法則通過迭代優(yōu)化候選解決方案,模擬生物進化過程中的選擇、交叉和變異,最終得到更優(yōu)的解。其流程包括:樣本解決方案生成、評估、改進(選擇、交叉、變異)和終止條件。
值得注意的是,Mind Evolution巧妙地利用“適應(yīng)度函數(shù)”解決了傳統(tǒng)方法中需要將問題形式化的問題。適應(yīng)度函數(shù)直接處理自然語言問題,并提供文本反饋,從而簡化了流程,降低了對領(lǐng)域?qū)I(yè)知識的需求。
3. 實驗結(jié)果:顯著優(yōu)于基線方法
實驗結(jié)果顯示,Mind Evolution在旅行規(guī)劃和會議規(guī)劃等任務(wù)中顯著優(yōu)于其他基線方法,例如1-pass、Best-of-N和Sequential Revisions+。尤其是在任務(wù)復(fù)雜度增加時,Mind Evolution的優(yōu)勢更加明顯。例如,在Gemini 1.5 Flash模型上,Mind Evolution將旅行規(guī)劃任務(wù)的成功率從5.6%提升至95.6%,會議規(guī)劃任務(wù)的成功率從20.8%提升至85.0%。同時,它還比Sequential Revisions+消耗更少的tokens。
此外,Mind Evolution還在一項新的創(chuàng)意寫作任務(wù)(StegPoet)中取得了成功,證明其在更復(fù)雜、更具創(chuàng)造性的自然語言規(guī)劃任務(wù)中的適用性。
4. 總結(jié):高效且經(jīng)濟的LLM推理升級
Mind Evolution通過結(jié)合廣泛搜索和深度搜索,有效提升了LLMs在規(guī)劃和推理方面的能力。它無需對模型進行微調(diào),且成本更低,為提升LLM的推理能力提供了一種高效且經(jīng)濟的方法。這項研究被網(wǎng)友譽為“給大語言模型升級大腦而不刷爆信用卡”。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破