顛覆常規(guī):DeepMind揭示LLM如何通過逆向思維提升推理能力
谷歌 DeepMind 洞見逆向的力量

原標題:人會逆向思維,LLM也可以?DeepMind研究表明還能提升推理能力
文章來源:機器之心
內(nèi)容字數(shù):4805字
逆向思維在大型語言模型中的應(yīng)用
根據(jù)北卡羅來納大學(xué)教堂山分校與谷歌的最新研究,逆向思維不僅可以應(yīng)用于大型語言模型(LLM),而且能夠顯著提升其正向推理能力。這一發(fā)現(xiàn)由論文一作 Justin Chih-Yao Chen 及其團隊提出,研究結(jié)果表明,結(jié)合正向和逆向思維可有效驗證答案的正確性并發(fā)現(xiàn)潛在錯誤。
正向與逆向思維的定義
正向思維是指從問題出發(fā),逐步推導(dǎo)出答案;而逆向思維則是從一個預(yù)測的答案開始,反推回原始問題。通過這種方式,使用者可以檢查解答的準確性。例如,在簡單的蘋果數(shù)量問題中,正向推理得出答案后,逆向推理驗證該答案是否一致。
RevThink框架的提出
該研究團隊提出了一個名為 RevThink 的框架,旨在將逆向思維“灌輸”給語言模型。RevThink 主要包含兩個階段:數(shù)據(jù)增強和新的學(xué)習(xí)目標。通過增強推理數(shù)據(jù)集,該團隊使用更強大的教師模型生成新的正向和逆向問題,并通過思維鏈驗證其有效性。
實驗與評估結(jié)果
團隊使用 Gemini-1.5-Pro-001 作為教師模型,Mistral-7B-Instruct-v0.3 和 Gemma-7B-Instruct 作為學(xué)生模型,經(jīng)過訓(xùn)練驗證了 RevThink 的有效性。結(jié)果顯示,RevThink 在多個任務(wù)上超越了基線,尤其在常識推理、表格推理和邏輯推理等領(lǐng)域表現(xiàn)優(yōu)異。相較于零樣本性能,RevThink 使 Mistral 和 Gemma 的表現(xiàn)分別提高了 12.68% 和 14.37%。
RevThink的優(yōu)勢
RevThink 的優(yōu)勢包括:樣本效率高,逆向問題生成有助于性能提升,且能有效泛化至新數(shù)據(jù)集。該框架不僅提高了模型的推理能力,還在各種推理任務(wù)上表現(xiàn)出了穩(wěn)定的提升,為未來的 LLM 研究提供了新的思路。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號