AIGC動態歡迎閱讀
原標題:兩個小模型互相驗證,直接比肩大模型?微軟的rStar甚至沒用CoT和微調
關鍵字:動作,準確度,軌跡,節點,團隊
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:Panda互相檢查,讓小模型也能解決大問題。
眾所周知,LLM 很強大,但執行復雜推理的能力還不夠強。
舉個例子,在 GSM8K 數據集上,Mistral-7B 即使使用思維鏈(CoT)等技術,也只能達到 36.5% 的準確度。盡管微調確實也能有效地提升推理能力,但大多數 LLM 依靠的微調數據都是經過 GPT-4 等更強大模型蒸餾過的,甚至可能原本就是這些強大模型合成的。
同時,研究者們也在積極開發一種能提供輔助但也更困難的方法:使用一個更優的教師 LLM 來提升推理能力。
為了在沒有更優模型的前提下提升推理能力,一種頗有希望的范式是利用 LLM 自身之中的知識。舉個例子,一種名為 RAP 的方法采用了一種自我探索式的解決方法,即通過自我獎勵的反饋來迭代式地提升 LLM 的推理性能。不幸的是,研究表明這一范式具有兩大根本性問題。
第一,在執行推理時,LLM 往往難以有效地探索解答空間。這種自我探索式方法往往會因推理步驟質量不佳而受困于某個解答空間,即使多次嘗試也是如此。
第二,即使自我探索找到了高質量的推理步驟,小版本的大型語言模型(SLM)也難以辨別哪些推理步驟
原文鏈接:兩個小模型互相驗證,直接比肩大模型?微軟的rStar甚至沒用CoT和微調
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...