AIGC動態歡迎閱讀
原標題:補齊Transformer規劃短板,田淵棟團隊的Searchformer火了
關鍵字:模型,任務,數據,方法,團隊
文章來源:機器之心
內容字數:4794字
內容摘要:
機器之心報道
編輯:PandaTransformer 強大的泛化能力再次得到證明!最近幾年,基于 Transformer 的架構在多種任務上都表現卓越,吸引了世界的矚目。使用這類架構搭配大量數據,得到的大型語言模型(LLM)等模型可以很好地泛化用于真實世界用例。
盡管有如此成功,但基于 Transformer 的架構和 LLM 依然難以處理規劃和推理任務。之前已有研究證明 LLM 難以應對多步規劃任務或高階推理任務。
為了提升 Transformer 的推理和規劃性能,近些年研究社區也提出了一些方法。一種最常見且有效的方法是模擬人類的思考過程:先生成中間「思維」,然后再輸出響應。比如思維鏈(CoT)提示法就是鼓勵模型預測中間步驟,進行按步驟的「思考」。思維樹(ToT)則使用了分支策略和評判方法,讓模型生成多個不同的思維路徑,然后從中選出最佳路徑。盡管這些技術通常是有效的,但也有研究表明,在很多案例中,這些方讓模型的性能下降,原因包括自我(self-enforcing)。
另一方面,在一個數據集上有效的技術可能無法很好地處理其它數據集,原因可能包括所涉及的推理類型發生了變化,比如
原文鏈接:補齊Transformer規劃短板,田淵棟團隊的Searchformer火了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...