拯救Transformer推理能力！DeepMind新研究TransNAR：給模型嵌入「算法推理大腦」

AIGC動態歡迎閱讀

原標題：拯救Transformer推理能力！DeepMind新研究TransNAR：給模型嵌入「算法推理大腦」
關鍵字：算法,模型,架構,任務,問題
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：喬楊好困
【新智元導讀】DeepMind最近發表的一篇論文提出用混合架構的方法解決Transformer模型的推理缺陷。將Transformer的NLU技能與基于GNN的神經算法推理器（NAR）的強大算法推理能力相結合，可以實現更加泛化、穩健、準確的LLM推理。如今的NLP領域，已然是Transformer架構的天下。
從Bert到GPT，再到Llama、Claude，LLM模型使用Transformer已經是再正常不過的事情。
Transformer的「大一統」局面正是由于其簡單、高效的架構，以及在理解自然語言方面無與倫比的泛化能力。
然而，隨著研究的逐漸深入，Transformer的一個致命缺陷也逐漸暴露出來——無法勝任算法推理任務，尤其是不能進行精確、穩健的推理。
這嚴重限制了模型在數學、代碼等領域下游任務的應用，近年來對Transformer的各種調優、修改似乎也收效甚微。
于是DeepMind的研究人員想到了混合架構——將Transformers的語言理解能力與基于圖神經網絡（GNN）的神經算法推理器（NAR）的穩健性結合起來，提升其算法推理能力。
他們最

原文鏈接：拯救Transformer推理能力！DeepMind新研究TransNAR：給模型嵌入「算法推理大腦」