6700萬參數比肩萬億巨獸GPT-4！微軟MIT等聯手Transformer推理密碼

6700萬參數比肩萬億巨獸GPT-4！微軟MIT等聯手破解Transformer推理密碼

AIGC動態歡迎閱讀

原標題：6700萬參數比肩萬億巨獸GPT-4！微軟MIT等聯手Transformer推理密碼
關鍵字：模型,因果,公理,節點,數據
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：桃子喬楊
【新智元導讀】來自微軟、MIT等機構的學者提出了一種創新的訓練范式，攻破了大模型的推理缺陷。他們通過因果模型構建數據集，直接教模型學習公理，結果只有67M參數的微型Transformer竟能媲美GPT-4的推理能力。「因果推理」絕對是當前GenAI熱潮下的小眾領域，但是它有一個大佬級的堅定支持者——Yann LeCun。
他在上的日常操作之一，就是炮轟Sora等生成模型，并為自己堅信的因果推理領域搖旗吶喊。
甚至，早在2019年VentureBeat的采訪中，他就表達過這一觀點：我們需要在深度學習模型中引入的因果關系，才能增強泛化能力，減少訓練數據使用。
對于當前最流行的模型架構Transformer，我們能教它因果推理嗎？
最近，來自微軟MIT等機構的研究人員提出了一種訓練大模型新范式——公理框架（Axiomatic Framework）。
論文中，作者從頭開始訓練了6700萬參數的模型，僅使用了簡單的因果鏈作為訓練數據。
令人驚訝的是，在推斷復雜圖表中的因果關系時，67M模型的表現超越了十億級參數LLM，甚至可以與GPT-4相媲美。
論文地址：

原文鏈接：6700萬參數比肩萬億巨獸GPT-4！微軟MIT等聯手Transformer推理密碼