6700萬參數(shù)比肩萬億巨獸GPT-4!微軟MIT等聯(lián)手Transformer推理密碼
AIGC動態(tài)歡迎閱讀
原標(biāo)題:6700萬參數(shù)比肩萬億巨獸GPT-4!微軟MIT等聯(lián)手Transformer推理密碼
關(guān)鍵字:模型,因果,公理,節(jié)點,數(shù)據(jù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:桃子 喬楊
【新智元導(dǎo)讀】來自微軟、MIT等機(jī)構(gòu)的學(xué)者提出了一種創(chuàng)新的訓(xùn)練范式,攻破了大模型的推理缺陷。他們通過因果模型構(gòu)建數(shù)據(jù)集,直接教模型學(xué)習(xí)公理,結(jié)果只有67M參數(shù)的微型Transformer竟能媲美GPT-4的推理能力。「因果推理」絕對是當(dāng)前GenAI熱潮下的小眾領(lǐng)域,但是它有一個大佬級的堅定支持者——Yann LeCun。
他在上的日常操作之一,就是炮轟Sora等生成模型,并為自己堅信的因果推理領(lǐng)域搖旗吶喊。
甚至,早在2019年VentureBeat的采訪中,他就表達(dá)過這一觀點:我們需要在深度學(xué)習(xí)模型中引入的因果關(guān)系,才能增強(qiáng)泛化能力,減少訓(xùn)練數(shù)據(jù)使用。
對于當(dāng)前最流行的模型架構(gòu)Transformer,我們能教它因果推理嗎?
最近,來自微軟MIT等機(jī)構(gòu)的研究人員提出了一種訓(xùn)練大模型新范式——公理框架(Axiomatic Framework)。
論文中,作者從頭開始訓(xùn)練了6700萬參數(shù)的模型,僅使用了簡單的因果鏈作為訓(xùn)練數(shù)據(jù)。
令人驚訝的是,在推斷復(fù)雜圖表中的因果關(guān)系時,67M模型的表現(xiàn)超越了十億級參數(shù)LLM,甚至可以與GPT-4相媲美。
論文地址:
原文鏈接:6700萬參數(shù)比肩萬億巨獸GPT-4!微軟MIT等聯(lián)手Transformer推理密碼
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。