AIGC動態歡迎閱讀
原標題:單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率
關鍵字:模型,加法,數字,作者,架構
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部乘法和排序也有效。
自 2017 年被提出以來,Transformer 已成為 AI 大模型的主流架構,一直穩站 C 位。
但所有研究者都不得不承認的是,Transformer 在算數任務中表現非常糟糕,尤其是加法,這一缺陷在很大程度上源于 Transformer 無法跟蹤大范圍數字中每個數字的確切位置。
為了解決這個問題,來自馬里蘭大學、CMU 等機構的研究者向這一問題發起了挑戰,他們通過在每個數字中添加一個嵌入來解決這個問題,該嵌入編碼數字相對于開頭的位置。該研究發現,只用一天時間在單個 GPU 上訓練 20 位數字,就可以達到最新的性能水平,100 位數字加法問題高達 99% 的準確率。論文地址:https://arxiv.org/pdf/2405.17399
項目地址:https://github.com/mcleish7/arithmetic
標題:Transformers Can Do Arithmetic with the Right Embeddings
具體而言,研究者建議對數據表示進行一個簡單的修改,就能解決這個缺點。他們提出了 Abac
原文鏈接:單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...