AIGC動態歡迎閱讀
原標題:比Transformer更好,無Attention、MLPs的BERT、GPT反而更強了
文章來源:機器之心
內容字數:7436字
內容摘要:機器之心報道編輯:杜偉、澤南本文探索了 Monarch Mixer (M2) ,這是一種在序列長度和模型維度上都是次二次的新架構,并且在現代加速器上具有很高的硬件效率。從 BERT、GPT 和 Flan-T5 等語言模型到 SAM 和 Stable Diffusion 等圖像模型,Transformer 正以銳不可當之勢席卷這個世界,但人們也不禁會問:Transformer 是唯一選擇嗎?斯坦福大…
原文鏈接:點此閱讀原文:比Transformer更好,無Attention、MLPs的BERT、GPT反而更強了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...