AIGC動態歡迎閱讀
原標題:華為改進Transformer架構!盤古-π解決特征缺陷問題,同規模性能超LLaMA
關鍵字:華為,盤古,模型,架構,諾亞方舟
文章來源:量子位
內容字數:3135字
內容摘要:
明敏 發自 凹非寺量子位 | 公眾號 QbitAI華為盤古系列,帶來架構層面上新!
量子位獲悉,華為諾亞方舟實驗室等聯合推出新型大語言模型架構:盤古-π。
它通過增強非線性,在傳統Transformer架構上做出改進,由此可以顯著降低特征塌陷問題。
帶來的直接效果就是模型輸出表達能力更強。
在使用相同數據訓練的情況下,盤古-π(7B)在多任務上超越LLaMA 2等同規模大模型,并能實現10%的推理加速。
在1B規模上可達SOTA。
同時還基于這一架構煉出了一個金融法律大模型“云山”。
該工作由AI大牛陶大程領銜。
具體如何實現?一起來看。
利用非線性解決特征塌陷目前常見大模型基本都采用Transformer架構,比如GPT、LLaMA等。
它的核心構成包括多頭自注意力機制(MSA)和前饋網絡(FFN)。
MSA的主要功能是計算輸入序列中每個token和其他所有token之間的相關性,通過學習輸入序列中的依賴關系,可以增強對語言的理解能力。FFN主要對輸入進行非線性轉換,增強模型表達能力,使其可以逼近更復雜的函數。
不過,華為諾亞方舟實驗室發現,特征崩潰(feature collapse
原文鏈接:華為改進Transformer架構!盤古-π解決特征缺陷問題,同規模性能超LLaMA
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...