華為改進Transformer架構！盤古-π解決特征缺陷問題，同規模性能超LLaMA

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：華為改進Transformer架構！盤古-π解決特征缺陷問題，同規模性能超LLaMA
關鍵字：華為,盤古,模型,架構,諾亞方舟
文章來源：量子位
內容字數：3135字

內容摘要：

明敏發自凹非寺量子位 | 公眾號 QbitAI華為盤古系列，帶來架構層面上新！
量子位獲悉，華為諾亞方舟實驗室等聯合推出新型大語言模型架構：盤古-π。
它通過增強非線性，在傳統Transformer架構上做出改進，由此可以顯著降低特征塌陷問題。
帶來的直接效果就是模型輸出表達能力更強。
在使用相同數據訓練的情況下，盤古-π（7B）在多任務上超越LLaMA 2等同規模大模型，并能實現10%的推理加速。
在1B規模上可達SOTA。
同時還基于這一架構煉出了一個金融法律大模型“云山”。
該工作由AI大牛陶大程領銜。
具體如何實現？一起來看。
利用非線性解決特征塌陷目前常見大模型基本都采用Transformer架構，比如GPT、LLaMA等。
它的核心構成包括多頭自注意力機制（MSA）和前饋網絡（FFN）。
MSA的主要功能是計算輸入序列中每個token和其他所有token之間的相關性，通過學習輸入序列中的依賴關系，可以增強對語言的理解能力。FFN主要對輸入進行非線性轉換，增強模型表達能力，使其可以逼近更復雜的函數。
不過，華為諾亞方舟實驗室發現，特征崩潰（feature collapse

原文鏈接：華為改進Transformer架構！盤古-π解決特征缺陷問題，同規模性能超LLaMA