讓記憶層超越概念驗證。
原標題:Meta探索大模型記憶層,擴展至1280億個參數,優于MoE
文章來源:機器之心
內容字數:3544字
Meta 突破性研究:大規模語言模型中的記憶層
Meta 的一項最新研究顯著提升了大型語言模型 (LLM) 的性能,其核心在于引入了可擴展的記憶層。這項研究證明了記憶層在 LLM 擴展中的實用性,并超越了以往的概念驗證階段。
1. 記憶層的優勢與工作原理
傳統的密集深度神經網絡將信息編碼為權重矩陣,參數規模的擴張直接導致計算和能源消耗的增加。而記憶層則提供了一種更高效的方案。它使用可訓練的鍵值查找機制,在不增加 FLOP 的情況下向模型添加額外的參數。記憶層以稀疏激活的方式補充密集前饋層,實現廉價的存儲和信息檢索。其工作原理類似于注意力機制,但鍵值對是可訓練參數,且規模更大,需要稀疏查詢和更新。
2. 擴展記憶層的挑戰與解決方案
擴展記憶層面臨著“查詢-鍵”檢索機制的瓶頸。簡單的最近鄰搜索在大型記憶中效率低下。該研究采用可訓練的“product-quantized”鍵來解決此問題。為了應對記憶密集型的問題,研究人員在多個 GPU 上并行化嵌入查找和聚合,并采用共享記憶參數池,最大化參數共享。
3. 記憶層的改進與訓練
研究人員通過引入具有 silu 非線性的輸入相關門控來提高記憶層的訓練性能,從而改進輸出結果。這種改進的記憶層被稱為 Memory+。
4. 實驗結果與性能提升
實驗結果表明,Memory 模型顯著優于密集基線模型,其性能與參數數量為其兩倍的密集模型相當。Memory+ 模型的性能進一步提升,甚至超過了計算能力高出其 2 到 4 倍的密集模型。與參數數量相當的專家混合 (MoE) 模型相比,Memory 變體也展現出顯著優勢。在相同參數數量下,Memory+ 模型的性能隨著記憶大小的增加而持續提升。一個擁有 6400 萬個鍵(1280 億個記憶參數)的 1.3B Memory 模型,其性能甚至接近使用了 10 倍以上 FLOPs 的 Llama2 7B 模型。
5. 結論
Meta 的這項研究表明,經過充分改進和擴展的記憶層可以有效增強密集神經網絡,帶來巨大的性能提升。這項技術在不同規模的模型中都展現出一致的優勢,為大型語言模型的未來發展提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺