AIGC動態歡迎閱讀
原標題:CPU推理提升4到5倍,蘋果用閃存加速大模型推理,Siri 2.0要來了?
關鍵字:閃存,模型,加載,數據,神經元
文章來源:機器之心
內容字數:7396字
內容摘要:
機器之心報道
編輯:杜偉、蛋醬蘋果這項新工作將為未來 iPhone 加入大模型的能力帶來無限想象力。近年來,GPT-3、OPT 和 PaLM 等大型語言模型(LLM)在廣泛的 NLP 任務中表現出了強大的性能。不過,這些能力伴隨著大量計算和內存推理需求,畢竟大型語言模型可能包含數千億甚至萬億參數,使得高效加載和運行變得有挑戰性,尤其是在資源有限的設備上。
當前標準的應對方案是將整個模型加載到 DRAM 中進行推理,然而這種做法嚴重限制了可以運行的最大模型尺寸。舉個例子,70 億參數的模型需要 14GB 以上的內存才能加載半精度浮點格式的參數,這超出了大多數邊緣設備的能力。
為了解決這種局限性,蘋果的研究者提出在閃存中存儲模型參數,至少比 DRAM 大了一個數量級。接著在推理中,他們直接并巧妙地從閃存加載所需參數,不再需要將整個模型擬合到 DRAM 中。
這種方法基于最近的工作構建,這些工作表明 LLM 在前饋網絡(FFN)層中表現出高度稀疏性,其中 OPT、Falcon 等模型的稀疏性更是超過 90%。因此,研究者利用這種稀疏性, 有選擇地僅從閃存中加載具有非零輸入或預測具有非零輸出的
原文鏈接:CPU推理提升4到5倍,蘋果用閃存加速大模型推理,Siri 2.0要來了?
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...