手機流暢運行470億大模型：上交大發布LLM手機推理框架PowerInfer-2，提速29倍

AIGC動態歡迎閱讀

原標題：手機流暢運行470億大模型：上交大發布LLM手機推理框架PowerInfer-2，提速29倍
關鍵字：神經元,模型,手機,內存,權重
文章來源：量子位
內容字數：0字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAI蘋果一出手，在手機等移動設備上部署大模型不可避免地成為行業關注焦點。
然而，目前在移動設備上運行的模型相對較小（蘋果的是3B，谷歌的是2B），并且消耗大量內存，這在很大程度上限制了其應用場景。
即使是蘋果，目前也需要與OpenAI合作，通過將云端GPT-4o大模型嵌入到操作系統中來提供能力更強的服務。
這樣一來，蘋果的混合方案引起了非常多關于數據隱私的討論和爭議，甚至馬斯克都下場討論。
如果蘋果在操作系統層面集成OpenAI，那么蘋果設備將被禁止在我的公司使用。這是不可接受的安全違規行為。
既然終端側本地部署大模型的方案既讓手機用戶享受到AI強大的智能，又能保護好自己的隱私安全，為什么蘋果還要冒著隱私的風險選擇聯手OpenAI采用云端大模型呢？主要挑戰有兩點：
手機內存不夠大：按照大模型的Scaling Law法則，模型參數越大，能力對應的也就越強，這就意味著能力更強的模型對內存的要求越高。
手機算力不夠強：即使勉強把通過量化等手段把模型塞進手機了，推理速度也慢，適合的應用場景也就非常有限了。
為了解決上述挑戰，上海交大IPADS實

原文鏈接：手機流暢運行470億大模型：上交大發布LLM手機推理框架PowerInfer-2，提速29倍