蘋果極致LLM端側(cè)方案：LLM in a flash

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：蘋果極致LLM端側(cè)方案：LLM in a flash
關(guān)鍵字：神經(jīng)元,參數(shù),知乎,侵權(quán),加載
文章來源：算法邦
內(nèi)容字?jǐn)?shù)：11197字

內(nèi)容摘要：

700個(gè)開發(fā)硬件免費(fèi)申請(qǐng)?現(xiàn)金大獎(jiǎng)！生成式 AI、機(jī)器人 AI、PC AI 三大賽道！AMD Pervasive AI 開發(fā)者挑戰(zhàn)賽報(bào)名火熱進(jìn)行中，掃碼了解詳情并報(bào)名～導(dǎo)讀本文是知乎作者Civ對(duì)蘋果端側(cè)方案：LLM in a flash工作的整理總結(jié)，文內(nèi)主要介紹了蘋果如何從三個(gè)不同方面，利用閃存來解決大模型塞進(jìn)手機(jī)時(shí)遇到的內(nèi)存不足的問題。
原文地址：
https://zhuanlan.zhihu.com/p/673775476
本文只做學(xué)術(shù)分享，如有侵權(quán)，聯(lián)系刪文。端側(cè)LLM毫無疑問會(huì)成為各手機(jī)廠商在2024年的主戰(zhàn)場(chǎng)。從國內(nèi)各手機(jī)廠透露的信息來看，大家?guī)缀醵及严Ｍ耐性诹诵酒瑥S身上，自身能做的、會(huì)做的工作太少。希望蘋果的工作對(duì)國內(nèi)廠商們有啟發(fā)、借鑒意義。
論文鏈接：LLM in a flash: Efficient Large Language Model Inference with Limited Memory
01Flash Memory and DRAM在移動(dòng)端設(shè)備中（如手機(jī)），DRAM可理解為“運(yùn)行時(shí)內(nèi)存”，F(xiàn)lash Memory可理解為“存儲(chǔ)空間”。做一個(gè)簡(jiǎn)單的類比，

原文鏈接：蘋果極致LLM端側(cè)方案：LLM in a flash