<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        CPU推理提升4到5倍,蘋果用閃存加速大模型推理,Siri 2.0要來了?

        AIGC動態(tài)1年前 (2023)發(fā)布 機器之心
        556 0 0

        CPU推理提升4到5倍,蘋果用閃存加速大模型推理,Siri 2.0要來了?

        AIGC動態(tài)歡迎閱讀

        原標(biāo)題:CPU推理提升4到5倍,蘋果用閃存加速大模型推理,Siri 2.0要來了?
        關(guān)鍵字:閃存,模型,加載,數(shù)據(jù),神經(jīng)元
        文章來源:機器之心
        內(nèi)容字?jǐn)?shù):7396字

        內(nèi)容摘要:


        機器之心報道
        編輯:杜偉、蛋醬蘋果這項新工作將為未來 iPhone 加入大模型的能力帶來無限想象力。近年來,GPT-3、OPT 和 PaLM 等大型語言模型(LLM)在廣泛的 NLP 任務(wù)中表現(xiàn)出了強大的性能。不過,這些能力伴隨著大量計算和內(nèi)存推理需求,畢竟大型語言模型可能包含數(shù)千億甚至萬億參數(shù),使得高效加載和運行變得有挑戰(zhàn)性,尤其是在資源有限的設(shè)備上。
        當(dāng)前標(biāo)準(zhǔn)的應(yīng)對方案是將整個模型加載到 DRAM 中進(jìn)行推理,然而這種做法嚴(yán)重限制了可以運行的最大模型尺寸。舉個例子,70 億參數(shù)的模型需要 14GB 以上的內(nèi)存才能加載半精度浮點格式的參數(shù),這超出了大多數(shù)邊緣設(shè)備的能力。
        為了解決這種局限性,蘋果的研究者提出在閃存中存儲模型參數(shù),至少比 DRAM 大了一個數(shù)量級。接著在推理中,他們直接并巧妙地從閃存加載所需參數(shù),不再需要將整個模型擬合到 DRAM 中。
        這種方法基于最近的工作構(gòu)建,這些工作表明 LLM 在前饋網(wǎng)絡(luò)(FFN)層中表現(xiàn)出高度稀疏性,其中 OPT、Falcon 等模型的稀疏性更是超過 90%。因此,研究者利用這種稀疏性, 有選擇地僅從閃存中加載具有非零輸入或預(yù)測具有非零輸出的


        原文鏈接:CPU推理提升4到5倍,蘋果用閃存加速大模型推理,Siri 2.0要來了?

        聯(lián)系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品国产自在久久| 免费毛片a在线观看67194| 深夜国产福利99亚洲视频| 亚洲爆乳精品无码一区二区| 亚洲成人免费电影| 亚洲一级毛片免费看| 在线看免费观看AV深夜影院| 亚洲精品自在线拍| 最近免费中文在线视频| 亚洲欧洲久久精品| 最近免费中文字幕视频高清在线看| 亚洲国产综合自在线另类| 久草视频免费在线| 在线亚洲午夜片AV大片| 在线精品免费视频| 老妇激情毛片免费| 亚洲国产一区二区三区| 日本高清不卡aⅴ免费网站| 亚洲阿v天堂在线| 最近免费中文字幕高清大全| 亚洲免费视频观看| 国产极品粉嫩泬免费观看| 一级毛片免费在线| 久久狠狠高潮亚洲精品| 久久精品亚洲综合| 91大神在线免费观看| 亚洲中文无码亚洲人成影院| 国产一级大片免费看| 亚洲AV无码久久久久网站蜜桃| 成人毛片18女人毛片免费| 无码人妻一区二区三区免费视频| 久久国内免费视频| 男女作爱免费网站| 亚洲av激情无码专区在线播放| 国产无人区码卡二卡三卡免费| 美女被艹免费视频| 亚洲一区二区三区四区在线观看| 无码高潮少妇毛多水多水免费| 国产成人无码精品久久久久免费| 国产在线19禁免费观看| 中国一级毛片免费看视频|