<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上

        AIGC動態6個月前發布 智猩猩GenAI
        417 0 0

        Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上

        AIGC動態歡迎閱讀

        原標題:Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上
        關鍵字:侵權,模型,適配器,數據,權重
        文章來源:智猩猩GenAI
        內容字數:0字

        內容摘要:


        文章轉載自公眾號:AIGC開放社區,本文只做學術/技術分享,如有侵權,聯系刪文。
        全球社交巨頭Meta開源了首個輕量級量化版模型Llama 3.2,一共有10億和30億兩種參數。
        為了使該模型能在手機、平板、筆記本等移動設備上部署使用,Meta使用了帶有LoRA適配器的量化感知訓練和SpinQuant進行了大幅度性能優化,平均減少了41%的內存使用、減少56%的模型規模,但推理效率卻提升了2—4倍。
        例如,在一加12手機上,Llama 3.2的解碼延遲平均提高了2.5倍,預填充延遲平均提高了4.2倍,而在三星的S24+、S22兩款手機同樣獲得了類似的數據。開源地址:https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
        在架構方面,Llama 3.2 1B和3B采用了標準的Transformer結構。但對所有變壓器塊中的線性層進行了特定的量化處理,采用4位組方式量化權重,并對激活進行8位每標記動態量化。
        分類層則量化為8位每通道的權重和8位每標記的動態激活量化,同時使用了8位每通道量


        原文鏈接:Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上

        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品私拍国产福利在线| 好看的亚洲黄色经典| 亚洲mv国产精品mv日本mv| 亚洲人成伊人成综合网久久久| 免费在线观看一区| 免费**毛片在线播放直播| 国产精品久久久久久亚洲小说| 在线免费观看视频你懂的| 亚洲欧美黑人猛交群| 精品剧情v国产在免费线观看 | 国产福利免费视频 | 亚洲福利精品一区二区三区| 香港经典a毛片免费观看看| 无码欧精品亚洲日韩一区夜夜嗨| 亚洲av无码专区亚洲av不卡| 亚洲高清无码在线观看| A级毛片高清免费视频在线播放| 亚洲av无码一区二区三区不卡| 99免费在线观看视频| 最新亚洲成av人免费看| 欧美亚洲国产SUV| 一本久到久久亚洲综合| 两个人看的www高清免费视频| 大胆亚洲人体视频| 中文字幕在线视频免费| 亚洲成人影院在线观看| 免费黄色电影在线观看| 亚洲国产精品综合久久久| 一级毛片aaaaaa免费看| 亚洲伊人久久精品| 亚洲成年看片在线观看| 久草福利资源网站免费| 亚洲成A人片在线播放器| 99久久久国产精品免费无卡顿| 亚洲AV无码国产一区二区三区 | 99久在线国内在线播放免费观看| 亚洲熟妇AV乱码在线观看| 一二三四影视在线看片免费 | 四虎亚洲国产成人久久精品| 久久免费美女视频| 亚洲另类无码专区首页|