標(biāo)簽:模型壓縮

AAAI 2025 | 大模型推理加速新范式:加速比高達(dá)3.51倍、成本降至1/3

翼支付全新「增強(qiáng)半自回歸投機(jī)解碼框架」。
閱讀原文

開源推理模型阿里Marco-o1技術(shù)細(xì)節(jié)全面解讀

OpenAI O1模型引發(fā)業(yè)界對(duì)大規(guī)模推理模型(large reasoning models ,LRM)研究的熱潮。前文評(píng)測(cè)結(jié)果顯示開源的Marco-o1效果不錯(cuò),甚至超越部分閉源產(chǎn)品。今天這...
閱讀原文

談?wù)凞eepSeek-v3提到的基礎(chǔ)設(shè)施演進(jìn)

DeepSeek-v3將算法與基礎(chǔ)設(shè)施融合,推動(dòng)硬件架構(gòu)創(chuàng)新。
閱讀原文

低精度只適用于未充分訓(xùn)練的LLM?騰訊提出LLM量化的scaling laws

本文介紹了一套針對(duì)于低比特量化的 scaling laws。
閱讀原文

什么是模型量化(Model Quantization)

模型量化(Model Quantization)是深度學(xué)習(xí)模型優(yōu)化中的一項(xiàng)關(guān)鍵技術(shù),它通過(guò)減少模型參數(shù)的位寬來(lái)降低模型的存儲(chǔ)和計(jì)算需求,從而提高模型在各種硬件平臺(tái)上...
閱讀原文

突破極限:LLM能力密度驚人翻倍的Densing法則揭秘

大模型不僅有Scaling Law,還有Densing Law
閱讀原文

突破12%計(jì)算量限制:YOPO剪枝技術(shù)讓模型性能大幅提升!

研究團(tuán)隊(duì)針對(duì)剪枝多模態(tài)大模型以實(shí)現(xiàn)高效計(jì)算的挑戰(zhàn)進(jìn)行了研究。
閱讀原文
12