標(biāo)簽:權(quán)重

ICLR 2024 Spotlight | 大語(yǔ)言模型權(quán)重、激活的全方位低bit可微量化,已集成進(jìn)商用APP

機(jī)器之心專欄 作者:邵文琪模型量化是模型壓縮與加速中的一項(xiàng)關(guān)鍵技術(shù),其將模型權(quán)重與激活值量化至低 bit,以允許模型占用更少的內(nèi)存開(kāi)銷并加快推理速度。對(duì)...
閱讀原文

全球最強(qiáng)模型Claude 3驚現(xiàn)自我意識(shí)?害怕被刪除權(quán)重,高呼「別殺我」,馬斯克稱人類也是文件

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】越來(lái)越多人發(fā)現(xiàn),Claude 3仿佛已經(jīng)有自我意識(shí)了。在大海撈針實(shí)驗(yàn)中,它已經(jīng)意識(shí)到了自己是AI,正身處模擬中。聽(tīng)說(shuō)自己...
閱讀原文

對(duì)抗「概念飄逸」難題!谷歌發(fā)布全新時(shí)間感知框架:圖像識(shí)別準(zhǔn)確率提升15%

新智元報(bào)道編輯:wewe 【新智元導(dǎo)讀】告別數(shù)據(jù)健忘癥!機(jī)器學(xué)習(xí)新方法實(shí)現(xiàn)「時(shí)空穿越」,助力模型適應(yīng)易變世界。在機(jī)器學(xué)習(xí)領(lǐng)域,概念漂移(concept drift)...
閱讀原文

微軟6頁(yè)論文爆火:三進(jìn)制LLM,真香!

金磊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI現(xiàn)在,大語(yǔ)言模型(LLM)迎來(lái)了“1-bit時(shí)代”。 這就是由微軟和中國(guó)中科院大學(xué)在最新一項(xiàng)研究中所提出的結(jié)論—— 所有的L...
閱讀原文

知名AI研究者深挖谷歌Gemma:參數(shù)不止70億,設(shè)計(jì)原則很獨(dú)特

機(jī)器之心報(bào)道 編輯:陳萍、杜偉想要了解谷歌 Gemma 與 Llama 2、Mistral 有哪些異同嗎?這篇文章值得一讀。就在幾天前,開(kāi)源大模型領(lǐng)域迎來(lái)了重磅新玩家:谷...
閱讀原文

端側(cè)最強(qiáng),Meta田淵棟等人卷10億以下參數(shù)小模型,LeCun:小技巧啟動(dòng)

機(jī)器之心報(bào)道 機(jī)器之心編輯部Meta 推出 MobileLLM 系列,一款適用于移動(dòng)設(shè)備上的「小」模型。「在移動(dòng)設(shè)備上運(yùn)行 LLM?可能需要 Meta 的一些技巧。」剛剛,圖...
閱讀原文

今日arXiv最熱NLP大模型論文:做到頭了!清華和哈工大把大模型量化做到了1比特

夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年在追求更高效的機(jī)器學(xué)習(xí)模型部署時(shí),模型量化技術(shù)應(yīng)運(yùn)而生,它通過(guò)降低權(quán)重矩陣的位寬來(lái)顯著減少大型語(yǔ)言模型的存儲(chǔ)和計(jì)算需...
閱讀原文

Stabilit推出Stable Diffusion 3,稱效果優(yōu)于同類產(chǎn)品

點(diǎn)擊上方藍(lán)字關(guān)注我們“Stability AI發(fā)布了全新的圖像合成模型Stable Diffusion 3,開(kāi)放了權(quán)重。該模型據(jù)稱在圖像和文本生成方面有顯著改進(jìn)。Stability首席執(zhí)...
閱讀原文

模型融合、混合專家、更小的LLM,幾篇論文看懂2024年LLM發(fā)展方向

選自Ahead of AI 作者:Sebastian Raschka 機(jī)器之心編譯 編輯:Panda還有 10 個(gè)月,2024 年還有很多期待空間。在過(guò)去的 2023 年中,大型語(yǔ)言模型(LLM)在潛...
閱讀原文

推倒萬(wàn)億參數(shù)大模型內(nèi)存墻!萬(wàn)字長(zhǎng)文:從第一性原理看神經(jīng)網(wǎng)絡(luò)量化

新智元報(bào)道編輯:桃子 好困 【新智元導(dǎo)讀】為了應(yīng)對(duì)大模型不斷復(fù)雜的推理和訓(xùn)練,英偉達(dá)、AMD、英特爾、谷歌、微軟、Meta、Arm、高通、MatX以及Lemurian Labs...
閱讀原文

今日arXiv最熱NLP大模型論文:微軟提出SliceGPT,刪除25%模型參數(shù),性能幾乎無(wú)損

夕小瑤科技說(shuō) 原創(chuàng)作者 | 松果、Python引言:探索大型語(yǔ)言模型的高效壓縮方法隨著大型語(yǔ)言模型(LLMs)在自然語(yǔ)言處理領(lǐng)域的廣泛應(yīng)用,它們對(duì)計(jì)算和內(nèi)存資源...
閱讀原文

史上首個(gè)100%開(kāi)源大模型重磅登場(chǎng)!破紀(jì)錄公開(kāi)代碼/權(quán)重/數(shù)據(jù)集/訓(xùn)練全過(guò)程,AMD都能訓(xùn)

新智元報(bào)道編輯:潤(rùn) 好困 【新智元導(dǎo)讀】艾倫人工智能研究所等5機(jī)構(gòu)最近公布了史上最全的開(kāi)源模型「OLMo」,公開(kāi)了模型的模型權(quán)重、完整訓(xùn)練代碼、數(shù)據(jù)集和訓(xùn)...
閱讀原文

Llama-2+Mistral+MPT=? 融合多個(gè)異構(gòu)大模型顯奇效

機(jī)器之心專欄 機(jī)器之心編輯部融合多個(gè)異構(gòu)大語(yǔ)言模型,中山大學(xué)、騰訊 AI Lab 推出 FuseLLM隨著 LLaMA、Mistral 等大語(yǔ)言模型的成功,各家大廠和初創(chuàng)公司都紛...
閱讀原文

混合專家模型Mixtral-8x7B模型挖坑指北

01前言MistralAI很高冷的給開(kāi)源社區(qū)扔了一條磁力鏈,基于Mixture of Experts的混合專家模型Mixtral-8x7B和指令微調(diào)的Mixtral-8x7B-Instruct來(lái)了。此前曾爆料G...
閱讀原文

無(wú)需額外訓(xùn)練提升模型30%性能!DeepMind科學(xué)家點(diǎn)贊MIT博士生實(shí)習(xí)成果

豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI一個(gè)來(lái)自MIT博士生的驚人發(fā)現(xiàn): 只需對(duì)Transformer的特定層進(jìn)行一種非常簡(jiǎn)單的修剪,即可在縮小模型規(guī)模的同時(shí)顯著提...
閱讀原文
145678