AIGC動態歡迎閱讀
動態標題:蘋果芯跑大模型不用降計算精度,投機采樣殺瘋了,GPT-4也在用
文章來源:量子位
內容字數:3579字
內容摘要:夢晨 發自 凹非寺量子位 | 公眾號 QbitAI專攻代碼的Code Llama一出,大家伙都盼著誰來后續量化瘦身一下,好在本地也能運行。果然是llama.cpp作者Georgi Gerganov出手了,但他這回不按套路出牌:不量化,就用FP16精度也讓34B的Code LLama跑在蘋果電腦上,推理速度超過每秒20個token。原本需要4個高端GPU才能搞定的活現在用只有800GB/s帶寬的M2…
原文鏈接:點此閱讀原文:蘋果芯跑大模型不用降計算精度,投機采樣殺瘋了,GPT-4也在用
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...