標簽:張量
基于LLaMA卻改張量名,李開復公司大模型引爭議,官方回應來了
機器之心報道機器之心編輯部有研究者發現,李開復「零一萬物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架構,只是重命名了兩個張量。對此,「零一萬物」給出...
用FP8訓練大模型有多香?微軟:比BF16快64%,省42%內存
機器之心報道編輯:Panda低精度訓練是大模型訓練中擴展模型大小,節約訓練成本的最關鍵技術之一。相比于當前的 16 位和 32 位浮點混合精度訓練,使用 FP8 8 ...
蘋果創新大模型壓縮技術,大模型有機會塞進手機里了
機器之心報道編輯:趙陽大模型的內容安全問題使得人們希望可以在終端設備上完成模型訓練及運行。對于手機來說,大模型的權重數據顯得尤為龐大。大型語言模型...
LLaMA微調顯存需求減半,清華提出4比特優化器
機器之心專欄作者:李炳睿大模型的訓練和微調對顯存要求很高,優化器狀態是顯存主要開銷之一。近日,清華大學朱軍、陳鍵飛團隊提出了用于神經網絡訓練的 4 比...