英偉達最強通用大模型Nemotron-4登場！15B擊敗62B，目標單張A100/H100可跑

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：英偉達最強通用大模型Nemotron-4登場！15B擊敗62B，目標單張A100/H100可跑
關鍵字：模型,數據,性能,研究人員,任務
文章來源：新智元
內容字數：5956字

內容摘要：

新智元報道編輯：桃子
【新智元導讀】許久未更新大模型的英偉達推出了150億參數的Nemotron-4，目標是打造一個能在單個A100/H100可跑的通用大模型。最近，英偉達團隊推出了全新的模型Nemotron-4，150億參數，在8T token上完成了訓練。
值得一提的是，Nemotron-4在英語、多語言和編碼任務方面令人印象深刻。
論文地址：https://arxiv.org/abs/2402.16819
在7個評估基準上，與同等參數規模的模型相比，Nemotron-4 15B表現出色。
甚至，其性能超過了4倍大的模型，以及專用于多語言任務的模型。
如今LLM已經非常多了，英偉達新發布的語言模型，有何不同？
打造最強通用LLM，單個A100/H100可跑最近發表的LLM研究受到了Chinchilla模型「縮放定律」的啟發——給定固定計算預算，數據和模型大小一同優化。
而過去，研究主要針對模型大小進行縮放。
研究表明，給定兩個數據分布類似的IsoFLOP GPT模型，一個是在1.4萬億token上的65億參數模型，另一個是3000億token上的2800億參數模型。
顯然，65B

原文鏈接：英偉達最強通用大模型Nemotron-4登場！15B擊敗62B，目標單張A100/H100可跑