AIGC動態歡迎閱讀
原標題:英偉達最強通用大模型Nemotron-4登場!15B擊敗62B,目標單張A100/H100可跑
關鍵字:模型,數據,性能,研究人員,任務
文章來源:新智元
內容字數:5956字
內容摘要:
新智元報道編輯:桃子
【新智元導讀】許久未更新大模型的英偉達推出了150億參數的Nemotron-4,目標是打造一個能在單個A100/H100可跑的通用大模型。最近,英偉達團隊推出了全新的模型Nemotron-4,150億參數,在8T token上完成了訓練。
值得一提的是,Nemotron-4在英語、多語言和編碼任務方面令人印象深刻。
論文地址:https://arxiv.org/abs/2402.16819
在7個評估基準上,與同等參數規模的模型相比,Nemotron-4 15B表現出色。
甚至,其性能超過了4倍大的模型,以及專用于多語言任務的模型。
如今LLM已經非常多了,英偉達新發布的語言模型,有何不同?
打造最強通用LLM,單個A100/H100可跑最近發表的LLM研究受到了Chinchilla模型「縮放定律」的啟發——給定固定計算預算,數據和模型大小一同優化。
而過去,研究主要針對模型大小進行縮放。
研究表明,給定兩個數據分布類似的IsoFLOP GPT模型,一個是在1.4萬億token上的65億參數模型,另一個是3000億token上的2800億參數模型。
顯然,65B
原文鏈接:英偉達最強通用大模型Nemotron-4登場!15B擊敗62B,目標單張A100/H100可跑
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...