英偉達開源合成數據大模型：獎勵模型，超過GPT-4 Turbo

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：英偉達開源合成數據大模型：獎勵模型，超過GPT-4 Turbo
關鍵字：模型,數據,自然語言,高效,框架
文章來源：算法邦
內容字數：0字

內容摘要：

直播預告 | 6月18日上午10點，「智猩猩AI新青年講座」第240講正式開講，邀請到德州大學奧斯汀分校劉星超博士將直播講解《利用直線概率流加速Stable Diffusion的訓練推理》，歡迎掃名~6月15日，全球AI領導者英偉達（Nvidia）在官網開源了，專門用于生成合成數據的大模型Nemotron-4 340B。
開發人員通過該模型，可以快速生成醫療、金融、制造、營銷等不同領域的數據，用于預訓練和微調特定的大模型。
據悉，Nemotron-4 340B一共有基礎模型、獎勵模型和指導模型三個版本，支持RLHF（人類反饋強化學習）、LoRA（低序適配）、SFT（監督式微調）等主流高效微調方法。
其中，獎勵模型版本更是登上了huggingface的獎勵模型排行榜的第一名，擊敗了OpenAI的GPT-4 turo、谷歌的Gemini-1.5 Pro、Cohere的may等知名廠商的產品。
而指導模型在MMLU、GSM8K、MBPP等知名測試平臺的評估數據擊敗了Llama-3 70B、通義千問-2-72B、Claude-3-Sonnet等知名開/閉源模型，僅次于OpenAI的GPT-

原文鏈接：英偉達開源合成數據大模型：獎勵模型，超過GPT-4 Turbo