AIGC動態歡迎閱讀
原標題:抱抱臉Open了OpenAI的秘密武器,網易參與復現
關鍵字:模型,騰訊,研究人員,人類,數據
文章來源:量子位
內容字數:7470字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI的秘密武器、ChatGPT背后功臣RLHF,被開源了。
來自Hugging Face、加拿大蒙特利爾Mila研究所、網易伏羲AI Lab的研究人員從零開始復現了OpenAI的RLHF pipeline,羅列了25個關鍵實施細節。
最終成功展示了隨著模型大小的增加,響應質量顯著提升的scaling行為,其中2.8B、6.9B的Pythia模型在性能上超過了OpenAI發布的1.3B checkpoint。
沒有寫在論文中,但被作者在推文中po出來的,還有一個初步的Pythia 1.4B實驗,根據GPT-4的數據顯示,這個1.4B模型非常接近OpenAI的1.3B性能(由于GPT4成本過高,只進行了一次評估)。
研究人員表示,他們的這一“配方”的獨特之處在于對SFT、RM和PPO使用了單一的學習率,所以再重現他們的工作會變得更加簡單。
作者已公開發布了訓練好的模型checkpoint和代碼。
順便一提,Huggingface最近上了一把新聞,抱抱臉現在是正式譯名了:
寫在前頭大語言模型的功能實質上就是在玩“詞語接龍”——以給定的
原文鏈接:抱抱臉Open了OpenAI的秘密武器,網易參與復現
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...