70B大模型訓(xùn)練秘方① :數(shù)據(jù)集創(chuàng)建與評估
AIGC動態(tài)歡迎閱讀
原標題:70B大模型訓(xùn)練秘方① :數(shù)據(jù)集創(chuàng)建與評估
關(guān)鍵字:模型,數(shù)據(jù),問題,質(zhì)量,報告
文章來源:智猩猩GenAI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
今年6月,大模型公司Imbue預(yù)訓(xùn)練了一個70B參數(shù)的模型,并在多選推理基準上進行了微調(diào)。在這些基準上,Imbue微調(diào)的模型超越了GPT-4o zero-shot表現(xiàn)(該模型未在這些基準上進行微調(diào))。Imbue的微調(diào)模型,基于2萬億個Token進行預(yù)訓(xùn)練,其性能也接近于在超過7倍數(shù)據(jù)量上預(yù)訓(xùn)練的Llama3 70B微調(diào)模型的性能。
由于他們在沒有使用思維鏈的情況下評估了GPT-4o zero-shot的性能,因此上文指出的性能表現(xiàn)并不代表它在這些數(shù)據(jù)集上能達到的最佳成績。然而,這是與微調(diào)后的70B模型評估最直接的對比,這些評估同樣不包括思維鏈。
通過使用他們提出的超參數(shù)優(yōu)化器CARBS,他們在首次嘗試時將該系統(tǒng)規(guī)模擴展到70B參數(shù),同時保持訓(xùn)練過程中的最小不穩(wěn)定性,并未出現(xiàn)損失激增的情況。這涉及到訓(xùn)練數(shù)千個密集型Transformer模型,具有分組查詢注意力、SwiGLU激活、RMS歸一化和自定義詞元分詞器,并在一系列較小規(guī)模的范圍內(nèi)訓(xùn)練。
為了方便其他團隊進行訓(xùn)練、擴展和評估針對各自研究和產(chǎn)品目標的模型,他們正在發(fā)布促進這項工作的工具。
本文中,他們要分享的是用于模型評估的數(shù)據(jù)集,包
原文鏈接:70B大模型訓(xùn)練秘方① :數(shù)據(jù)集創(chuàng)建與評估
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: