從80個模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦
AIGC動態(tài)歡迎閱讀
原標(biāo)題:從80個模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦
關(guān)鍵字:模型,定律,能力,研究者,性能
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5549字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:小舟、陳萍在 AI 領(lǐng)域,擴(kuò)展定律(Scaling laws)是理解 LM 擴(kuò)展趨勢的強(qiáng)大工具,其為廣大研究者提供了一個準(zhǔn)則,該定律在理解語言模型的性能如何隨規(guī)模變化提供了一個重要指導(dǎo)。
但不幸的是,擴(kuò)展分析在許多基準(zhǔn)測試和后訓(xùn)練研究中并不常見,因?yàn)榇蠖鄶?shù)研究人員沒有計(jì)算資源來從頭開始構(gòu)建擴(kuò)展法則,并且開放模型的訓(xùn)練尺度太少,無法進(jìn)行可靠的擴(kuò)展預(yù)測。
來自斯坦福大學(xué)、多倫多大學(xué)等機(jī)構(gòu)的研究者提出了一種替代觀察法:可觀察的擴(kuò)展定律(Observational Scaling Laws),其將語言模型 (LM) 的功能與跨多個模型系列的下游性能聯(lián)系起來,而不是像標(biāo)準(zhǔn)計(jì)算擴(kuò)展規(guī)律那樣僅在單個系列內(nèi)。
該方法繞過了模型訓(xùn)練,而是從基于大約 80 個公開可用的模型上建立擴(kuò)展定律。但這又引出了另一個問題,從多個模型族構(gòu)建單一擴(kuò)展定律面臨巨大的挑戰(zhàn),原因在于不同模型之間的訓(xùn)練計(jì)算效率和能力存在很大差異。
盡管如此,該研究表明,這些變化與一個簡單的、廣義的擴(kuò)展定律是一致的,在這個定律中,語言模型性能是低維能力空間(low-dimensional capability space)的
原文鏈接:從80個模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺