明確了:文本數(shù)據(jù)中加點(diǎn)代碼,訓(xùn)練出的大模型更強(qiáng)、更通用
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:明確了:文本數(shù)據(jù)中加點(diǎn)代碼,訓(xùn)練出的大模型更強(qiáng)、更通用
關(guān)鍵字:代碼,數(shù)據(jù),模型,性能,研究者
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部代碼知識(shí)原來這么重要。如今說起大語言模型(LLM),寫代碼能力恐怕是「君子六藝」必不可少的一項(xiàng)。
在預(yù)訓(xùn)練數(shù)據(jù)集中包含代碼,即使對(duì)于并非專門為代碼設(shè)計(jì)的大模型來說,也已是必不可少的事。雖然從業(yè)者們普遍認(rèn)為代碼數(shù)據(jù)在通用 LLM 的性能中起著至關(guān)重要的作用,但分析代碼對(duì)非代碼任務(wù)的精確影響的工作卻非常有限。
在最近由 Cohere 等機(jī)構(gòu)提交的一項(xiàng)工作中,研究者系統(tǒng)地研究了代碼數(shù)據(jù)對(duì)通用大模型性能的影響。論文鏈接:https://arxiv.org/abs/2408.10914
設(shè)問「預(yù)訓(xùn)練中使用的代碼數(shù)據(jù)對(duì)代碼生成以外的各種下游任務(wù)有何影響」。作者對(duì)范圍廣泛的自然語言推理任務(wù)、世界知識(shí)任務(wù)、代碼基準(zhǔn)和 LLM-as-a-judge 勝率進(jìn)行了廣泛的消融和評(píng)估,模型的參數(shù)大小從 4.7 億到 2.8 億個(gè)參數(shù)不等。
在各種配置中,我們可以看到存在一致的結(jié)果:代碼是泛化的關(guān)鍵模塊,遠(yuǎn)遠(yuǎn)超出了編碼任務(wù)的范圍,并且代碼質(zhì)量的改進(jìn)對(duì)所有任務(wù)都有巨大影響。預(yù)訓(xùn)練期間投資代碼質(zhì)量和保留代碼數(shù)據(jù),可以產(chǎn)生積極影響。
這里有幾個(gè)因素很重要,包括確保代碼比例正確、通過包含合成代
原文鏈接:明確了:文本數(shù)據(jù)中加點(diǎn)代碼,訓(xùn)練出的大模型更強(qiáng)、更通用
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: