AIGC動態歡迎閱讀
原標題:明確了:文本數據中加點代碼,訓練出的大模型更強、更通用
關鍵字:代碼,數據,模型,性能,研究者
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部代碼知識原來這么重要。如今說起大語言模型(LLM),寫代碼能力恐怕是「君子六藝」必不可少的一項。
在預訓練數據集中包含代碼,即使對于并非專門為代碼設計的大模型來說,也已是必不可少的事。雖然從業者們普遍認為代碼數據在通用 LLM 的性能中起著至關重要的作用,但分析代碼對非代碼任務的精確影響的工作卻非常有限。
在最近由 Cohere 等機構提交的一項工作中,研究者系統地研究了代碼數據對通用大模型性能的影響。論文鏈接:https://arxiv.org/abs/2408.10914
設問「預訓練中使用的代碼數據對代碼生成以外的各種下游任務有何影響」。作者對范圍廣泛的自然語言推理任務、世界知識任務、代碼基準和 LLM-as-a-judge 勝率進行了廣泛的消融和評估,模型的參數大小從 4.7 億到 2.8 億個參數不等。
在各種配置中,我們可以看到存在一致的結果:代碼是泛化的關鍵模塊,遠遠超出了編碼任務的范圍,并且代碼質量的改進對所有任務都有巨大影響。預訓練期間投資代碼質量和保留代碼數據,可以產生積極影響。
這里有幾個因素很重要,包括確保代碼比例正確、通過包含合成代
原文鏈接:明確了:文本數據中加點代碼,訓練出的大模型更強、更通用
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...