明確了：文本數據中加點代碼，訓練出的大模型更強、更通用

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：明確了：文本數據中加點代碼，訓練出的大模型更強、更通用
關鍵字：代碼,數據,模型,性能,研究者
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
機器之心編輯部代碼知識原來這么重要。如今說起大語言模型（LLM），寫代碼能力恐怕是「君子六藝」必不可少的一項。
在預訓練數據集中包含代碼，即使對于并非專門為代碼設計的大模型來說，也已是必不可少的事。雖然從業者們普遍認為代碼數據在通用 LLM 的性能中起著至關重要的作用，但分析代碼對非代碼任務的精確影響的工作卻非常有限。
在最近由 Cohere 等機構提交的一項工作中，研究者系統地研究了代碼數據對通用大模型性能的影響。論文鏈接：https://arxiv.org/abs/2408.10914
設問「預訓練中使用的代碼數據對代碼生成以外的各種下游任務有何影響」。作者對范圍廣泛的自然語言推理任務、世界知識任務、代碼基準和 LLM-as-a-judge 勝率進行了廣泛的消融和評估，模型的參數大小從 4.7 億到 2.8 億個參數不等。
在各種配置中，我們可以看到存在一致的結果：代碼是泛化的關鍵模塊，遠遠超出了編碼任務的范圍，并且代碼質量的改進對所有任務都有巨大影響。預訓練期間投資代碼質量和保留代碼數據，可以產生積極影響。
這里有幾個因素很重要，包括確保代碼比例正確、通過包含合成代

原文鏈接：明確了：文本數據中加點代碼，訓練出的大模型更強、更通用

聯系作者

文章來源：機器之心
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 代碼 # 性能 # 數據 # 模型 # 研究者

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

明確了：文本數據中加點代碼，訓練出的大模型更強、更通用

AIGC動態歡迎閱讀

內容摘要：

聯系作者

如果大爆炸不是有史以來的第一次，那是什么導致了它發生？

透明設計是對無聊的反擊｜硬哲學

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

明確了：文本數據中加點代碼，訓練出的大模型更強、更通用

AIGC動態歡迎閱讀

內容摘要：

聯系作者

如果大爆炸不是有史以來的第一次，那是什么導致了它發生？

透明設計是對無聊的反擊｜硬哲學

相關文章

暫無評論

ChatGPT

玩虛擬模特？

明確了：文本數據中加點代碼，訓練出的大模型更強、更通用

如果大爆炸不是有史以來的第一次，那是什么導致了它發生？

玩虛擬模特？