<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        明確了:文本數據中加點代碼,訓練出的大模型更強、更通用

        AIGC動態1年前 (2024)發布 機器之心
        405 0 0

        明確了:文本數據中加點代碼,訓練出的大模型更強、更通用

        AIGC動態歡迎閱讀

        原標題:明確了:文本數據中加點代碼,訓練出的大模型更強、更通用
        關鍵字:代碼,數據,模型,性能,研究者
        文章來源:機器之心
        內容字數:0字

        內容摘要:


        機器之心報道
        機器之心編輯部代碼知識原來這么重要。如今說起大語言模型(LLM),寫代碼能力恐怕是「君子六藝」必不可少的一項。
        在預訓練數據集中包含代碼,即使對于并非專門為代碼設計的大模型來說,也已是必不可少的事。雖然從業者們普遍認為代碼數據在通用 LLM 的性能中起著至關重要的作用,但分析代碼對非代碼任務的精確影響的工作卻非常有限。
        在最近由 Cohere 等機構提交的一項工作中,研究者系統地研究了代碼數據對通用大模型性能的影響。論文鏈接:https://arxiv.org/abs/2408.10914
        設問「預訓練中使用的代碼數據對代碼生成以外的各種下游任務有何影響」。作者對范圍廣泛的自然語言推理任務、世界知識任務、代碼基準和 LLM-as-a-judge 勝率進行了廣泛的消融和評估,模型的參數大小從 4.7 億到 2.8 億個參數不等。
        在各種配置中,我們可以看到存在一致的結果:代碼是泛化的關鍵模塊,遠遠超出了編碼任務的范圍,并且代碼質量的改進對所有任務都有巨大影響。預訓練期間投資代碼質量和保留代碼數據,可以產生積極影響。
        這里有幾個因素很重要,包括確保代碼比例正確、通過包含合成代


        原文鏈接:明確了:文本數據中加點代碼,訓練出的大模型更強、更通用

        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一级片免费看| 国产福利电影一区二区三区,免费久久久久久久精 | 四虎影视成人永久免费观看视频| 亚洲Av无码乱码在线播放| 91精品免费在线观看| 亚洲AV日韩AV永久无码免下载| 97无码人妻福利免费公开在线视频 | 国产在线观a免费观看| 亚洲宅男天堂在线观看无病毒| 精品无码国产污污污免费网站国产 | 2022免费国产精品福利在线| 久久久久亚洲AV综合波多野结衣 | 亚洲一区中文字幕久久| 亚洲精华国产精华精华液| 免费高清小黄站在线观看 | 日韩免费视频一区| 青娱乐在线免费观看视频| 亚洲午夜无码片在线观看影院猛 | 白白国产永久免费视频| 美女视频黄频a免费大全视频| 亚洲国产一成久久精品国产成人综合| 国产成人无码精品久久久久免费 | 77777亚洲午夜久久多喷| 国产高清在线免费视频| 无码毛片一区二区三区视频免费播放 | 免费在线不卡视频| 国产午夜不卡AV免费| 亚洲综合久久成人69| 青草草在线视频永久免费| 一级毛片视频免费观看| 亚洲高清在线观看| 亚洲成在人线在线播放无码| 深夜国产福利99亚洲视频| 亚洲日韩AV无码一区二区三区人| 国产免费黄色大片| 成人免费区一区二区三区 | 亚洲一级片免费看| 在线免费观看国产| 精品女同一区二区三区免费播放 | 久久亚洲国产成人影院网站| 最近中文字幕无免费|