微軟祭出代碼大模型WaveCoder！4項代碼任務2萬個實例數據集，讓LLM泛化能力飆升

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：微軟祭出代碼大模型WaveCoder！4項代碼任務2萬個實例數據集，讓LLM泛化能力飆升
關鍵字：指令,模型,數據,代碼,任務
文章來源：新智元
內容字數：5183字

內容摘要：

新智元報道編輯：桃子
【新智元導讀】指令調優或許是讓大模型性能提升最有潛力的方法。用高質量數據集進行指令調優，能讓大模型性能快速提升。
對此，微軟研究團隊訓練了一個CodeOcean數據集，包含了2萬個指令實例的數據集，以及4個通用代碼相關任務。
與此同時，研究人員微調了一個代碼大模型WaveCoder。
論文地址：https://arxiv.org/abs/2312.14187
實驗結果表明，Wavecoder優于其他開源模型，在以前的代碼生成任務中表現出色。
指令調優，釋放「代碼大模型」潛力過去的一年，GPT-4、Gemini、Llama等大模型在一系列復雜NLP任務中取得了前所未有的性能。
這些LLM利用自監督預訓練的過程，以及隨后的微調，展示了強大的零/少樣本的能力，能夠有效遵循人類指示完成不同的任務。
然而，若想訓練微調這樣一個大模型，其成本非常巨大。
因此，一些相對較小的LLM，特別是代碼大語言模型（Code LLM），因其在廣泛的代碼相關任務上的卓越的性能，而引起了許多研究者的關注。
鑒于LLM可以通過預訓練獲得豐富的專業知識，因此在代碼語料庫上進行高效的預訓練，對代碼

原文鏈接：微軟祭出代碼大模型WaveCoder！4項代碼任務2萬個實例數據集，讓LLM泛化能力飆升