刷榜「代碼生成」任務！復旦等發布StepCoder框架：從編譯器反饋信號中強化學習

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：刷榜「代碼生成」任務！復旦等發布StepCoder框架：從編譯器反饋信號中強化學習
關鍵字：代碼,模型,研究人員,任務,數據
文章來源：新智元
內容字數：11225字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】StepCoder將長序列代碼生成任務分解為代碼完成子任務課程來緩解強化學習探索難題，對未執行的代碼段以細粒度優化；還開源了可用于強化學習訓練的APPS+數據集。大型語言模型（LLMs）的發展極大地推動了代碼生成領域的發展，之前有工作將強化學習（RL）與編譯器的反饋信號集成在一起，用于探索LLMs的輸出空間，以提高代碼生成質量。
但當下還存在兩個問題：
1. 強化學習探索很難直接適配到「復雜的人類需求」，即要求LLMs生成「長序列代碼」；
2. 由于單元測試可能無法覆蓋復雜的代碼，因此使用未執行的代碼片段來優化LLMs是無效的。
為了解決這些挑戰，復旦大學、華中科技大學、皇家理工學院的研究人員提出了一種用于代碼生成的新型強化學習框架StepCoder，由兩個主要組件組成：
1. CCCS通過將長序列代碼生成任務分解為代碼完成子任務課程來解決探索挑戰；
2. FGO通過屏蔽未執行的代碼段來優化模型，以提供細粒度優化。論文鏈接：https://arxiv.org/pdf/2402.01391.pdf
項目鏈接：https://github.com/A

原文鏈接：刷榜「代碼生成」任務！復旦等發布StepCoder框架：從編譯器反饋信號中強化學習