AIGC動態歡迎閱讀
原標題:刷榜「代碼生成」任務!復旦等發布StepCoder框架:從編譯器反饋信號中強化學習
關鍵字:代碼,模型,研究人員,任務,數據
文章來源:新智元
內容字數:11225字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】StepCoder將長序列代碼生成任務分解為代碼完成子任務課程來緩解強化學習探索難題,對未執行的代碼段以細粒度優化;還開源了可用于強化學習訓練的APPS+數據集。大型語言模型(LLMs)的發展極大地推動了代碼生成領域的發展,之前有工作將強化學習(RL)與編譯器的反饋信號集成在一起,用于探索LLMs的輸出空間,以提高代碼生成質量。
但當下還存在兩個問題:
1. 強化學習探索很難直接適配到「復雜的人類需求」,即要求LLMs生成「長序列代碼」;
2. 由于單元測試可能無法覆蓋復雜的代碼,因此使用未執行的代碼片段來優化LLMs是無效的。
為了解決這些挑戰,復旦大學、華中科技大學、皇家理工學院的研究人員提出了一種用于代碼生成的新型強化學習框架StepCoder,由兩個主要組件組成:
1. CCCS通過將長序列代碼生成任務分解為代碼完成子任務課程來解決探索挑戰;
2. FGO通過屏蔽未執行的代碼段來優化模型,以提供細粒度優化。論文鏈接:https://arxiv.org/pdf/2402.01391.pdf
項目鏈接:https://github.com/A
原文鏈接:刷榜「代碼生成」任務!復旦等發布StepCoder框架:從編譯器反饋信號中強化學習
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...