OpenCoder

AI工具1年前 (2024)發(fā)布 AI工具集

OpenCoder是一款由墨爾本大學(xué)、復(fù)旦大學(xué)等研究機(jī)構(gòu)與無限光年合作開發(fā)的開源代碼大型語言模型（LLM）。它旨在將開源代碼LLM的性能提升至與專有模型相媲美的水平，同時促進(jìn)代碼AI研究的透明性與可重復(fù)性。OpenCoder不僅提供了模型權(quán)重和推理代碼，還包括可復(fù)現(xiàn)的訓(xùn)練數(shù)據(jù)、完整的數(shù)據(jù)處理流程、嚴(yán)謹(jǐn)?shù)膶嶒炏诮Y(jié)果和詳細(xì)的訓(xùn)練協(xié)議，為研究社區(qū)的構(gòu)建與創(chuàng)新提供支持。

OpenCoder是什么

OpenCoder是一個前沿的開源代碼大型語言模型，旨在提高開源代碼模型的性能，使其達(dá)到專有模型的標(biāo)準(zhǔn)。通過提供完整的模型權(quán)重、推理代碼及相關(guān)實驗數(shù)據(jù)，OpenCoder促進(jìn)了AI研究的開放性與可驗證性。

OpenCoder

OpenCoder的主要功能

代碼自動生成：能夠根據(jù)需求自動生成代碼，幫助開發(fā)者快速實現(xiàn)功能。
代碼審查支持：輔助開發(fā)者進(jìn)行代碼審查，提升代碼質(zhì)量和可維護(hù)性。
錯誤調(diào)試輔助：幫助開發(fā)者識別代碼中的錯誤，加快調(diào)試速度。
代碼補(bǔ)全功能：提供智能代碼補(bǔ)全，減少開發(fā)者的重復(fù)性工作。
多語言兼容：支持多種編程語言，增強(qiáng)模型的適用性和靈活性。

OpenCoder的技術(shù)原理

數(shù)據(jù)預(yù)處理：
- 源代碼收集：從GitHub等平臺收集大量原始代碼。
- 相關(guān)Web數(shù)據(jù)獲取：從網(wǎng)絡(luò)數(shù)據(jù)庫中提取與代碼相關(guān)的信息。
- 數(shù)據(jù)清理：剔除無效數(shù)據(jù)（如純十六進(jìn)制代碼和過短的代碼片段）。
- 去重處理：通過精確和模糊去重技術(shù)，降低數(shù)據(jù)重復(fù)率。
- 質(zhì)量過濾：使用啟發(fā)式規(guī)則篩選低質(zhì)量的代碼數(shù)據(jù)。
模型架構(gòu)：
- 基于Transformer架構(gòu)：采用標(biāo)準(zhǔn)的Transformer架構(gòu)，并支持多頭注意力機(jī)制。
- 旋轉(zhuǎn)位置編碼（RoPE）：利用旋轉(zhuǎn)位置編碼處理長距離依賴。
訓(xùn)練策略：
- 預(yù)訓(xùn)練階段：在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，使用WSD（Warmup， Steady， Decay）學(xué)習(xí)率調(diào)度。
- 退火訓(xùn)練：在預(yù)訓(xùn)練后使用高質(zhì)量數(shù)據(jù)進(jìn)行進(jìn)一步的性能提升。
- 指令微調(diào)：通過兩階段的指令微調(diào)，先增強(qiáng)模型的通用能力，再針對具體代碼任務(wù)進(jìn)行優(yōu)化。
后訓(xùn)練優(yōu)化：
- 收集開源指令語料：從多個數(shù)據(jù)庫獲取開源指令數(shù)據(jù)。
- 真實用戶查詢抽取：從實際對話數(shù)據(jù)中提取用戶查詢，并進(jìn)行清洗處理。
性能評估：在多個編碼基準(zhǔn)測試中對模型性能進(jìn)行評估，包括代碼生成、補(bǔ)全和理解任務(wù)。