Marco-o1是一種旨在推進開放式問題解決的大型推理模型 (LRM)。
原標題:阿里國際版o1來了,Marco-o1:聚焦開放式問題推理
文章來源:機器之心
內容字數:5931字
Marco-o1: 開放式問題解決的大型推理模型
自OpenAI發布o1模型以來,業界對其的追趕不斷加速。阿里巴巴國際數字商業集團MarcoPolo團隊在2023年11月22日發布了Marco-o1,旨在推進開放式問題解決。這項研究仍在進行中,期待進一步改進。
1. 研究背景與目標
傳統的大型語言模型(LLM)在結構化任務中表現出色,但在面對開放式問題時卻顯得力不從心。Marco-o1的目標是超越這些結構化挑戰,實現跨多個領域的泛化,尤其是在沒有嚴格評估指標的情況下。
2. 技術創新
Marco-o1集成了多種先進技術,包括思維鏈(CoT)微調、蒙特卡洛樹搜索(MCTS)和推理動作策略,來增強其處理復雜問題的能力。
3. 數據集與訓練
研究者通過過濾和合成數據集來提升模型性能。Open-o1 CoT數據集經過質量過濾,Marco-o1 CoT數據集則通過MCTS生成,確保模型能夠有效采用結構化推理模式。
4. 推理能力提升
實驗結果顯示,Marco-o1在MGSM(英文)數據集上的準確率提高了6.17%,在MGSM(中文)數據集上提高了5.60%。模型在翻譯任務中表現突出,能夠精準理解和翻譯俚語表達。
5. MCTS與反思機制
Marco-o1將LLM與MCTS結合,節點代表推理狀態,動作通過LLM生成。通過計算置信度得分,該模型能夠擴展解空間并選擇最優路徑。同時,引入反思機制以自我評估推理步驟,顯著提高了困難問題的解決率。
6. 實驗結果與未來方向
測試中,經過MCTS增強的模型表現優于傳統模型,但結果顯示出一定的隨機性。未來的研究將專注于優化獎勵機制,以進一步發揮MCTS的潛力。
總結而言,Marco-o1在處理復雜開放式問題和推理任務方面展現了強大的能力,為未來的研究提供了新的方向和思路。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...