原標題:“奇葩”編程題,僅OpenAI與一國產模型,來看看新AGI路線怎么初露鋒芒
文章來源:夕小瑤科技說
內容字數:7377字
AI推理能力的競賽與進展
隨著OpenAI o1的推出,國內外AI領域開始上演了一場推理能力的競賽。2024年下半年,AI推理能力的提升將成為關注的焦點。近期,有開源項目嘗試通過prompt工程提升Claude 3.5的推理能力,但這種方法并未取得理想效果。
OpenAI o1的推理能力
OpenAI o1通過強化學習不斷改進其思維鏈,具備識別和糾正錯誤、將復雜步驟分解為簡單步驟的能力。這種能力并非僅依賴于互聯網數據的統計訓練,因為互聯網數據主要反映了人類思考的結果,而非過程本身。
數學作為推理的例外
數學領域的推理過程在互聯網上有豐富的推導實例,這使得AI在數學推理能力上表現優異。然而,其他領域如編程和醫學問題則缺乏相應的過程數據,使得AI在這些領域的推理能力提升面臨挑戰。
編程問題的挑戰
筆者提出了一個復雜的Python編程問題,涉及到命令行輸入的緩存和中文支持。經過對GPT-4o、Claude 3.5 Sonnet等老一代模型測試,發現它們在處理中文和方向鍵操作時均表現不佳。這促使筆者嘗試新的類o1模型——書生InternThinker。
書生InternThinker的表現
令人驚喜的是,InternThinker在編程問題上表現優異,不僅支持中文輸入,還能夠有效處理光標移動和歷史查詢功能。這表明其在推理能力上已接近OpenAI o1模型,且具備較強的代碼調試能力。
創新的推理模型構建
InternThinker的成功源于其獨特的數據構造方法,通過強基座模型生成思維鏈候選,再由通用模型監督和改進,最終形成高質量的思維過程數據。同時,上海AI Lab構建了大規模沙盒環境來驗證推理任務的正確性,為模型提供了寶貴的反饋信號。
元動作思考范式的應用
InternThinker還引入了元動作思考范式,包含理解、知識回憶、規劃、執行、反思和總結等步驟,這使得其推理過程更像經過良好訓練的優等生。這種高效的思維模式提升了模型在復雜推理任務中的表現。
總結
書生InternThinker的推出標志著國內推理能力向OpenAI o1模型的靠近,未來的AI推理能力競賽將更加激烈。對于希望提升推理能力的研究者和開發者而言,InternThinker無疑是一個值得關注的選擇。
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189