一個開放源代碼的 14B 參數編程模型,具備高效的代碼推理能力。
業界首個超大規模混合 Mamba 推理模型,強推理能力。
一款開源的14B參數量的數學模型,通過強化學習訓練,性能卓越。
Steiner 是一個基于合成數據訓練的推理模型,旨在探索多種推理路徑并自主驗證。
CUA 是一種能夠通過圖形界面與數字世界交互的通用接口。
HOMIE 是一種新型的人形機器人遙操作系統,集成人體運動捕捉與強化學習訓練框架,用于實現精準的行走與操作任務。
一個用于強化學習人類反饋訓練過程可視化的工具,幫助深度理解與調試。
DeepSeek-R1-Zero 是一款通過大規模強化學習訓練的推理模型,無需監督微調即可實現卓越推理能力。
Kimi k1.5 是一個通過強化學習擴展的多模態語言模型,專注于提升推理和邏輯能力。
DeepSeek-R1-Distill-Llama-8B 是一個高性能的開源語言模型,適用于文本生成和推理任務。
DeepSeek-R1-Distill-Qwen-7B 是一個開源的推理模型,專注于數學、代碼和推理任務。
NovaSky 是一個專注于代碼生成和推理模型優化的人工智能技術平臺。
通過強化學習提升大型語言模型在開源軟件演變中的推理能力
DeepSeek-R1-Distill-Llama-70B 是一款基于強化學習優化的大型語言模型,專注于推理和對話能力。
DeepSeek-R1-Distill-Qwen-32B 是一款高性能的開源語言模型,適用于多種文本生成任務。
DeepSeek-R1-Distill-Qwen-14B 是一款高性能的文本生成模型,適用于多種推理和生成任務。
一個基于強化學習優化的大型語言模型,專注于數學問題解決能力的提升。
開源的先進語言模型后訓練框架
用于強化學習驗證的數學問題數據集
通過強化學習微調大型視覺-語言模型作為決策代理
一個嘗試復現OpenAI O1模型的編程輔助工具
智譜深度推理模型,擅長數理邏輯和代碼推理
基于PRIME方法訓練的7B參數語言模型,專為提升推理能力而設計。
Reinforcement Learning Coach是一款強大的Python框架,可以模擬智能體與環境之間的交互,并通過組合不同的構建模塊來建模智能體。支持多環境訓練,提供多種強化學習算法,收集統計數據并支持高級可視化技術。,Coach官網入口網址
Sparrow是一款信息查詢對話代理,通過強化學習和人類反饋訓練模型,提供更加有幫助、正確和無害的對話服務。它通過分解對話要求為自然語言規則,并提供支持事實性聲明的來源證據,使得代理行為更加可靠和可信。,Deepmind Sparrow AI官網入口網址
rllab是一個用于開發和評估強化學習算法的框架,支持自定義環境的實現和與OpenAI Gym的集成,適用于學術研究和工業應用。,RLLab官網入口網址
Dopamine是一個用于快速原型開發強化學習算法的研究框架,旨在提供一個小型、易于理解的代碼庫,用戶可以自由地嘗試各種想法(探索性研究)。,Dopamine官網入口網址
Gym Retro是一個用于游戲強化學習研究的平臺,提供了超過1000個游戲的環境,支持泛化研究和多種游戲主機。,Gym Retro官網入口網址
zeroscope_v2_XL官網入口網址,管道標簽不在官方列表中
網易機器人aPaaS和PaaS平臺,官網入口
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙