青青草原亚洲视频,亚洲国产成人99精品激情在线,亚洲噜噜噜噜噜影院在线播放

強化學習

DeepCoder

一個開放源代碼的 14B 參數編程模型，具備高效的代碼推理能力。

混元T1

業界首個超大規模混合 Mamba 推理模型，強推理能力。

Light-R1-14B-DS

一款開源的14B參數量的數學模型，通過強化學習訓練，性能卓越。

Steiner-32b-preview

Steiner 是一個基于合成數據訓練的推理模型，旨在探索多種推理路徑并自主驗證。

CUA

CUA 是一種能夠通過圖形界面與數字世界交互的通用接口。

HOMIEtele

HOMIE 是一種新型的人形機器人遙操作系統，集成人體運動捕捉與強化學習訓練框架，用于實現精準的行走與操作任務。

RLLoggingBoard

一個用于強化學習人類反饋訓練過程可視化的工具，幫助深度理解與調試。

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是一款通過大規模強化學習訓練的推理模型，無需監督微調即可實現卓越推理能力。

Kimi k1.5

Kimi k1.5 是一個通過強化學習擴展的多模態語言模型，專注于提升推理和邏輯能力。

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Llama-8B 是一個高性能的開源語言模型，適用于文本生成和推理任務。

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B 是一個開源的推理模型，專注于數學、代碼和推理任務。

NovaSky

NovaSky 是一個專注于代碼生成和推理模型優化的人工智能技術平臺。

SWE-RL

通過強化學習提升大型語言模型在開源軟件演變中的推理能力

DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1-Distill-Llama-70B 是一款基于強化學習優化的大型語言模型，專注于推理和對話能力。

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B 是一款高性能的開源語言模型，適用于多種文本生成任務。

DeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Qwen-14B 是一款高性能的文本生成模型，適用于多種推理和生成任務。

DeepScaleR-1.5B-Preview

一個基于強化學習優化的大型語言模型，專注于數學問題解決能力的提升。

Tülu 3

開源的先進語言模型后訓練框架

RLVR-GSM-MATH-IF-Mixed-Constraints

用于強化學習驗證的數學問題數據集

RL4VLM

通過強化學習微調大型視覺-語言模型作為決策代理

O1-CODER

一個嘗試復現OpenAI O1模型的編程輔助工具

GLM-Zero-Preview

智譜深度推理模型，擅長數理邏輯和代碼推理

Eurus-2-7B-PRIME

基于PRIME方法訓練的7B參數語言模型，專為提升推理能力而設計。

Coach

Reinforcement Learning Coach是一款強大的Python框架，可以模擬智能體與環境之間的交互，并通過組合不同的構建模塊來建模智能體。支持多環境訓練，提供多種強化學習算法，收集統計數據并支持高級可視化技術。，Coach官網入口網址

Deepmind Sparrow AI

Sparrow是一款信息查詢對話代理，通過強化學習和人類反饋訓練模型，提供更加有幫助、正確和無害的對話服務。它通過分解對話要求為自然語言規則，并提供支持事實性聲明的來源證據，使得代理行為更加可靠和可信。，Deepmind Sparrow AI官網入口網址

RLLab

rllab是一個用于開發和評估強化學習算法的框架，支持自定義環境的實現和與OpenAI Gym的集成，適用于學術研究和工業應用。，RLLab官網入口網址

Dopamine

Dopamine是一個用于快速原型開發強化學習算法的研究框架，旨在提供一個小型、易于理解的代碼庫，用戶可以自由地嘗試各種想法（探索性研究）。，Dopamine官網入口網址

Gym Retro

Gym Retro是一個用于游戲強化學習研究的平臺，提供了超過1000個游戲的環境，支持泛化研究和多種游戲主機。，Gym Retro官網入口網址

zeroscope_v2_XL

zeroscope_v2_XL官網入口網址，管道標簽不在官方列表中

網易·伏羲

網易機器人aPaaS和PaaS平臺，官網入口

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

強化學習