標(biāo)簽：強(qiáng)化學(xué)習(xí)

WPS接入DeepSeek，秒變辦公神器！

WPS 大家經(jīng)常用來日常寫作，雖然本身提供了AI功能，但可惜需要會(huì)員，本文教你三分鐘接入最火的DeepSeek，讓W(xué)PS秒變辦公神器。 DeepSeek API申請(qǐng)地址：http:/...

9個(gè)月前

AI賺錢副業(yè)~AI生成影視解說，半個(gè)月漲粉變現(xiàn)3.5W+！

這兩年大家都在感嘆生活不易，然而我想說的是，機(jī)會(huì)還是有的，但問題不在于有沒有，而在于你是否能夠認(rèn)準(zhǔn)機(jī)會(huì)，然后抓住它。接觸過很多咨詢項(xiàng)目的人，發(fā)現(xiàn)...

使用教程

1年前 (2024)

DeepSeek關(guān)鍵RL算法GRPO，有人從頭跑通了，貢獻(xiàn)完整代碼

手把手教你從頭跑通 GRPO

AIGC動(dòng)態(tài)

9個(gè)月前

1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法

復(fù)雜獎(jiǎng)勵(lì)函數(shù)不是必要的

閱讀原文

AIGC動(dòng)態(tài)

9個(gè)月前

DeepSeek R1爆火后，該如何理解 LLM 中的強(qiáng)化學(xué)習(xí)算法？

討論下我們到底該如何理解 LLM 中所涉及到的 RL 算法。

閱讀原文

AIGC動(dòng)態(tài)

9個(gè)月前

不蒸餾R1也能超越DeepSeek，上海 AI Lab 用RL突破數(shù)學(xué)推理極限

基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)新范式

閱讀原文

AIGC動(dòng)態(tài)

9個(gè)月前

SFT并非必需！推理模型僅靠RL就能獲得長思維鏈能力，清華CMU團(tuán)隊(duì)黑盒

獎(jiǎng)勵(lì)函數(shù)很重要

閱讀原文

AIGC動(dòng)態(tài)

9個(gè)月前

DeepSeek核心論文全譯本：DeepSeek-R1：通過強(qiáng)化學(xué)習(xí)提升大語言模型 (LLM) 的推理能力

原標(biāo)題：DeepSeek核心論文全譯本：DeepSeek-R1：通過強(qiáng)化學(xué)習(xí)提升大語言模型 (LLM) 的推理能力文章來源：人工智能學(xué)家內(nèi)容字?jǐn)?shù)：35544字DeepSeek: 提升大型...

閱讀原文

AIGC動(dòng)態(tài)

9個(gè)月前

浙大&通義全面評(píng)測(cè)智能體復(fù)雜任務(wù)規(guī)劃能力，18主流大模型全不及格｜ICLR2025

智能體工作流生成基準(zhǔn)WorfBench

閱讀原文

AIGC動(dòng)態(tài)

9個(gè)月前

第四屆終身學(xué)習(xí)智能體會(huì)議（CoLLAs）主題征稿中

?CoLLAs 2025 即將開辦，入選論文將發(fā)表在《機(jī)器學(xué)習(xí)研究會(huì)議錄》（PMLR），誠邀 AI、機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域研究人員投稿！

閱讀原文

AIGC動(dòng)態(tài)

9個(gè)月前

超越DeepSeek V3！Ai2再祭開源殺器Tülu 3，強(qiáng)化學(xué)習(xí)打破性能瓶頸

原標(biāo)題：超越DeepSeek V3！Ai2再祭開源殺器Tülu 3，強(qiáng)化學(xué)習(xí)打破性能瓶頸文章來源：新智元內(nèi)容字?jǐn)?shù)：4026字艾倫人工智能研究所發(fā)布全新開源大模型Tülu 3 40...

閱讀原文

AIGC動(dòng)態(tài)

9個(gè)月前

o1開啟LLM新范式，Ai2科學(xué)家解析背后秘籍：推理和強(qiáng)化學(xué)習(xí)是關(guān)鍵

原標(biāo)題：o1開啟LLM新范式，Ai2科學(xué)家解析背后秘籍：推理和強(qiáng)化學(xué)習(xí)是關(guān)鍵文章來源：新智元內(nèi)容字?jǐn)?shù)：9725字語言模型推理現(xiàn)狀及OpenAI o1模型解讀本文總結(jié)...

閱讀原文

AIGC動(dòng)態(tài)

10個(gè)月前

看DeepSeek R1的論文時(shí)，我突然想起了AlphaGo

關(guān)于R1的論文發(fā)表一些看法~

閱讀原文

AIGC動(dòng)態(tài)

10個(gè)月前

張俊林：MCST樹搜索會(huì)是復(fù)刻OpenAI O1/O3的有效方法嗎

本文介紹R1和K1.5以及MCST方法的主要思路。

閱讀原文

AIGC動(dòng)態(tài)

10個(gè)月前

UC伯克利等提出具身智能「動(dòng)作Tokenizer」，效率飆升5倍！

原標(biāo)題：UC伯克利等提出具身智能「動(dòng)作Tokenizer」，效率飆升5倍！文章來源：新智元內(nèi)容字?jǐn)?shù)：4818字高效訓(xùn)練機(jī)器人Transformer：FAST動(dòng)作Tokenizer的突破 ...

閱讀原文

AIGC動(dòng)態(tài)

10個(gè)月前

DeepSeek-R1開源模型爆火：性能比肩GPT-4，強(qiáng)化學(xué)習(xí)飛輪效應(yīng)顯著

原標(biāo)題：DeepSeek-R1開源模型爆火：性能比肩GPT-4，強(qiáng)化學(xué)習(xí)飛輪效應(yīng)顯著文章來源：小夏聊AIGC 內(nèi)容字?jǐn)?shù)：3593字DeepSeek-R1：中國開源AI的驚艷亮相近日，...

閱讀原文

使用教程

10個(gè)月前

揭秘大模型強(qiáng)推理能力幕后功臣“缺陷”，過程級(jí)獎(jiǎng)勵(lì)模型新基準(zhǔn)來了

PRMs整體表現(xiàn)堪憂，開源不如閉源

閱讀原文

AIGC動(dòng)態(tài)

10個(gè)月前

12 3