標簽：強化學習

突破智能邊界：Sutton揭示持續學習的重要性，深度學習只是曇花一現

原標題：強化學習之父Sutton最新萬字采訪：炮轟深度學習只是瞬時學習，持續學習才是智能突破的關鍵文章來源：人工智能學家內容字數：26652字Rich Sutton教...

閱讀原文

AIGC動態

6個月前

突破界限：智能體如何在未知人類設計環境中實現零樣本學習的性進展

能在2D物理環境中執行多樣化任務了

閱讀原文

AIGC動態

6個月前

Andrej Karpathy后悔放棄語言模型，卻搞了多年強化學習，稱是研究生涯最大的錯誤

原標題：Andrej Karpathy后悔放棄語言模型，卻搞了多年強化學習，稱是研究生涯最大的錯誤文章來源：夕小瑤科技說內容字數：5395字 Andrej Karpathy的反思與...

AIGC動態

6個月前

什么是深度學習（Deep Learning）

深度學習（Deep Learning）是機器學習的一個子集，本文介紹了什么是深度學習、深度學習的工作原理、深度學習與機器學習的區別、深度學習的開發框架以及深度學...

閱讀原文

AI百科

6個月前

Michael Jordan：機器學習領域的領軍人物、美國國家工程院院士

Michael Irwin Jordan（生于1956年2月25日）是一位美國科學家，加州大學伯克利分校教授，機器學習、統計學和人工智能領域的研究專家。由于在機器學習的基礎和...

閱讀原文

AI名人堂

6個月前

什么是RLHF基于人類反饋的強化學習？

基于人類反饋的強化學習（RLHF，Reinforcement Learning from Human Feedback）是人工智能（AI）領域的一個新興研究領域，它將強化學習技術與人類反饋相結合...

閱讀原文

AI百科

6個月前

什么是Q-learning

強化學習中的Q-learning是一種無模型的強化學習算法，通過學習一個動作價值函數Q(s, a)來找到最優策略。在給定狀態下，Q(s, a)表示執行動作a的預期未來獎勵總...

閱讀原文

AI百科

6個月前

什么是探索與利用（Exploration vs. Exploitation）

探索與利用（Exploration vs. Exploitation）是兩個核心概念。探索是指智能體嘗試新的或不太熟悉的動作以發現更好的行為策略，利用是指智能體使用已知的最佳...

AI百科

6個月前

什么是策略梯度（Policy Gradients）

策略梯度（Policy Gradients）是強化學習中的一種方法，它直接對策略進行優化。在這種方法中，策略被參數化為一個可微分的函數，策略梯度算法通過計算策略參...

閱讀原文

AI百科

6個月前

什么是深度強化學習（Deep Reinforcement Learning）

深度強化學習（Deep Reinforcement Learning）是人工智能領域中一個激動人心的交叉學科，融合了深度學習的感知能力和強化學習的決策制定能力。通過智能體與環...

閱讀原文

AI百科

6個月前

1 23