標簽:策略
浙大&中科院讓Agent學會自我進化,玩德州撲克心機盡顯
Wenqi Zhang 投稿量子位 | 公眾號 QbitAI基于大模型的Agent,已經成為了大型的博弈游戲的高級玩家,而且玩的還是德州撲克、21點這種非完美信息博弈。 來自浙...
當prompt策略遇上分治算法,南加大、微軟讓大模型煉成「火眼金睛」
機器之心專欄 機器之心編輯部近年來,大語言模型(LLMs)由于其通用的問題處理能力而引起了大量的關注?,F有研究表明,適當的提示設計(prompt enginerring)...
今日arXiv最熱大模型論文:北京大學發布,將試錯引入大模型代理學習!
夕小瑤科技說 原創編輯 | 松果引言:探索語言智能的新邊界在人工智能的發展歷程中,語言智能始終是一個核心的研究領域。隨著大語言模型(LLM)的興起,我們對...
人類淪為工具人!斯坦福機器人“吸星”:從演示中轉移技能,400美元打破訓練數據悖論
夢晨 西風 發自 凹非寺量子位 | 公眾號 QbitAI斯坦福最新“技能轉移”大法,讓人類淪為給機器人提供訓練數據的工具人。 小哥拿上機械手做示范,機器人就能從收...
陪跑又快又穩,機器人跑步搭子來了
機器之心報道 編輯:陳萍、蛋醬這個機器人名叫Cassie,曾經創下百米跑世界紀錄。最近,加州大學伯克利分校的研究者給它開發了一種新的深度強化學習算法,讓它...
性能提升、成本降低,這是分布式強化學習算法最新研究進展
機器之心原創 作者:Jiying 編輯:H4O深度強化學習(Deep Reinforcement Learning,DRL)是一種公認的解決連續決策問題的有效技術。為了應對 DRL 的數據低效...
今日arXiv最熱NLP大模型論文:智能談判Agent綜述,一文讀懂談判桌上的人工智能
夕小瑤科技說 原創編輯 | 謝年年談判,就是大家坐下來聊聊,看怎么能達成共識,共同解決問題??梢允桥笥验g的閑聊,也可以是國與國之間的外交場合。 但談判這...
今日arXiv最熱NLP大模型論文:基于語言模型模擬的經濟學研究
夕小瑤科技說 原創作者 | 芒果、Python引言:經濟選擇預測的新視角在經濟決策的預測領域,傳統方法通常受限于獲取人類選擇數據的難度。實驗經濟學研究大多集...
向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑒」
機器之心專欄 機器之心編輯部「以史為鑒,可以知興替?!?人類的進步史,可以看作是一個不斷吸取過去經驗、不斷推進能力邊界的自我演化過程。在這個過程中,...
CMUÐ實現突破:機器狗點滿敏捷值天賦,超高速穿越障礙,速度與安全兼備!
機器之心報道 機器之心編輯部足式機器人領域又一次迎來創新!CMU 與 ETH Zurich 團隊聯合研發了一個名為 「敏捷但安全」(ABS,Agile But Safe)的新框架,為...
伯克利開源高質量大型機器人操控基準,面對復雜自主操控任務不再犯難
機器之心專欄 機器之心編輯部隨著人工智能和機器人技術的迅速發展,功能操控(Functional Manipulation)在機器人學中的重要性愈加突出。傳統的基準測試已無...
Transformer竟是無限狀態RNN?
夕小瑤科技說 原創作者 | 付奶茶、python近期,Transformer再度成為學術界的熱門話題! Meta的一項最新研究帶來了一個新的發現:在某些情況下,'Transformer...
千卡規模訓練算力利用率達 60%,螞蟻開源分布式訓練加速擴展庫 ATorch
近日,螞蟻集團宣布開源大模型分布式訓練加速擴展庫ATorch。ATorch可針對不同模型和硬件資源,實現深度學習自動資源動態優化和分布式訓練穩定性提升,可幫助...
大模型玩星際爭霸能秀到什么程度?有意識,有預判,中科院和汪軍團隊發布
機器之心專欄 機器之心編輯部全球最重要的電競賽事之一DreamHack剛剛落幕,來自世界各地的星際爭霸 II 頂尖選手們展開了激烈的較量。在這場緊張精彩的賽事中...
NeurIPS?2023?Spotlight?|?騰訊AI?Lab絕悟新突破:在星際2靈活策略應對職業選手
機器之心專欄 作者:騰訊AI Lab近日,騰訊 AI Lab 的游戲 AI 團隊宣布了其決策智能 AI '絕悟' 在《星際爭霸 2》中的最新研究進展,提出一種創新的訓練方法顯...
粵公網安備 44011502001135號