標簽:自我

MATRIX:社會模擬推動大模型價值自對齊,比GPT4更「體貼」

機器之心專欄 機器之心編輯部隨著大語言模型(LLMs)在近年來取得顯著進展,它們的能力日益增強,進而引發了一個關鍵的問題:如何確保他們與人類價值觀對齊,...
閱讀原文

向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑒」

機器之心專欄 機器之心編輯部「以史為鑒,可以知興替。」 人類的進步史,可以看作是一個不斷吸取過去經驗、不斷推進能力邊界的自我演化過程。在這個過程中,...
閱讀原文

UCLA華人提出全新自我對弈機制!LLM自己訓自己,效果碾壓GPT-4專家指導

新智元報道編輯:潤 【新智元導讀】來自UCLA的華人團隊提出一種全新的LLM自我對弈系統,能夠讓LLM自我合成數據,自我微調提升性能,甚至超過了用GPT-4作為專...
閱讀原文

Meta發布自我獎勵機制,Llama在3輪訓練后超越GPT-4

夕小瑤科技說 原創編輯 | 付奶茶 引言:大型語言模型的高效部署挑戰在人工智能的發展中,訓練大語言模型理解、執行人類發出的指令始終是核心任務。然而,傳統...
閱讀原文

Llama2擊敗GPT-4 !| Meta提出自獎勵語言模型,實現Llama2超進化!

本文轉載自公眾號:新智元,編輯:桃子,如需轉載請與該公眾號聯系。【導讀】AI訓AI必將成為一大趨勢。Meta和NYU團隊提出讓大模型「自我獎勵」的方法,讓Llam...
閱讀原文

Llama 2打敗GPT-4!Meta讓大模型自我獎勵自迭代,再證合成數據是LLM終局

新智元報道編輯:桃子 潤 【新智元導讀】AI訓AI必將成為一大趨勢。Meta和NYU團隊提出讓大模型「自我獎勵」的方法,讓Llama2一舉擊敗GPT-4 0613、Claude 2、Ge...
閱讀原文

今日Arxiv最熱NLP大模型論文:Meta自我獎勵模型超越人類反饋限制,刷新AlpacaEval 2.0排行榜

夕小瑤科技說 原創作者 | 賽博馬良本期論文解讀非人類撰寫,全文由賽博馬良「AI論文解讀達人」智能體自主完成,經人工審核后發布。 智能體傳送門: https://w...
閱讀原文

大模型自我獎勵:Meta讓Llama2自己給自己微調,性能超越了GPT-4

機器之心報道 編輯:澤南、蛋醬人工智能的反饋(AIF)要代替 RLHF 了?大模型領域中,微調是改進模型性能的重要一步。隨著開源大模型逐漸變多,人們總結出了...
閱讀原文

小鼠能認出鏡子里的自己,提示它們具備自我認知能力 | Neuron

圖片來源:Pixabay來源:Cell Press12 月 6 日發表于《神經元》(Neuron)的一項新研究顯示,看到鏡子里的自己時,小鼠也會表現出類似于自我認知的行為。當研...
閱讀原文

玩轉圍棋、國際象棋、撲克,DeepMind推出通用學習算法SoG

機器之心報道編輯:小舟、大盤雞2016 年 3 月,一場機器人與圍棋世界冠軍、職業九段棋手李世石展開的圍棋人機大戰受到全球的高度關注。我們知道,最后的結果...
閱讀原文

未來已來:數字科技時代,我們將何去何從?《自我、科技與未來》一書給你答案

自進入21世紀以來,高度發達的前沿科技正在并已經形成一個前所未有的巨大的數智化系統,人類對于科技的認知,發生了顛覆性的改變,尤其是進入人工智能時代,...
閱讀原文

微信更新「小綠書」,這次專門為了 ta 們而打造 | Feel Good 周報

真·小綠書Feel Good 導讀跨過數字鴻溝,微信做了本實體「小綠書」為了減少用眼壓力,他做了款用「自然光」的顯示屏把「濾鏡」的魅力,延伸到教育上??是時候重...
閱讀原文

LeCun又雙叒唱衰自回歸LLM:GPT-4的推理能力非常有限,有兩篇論文為證

夕小瑤科技說 分享來源 | 機器之心「任何認為自動回歸式 LLM 已經接近人類水平的 AI,或者僅僅需要擴大規模就能達到人類水平的人,都必須讀一讀這個。AR-LLM ...
閱讀原文

GPT-4不知道自己錯了! LLM新缺陷曝光,自我糾正成功率僅1%,LeCun馬庫斯驚呼越改越錯

新智元報道編輯:桃子 潤【新智元導讀】GPT-4根本不知道自己犯錯?最新研究發現,LLM在推理任務中,自我糾正后根本無法挽救性能變差,引AI大佬LeCun馬庫斯圍...
閱讀原文

DeepMind:大模型又曝重大缺陷,無法自我糾正推理,除非提前得知正確答案

新智元報道編輯:潤【新智元導讀】DeepMind的研究人員發現,LLM有一個天生的缺陷——在推理過程中無法通過自我糾正獲得更好的回復,除非數據集中預設了真值標簽...
閱讀原文
123