標(biāo)簽:梯度
清華提出 SoRA,參數(shù)量只有 LoRA 的 70%,表現(xiàn)更好!
夕小瑤科技說 原創(chuàng)作者 | 智商掉了一地、Python現(xiàn)在有很多關(guān)于大型語言模型(LLM)的研究,都圍繞著如何高效微調(diào)展開。微調(diào)是利用模型在大規(guī)模通用數(shù)據(jù)上學(xué)到...
OpenAI安全系統(tǒng)負(fù)責(zé)人長文梳理:大模型的對抗攻擊與防御
選自Lil’Log作者:Lilian Weng機(jī)器之心編譯編輯:PandaLLM 能力強(qiáng)大,倘若別有用心之人用其來干壞事,可能會造成難以預(yù)料的嚴(yán)重后果。雖然大多數(shù)商用和開源 L...
北大全新「機(jī)械手」算法:輔助花式抓杯子,GTX 1650實(shí)現(xiàn)150fps推斷|NeurIPS 2023
新智元報(bào)道編輯:LRS 好困【新智元導(dǎo)讀】新方法結(jié)合擴(kuò)散模型和強(qiáng)化學(xué)習(xí),將抓取問題分解為「如何抓」以及「何時(shí)抓」,平價(jià)顯卡即可實(shí)現(xiàn)實(shí)時(shí)交互。手是人類與...
準(zhǔn)確率降至3%,主任務(wù)性能幾乎不變!華工JHU提出全新「聯(lián)邦學(xué)習(xí)攻擊識別」解決方案|ICCV2023
新智元報(bào)道編輯:LRS【新智元導(dǎo)讀】無懼聯(lián)邦學(xué)習(xí)中的后門攻擊!全新解決方案利用多指標(biāo)和動態(tài)加權(quán)來自適應(yīng)地識別后門,在難度最高的Edge-case PGD中,后門準(zhǔn)...
上下文學(xué)習(xí)=對比學(xué)習(xí)?人大揭示ICL推理背后的隱式更新機(jī)理:梯度更新了嗎?「如更」
新智元報(bào)道編輯:LRS【新智元導(dǎo)讀】人民大學(xué)最新研究,首次從「對比學(xué)習(xí)」的角度來理解上下文學(xué)習(xí),或可提供自注意力機(jī)制的改進(jìn)思路。近些年來,基于Transfor...
英偉達(dá)開源新Agent!用了GPT-4后,機(jī)器人把轉(zhuǎn)筆、盤核桃都玩明白了
夕小瑤科技說 分享來源 | 量子位作者 | 白交訓(xùn)練機(jī)器人,AI比人類更拿手!英偉達(dá)最新AI AgentEureka,用GPT-4生成獎勵(lì)函數(shù),結(jié)果教會機(jī)器人完成了三十多個(gè)復(fù)...
用GPT-4訓(xùn)練機(jī)器人,英偉達(dá)最新Agent開源:任務(wù)越復(fù)雜越拿手
白交 發(fā)自 凹非寺量子位 | 公眾號 QbitAI訓(xùn)練機(jī)器人,AI比人類更拿手!英偉達(dá)最新AI AgentEureka,用GPT-4生成獎勵(lì)函數(shù),結(jié)果教會機(jī)器人完成了三十多個(gè)復(fù)雜任...
在RTX 4090被限制的時(shí)代下,讓大模型使用RLHF更高效的方法來了
機(jī)器之心專欄機(jī)器之心編輯部該論文介紹了一種名為 ReMax 的新算法,專為基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)而設(shè)計(jì)。ReMax 在計(jì)算效率(約減少 50% 的 GPU 內(nèi)存和...
從觀察、思考到行動,深度強(qiáng)化學(xué)牛Pieter Abbeel談如何馴服機(jī)器人
機(jī)器之心報(bào)道編輯:大盤雞這樣學(xué),還能那樣學(xué)。人類的大腦具有學(xué)習(xí)新事物的能力,而且學(xué)習(xí)方式多種多樣,從模仿他人到觀看在線解說視頻,不一而足。如果機(jī)器...
32卡176%訓(xùn)練加速,開源大模型訓(xùn)練框架Megatron-LLaMA來了
機(jī)器之心發(fā)布機(jī)器之心編輯部9 月 12 日,淘天集團(tuán)聯(lián)合愛橙科技正式對外開源大模型訓(xùn)練框架 ——Megatron-LLaMA,旨在讓技術(shù)開發(fā)者們能夠更方便的提升大語言模型...