標(biāo)簽:長(zhǎng)度

英偉達(dá)新研究:上下文長(zhǎng)度虛標(biāo)嚴(yán)重,32K性能合格的都不多

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI無(wú)情戳穿“長(zhǎng)上下文”大模型的虛標(biāo)現(xiàn)象—— 英偉達(dá)新研究發(fā)現(xiàn),包括GPT-4在內(nèi)的10個(gè)大模型,生成達(dá)到128k甚至1M上下文長(zhǎng)...
閱讀原文

陳丹琦團(tuán)隊(duì)新作:微調(diào)8B模型超越Claude3 Opus,背后是RLHF新平替

克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI比斯坦福DPO(直接偏好優(yōu)化)更簡(jiǎn)單的RLHF平替來(lái)了,來(lái)自陳丹琦團(tuán)隊(duì)。 該方式在多項(xiàng)測(cè)試中性能都遠(yuǎn)超DPO,還能讓8B...
閱讀原文

全面超越DPO:陳丹琦團(tuán)隊(duì)提出簡(jiǎn)單偏好優(yōu)化SimPO,還煉出最強(qiáng)8B開(kāi)源模型

機(jī)器之心報(bào)道 編輯:Panda為了將大型語(yǔ)言模型(LLM)與人類(lèi)的價(jià)值和意圖對(duì)齊,學(xué)習(xí)人類(lèi)反饋至關(guān)重要,這能確保它們是有用的、誠(chéng)實(shí)的和無(wú)害的。在對(duì)齊 LLM 方...
閱讀原文

LLM上下文窗口突破200萬(wàn)!無(wú)需架構(gòu)變化+復(fù)雜微調(diào),輕松擴(kuò)展8倍

新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】LongRoPE方法首次將LLM的窗口擴(kuò)展到了2048k個(gè)token,只是簡(jiǎn)單微調(diào)的情況下,就能實(shí)現(xiàn)與短上下文窗口相近的性能!大型語(yǔ)言...
閱讀原文

LongRoPE:超越極限,將大模型上下文窗口擴(kuò)展超過(guò)200萬(wàn)tokens

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自微軟亞洲研究院 編者按:大模型的飛速發(fā)展給人們的生活帶來(lái)了前所未有的便利。我們是否能夠設(shè)想利用大模型的潛力,快速掃描整部百科全書(shū)...
閱讀原文

誰(shuí)將取代 Transformer?

來(lái)源:AI科技評(píng)論 作者:張進(jìn)( AI科技評(píng)論) 2017年谷歌發(fā)表的論文《Attention Is All You Need》成為當(dāng)下人工智能的一篇圣經(jīng),此后席卷全球的人工智能熱潮...
閱讀原文

RAG與Long-Context之爭(zhēng)—沒(méi)必要爭(zhēng)

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國(guó)生成式AI大會(huì),阿里巴巴通義千問(wèn)大模型技術(shù)負(fù)責(zé)人周暢,「清華系Sora」生數(shù)科技CEO唐家渝,云天勵(lì)飛“云...
閱讀原文

誰(shuí)將替代 Transformer?

非 Transformer 面臨的共同考驗(yàn)依然是證明自己的天花板有多高。作者丨張進(jìn) 編輯丨陳彩嫻 2017年谷歌發(fā)表的論文《Attention Is All You Need》成為當(dāng)下人工智...
閱讀原文

怎么勸ChatGPT干活效果最好?我們嘗試了100種方法,有圖有

機(jī)器之心報(bào)道 編輯:蛋醬、澤南在 ChatGPT API 中,系統(tǒng)提示是一項(xiàng)很有亮點(diǎn)的功能,它允許開(kāi)發(fā)人員控制 LLM 輸出的「角色」,包括特殊規(guī)則和限制。系統(tǒng)提示中...
閱讀原文

馬斯克Ilya私密郵件被Claude破譯,OpenAI打碼信息公開(kāi),谷歌很受傷

克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIOpenAI和馬斯克爭(zhēng)得不可開(kāi)交,卻無(wú)意間揭示了Claude 3的新技能。 因?yàn)榫W(wǎng)友吃瓜的心可不只用在了事情本身,就連郵件...
閱讀原文

今日Arxiv最熱NLP大模型論文:Llama-2上下文擴(kuò)大48倍的方法來(lái)了,港大發(fā)布,無(wú)需訓(xùn)練

夕小瑤科技說(shuō) 原創(chuàng)作者 | 芒果 引言:大語(yǔ)言模型的長(zhǎng)上下文理解能力在當(dāng)今的人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models,簡(jiǎn)稱(chēng)LLMs)的長(zhǎng)上下文理解能...
閱讀原文

200萬(wàn)上下文窗口創(chuàng)飛Gemini 1.5!微軟來(lái)砸谷歌場(chǎng)子了(doge)

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI谷歌剛刷新大模型上下文窗口長(zhǎng)度記錄,發(fā)布支持100萬(wàn)token的Gemini 1.5,微軟就來(lái)砸場(chǎng)子了。 推出大模型上下文窗口拉...
閱讀原文

符堯大佬一作發(fā)文,僅改訓(xùn)練數(shù)據(jù),就讓LLaMa-2上下文長(zhǎng)度擴(kuò)展20倍!

夕小瑤科技說(shuō) 原創(chuàng)作者 | Tscom、Python引言:探索語(yǔ)言模型的長(zhǎng)上下文能力近日,谷歌推出了Gemini Pro 1.5,將上下文窗口長(zhǎng)度擴(kuò)展到100萬(wàn)個(gè)tokens,目前領(lǐng)先...
閱讀原文

擊敗OpenAI,權(quán)重、數(shù)據(jù)、代碼全開(kāi)源,能完美復(fù)現(xiàn)的嵌入模型Nomic Embed來(lái)了

機(jī)器之心報(bào)道 編輯:陳萍、小舟模型參數(shù)量只有 137M,5 天就能訓(xùn)練好。一周前,OpenAI 給廣大用戶(hù)發(fā)放福利,在下場(chǎng)修復(fù) GPT-4 變懶的問(wèn)題后,還順道上新了 5 ...
閱讀原文

Mamba論文為什么沒(méi)被ICLR接收?AI社區(qū)沸騰了

機(jī)器之心報(bào)道 編輯:張倩、蛋醬基于 Mamba 的創(chuàng)新正不斷涌現(xiàn),但原論文卻被 ICLR 放到了「待定區(qū)」。 2023 年,Transformer 在 AI 大模型領(lǐng)域的統(tǒng)治地位被撼...
閱讀原文
1234