標(biāo)簽:長度

英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,32K性能合格的都不多

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI無情戳穿“長上下文”大模型的虛標(biāo)現(xiàn)象—— 英偉達(dá)新研究發(fā)現(xiàn),包括GPT-4在內(nèi)的10個大模型,生成達(dá)到128k甚至1M上下文長...
閱讀原文

陳丹琦團(tuán)隊新作:微調(diào)8B模型超越Claude3 Opus,背后是RLHF新平替

克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI比斯坦福DPO(直接偏好優(yōu)化)更簡單的RLHF平替來了,來自陳丹琦團(tuán)隊。 該方式在多項測試中性能都遠(yuǎn)超DPO,還能讓8B...
閱讀原文

全面超越DPO:陳丹琦團(tuán)隊提出簡單偏好優(yōu)化SimPO,還煉出最強(qiáng)8B開源模型

機(jī)器之心報道 編輯:Panda為了將大型語言模型(LLM)與人類的價值和意圖對齊,學(xué)習(xí)人類反饋至關(guān)重要,這能確保它們是有用的、誠實的和無害的。在對齊 LLM 方...
閱讀原文

LLM上下文窗口突破200萬!無需架構(gòu)變化+復(fù)雜微調(diào),輕松擴(kuò)展8倍

新智元報道編輯:LRS 【新智元導(dǎo)讀】LongRoPE方法首次將LLM的窗口擴(kuò)展到了2048k個token,只是簡單微調(diào)的情況下,就能實現(xiàn)與短上下文窗口相近的性能!大型語言...
閱讀原文

LongRoPE:超越極限,將大模型上下文窗口擴(kuò)展超過200萬tokens

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自微軟亞洲研究院 編者按:大模型的飛速發(fā)展給人們的生活帶來了前所未有的便利。我們是否能夠設(shè)想利用大模型的潛力,快速掃描整部百科全書...
閱讀原文

誰將取代 Transformer?

來源:AI科技評論 作者:張進(jìn)( AI科技評論) 2017年谷歌發(fā)表的論文《Attention Is All You Need》成為當(dāng)下人工智能的一篇圣經(jīng),此后席卷全球的人工智能熱潮...
閱讀原文

RAG與Long-Context之爭—沒必要爭

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術(shù)負(fù)責(zé)人周暢,「清華系Sora」生數(shù)科技CEO唐家渝,云天勵飛“云...
閱讀原文

誰將替代 Transformer?

非 Transformer 面臨的共同考驗依然是證明自己的天花板有多高。作者丨張進(jìn) 編輯丨陳彩嫻 2017年谷歌發(fā)表的論文《Attention Is All You Need》成為當(dāng)下人工智...
閱讀原文

怎么勸ChatGPT干活效果最好?我們嘗試了100種方法,有圖有

機(jī)器之心報道 編輯:蛋醬、澤南在 ChatGPT API 中,系統(tǒng)提示是一項很有亮點的功能,它允許開發(fā)人員控制 LLM 輸出的「角色」,包括特殊規(guī)則和限制。系統(tǒng)提示中...
閱讀原文

馬斯克Ilya私密郵件被Claude破譯,OpenAI打碼信息公開,谷歌很受傷

克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAIOpenAI和馬斯克爭得不可開交,卻無意間揭示了Claude 3的新技能。 因為網(wǎng)友吃瓜的心可不只用在了事情本身,就連郵件...
閱讀原文

今日Arxiv最熱NLP大模型論文:Llama-2上下文擴(kuò)大48倍的方法來了,港大發(fā)布,無需訓(xùn)練

夕小瑤科技說 原創(chuàng)作者 | 芒果 引言:大語言模型的長上下文理解能力在當(dāng)今的人工智能領(lǐng)域,大語言模型(Large Language Models,簡稱LLMs)的長上下文理解能...
閱讀原文

200萬上下文窗口創(chuàng)飛Gemini 1.5!微軟來砸谷歌場子了(doge)

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI谷歌剛刷新大模型上下文窗口長度記錄,發(fā)布支持100萬token的Gemini 1.5,微軟就來砸場子了。 推出大模型上下文窗口拉...
閱讀原文

符堯大佬一作發(fā)文,僅改訓(xùn)練數(shù)據(jù),就讓LLaMa-2上下文長度擴(kuò)展20倍!

夕小瑤科技說 原創(chuàng)作者 | Tscom、Python引言:探索語言模型的長上下文能力近日,谷歌推出了Gemini Pro 1.5,將上下文窗口長度擴(kuò)展到100萬個tokens,目前領(lǐng)先...
閱讀原文

擊敗OpenAI,權(quán)重、數(shù)據(jù)、代碼全開源,能完美復(fù)現(xiàn)的嵌入模型Nomic Embed來了

機(jī)器之心報道 編輯:陳萍、小舟模型參數(shù)量只有 137M,5 天就能訓(xùn)練好。一周前,OpenAI 給廣大用戶發(fā)放福利,在下場修復(fù) GPT-4 變懶的問題后,還順道上新了 5 ...
閱讀原文

Mamba論文為什么沒被ICLR接收?AI社區(qū)沸騰了

機(jī)器之心報道 編輯:張倩、蛋醬基于 Mamba 的創(chuàng)新正不斷涌現(xiàn),但原論文卻被 ICLR 放到了「待定區(qū)」。 2023 年,Transformer 在 AI 大模型領(lǐng)域的統(tǒng)治地位被撼...
閱讀原文
1234