標簽:長度

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

西風 發自 凹非寺量子位 | 公眾號 QbitAI無情戳穿“長上下文”大模型的虛標現象—— 英偉達新研究發現,包括GPT-4在內的10個大模型,生成達到128k甚至1M上下文長...
閱讀原文

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI比斯坦福DPO(直接偏好優化)更簡單的RLHF平替來了,來自陳丹琦團隊。 該方式在多項測試中性能都遠超DPO,還能讓8B...
閱讀原文

全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,還煉出最強8B開源模型

機器之心報道 編輯:Panda為了將大型語言模型(LLM)與人類的價值和意圖對齊,學習人類反饋至關重要,這能確保它們是有用的、誠實的和無害的。在對齊 LLM 方...
閱讀原文

LLM上下文窗口突破200萬!無需架構變化+復雜微調,輕松擴展8倍

新智元報道編輯:LRS 【新智元導讀】LongRoPE方法首次將LLM的窗口擴展到了2048k個token,只是簡單微調的情況下,就能實現與短上下文窗口相近的性能!大型語言...
閱讀原文

LongRoPE:超越極限,將大模型上下文窗口擴展超過200萬tokens

大數據文摘受權轉載自微軟亞洲研究院 編者按:大模型的飛速發展給人們的生活帶來了前所未有的便利。我們是否能夠設想利用大模型的潛力,快速掃描整部百科全書...
閱讀原文

誰將取代 Transformer?

來源:AI科技評論 作者:張進( AI科技評論) 2017年谷歌發表的論文《Attention Is All You Need》成為當下人工智能的一篇圣經,此后席卷全球的人工智能熱潮...
閱讀原文

RAG與Long-Context之爭—沒必要爭

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術負責人周暢,「清華系Sora」生數科技CEO唐家渝,云天勵飛“云...
閱讀原文

誰將替代 Transformer?

非 Transformer 面臨的共同考驗依然是證明自己的天花板有多高。作者丨張進 編輯丨陳彩嫻 2017年谷歌發表的論文《Attention Is All You Need》成為當下人工智...
閱讀原文

怎么勸ChatGPT干活效果最好?我們嘗試了100種方法,有圖有

機器之心報道 編輯:蛋醬、澤南在 ChatGPT API 中,系統提示是一項很有亮點的功能,它允許開發人員控制 LLM 輸出的「角色」,包括特殊規則和限制。系統提示中...
閱讀原文

馬斯克Ilya私密郵件被Claude破譯,OpenAI打碼信息公開,谷歌很受傷

克雷西 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI和馬斯克爭得不可開交,卻無意間揭示了Claude 3的新技能。 因為網友吃瓜的心可不只用在了事情本身,就連郵件...
閱讀原文

今日Arxiv最熱NLP大模型論文:Llama-2上下文擴大48倍的方法來了,港大發布,無需訓練

夕小瑤科技說 原創作者 | 芒果 引言:大語言模型的長上下文理解能力在當今的人工智能領域,大語言模型(Large Language Models,簡稱LLMs)的長上下文理解能...
閱讀原文

200萬上下文窗口創飛Gemini 1.5!微軟來砸谷歌場子了(doge)

西風 發自 凹非寺量子位 | 公眾號 QbitAI谷歌剛刷新大模型上下文窗口長度記錄,發布支持100萬token的Gemini 1.5,微軟就來砸場子了。 推出大模型上下文窗口拉...
閱讀原文

符堯大佬一作發文,僅改訓練數據,就讓LLaMa-2上下文長度擴展20倍!

夕小瑤科技說 原創作者 | Tscom、Python引言:探索語言模型的長上下文能力近日,谷歌推出了Gemini Pro 1.5,將上下文窗口長度擴展到100萬個tokens,目前領先...
閱讀原文

擊敗OpenAI,權重、數據、代碼全開源,能完美復現的嵌入模型Nomic Embed來了

機器之心報道 編輯:陳萍、小舟模型參數量只有 137M,5 天就能訓練好。一周前,OpenAI 給廣大用戶發放福利,在下場修復 GPT-4 變懶的問題后,還順道上新了 5 ...
閱讀原文

Mamba論文為什么沒被ICLR接收?AI社區沸騰了

機器之心報道 編輯:張倩、蛋醬基于 Mamba 的創新正不斷涌現,但原論文卻被 ICLR 放到了「待定區」。 2023 年,Transformer 在 AI 大模型領域的統治地位被撼...
閱讀原文
1234