標(biāo)簽:上下文

谷歌Gemini時(shí)代來(lái)了!加固搜索護(hù)城河、賦能全家桶,Gemini 1.5 Pro升級(jí)至200萬(wàn)token

作者:李寶珠 & 十九 編輯:三羊 谷歌的對(duì)手可能并非 OpenAI,而是 OpenAI 背后的微軟。3 月中旬,谷歌宣布 Google I/O 定檔北京時(shí)間 5 月 15 日凌晨 1 ...
閱讀原文

牛皮吹破?大模型長(zhǎng)輸入能力不能拿來(lái)做上下文學(xué)習(xí)

夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年LLMs已經(jīng)進(jìn)入了長(zhǎng)序列時(shí)代。眾多的LLMs已經(jīng)發(fā)布支持從32K到2M tokens的長(zhǎng)序列窗口。 不過(guò),面對(duì)如此龐大的輸入,我們不禁要問(wèn)...
閱讀原文

30%參數(shù)達(dá)到92%的表現(xiàn),大模型稀疏化方法顯神通

夕小瑤科技說(shuō) 原創(chuàng)作者 | Axe_越當(dāng)我還是一位懵懂少年的時(shí)候,總認(rèn)為“任務(wù)難度”,“參數(shù)規(guī)模”和“準(zhǔn)確率”是一個(gè)不可兼顧的三角,比如當(dāng)我想要挑戰(zhàn)更難的任務(wù),...
閱讀原文

58行代碼把Llama 3擴(kuò)展到100萬(wàn)上下文,任何微調(diào)版都適用

夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI堂堂開(kāi)源之王Llama 3,原版上下文窗口居然只有……8k,讓到嘴邊的一句“真香”又咽回去了。? 在32k起步,100k尋常的今天...
閱讀原文

LLM上下文窗口突破200萬(wàn)!無(wú)需架構(gòu)變化+復(fù)雜微調(diào),輕松擴(kuò)展8倍

新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】LongRoPE方法首次將LLM的窗口擴(kuò)展到了2048k個(gè)token,只是簡(jiǎn)單微調(diào)的情況下,就能實(shí)現(xiàn)與短上下文窗口相近的性能!大型語(yǔ)言...
閱讀原文

北大發(fā)現(xiàn)了一種特殊類(lèi)型的注意力頭!

夕小瑤科技說(shuō) 原創(chuàng)作者 | 任同學(xué)檢索頭的發(fā)現(xiàn)或許將有力地幫助大模型領(lǐng)域在提高長(zhǎng)上下文推理能力、減少幻覺(jué)和壓縮KV緩存方面的研究。 從 Claude100K 到 Gemin...
閱讀原文

我處理了 5 億 GPT tokens 后:langchain、RAG 等都沒(méi)什么用

作者 | KEN KANTZER 譯者 | 平川 策劃 | 褚杏娟 本文最初發(fā)布于 KEN KANTZER 的個(gè)人博客。 在過(guò)去的六個(gè)月里,我的創(chuàng)業(yè)公司 Truss(gettruss.io)發(fā)布了多項(xiàng)...
閱讀原文

5億個(gè)token之后,我們得出關(guān)于GPT的七條寶貴經(jīng)驗(yàn)

機(jī)器之心報(bào)道 機(jī)器之心編輯部ChatGPT 正確的使用姿勢(shì)。 自 ChatGPT 問(wèn)世以來(lái),OpenAI 一直被認(rèn)為是全球生成式大模型的領(lǐng)導(dǎo)者。2023 年 3 月,OpenAI 官方宣布...
閱讀原文

LongRoPE:超越極限,將大模型上下文窗口擴(kuò)展超過(guò)200萬(wàn)tokens

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自微軟亞洲研究院 編者按:大模型的飛速發(fā)展給人們的生活帶來(lái)了前所未有的便利。我們是否能夠設(shè)想利用大模型的潛力,快速掃描整部百科全書(shū)...
閱讀原文

Meta無(wú)限長(zhǎng)文本大模型來(lái)了:參數(shù)僅7B,已開(kāi)源

機(jī)器之心報(bào)道 編輯:澤南、陳萍谷歌之后,Meta 也來(lái)卷無(wú)限長(zhǎng)上下文。Transformers 的二次復(fù)雜度和弱長(zhǎng)度外推限制了它們擴(kuò)展到長(zhǎng)序列的能力,雖然存在線性注意...
閱讀原文

新架構(gòu)掀翻Transformer!無(wú)限上下文處理,2萬(wàn)億token碾壓Llama 2

新智元報(bào)道編輯:桃子 好困 【新智元導(dǎo)讀】Transformer王座即將被取而代之!Meta、USC、CMU和UCSD聯(lián)合提出了革命性新架構(gòu)Megalodon,能夠處理無(wú)限上下文,在2...
閱讀原文

iPhone上最強(qiáng)官方模型出現(xiàn)!性能超越GPT-4,蘋(píng)果Siri有救啦?

4月18-19日,由智猩猩與智東西共同主辦的2024中國(guó)生成式AI大會(huì)將在北京JW萬(wàn)豪酒店舉行。大會(huì)完整議程出爐,55位嘉賓出席!免費(fèi)票申請(qǐng)通道即將關(guān)閉,大會(huì)通票...
閱讀原文

直接擴(kuò)展到無(wú)限長(zhǎng),谷歌Infini-Transformer終結(jié)上下文長(zhǎng)度之爭(zhēng)

機(jī)器之心報(bào)道 編輯:小舟、陳萍不知 Gemini 1.5 Pro 是否用到了這項(xiàng)技術(shù)。 谷歌又放大招了,發(fā)布下一代 Transformer 模型 Infini-Transformer。 Infini-Trans...
閱讀原文

剛剛,Mistral AI最新磁力鏈放出!8x22B MoE模型,281GB解禁

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】初創(chuàng)團(tuán)隊(duì)Mistral AI再次放出一條磁力鏈,281GB文件解禁了最新的8x22B MoE模型。一條磁力鏈,Mistral AI又來(lái)悶聲不響搞...
閱讀原文

全面突圍,谷歌昨晚更新了一大模型產(chǎn)品

機(jī)器之心報(bào)道 機(jī)器之心編輯部這次,谷歌要憑「量」打敗其他競(jìng)爭(zhēng)對(duì)手。 當(dāng)?shù)貢r(shí)間本周二,谷歌在 Google’s Cloud Next 2024 上發(fā)布了一系列 AI 相關(guān)的模型更新...
閱讀原文
14567815