標(biāo)簽:文本

視覺語(yǔ)言模型導(dǎo)論:這篇論文能成為你進(jìn)軍VLM的第一步

機(jī)器之心報(bào)道 編輯:Panda近些年,語(yǔ)言建模領(lǐng)域進(jìn)展非凡。Llama 或 ChatGPT 等許多大型語(yǔ)言模型(LLM)有能力解決多種不同的任務(wù),它們也正在成為越來越常用...
閱讀原文

萬字測(cè)評(píng)!開發(fā)者視角看智譜GLM-4-9B

智譜于 2024年6月5日發(fā)布了其新一代開源模型——GLM-4-9B,以 9B 的體量,同時(shí)支持了 128K 長(zhǎng)上下文推理、26種語(yǔ)言多語(yǔ)言支持,且在多個(gè)經(jīng)典評(píng)測(cè)任務(wù)上都實(shí)現(xiàn)了...
閱讀原文

ICML 2024 Oral|外部引導(dǎo)的深度聚類新范式

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

CLIP當(dāng)RNN用入選CVPR:無需訓(xùn)練即可分割無數(shù)概念|牛津大學(xué)&谷歌研究院

K君 投稿量子位 | 公眾號(hào) QbitAI循環(huán)調(diào)用CLIP,無需額外訓(xùn)練就有效分割無數(shù)概念。 包括電影動(dòng)漫人物,地標(biāo),品牌,和普通類別在內(nèi)的任意短語(yǔ)。 牛津大學(xué)與谷...
閱讀原文

多模態(tài)大模型不夠靈活,谷歌DeepMind創(chuàng)新架構(gòu)Zipper:分開訓(xùn)練再「壓縮」

機(jī)器之心報(bào)道 編輯:蛋醬最近的一系列研究表明,純解碼器生成模型可以通過訓(xùn)練利用下一個(gè) token 預(yù)測(cè)生成有用的表征,從而成功地生成多種模態(tài)(如音頻、圖像...
閱讀原文

爆火ChatTTS突破開源語(yǔ)音天花板,3天斬獲9k的Star量

機(jī)器之心報(bào)道 編輯:陳萍、佳琪未來人與人的交流,難道是這個(gè)樣?近日,一個(gè)名為 ChatTTS 文本轉(zhuǎn)語(yǔ)音項(xiàng)目爆火出圈,引來大家極大的關(guān)注。短短三天時(shí)間,在 Gi...
閱讀原文

OCR小模型仍有機(jī)會(huì)!華科等提出VIMTS:零樣本視頻端到端識(shí)別新SOTA

新智元報(bào)道編輯:LRT 【新智元導(dǎo)讀】通過提示查詢生成模塊和任務(wù)感知適配器,大一統(tǒng)框架VimTS在不同任務(wù)間實(shí)現(xiàn)更好的協(xié)同作用,顯著提升了模型的泛化能力。該...
閱讀原文

不影響輸出質(zhì)量還能追蹤溯源,「大模型無偏水印」入選ICLR 2024 Spotlight

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

任意模態(tài)輸入輸出?語(yǔ)音/文本/圖像/音樂都拿下! 復(fù)旦提出AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM

直播預(yù)告 | 5月28日10點(diǎn),「智猩猩AI新青年講座」第236講正式開講,密歇根大學(xué)安娜堡分校在讀博士生張揮杰將直播講解《利用多級(jí)框架和多解碼器架構(gòu)提高擴(kuò)散模...
閱讀原文

GPT模型的前世今生

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)派THU 作者:李媛媛 1 GPT模型概述 GPT模型,全稱Generative Pre-trained Transformer,由OpenAI團(tuán)隊(duì)開發(fā),是一種基于深度學(xué)習(xí)的自...
閱讀原文

Meta發(fā)布多模態(tài)模型Chameleon:34B、類GPT-4o、性能接近GPT-4V

GPT-4o 的橫空出世,再次創(chuàng)立了一個(gè)多模態(tài)模型發(fā)展的新范式。OpenAI 將其稱為「首個(gè)『原生』多模態(tài)」模型,意味著 GPT-4o 與以往所有的模型,都不盡相同。傳...
閱讀原文

另辟蹊徑挑戰(zhàn)GPT-4o!Meta首發(fā)混合模態(tài)大模型Chameleon

直播預(yù)告 | 5月23日晚7點(diǎn),「智猩猩機(jī)器人新青年講座」第6講正式開講,論文一作、清華大學(xué)在讀博士郭旭東將直播講解《大模型在具身多智能體合作中的研究進(jìn)展...
閱讀原文

首個(gè)中文原生DiT架構(gòu),已開源!大模型Hunyuan-DiT技術(shù)報(bào)告詳解

直播預(yù)告 | 5月23日晚7點(diǎn),「智猩猩機(jī)器人新青年講座」第6講正式開講,論文一作、清華大學(xué)在讀博士郭旭東將直播講解《大模型在具身多智能體合作中的研究進(jìn)展...
閱讀原文

Meta首發(fā)「變色龍」挑戰(zhàn)GPT-4o,34B參數(shù)引領(lǐng)多模態(tài)!10萬億token訓(xùn)練刷新SOTA

新智元報(bào)道編輯:桃子喬楊 【新智元導(dǎo)讀】GPT-4o發(fā)布不到一周,首個(gè)敢于挑戰(zhàn)王者的新模型誕生!最近,Meta團(tuán)隊(duì)發(fā)布了「混合模態(tài)」Chameleon,可以在單一神經(jīng)...
閱讀原文

StyleMamba:圖片風(fēng)格不滿意?一句話就能調(diào)!

夕小瑤科技說 原創(chuàng)作者 | Axe_越你與哈利波特的距離,只剩一個(gè)StyleMamba! “我想,把我的圖變成朦朧馬賽克” “我想,我的畫能不能變成美美的莫奈風(fēng)格” “我想...
閱讀原文
167891022