標(biāo)簽:視覺(jué)

導(dǎo)航、采礦、建造,北大這個(gè)新智能體把《我的世界》玩透了

AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

一塊顯卡理解一部電影,最新超長(zhǎng)視頻理解大模型出爐!“大海撈針”準(zhǔn)確率近95%,代碼已開(kāi)源

允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI僅需1塊80G顯卡,大模型理解小時(shí)級(jí)超長(zhǎng)視頻。 智源研究院聯(lián)合上海交通大學(xué)、中國(guó)人民大學(xué)、北京大學(xué)和北京郵電大學(xué)等...
閱讀原文

一張顯卡看遍天下電影!智源聯(lián)合高校開(kāi)源Video-XL打破長(zhǎng)視頻理解極限,95%準(zhǔn)確率刷爆紀(jì)錄

新智元報(bào)道編輯:編輯部 HYZ 【新智元導(dǎo)讀】長(zhǎng)視頻理解迎來(lái)新紀(jì)元!智源聯(lián)手國(guó)內(nèi)多所頂尖高校,推出了超長(zhǎng)視頻理解大模型Video-XL。僅用一張80G顯卡處理小時(shí)...
閱讀原文

百度又放大招!視覺(jué)生成模型 Hallo2 或?qū)⒙涞財(cái)?shù)字人等場(chǎng)景

作者 | 華衛(wèi) 近日,百度聯(lián)合復(fù)旦大學(xué)等發(fā)布 Hallo2,一個(gè)可以生成長(zhǎng)達(dá)數(shù)小時(shí)且分辨率為 4K 的人物動(dòng)畫(huà)的視覺(jué)模型。Hallo2 目前已經(jīng)在 GitHub 平臺(tái)開(kāi)源,供全...
閱讀原文

開(kāi)源模型突破原生多模態(tài)大模型性能瓶頸,上海AI Lab代季峰團(tuán)隊(duì)出品

Mono-InternVL團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI原生多模態(tài)大模型性能瓶頸,迎來(lái)新突破! 上海AI Lab代季峰老師團(tuán)隊(duì),提出了全新的原生多模態(tài)大模型Mono-Inter...
閱讀原文

你和ChatGPT理解語(yǔ)言的方式一樣嗎?從表征對(duì)齊角度比較人工神經(jīng)網(wǎng)絡(luò)與生物大腦

導(dǎo)語(yǔ)ChatGPT 理解語(yǔ)言的方式和人類(lèi)一樣嗎?卷積神經(jīng)網(wǎng)絡(luò)和人腦視覺(jué)系統(tǒng)的表征有哪些類(lèi)似之處?不同信息處理系統(tǒng)之間的差異要如何定量刻畫(huà)?本文介紹了表征對(duì)...
閱讀原文

謝賽寧新作:表征學(xué)習(xí)有多重要?一個(gè)操作刷新SOTA,DiT訓(xùn)練速度暴漲18倍

新智元報(bào)道編輯:?jiǎn)虠?【新智元導(dǎo)讀】在NLP領(lǐng)域,研究者們已經(jīng)充分認(rèn)識(shí)并認(rèn)可了表征學(xué)習(xí)的重要性,那么視覺(jué)領(lǐng)域的生成模型呢?最近,謝賽寧團(tuán)隊(duì)發(fā)表的一篇研...
閱讀原文

DeepSeek新作Janus:解耦視覺(jué)編碼,引領(lǐng)多模態(tài)理解與生成統(tǒng)一新范式

AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

搞定圖像+文本+視頻大一統(tǒng)!智源發(fā)布多模態(tài)世界模型Emu3:下一個(gè)token預(yù)測(cè)直通AGI

下一個(gè)token預(yù)測(cè),通向多模態(tài)AGI。 OpenAI前首席科學(xué)家、聯(lián)合創(chuàng)始人Ilya Sutskever曾在多個(gè)場(chǎng)合表達(dá)觀點(diǎn):只要能夠非常好的預(yù)測(cè)下一個(gè)token,就能幫助人類(lèi)達(dá)...
閱讀原文

智源 Emu3 證明多模態(tài)模型新范式:只需基于下一個(gè) token 預(yù)測(cè)

只需基于下一個(gè) token 預(yù)測(cè),智源 Emu3 重新定義多模態(tài)模型。OpenAI前首席科學(xué)家、聯(lián)合創(chuàng)始人Ilya Sutskever曾在多個(gè)場(chǎng)合表達(dá)觀點(diǎn):只要能夠非常好的預(yù)測(cè)下一...
閱讀原文

Ilya預(yù)言成真,下一個(gè)token預(yù)測(cè)直達(dá)AGI!智源首發(fā)原生多模態(tài)世界模型Emu3,不用擴(kuò)散

新智元報(bào)道編輯:編輯部 HYZ 【新智元導(dǎo)讀】最近,Ilya向黃仁勛描述「只要能預(yù)測(cè)下一個(gè)token,就能達(dá)到AGI」的視頻再次爆火全網(wǎng),他的預(yù)言剛剛竟被證實(shí)?智源...
閱讀原文

PPT 滿(mǎn)屏文字? 救星來(lái)了!這款神器幫你一鍵生成專(zhuān)業(yè)插圖!

都說(shuō)一圖勝千言,但你是否經(jīng)常遇到這樣的場(chǎng)景:工作匯報(bào)、 PPT花了你大半天時(shí)間,上面的文字仍然堆積如山,網(wǎng)上又很難找到貼合你內(nèi)容的圖片,而自己設(shè)計(jì)一個(gè)...
閱讀原文

Ilya觀點(diǎn)得證!僅靠預(yù)測(cè)下一個(gè)token統(tǒng)一圖像文本視頻,智源發(fā)布原生多模態(tài)世界模型Emu3

夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIOpenAI前首席科學(xué)家、聯(lián)合創(chuàng)始人Ilya Sutskever曾在多個(gè)場(chǎng)合表達(dá)觀點(diǎn): 只要能夠非常好的預(yù)測(cè)下一個(gè)token,就能幫助...
閱讀原文

視頻、圖像、文本,只需基于下一個(gè)Token預(yù)測(cè):智源Emu3發(fā)布,驗(yàn)證多模態(tài)模型新范式

機(jī)器之心發(fā)布 機(jī)器之心編輯部OpenAI 前首席科學(xué)家、聯(lián)合創(chuàng)始人 Ilya Sutskever 曾在多個(gè)場(chǎng)合表達(dá)觀點(diǎn):只要能夠非常好的預(yù)測(cè)下一個(gè) token,就能幫助人類(lèi)達(dá)到...
閱讀原文

OCR-Omni來(lái)了,字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024

TextHarmony團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI多模態(tài)生成新突破,字節(jié)&華師團(tuán)隊(duì)打造TextHarmony,在單一模型架構(gòu)中實(shí)現(xiàn)模態(tài)生成的統(tǒng)一,并入選NeurIPS 202...
閱讀原文
123420