智源 Emu3 證明多模態(tài)模型新范式：只需基于下一個(gè) token 預(yù)測

AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 AI科技評(píng)論

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：智源 Emu3 證明多模態(tài)模型新范式：只需基于下一個(gè) token 預(yù)測
關(guān)鍵字：模型,視覺,數(shù)據(jù),圖像,視頻
文章來源：AI科技評(píng)論
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

只需基于下一個(gè) token 預(yù)測，智源 Emu3 重新定義多模態(tài)模型。OpenAI前首席科學(xué)家、聯(lián)合創(chuàng)始人Ilya Sutskever曾在多個(gè)場合表達(dá)觀點(diǎn)：只要能夠非常好的預(yù)測下一個(gè)token，就能幫助人類達(dá)到通用人工智能（AGI）。
雖然，下一token預(yù)測已在大語言模型領(lǐng)域?qū)崿F(xiàn)了 ChatGPT 等突破，但是在多模態(tài)模型中的適用性仍不明確，多模態(tài)任務(wù)仍然由擴(kuò)散模型（如Stable Diffusion）和組合方法（如結(jié)合 CLIP視覺編碼器和LLM）所主導(dǎo)。
2024年10月21日，智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。該模型只基于下一個(gè)token預(yù)測，無需擴(kuò)散模型或組合方法，即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。Emu3在圖像生成、視頻生成、視覺語言理解等任務(wù)中超過了 SDXL 、LLaVA、OpenSora等知名開源模型，但是無需擴(kuò)散模型、CLIP視覺編碼器、預(yù)訓(xùn)練的LLM等技術(shù)，只需要預(yù)測下一個(gè)token。
圖注：在圖像生成任務(wù)中，基于人類偏好評(píng)測，Emu3優(yōu)于SD-1.5與SDXL模型。在視覺語言理解任務(wù)中，對(duì)于12 項(xiàng)基準(zhǔn)測試的平均得分，Emu3優(yōu)于Ll

原文鏈接：智源 Emu3 證明多模態(tài)模型新范式：只需基于下一個(gè) token 預(yù)測

聯(lián)系作者

文章來源：AI科技評(píng)論
作者微信：
作者簡介：

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

智源 Emu3 證明多模態(tài)模型新范式：只需基于下一個(gè) token 預(yù)測

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

我們能夠讓開源小模型變得比人類更聰明嗎

獨(dú)家對(duì)話諾獎(jiǎng)評(píng)委：授予辛頓物理學(xué)獎(jiǎng)引發(fā)對(duì)AI風(fēng)險(xiǎn)的關(guān)注，是好的副作用

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

智源 Emu3 證明多模態(tài)模型新范式：只需基于下一個(gè) token 預(yù)測

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

我們能夠讓開源小模型變得比人類更聰明嗎

獨(dú)家對(duì)話諾獎(jiǎng)評(píng)委：授予辛頓物理學(xué)獎(jiǎng)引發(fā)對(duì)AI風(fēng)險(xiǎn)的關(guān)注，是好的副作用

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

獨(dú)家對(duì)話諾獎(jiǎng)評(píng)委：授予辛頓物理學(xué)獎(jiǎng)引發(fā)對(duì)AI風(fēng)險(xiǎn)的關(guān)注，是好的副作用