視頻、圖像、文本,只需基于下一個(gè)Token預(yù)測(cè):智源Emu3發(fā)布,驗(yàn)證多模態(tài)模型新范式
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:視頻、圖像、文本,只需基于下一個(gè)Token預(yù)測(cè):智源Emu3發(fā)布,驗(yàn)證多模態(tài)模型新范式
關(guān)鍵字:模型,視覺(jué),數(shù)據(jù),圖像,視頻
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心發(fā)布
機(jī)器之心編輯部OpenAI 前首席科學(xué)家、聯(lián)合創(chuàng)始人 Ilya Sutskever 曾在多個(gè)場(chǎng)合表達(dá)觀點(diǎn):只要能夠非常好的預(yù)測(cè)下一個(gè) token,就能幫助人類(lèi)達(dá)到通用人工智能(AGI)。
雖然,下一 token 預(yù)測(cè)已在大語(yǔ)言模型領(lǐng)域?qū)崿F(xiàn)了 ChatGPT 等突破,但是在多模態(tài)模型中的適用性仍不明確,多模態(tài)任務(wù)仍然由擴(kuò)散模型(如 Stable Diffusion)和組合方法(如結(jié)合 CLIP 視覺(jué)編碼器和 LLM)所主導(dǎo)。
2024 年 10 月 21 日,智源研究院正式發(fā)布原生多模態(tài)世界模型 Emu3。該模型只基于下一個(gè) token 預(yù)測(cè),無(wú)需擴(kuò)散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。Emu3 在圖像生成、視頻生成、視覺(jué)語(yǔ)言理解等任務(wù)中超過(guò)了 SDXL 、LLaVA、OpenSora 等知名開(kāi)源模型,但是無(wú)需擴(kuò)散模型、CLIP 視覺(jué)編碼器、預(yù)訓(xùn)練的 LLM 等技術(shù),只需要預(yù)測(cè)下一個(gè) token。在圖像生成任務(wù)中,基于人類(lèi)偏好評(píng)測(cè),Emu3 優(yōu)于 SD-1.5 與 SDXL 模型。在視覺(jué)語(yǔ)言理解任務(wù)中,對(duì)于 12 項(xiàng)基準(zhǔn)測(cè)試的平均得分,Emu3
原文鏈接:視頻、圖像、文本,只需基于下一個(gè)Token預(yù)測(cè):智源Emu3發(fā)布,驗(yàn)證多模態(tài)模型新范式
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: