大語言模型擊敗擴散模型!視頻圖像生成雙SOTA,谷歌CMU最新研究,一作北大校友
AIGC動態(tài)歡迎閱讀
原標題:大語言模型擊敗擴散模型!視頻圖像生成雙SOTA,谷歌CMU最新研究,一作北大校友
文章來源:量子位
內(nèi)容字數(shù):2561字
內(nèi)容摘要:白交 發(fā)自 凹非寺量子位 | 公眾號 QbitAI語言模型擊敗擴散模型,在視頻和圖像生成上實現(xiàn)雙SOTA!這是來自谷歌CMU最新研究成果。據(jù)介紹,這是語言模型第一次在標志性的ImageNet基準上擊敗擴散模型。而背后的關(guān)鍵組件在于視覺分詞器(video tokenizer) ,它能將像素空間輸入映射為適合LLM學(xué)習(xí)的token。谷歌CMU研究團隊提出了MAGVIT-v2,在另外兩項任務(wù)中超越了之前…
原文鏈接:點此閱讀原文:大語言模型擊敗擴散模型!視頻圖像生成雙SOTA,谷歌CMU最新研究,一作北大校友
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...