大語言模型擊敗擴散模型!視頻圖像生成雙SOTA,谷歌CMU最新研究,一作北大校友
AIGC動態(tài)歡迎閱讀
原標題:大語言模型擊敗擴散模型!視頻圖像生成雙SOTA,谷歌CMU最新研究,一作北大校友
文章來源:量子位
內容字數(shù):2561字
內容摘要:白交 發(fā)自 凹非寺量子位 | 公眾號 QbitAI語言模型擊敗擴散模型,在視頻和圖像生成上實現(xiàn)雙SOTA!這是來自谷歌CMU最新研究成果。據(jù)介紹,這是語言模型第一次在標志性的ImageNet基準上擊敗擴散模型。而背后的關鍵組件在于視覺分詞器(video tokenizer) ,它能將像素空間輸入映射為適合LLM學習的token。谷歌CMU研究團隊提出了MAGVIT-v2,在另外兩項任務中超越了之前…
原文鏈接:點此閱讀原文:大語言模型擊敗擴散模型!視頻圖像生成雙SOTA,谷歌CMU最新研究,一作北大校友
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...