字節(jié)豆包全新圖像Tokenizer:生成圖像最低只需32個token,最高提速410倍
AIGC動態(tài)歡迎閱讀
原標題:字節(jié)豆包全新圖像Tokenizer:生成圖像最低只需32個token,最高提速410倍
關(guān)鍵字:字節(jié)跳動,圖像,豆包,模型,分辨率
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在生成式模型的迅速發(fā)展中,Image Tokenization 扮演著一個很重要的角色,例如Diffusion依賴的VAE或者是Transformer依賴的VQGAN。這些Tokenizers會將圖像編碼至一個更為緊湊的隱空間(latent space),使得生成高分辨率圖像更有效率。
然而,現(xiàn)有的Tokenizer通常會將輸入圖像映射為隱空間的一個降采樣后的2D矩陣,這一設(shè)計隱式的限制了token與圖像之間的映射關(guān)系,導致其很難有效的利用圖像中的冗余信息(比如相鄰的區(qū)域經(jīng)常會有類似的特征)來獲得一個更加有效的圖像編碼。
為了解決這一問題,字節(jié)跳動豆包大模型團隊和慕尼黑工業(yè)大學提出了全新的1D圖像Tokenizer:TiTok,這一Tokenizer打破了2D
原文鏈接:字節(jié)豆包全新圖像Tokenizer:生成圖像最低只需32個token,最高提速410倍
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺