字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍
關鍵字：字節跳動,圖像,豆包,模型,分辨率
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在生成式模型的迅速發展中，Image Tokenization 扮演著一個很重要的角色，例如Diffusion依賴的VAE或者是Transformer依賴的VQGAN。這些Tokenizers會將圖像編碼至一個更為緊湊的隱空間（latent space），使得生成高分辨率圖像更有效率。
然而，現有的Tokenizer通常會將輸入圖像映射為隱空間的一個降采樣后的2D矩陣，這一設計隱式的限制了token與圖像之間的映射關系，導致其很難有效的利用圖像中的冗余信息（比如相鄰的區域經常會有類似的特征）來獲得一個更加有效的圖像編碼。
為了解決這一問題，字節跳動豆包大模型團隊和慕尼黑工業大學提出了全新的1D圖像Tokenizer：TiTok，這一Tokenizer打破了2D

原文鏈接：字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍

聯系作者

文章來源：機器之心
作者微信：almosthuman2014
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 分辨率 # 圖像 # 字節跳動 # 模型 # 豆包

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍

AIGC動態歡迎閱讀

內容摘要：

聯系作者

華為盤古大模型5.0技術解密：更多模態，復雜推理

《Python 機器學習》作者新作：從頭開始構建大型語言模型，代碼已開源

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍

AIGC動態歡迎閱讀

內容摘要：

聯系作者

華為盤古大模型5.0技術解密：更多模態，復雜推理

《Python 機器學習》作者新作：從頭開始構建大型語言模型，代碼已開源

相關文章

暫無評論

ChatGPT

玩虛擬模特？

字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍