ICLR 2024｜把圖像視為外語，快手、北大多模態大模型媲美DALLE-3

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：ICLR 2024｜把圖像視為外語，快手、北大多模態大模型媲美DALLE-3
關鍵字：圖像,快手,視覺,分詞,模型
文章來源：機器之心
內容字數：6753字

內容摘要：

機器之心報道
機器之心編輯部動態視覺分詞統一圖文表示，快手與北大合作提出基座模型 LaVIT 刷榜多模態理解與生成任務。
當前的大型語言模型如 GPT、LLaMA 等在自然語言處理領域取得了顯著進展，能夠理解和生成復雜的文本內容。但你是否想過，如果能夠將大語言模型這強大的理解和生成能力遷移到多模態數據上，就可以輕松理解海量的圖像與視頻，并輔助創作圖文并茂的內容。近期，來自快手和北大合作的最新多模態大模型 LaVIT, 正在讓這個想法逐步變為現實。論文標題：Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
論文地址：https://arxiv.org/abs/2309.04669
代碼模型地址：https://github.com/jy0205/LaVIT
模型總覽
LaVIT 作為一個新型的通用多模態基礎模型，可以像語言模型那樣，既能夠理解也能生成視覺內容。LaVIT 繼承了大語言模型成功的訓練范式，即以自回歸的方式預測下一個圖像或文本 token。在訓練完成后，其可

原文鏈接：ICLR 2024｜把圖像視為外語，快手、北大多模態大模型媲美DALLE-3

聯系作者

文章來源：機器之心
作者微信：almosthuman2014
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 分詞 # 圖像 # 快手 # 模型 # 視覺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

ICLR 2024｜把圖像視為外語，快手、北大多模態大模型媲美DALLE-3

AIGC動態歡迎閱讀

內容摘要：

聯系作者

一按快門，大灣區就成了廣州府

碾壓前輩！Meta發布“最大、性能最好”的開源Code Llama 70B，但開發者紛紛喊窮：玩不起！

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

ICLR 2024｜把圖像視為外語，快手、北大多模態大模型媲美DALLE-3

AIGC動態歡迎閱讀

內容摘要：

聯系作者

一按快門，大灣區就成了廣州府

碾壓前輩！Meta發布“最大、性能最好”的開源Code Llama 70B，但開發者紛紛喊窮：玩不起！

相關文章

暫無評論

ChatGPT

玩虛擬模特？

碾壓前輩！Meta發布“最大、性能最好”的開源Code Llama 70B，但開發者紛紛喊窮：玩不起！

玩虛擬模特？