ICLR 2024|把圖像視為外語(yǔ),快手、北大多模態(tài)大模型媲美DALLE-3
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024|把圖像視為外語(yǔ),快手、北大多模態(tài)大模型媲美DALLE-3
關(guān)鍵字:圖像,快手,視覺(jué),分詞,模型
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6753字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部動(dòng)態(tài)視覺(jué)分詞統(tǒng)一圖文表示,快手與北大合作提出基座模型 LaVIT 刷榜多模態(tài)理解與生成任務(wù)。
當(dāng)前的大型語(yǔ)言模型如 GPT、LLaMA 等在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)展,能夠理解和生成復(fù)雜的文本內(nèi)容。但你是否想過(guò),如果能夠?qū)⒋笳Z(yǔ)言模型這強(qiáng)大的理解和生成能力遷移到多模態(tài)數(shù)據(jù)上,就可以輕松理解海量的圖像與視頻,并輔助創(chuàng)作圖文并茂的內(nèi)容。近期,來(lái)自快手和北大合作的最新多模態(tài)大模型 LaVIT, 正在讓這個(gè)想法逐步變?yōu)楝F(xiàn)實(shí)。論文標(biāo)題:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
論文地址:https://arxiv.org/abs/2309.04669
代碼模型地址:https://github.com/jy0205/LaVIT
模型總覽
LaVIT 作為一個(gè)新型的通用多模態(tài)基礎(chǔ)模型,可以像語(yǔ)言模型那樣,既能夠理解也能生成視覺(jué)內(nèi)容。LaVIT 繼承了大語(yǔ)言模型成功的訓(xùn)練范式,即以自回歸的方式預(yù)測(cè)下一個(gè)圖像或文本 token。在訓(xùn)練完成后,其可
原文鏈接:ICLR 2024|把圖像視為外語(yǔ),快手、北大多模態(tài)大模型媲美DALLE-3
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)