DeepSeek新作Janus:解耦視覺編碼,引領(lǐng)多模態(tài)理解與生成統(tǒng)一新范式

AIGC動態(tài)歡迎閱讀
原標(biāo)題:DeepSeek新作Janus:解耦視覺編碼,引領(lǐng)多模態(tài)理解與生成統(tǒng)一新范式
關(guān)鍵字:模型,視覺,編碼器,任務(wù),圖像
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com論文: https://arxiv.org/pdf/2410.13848
項目主頁:https://github.com/deepseek-ai/Janus
模型下載:https://huggingface.co/deepseek-ai/Janus-1.3B
在線 Demo:https://huggingface.co/spaces/deepseek-ai/Janus-1.3B
1. 太長不看版
我們提出了 Janus,一種基于自回歸的多模態(tài)理解與生成統(tǒng)一模型。Janus 的核心思想是對理解和生成任務(wù)的視覺編碼進(jìn)行解耦,在提升了模型的靈活性的同時,有效緩解了使用單一視覺編碼導(dǎo)致的沖突和性能瓶頸。實(shí)驗表明,Janus 超越了此前的統(tǒng)一模型的效果,并取得了和純理解
原文鏈接:DeepSeek新作Janus:解耦視覺編碼,引領(lǐng)多模態(tài)理解與生成統(tǒng)一新范式
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號