AIGC動態歡迎閱讀
原標題:任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2
文章來源:機器之心
內容字數:5573字
內容摘要:機器之心報道編輯:杜偉、大盤雞研究者表示,CoDi-2 標志著在開發全面的多模態基礎模型領域取得了重大突破。今年 5 月,北卡羅來納大學教堂山分校、微軟提出一種可組合擴散(Composable Diffusion,簡稱 )模型,讓一種模型統一多種模態成為可能。CoDi 不僅支持從單模態到單模態的生成,還能接收多個條件輸入以及多模態聯合生成。近日,UC 伯克利、微軟 Azure AI、Zoom、北卡羅來納大學教堂山分校等多個機構的研究者將 CoDi 升級到了 CoDi-2。論文地址:https://arxiv.org/pdf/2311.18775.pdf項目地址:https://codi-2.github.io/項目 demo論文一作 Zineng Tang 表示,「CoDi-2 遵循復雜的多模態交錯上下文指令,以零樣本或少樣本交互的方式生成任何模態(文本、視覺和音頻)。」圖源:https:…
原文鏈接:點此閱讀原文:任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...