復旦等發布AnyGPT：任意模態輸入輸出，圖像、音樂、文本、語音都支持

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：復旦等發布AnyGPT：任意模態輸入輸出，圖像、音樂、文本、語音都支持
關鍵字：模型,語言,圖像,任務,文本
文章來源：機器之心
內容字數：4395字

內容摘要：

機器之心報道
機器之心編輯部最近，OpenAI 的視頻生成模型 Sora 爆火，生成式 AI 模型在多模態方面的能力再次引起廣泛關注。
現實世界本質上是多模態的，生物體通過不同的渠道感知和交換信息，包括視覺、語言、聲音和觸覺。開發多模態系統的一個有望方向是增強 LLM 的多模態感知能力，主要涉及多模態編碼器與語言模型的集成，從而使其能夠跨各種模態處理信息，并利用 LLM 的文本處理能力來產生連貫的響應。
然而，該策略僅限于文本生成，不包含多模態輸出。一些開創性工作通過在語言模型中實現多模態理解和生成取得了重大進展，但這些模型僅包含單一的非文本模態，例如圖像或音頻。
為了解決上述問題，復旦大學邱錫鵬團隊聯合 Multimodal Art Projection（MAP）、上海人工智能實驗室的研究者提出了一種名為 AnyGPT 的多模態語言模型，該模型能夠以任意的模態組合來理解和推理各種模態的內容。具體來說，AnyGPT 可以理解文本、語音、圖像、音樂等多種模態交織的指令，并能熟練地選擇合適的多模態組合進行響應。
例如給出一段語音 prompt，AnyGPT 能夠生成語音、圖像、音樂形式的綜

原文鏈接：復旦等發布AnyGPT：任意模態輸入輸出，圖像、音樂、文本、語音都支持