復旦發(fā)布多模態(tài)大模型AnyGPT，文圖語樂樣樣行

AIGC動態(tài)2年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：復旦發(fā)布多模態(tài)大模型AnyGPT，文圖語樂樣樣行
關鍵字：模型,分詞,文本,表示,圖像
文章來源：夕小瑤科技說
內容字數：7075字

內容摘要：

夕小瑤科技說原創(chuàng)作者 | 芒果
引言：多模態(tài)語言模型新篇章在人工智能領域，多模態(tài)語言模型的發(fā)展正迎來新的篇章。傳統(tǒng)的大型語言模型（LLM）在理解和生類語言方面展現出了卓越的能力，但這些能力通常局限于文本處理。然而，現實世界是一個本質上多模態(tài)的環(huán)境，生物體通過視覺、語言、聲音和觸覺等多種渠道感知和交換信息。在這樣的背景下，一個有前景的目標是增強LLM，使其具備多模態(tài)感知能力。
最近的研究如Emu、SEED-LLaMA和SpeechGPT已經在使語言模型具備多模態(tài)理解和生成的能力上取得了重要進展。然而，這些模型僅集成了單一的非文本模態(tài)，如圖像或音頻。雖然將文本與一個額外的模態(tài)對齊相對簡單，但在單一框架內整合多個模態(tài)（N ≥ 3）并實現它們之間的雙向對齊則是一個更為艱巨的挑戰(zhàn)。
為了克服這些挑戰(zhàn)，研究者推出了AnyGPT，一個任意到任意的多模態(tài)語言模型，它采用離散表示來統(tǒng)一處理文本、各種模態(tài)、圖像和音樂。AnyGPT配備了多模態(tài)分詞器，將原始多模態(tài)數據（如圖像和音頻）壓縮成一系列離散的語義令牌。這些離散表示使得核心LLM能夠在語義層面上自回歸地統(tǒng)一感知、理解、推理和生成任務。隨后，去分

原文鏈接：復旦發(fā)布多模態(tài)大模型AnyGPT，文圖語樂樣樣行