復旦發(fā)布多模態(tài)大模型AnyGPT,文圖語樂樣樣行
AIGC動態(tài)歡迎閱讀
原標題:復旦發(fā)布多模態(tài)大模型AnyGPT,文圖語樂樣樣行
關鍵字:模型,分詞,文本,表示,圖像
文章來源:夕小瑤科技說
內容字數:7075字
內容摘要:
夕小瑤科技說 原創(chuàng)作者 | 芒果
引言:多模態(tài)語言模型新篇章在人工智能領域,多模態(tài)語言模型的發(fā)展正迎來新的篇章。傳統(tǒng)的大型語言模型(LLM)在理解和生類語言方面展現出了卓越的能力,但這些能力通常局限于文本處理。然而,現實世界是一個本質上多模態(tài)的環(huán)境,生物體通過視覺、語言、聲音和觸覺等多種渠道感知和交換信息。在這樣的背景下,一個有前景的目標是增強LLM,使其具備多模態(tài)感知能力。
最近的研究如Emu、SEED-LLaMA和SpeechGPT已經在使語言模型具備多模態(tài)理解和生成的能力上取得了重要進展。然而,這些模型僅集成了單一的非文本模態(tài),如圖像或音頻。雖然將文本與一個額外的模態(tài)對齊相對簡單,但在單一框架內整合多個模態(tài)(N ≥ 3)并實現它們之間的雙向對齊則是一個更為艱巨的挑戰(zhàn)。
為了克服這些挑戰(zhàn),研究者推出了AnyGPT,一個任意到任意的多模態(tài)語言模型,它采用離散表示來統(tǒng)一處理文本、各種模態(tài)、圖像和音樂。AnyGPT配備了多模態(tài)分詞器,將原始多模態(tài)數據(如圖像和音頻)壓縮成一系列離散的語義令牌。這些離散表示使得核心LLM能夠在語義層面上自回歸地統(tǒng)一感知、理解、推理和生成任務。隨后,去分
原文鏈接:復旦發(fā)布多模態(tài)大模型AnyGPT,文圖語樂樣樣行
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI一線開發(fā)者、互聯(lián)網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼?zhèn)湫袠I(yè)嗅覺與報道深度。