任意模態(tài)輸入輸出?語音/文本/圖像/音樂都拿下! 復(fù)旦提出AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM
AIGC動態(tài)歡迎閱讀
原標(biāo)題:任意模態(tài)輸入輸出?語音/文本/圖像/音樂都拿下! 復(fù)旦提出AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM
關(guān)鍵字:解讀,數(shù)據(jù),文本,圖像,模型
文章來源:算法邦
內(nèi)容字?jǐn)?shù):10275字
內(nèi)容摘要:
直播預(yù)告 | 5月28日10點,「智猩猩AI新青年講座」第236講正式開講,密歇根大學(xué)安娜堡分校在讀博士生張揮杰將直播講解《利用多級框架和多解碼器架構(gòu)提高擴散模型訓(xùn)練效率》,歡迎掃名~導(dǎo)讀本文提出 AnyGPT,一種 any-to-any 的多模態(tài)大語言模型。采用離散的表征統(tǒng)一處理語音、文本、圖像和音樂等多種不同模態(tài)信號。文章構(gòu)建了一個多模態(tài),以文本為中心的數(shù)據(jù)集 AnyInstruct-108k。該數(shù)據(jù)集利用生成模型合成,是一個大規(guī)模多模態(tài)指令數(shù)據(jù)集。本文目錄
1 AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM
(來自復(fù)旦大學(xué),上海 AI Lab)
1 AnyGPT 論文解讀
1.1 從多模態(tài)輸入文本輸出,到多模態(tài)輸入多模態(tài)輸出
1.2 AnyGPT 多模態(tài)分詞器
1.3 AnyGPT 基座模型
1.4 AnyGPT 生成過程
1.5 AnyGPT 數(shù)據(jù)集
1.6 實驗結(jié)果
太長不看版
AnyGPT 是一種 any-to-any 的多模態(tài)大語言模型,它可以處理多種模態(tài)數(shù)據(jù),包括語音、文本、圖像和音樂。不同于之前的多模態(tài)大模型的點是 AnyGPT 使用了 LLM 的架構(gòu)和范式。但是與
原文鏈接:任意模態(tài)輸入輸出?語音/文本/圖像/音樂都拿下! 復(fù)旦提出AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應(yīng)用。