任意模態(tài)輸入輸出?語(yǔ)音/文本/圖像/音樂(lè)都拿下! 復(fù)旦提出AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:任意模態(tài)輸入輸出?語(yǔ)音/文本/圖像/音樂(lè)都拿下! 復(fù)旦提出AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM
關(guān)鍵字:解讀,數(shù)據(jù),文本,圖像,模型
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):10275字
內(nèi)容摘要:
直播預(yù)告 | 5月28日10點(diǎn),「智猩猩AI新青年講座」第236講正式開(kāi)講,密歇根大學(xué)安娜堡分校在讀博士生張揮杰將直播講解《利用多級(jí)框架和多解碼器架構(gòu)提高擴(kuò)散模型訓(xùn)練效率》,歡迎掃名~導(dǎo)讀本文提出 AnyGPT,一種 any-to-any 的多模態(tài)大語(yǔ)言模型。采用離散的表征統(tǒng)一處理語(yǔ)音、文本、圖像和音樂(lè)等多種不同模態(tài)信號(hào)。文章構(gòu)建了一個(gè)多模態(tài),以文本為中心的數(shù)據(jù)集 AnyInstruct-108k。該數(shù)據(jù)集利用生成模型合成,是一個(gè)大規(guī)模多模態(tài)指令數(shù)據(jù)集。本文目錄
1 AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM
(來(lái)自復(fù)旦大學(xué),上海 AI Lab)
1 AnyGPT 論文解讀
1.1 從多模態(tài)輸入文本輸出,到多模態(tài)輸入多模態(tài)輸出
1.2 AnyGPT 多模態(tài)分詞器
1.3 AnyGPT 基座模型
1.4 AnyGPT 生成過(guò)程
1.5 AnyGPT 數(shù)據(jù)集
1.6 實(shí)驗(yàn)結(jié)果
太長(zhǎng)不看版
AnyGPT 是一種 any-to-any 的多模態(tài)大語(yǔ)言模型,它可以處理多種模態(tài)數(shù)據(jù),包括語(yǔ)音、文本、圖像和音樂(lè)。不同于之前的多模態(tài)大模型的點(diǎn)是 AnyGPT 使用了 LLM 的架構(gòu)和范式。但是與
原文鏈接:任意模態(tài)輸入輸出?語(yǔ)音/文本/圖像/音樂(lè)都拿下! 復(fù)旦提出AnyGPT:序列建模的統(tǒng)一多模態(tài) LLM
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。