AIGC動態歡迎閱讀
原標題:任意模態輸入輸出?語音/文本/圖像/音樂都拿下! 復旦提出AnyGPT:序列建模的統一多模態 LLM
關鍵字:解讀,數據,文本,圖像,模型
文章來源:算法邦
內容字數:10275字
內容摘要:
直播預告 | 5月28日10點,「智猩猩AI新青年講座」第236講正式開講,密歇根大學安娜堡分校在讀博士生張揮杰將直播講解《利用多級框架和多解碼器架構提高擴散模型訓練效率》,歡迎掃名~導讀本文提出 AnyGPT,一種 any-to-any 的多模態大語言模型。采用離散的表征統一處理語音、文本、圖像和音樂等多種不同模態信號。文章構建了一個多模態,以文本為中心的數據集 AnyInstruct-108k。該數據集利用生成模型合成,是一個大規模多模態指令數據集。本文目錄
1 AnyGPT:序列建模的統一多模態 LLM
(來自復旦大學,上海 AI Lab)
1 AnyGPT 論文解讀
1.1 從多模態輸入文本輸出,到多模態輸入多模態輸出
1.2 AnyGPT 多模態分詞器
1.3 AnyGPT 基座模型
1.4 AnyGPT 生成過程
1.5 AnyGPT 數據集
1.6 實驗結果
太長不看版
AnyGPT 是一種 any-to-any 的多模態大語言模型,它可以處理多種模態數據,包括語音、文本、圖像和音樂。不同于之前的多模態大模型的點是 AnyGPT 使用了 LLM 的架構和范式。但是與
原文鏈接:任意模態輸入輸出?語音/文本/圖像/音樂都拿下! 復旦提出AnyGPT:序列建模的統一多模態 LLM
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...