AIGC動態歡迎閱讀
原標題:真·大一統!AI2南郵校友等打造Unified-IO 2:首個視覺/語言/音頻/動作多模態模型
關鍵字:模型,圖像,研究人員,任務,數據
文章來源:新智元
內容字數:12732字
內容摘要:
新智元報道編輯:Aeneas 好困
【新智元導讀】首個視覺、語言、音頻和動作多模態模型Unified-IO 2來了!它能夠完成多種多模態的任務,在超過30個基準測試中展現出了卓越性能。首個具備理解和創造圖像、文本、音頻以及動作能力的自回歸多模態模型來了!
來自艾倫人工智能研究所、伊利諾伊大學厄巴納-香檳分校、華盛頓大學的學者提出了Unified-IO 2。
論文地址:https://arxiv.org/abs/2312.17172
為了整合不同類型的數據,研究人員將圖像、文本、音頻、動作等各種輸入和輸出轉換成統一的語義表征,再通過一個統一的編解碼器Transformer模型進行處理。
訓練這樣多樣化的數據類型是極其復雜的,因此研究人員設計了多種架構優化方案,來提高模型的穩定性。
研究人員使用來自各種來源的大型多模態預訓練語料庫,通過具有去噪器目標的多模態混合,從頭開始訓練模型。
為了掌握如遵循多模態指令等廣泛的技能,研究人員還特意構建并微調了一個包含120 個現有數據集的集合,并對其進行了擴展和優化。
Unified-IO 2作為一個統一的多功能模型,在GRIT基準測試中取得了SOT
原文鏈接:真·大一統!AI2南郵校友等打造Unified-IO 2:首個視覺/語言/音頻/動作多模態模型
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...