AIGC動態歡迎閱讀
原標題:復旦發布多模態大模型AnyGPT,文圖語樂樣樣行
關鍵字:模型,分詞,文本,表示,圖像
文章來源:夕小瑤科技說
內容字數:7075字
內容摘要:
夕小瑤科技說 原創作者 | 芒果
引言:多模態語言模型新篇章在人工智能領域,多模態語言模型的發展正迎來新的篇章。傳統的大型語言模型(LLM)在理解和生類語言方面展現出了卓越的能力,但這些能力通常局限于文本處理。然而,現實世界是一個本質上多模態的環境,生物體通過視覺、語言、聲音和觸覺等多種渠道感知和交換信息。在這樣的背景下,一個有前景的目標是增強LLM,使其具備多模態感知能力。
最近的研究如Emu、SEED-LLaMA和SpeechGPT已經在使語言模型具備多模態理解和生成的能力上取得了重要進展。然而,這些模型僅集成了單一的非文本模態,如圖像或音頻。雖然將文本與一個額外的模態對齊相對簡單,但在單一框架內整合多個模態(N ≥ 3)并實現它們之間的雙向對齊則是一個更為艱巨的挑戰。
為了克服這些挑戰,研究者推出了AnyGPT,一個任意到任意的多模態語言模型,它采用離散表示來統一處理文本、各種模態、圖像和音樂。AnyGPT配備了多模態分詞器,將原始多模態數據(如圖像和音頻)壓縮成一系列離散的語義令牌。這些離散表示使得核心LLM能夠在語義層面上自回歸地統一感知、理解、推理和生成任務。隨后,去分
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...