長短大小樣樣精通！原始分辨率、超長視頻輸入：更靈活的全開源多模態架構Oryx

AIGC動態歡迎閱讀

原標題：長短大小樣樣精通！原始分辨率、超長視頻輸入：更靈活的全開源多模態架構Oryx
關鍵字：騰訊,視覺,模型,分辨率,視頻
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文的主要作者來自清華大學智能視覺實驗室（i-Vision Group）、騰訊公司和南洋理工大學 S-Lab。本文的共同第一作者為清華大學自動化系博士生劉祖炎和南洋理工大學博士生董宇昊，主要研究方向為多模態模型。本文的通訊作者為騰訊高級研究員饒永銘和清華大學自動化系魯繼文教授。
視覺數據的種類極其多樣，囊括像素級別的圖標到數小時的視頻。現有的多模態大語言模型（MLLM）通常將視覺輸入進行分辨率的標準化或進行動態切分等操作，以便視覺編碼器處理。然而，這些方法對多模態理解并不理想，在處理不同長度的視覺輸入時效率較低。
為了解決上述問題，來自清華大學、騰訊、南洋理工大學的研究者們提出一種更靈活的多模態模型 Oryx。Oryx 是一種統一的多模態架構，能夠處理圖像、視

原文鏈接：長短大小樣樣精通！原始分辨率、超長視頻輸入：更靈活的全開源多模態架構Oryx