長(zhǎng)短大小樣樣精通!原始分辨率、超長(zhǎng)視頻輸入:更靈活的全開源多模態(tài)架構(gòu)Oryx
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:長(zhǎng)短大小樣樣精通!原始分辨率、超長(zhǎng)視頻輸入:更靈活的全開源多模態(tài)架構(gòu)Oryx
關(guān)鍵字:騰訊,視覺,模型,分辨率,視頻
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文的主要作者來自清華大學(xué)智能視覺實(shí)驗(yàn)室(i-Vision Group)、騰訊公司和南洋理工大學(xué) S-Lab。本文的共同第一作者為清華大學(xué)自動(dòng)化系博士生劉祖炎和南洋理工大學(xué)博士生董宇昊,主要研究方向?yàn)槎嗄B(tài)模型。本文的通訊作者為騰訊高級(jí)研究員饒永銘和清華大學(xué)自動(dòng)化系魯繼文教授。
視覺數(shù)據(jù)的種類極其多樣,囊括像素級(jí)別的圖標(biāo)到數(shù)小時(shí)的視頻。現(xiàn)有的多模態(tài)大語言模型(MLLM)通常將視覺輸入進(jìn)行分辨率的標(biāo)準(zhǔn)化或進(jìn)行動(dòng)態(tài)切分等操作,以便視覺編碼器處理。然而,這些方法對(duì)多模態(tài)理解并不理想,在處理不同長(zhǎng)度的視覺輸入時(shí)效率較低。
為了解決上述問題,來自清華大學(xué)、騰訊、南洋理工大學(xué)的研究者們提出一種更靈活的多模態(tài)模型 Oryx。Oryx 是一種統(tǒng)一的多模態(tài)架構(gòu),能夠處理圖像、視
原文鏈接:長(zhǎng)短大小樣樣精通!原始分辨率、超長(zhǎng)視頻輸入:更靈活的全開源多模態(tài)架構(gòu)Oryx
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: