支持1024幀、準(zhǔn)確率近100%,英偉達(dá)「LongVILA」開始發(fā)力長(zhǎng)視頻
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:支持1024幀、準(zhǔn)確率近100%,英偉達(dá)「LongVILA」開始發(fā)力長(zhǎng)視頻
關(guān)鍵字:序列,長(zhǎng)上,模型,研究者,下文
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:杜偉、陳陳現(xiàn)在,長(zhǎng)上下文視覺語言模型(VLM)有了新的全棧解決方案 ——LongVILA,它集系統(tǒng)、模型訓(xùn)練與數(shù)據(jù)集開發(fā)于一體。現(xiàn)階段,將模型的多模態(tài)理解與長(zhǎng)上下文能力相結(jié)合是非常重要的,支持更多模態(tài)的基礎(chǔ)模型可以接受更靈活的輸入信號(hào),以便人們可以以更多樣化的方式與模型交互。而更長(zhǎng)的上下文使模型處理的信息更多,例如長(zhǎng)文檔、長(zhǎng)視頻,這種能力同樣為更多現(xiàn)實(shí)世界的應(yīng)用程序提供了所需的功能。
然而,目前面臨的問題是一些工作已經(jīng)啟用了長(zhǎng)上下文視覺語言模型(VLM),但通常是采用簡(jiǎn)化的方法,而不是提供一個(gè)全面的解決方案。
全棧設(shè)計(jì)對(duì)于長(zhǎng)上下文視覺語言模型至關(guān)重要。訓(xùn)練大型模型通常是一項(xiàng)復(fù)雜而系統(tǒng)的工作,需要數(shù)據(jù)工程和系統(tǒng)軟件協(xié)同設(shè)計(jì)。與純文本 LLM 不同,VLM(例如 LLaVA)通常需要獨(dú)特的模型架構(gòu)和靈活的分布式訓(xùn)練策略。
此外,長(zhǎng)上下文建模不僅需要長(zhǎng)上下文數(shù)據(jù),還需要能夠支持內(nèi)存密集型長(zhǎng)上下文訓(xùn)練的基礎(chǔ)設(shè)施。因此,對(duì)于長(zhǎng)上下文 VLM 來說,精心規(guī)劃的全棧設(shè)計(jì)(涵蓋系統(tǒng)、數(shù)據(jù)和 pipeline)是必不可少的。
本文,來自英偉達(dá)、MIT、UC 伯克利、得克薩斯大學(xué)奧斯汀
原文鏈接:支持1024幀、準(zhǔn)確率近100%,英偉達(dá)「LongVILA」開始發(fā)力長(zhǎng)視頻
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: