Long-VITA – 騰訊優(yōu)圖聯(lián)合南大、廈大開源的多模態(tài)模型
Long-VITA是什么
Long-VITA 是由騰訊優(yōu)圖實驗室、學(xué)和廈門大學(xué)共同開源的一款多模態(tài)模型,具有處理超過100萬tokens的長文本輸入的能力,并在短文本任務(wù)中表現(xiàn)優(yōu)異。該模型采用分階段訓(xùn)練的方式,逐步提升視覺與語言的上下文理解能力,支持圖像、視頻及文本等多種輸入形式。Long-VITA利用動態(tài)分塊編碼器對高分辨率圖像進(jìn)行處理,并通過上下文并行分布式推理技術(shù)支持無限長度輸入的處理。其訓(xùn)練使用了多個開源數(shù)據(jù)集,包括漫畫摘要和電影劇情,已在多個多模態(tài)基準(zhǔn)測試中取得了新的SOTA(State-of-the-Art)性能。
Long-VITA的主要功能
- 卓越的長文本處理能力:具備處理超過100萬tokens的能力,適用于長文本、長視頻和高分辨率圖像的多模態(tài)任務(wù)。
- 多模態(tài)理解能力:支持圖像、視頻和文本輸入,適合視頻理解、高分辨率圖像分析和長文本生成等應(yīng)用。
- 擴(kuò)展上下文能力:通過分階段訓(xùn)練逐步增加模型的上下文窗口,同時保持短文本任務(wù)的高效表現(xiàn)。
- 開源數(shù)據(jù)進(jìn)行訓(xùn)練:利用開源數(shù)據(jù)集進(jìn)行模型訓(xùn)練,無需依賴內(nèi)部數(shù)據(jù),降低了開發(fā)的門檻。
- 良好的可擴(kuò)展性:支持上下文并行的分布式推理,能夠處理無限長度的輸入,適合大規(guī)模的應(yīng)用部署。
Long-VITA的技術(shù)原理
- 分階段訓(xùn)練:
- 視覺與語言的對齊:凍結(jié)語言模型和視覺編碼器,僅訓(xùn)練投影器,以建立初步的視覺和語言特征連接。
- 通用知識的學(xué)習(xí):利用圖像-文本數(shù)據(jù)進(jìn)行多任務(wù)學(xué)習(xí),增強模型對通用知識的理解能力。
- 長序列的微調(diào):逐步擴(kuò)展上下文長度(從128K到1M),引入長文本和視頻理解數(shù)據(jù),優(yōu)化模型對長內(nèi)容的解析能力。
- 上下文并行分布式推理:采用張量并行和上下文并行的技術(shù),支持對無限長度輸入的推理,解決長文本處理的內(nèi)存瓶頸。
- 動態(tài)分塊編碼器:采用動態(tài)分塊策略高效處理高分辨率圖像,支持多種寬高比的輸入。
- 掩碼語言建模頭:在推理階段基于掩碼輸出logits,顯著降低內(nèi)存消耗,支持大規(guī)模的長文本生成。
Long-VITA的項目地址
- GitHub倉庫:https://github.com/VITA-MLLM/Long-VITA
- HuggingFace模型庫:https://huggingface.co/VITA-MLLM
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.05177v1
Long-VITA的應(yīng)用場景
- 視頻內(nèi)容生成:自動生成視頻摘要、字幕或?qū)σ曨l提出相關(guān)問題的回答。
- 圖像分析:輔助藝術(shù)創(chuàng)作、醫(yī)學(xué)影像診斷及衛(wèi)星圖像分析等領(lǐng)域。
- 長文本處理:用于生成小說、學(xué)術(shù)論文或文檔摘要。
- 智能對話系統(tǒng):在客服、教育和智能家居等場景中,通過文字、圖像和視頻與用戶進(jìn)行互動。
- 實時會議輔助:提供實時翻譯、字幕生成及會議記錄的自動化處理。
常見問題
- Long-VITA支持哪些類型的輸入?:Long-VITA支持圖像、視頻和文本等多種輸入類型。
- 如何獲取Long-VITA的使用權(quán)限?:用戶可以通過訪問其開源GitHub倉庫獲取使用權(quán)限和相關(guān)資料。
- Long-VITA的性能如何?:Long-VITA在多個多模態(tài)基準(zhǔn)測試中展示了領(lǐng)先的性能,尤其在長文本處理方面。
- 是否需要專門的硬件支持?:Long-VITA的上下文并行分布式推理設(shè)計使其能夠在多種硬件環(huán)境中高效運行。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...