北大最新多模態(tài)大模型開源:在混合數(shù)據(jù)集上訓(xùn)練,無需修改直接用到圖像視頻任務(wù)
AIGC動態(tài)歡迎閱讀
原標題:北大最新多模態(tài)大模型開源:在混合數(shù)據(jù)集上訓(xùn)練,無需修改直接用到圖像視頻任務(wù)
文章來源:量子位
內(nèi)容字數(shù):5682字
內(nèi)容摘要:一個北大投稿 發(fā)送至 凹非寺量子位 | 公眾號 QbitAI訓(xùn)完130億參數(shù)通用視覺語言大模型,只需3天!北大和中山大學(xué)團隊又出招了——在最新研究中,研究團隊提出了一種構(gòu)建統(tǒng)一的圖片和視頻表征的框架。利用這種框架,可以大大減少VLM(視覺語言大模型)在訓(xùn)練和推理過程中的開銷。具體而言,團隊按照提出的新框架,訓(xùn)練了一個新的VLM:Chat-UniVi。Chat-UniVi能在混合圖片和視頻數(shù)據(jù)的情況下進行訓(xùn)練,并同時處理圖片任務(wù)和視頻理解任務(wù)。以此為基礎(chǔ),Chat-UniVi在圖片及視頻上的17個基準上,都表現(xiàn)得還不錯。現(xiàn)在,項目已經(jīng)在GitHub和抱抱臉上開源。更多關(guān)于新方法和Chat-UniVi的詳細信息,我們一起進一步來看看~Chat-UniVi是什么?了解基礎(chǔ)信息后,我們詳細地聊聊Chat-UniVi究竟是什么——簡單來說,Chat-UniVi是一個統(tǒng)一的多模態(tài)大型語言模型,可以同時…
原文鏈接:點此閱讀原文:北大最新多模態(tài)大模型開源:在混合數(shù)據(jù)集上訓(xùn)練,無需修改直接用到圖像視頻任務(wù)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...