AIGC動態歡迎閱讀
原標題:北大最新多模態大模型開源:在混合數據集上訓練,無需修改直接用到圖像視頻任務
文章來源:量子位
內容字數:5682字
內容摘要:一個北大投稿 發送至 凹非寺量子位 | 公眾號 QbitAI訓完130億參數通用視覺語言大模型,只需3天!北大和中山大學團隊又出招了——在最新研究中,研究團隊提出了一種構建統一的圖片和視頻表征的框架。利用這種框架,可以大大減少VLM(視覺語言大模型)在訓練和推理過程中的開銷。具體而言,團隊按照提出的新框架,訓練了一個新的VLM:Chat-UniVi。Chat-UniVi能在混合圖片和視頻數據的情況下進行訓練,并同時處理圖片任務和視頻理解任務。以此為基礎,Chat-UniVi在圖片及視頻上的17個基準上,都表現得還不錯?,F在,項目已經在GitHub和抱抱臉上開源。更多關于新方法和Chat-UniVi的詳細信息,我們一起進一步來看看~Chat-UniVi是什么?了解基礎信息后,我們詳細地聊聊Chat-UniVi究竟是什么——簡單來說,Chat-UniVi是一個統一的多模態大型語言模型,可以同時…
原文鏈接:點此閱讀原文:北大最新多模態大模型開源:在混合數據集上訓練,無需修改直接用到圖像視頻任務
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...