在線教程 | 打敗 GPT-4V?超強開源多模態大模型 LLaVA-OneVision 正式上線!
AIGC動態歡迎閱讀
原標題:在線教程 | 打敗 GPT-4V?超強開源多模態大模型 LLaVA-OneVision 正式上線!
關鍵字:商標,字節跳動,模型,視頻,員
文章來源:HyperAI超神經
內容字數:0字
內容摘要:
HyperAI超神經教程版塊現已上線「LLaVA-OneVision 多模態全能視覺模型 Demo」,快來體驗吧!大語言模型(Large Language Model,簡稱 LLM)與多模態大模型(Large Multimodal Model,簡稱 LMM)是人工智能領域的兩個核心發展方向。LLM 主要致力于處理和生成文本數據,而 LMM 則更進一步,它旨在整合和理解包括文本、圖片、視頻在內的多種數據類型。如今,LLM 已經相對成熟,ChatGPT 等在文字理解方面已經「對答如流」,人們開始將目光轉移到多模態數據的理解上,令模型能夠「讀圖、看視頻」。
近期,來自字節跳動、南洋理工大學、香港中文大學和香港科技大學的研究人員共同開源了 LLaVA-OneVision 多模態大模型,該模型在單圖像、多圖像和視頻任務中均展現出了卓越的性能。專為多模態大型模型設計的評估框架 LMMs-Eval 中顯示,LLaVA-OneVision-72B 在大多數基準上優于 GPT-4V 和 GPT-4o,如下圖所示:LLaVA-OneVision 在視頻基準測試中的性能表現LLaVA-OneVision 在
原文鏈接:在線教程 | 打敗 GPT-4V?超強開源多模態大模型 LLaVA-OneVision 正式上線!
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...