AIGC動態歡迎閱讀
原標題:超越GPT-4o!阿里發布最強開源多模態模型Qwen2-VL,支持實時視頻對話
關鍵字:模型,視頻,圖像,能力,任務
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI新的最強開源多模態大模型來了!
阿里Qwen2大模型家族新添多模態模型Qwen2-VL,在圖像和長視頻理解任務上雙雙取得了SOTA。
在具體的子類任務中,Qwen2-VL在大部分的指標上都達到了最優,甚至超過 GPT-4o等閉源模型。
在多模態能力的加持下,Qwen2-VL可以實時讀取攝像頭或電腦屏幕,進行文字形式的視頻對話。
甚至還能作為Agent與環境進行交互,根據任務目標自主操控手機等設備。
此次發布的Qwen2共有2B、7B、72B三個版本,其中2B和7B版本已可下載并免費商用(Apache 2.0),72B則通過API提供。
目前開源代碼已集成到Hugging Face Transformers、vLLM等第三方框架中。
還有不少網友都在狂cue一些知名大模型推理平臺,如Groq、Ollama,希望能夠早日提供支持。
下面就來一睹Qwen2-VL的表現!
會操作機械臂的多模態大模型利用強大的多模態能力,Qwen2-VL能夠操縱機械臂,進行物體的拿取、放置等操作。
還可以化身撲克牌玩家,根據識別到的場上信息和提示詞描述進行“2
原文鏈接:超越GPT-4o!阿里發布最強開源多模態模型Qwen2-VL,支持實時視頻對話
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...