超越GPT-4o！阿里發布最強開源多模態模型Qwen2-VL，支持實時視頻對話

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：超越GPT-4o！阿里發布最強開源多模態模型Qwen2-VL，支持實時視頻對話
關鍵字：模型,視頻,圖像,能力,任務
文章來源：量子位
內容字數：0字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI新的最強開源多模態大模型來了！
阿里Qwen2大模型家族新添多模態模型Qwen2-VL，在圖像和長視頻理解任務上雙雙取得了SOTA。
在具體的子類任務中，Qwen2-VL在大部分的指標上都達到了最優，甚至超過 GPT-4o等閉源模型。
在多模態能力的加持下，Qwen2-VL可以實時讀取攝像頭或電腦屏幕，進行文字形式的視頻對話。
甚至還能作為Agent與環境進行交互，根據任務目標自主操控手機等設備。
此次發布的Qwen2共有2B、7B、72B三個版本，其中2B和7B版本已可下載并免費商用（Apache 2.0），72B則通過API提供。
目前開源代碼已集成到Hugging Face Transformers、vLLM等第三方框架中。
還有不少網友都在狂cue一些知名大模型推理平臺，如Groq、Ollama，希望能夠早日提供支持。
下面就來一睹Qwen2-VL的表現！
會操作機械臂的多模態大模型利用強大的多模態能力，Qwen2-VL能夠操縱機械臂，進行物體的拿取、放置等操作。
還可以化身撲克牌玩家，根據識別到的場上信息和提示詞描述進行“2

原文鏈接：超越GPT-4o！阿里發布最強開源多模態模型Qwen2-VL，支持實時視頻對話