數理化問題秒答,還能讀梗圖數鴨子
原標題:阿里開源首個視覺推理模型,擊敗GPT-4o,網頁一度404
文章來源:量子位
內容字數:2198字
阿里巴巴發布全球首個視覺推理模型QVQ
阿里巴巴在年末發布了其最新研究成果——視覺推理模型QVQ (Qwen Vision-based Question Answering),這是據稱全球首個能夠通過讀取圖像和指令進行視覺推理的模型。QVQ可以被視為阿里巴巴上個月開源的o1模型的視覺版本,其能力涵蓋數學、物理、化學等多個學科,甚至可以解讀梗圖和計數鴨子等。
1. **模型能力與性能:** QVQ模型在MMMU基準測試中取得了70.3分,超過了GPT-4o和Claude 3.5 Sonnet,但略低于o1模型。它能夠解決各種類型的多模態問題,例如數學題、幾何題和化學題,展現了強大的視覺推理能力。阿里巴巴團隊在MMMU、MathVista、MathVision和OlympiadBench四個數據集上對QVQ-72B-Preview進行了評估,結果顯示其在數學和科學問題上的表現卓越。
2. **模型演示與局限性:** 阿里巴巴官方提供了幾個演示Demo,展示了QVQ在解決數學、幾何和化學問題上的能力。例如,它可以計算沙發的面積,識別濾液E的化學成分。然而,該模型目前仍處于實驗階段,存在一些局限性,包括語言混合、循環推理、安全和道德問題以及性能和基準限制。例如,在多步驟推理中,模型可能會逐漸忽略圖像內容,導致幻覺。
3. **與其他模型的對比:** 文章中提到了QVQ與谷歌版o1模型的對比測試。在同一題目下,QVQ能夠識別數字,但未能像人類一樣想到將9號球翻轉成6號球,從而無法解決問題。這突顯了當前視覺推理模型在復雜問題處理上的不足。
4. **未來發展方向:** 阿里巴巴團隊未來的目標是增強視覺語言基礎模型的能力,使其能夠進行更深入的視覺推理,并最終將更多模態整合到統一模型中,以應對更復雜的挑戰,并應用于科學探索領域,實現“AI For Science”的愿景。
5. **模型現狀:** 目前QVQ處于開放測試階段,由于訪問量過大,網頁曾一度出現404錯誤。這表明該模型仍處于發展初期,穩定性有待提升。
總而言之,阿里巴巴的QVQ模型代表了視覺推理領域的一個重要進展,但同時也暴露出該領域仍然面臨諸多挑戰。未來的研究將重點放在提升模型的穩定性、可靠性和處理復雜問題的能力上。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破