阿里開源首個視覺推理模型，擊敗GPT-4o，網頁一度404

數理化問題秒答，還能讀梗圖數鴨子

原標題：阿里開源首個視覺推理模型，擊敗GPT-4o，網頁一度404
文章來源：量子位
內容字數：2198字

阿里巴巴發布全球首個視覺推理模型QVQ

阿里巴巴在年末發布了其最新研究成果——視覺推理模型QVQ (Qwen Vision-based Question Answering)，這是據稱全球首個能夠通過讀取圖像和指令進行視覺推理的模型。QVQ可以被視為阿里巴巴上個月開源的o1模型的視覺版本，其能力涵蓋數學、物理、化學等多個學科，甚至可以解讀梗圖和計數鴨子等。

1. **模型能力與性能:** QVQ模型在MMMU基準測試中取得了70.3分，超過了GPT-4o和Claude 3.5 Sonnet，但略低于o1模型。它能夠解決各種類型的多模態問題，例如數學題、幾何題和化學題，展現了強大的視覺推理能力。阿里巴巴團隊在MMMU、MathVista、MathVision和OlympiadBench四個數據集上對QVQ-72B-Preview進行了評估，結果顯示其在數學和科學問題上的表現卓越。

2. **模型演示與局限性:** 阿里巴巴官方提供了幾個演示Demo，展示了QVQ在解決數學、幾何和化學問題上的能力。例如，它可以計算沙發的面積，識別濾液E的化學成分。然而，該模型目前仍處于實驗階段，存在一些局限性，包括語言混合、循環推理、安全和道德問題以及性能和基準限制。例如，在多步驟推理中，模型可能會逐漸忽略圖像內容，導致幻覺。

3. **與其他模型的對比:** 文章中提到了QVQ與谷歌版o1模型的對比測試。在同一題目下，QVQ能夠識別數字，但未能像人類一樣想到將9號球翻轉成6號球，從而無法解決問題。這突顯了當前視覺推理模型在復雜問題處理上的不足。

4. **未來發展方向:** 阿里巴巴團隊未來的目標是增強視覺語言基礎模型的能力，使其能夠進行更深入的視覺推理，并最終將更多模態整合到統一模型中，以應對更復雜的挑戰，并應用于科學探索領域，實現“AI For Science”的愿景。

5. **模型現狀:** 目前QVQ處于開放測試階段，由于訪問量過大，網頁曾一度出現404錯誤。這表明該模型仍處于發展初期，穩定性有待提升。

總而言之，阿里巴巴的QVQ模型代表了視覺推理領域的一個重要進展，但同時也暴露出該領域仍然面臨諸多挑戰。未來的研究將重點放在提升模型的穩定性、可靠性和處理復雜問題的能力上。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # AI模型開源策略 # GPT-4視覺推理對比 # 大模型404事件 # 視覺推理大模型開源 # 阿里視覺推理模型

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

阿里開源首個視覺推理模型，擊敗GPT-4o，網頁一度404

數理化問題秒答，還能讀梗圖數鴨子

阿里巴巴發布全球首個視覺推理模型QVQ

聯系作者

2個月，11億大模型大單，訊飛狂賺

突然有很多好消息，最近幾周這些 AI 公司融到了錢

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點