2025年的第一個月,國內大模型廠商都太爭氣了!Qwen2.5-VL的表格解析效果有點強!
原標題:Qwen2.5-VL系列模型正式開源,千問永遠不會讓你失望 | 附實測結果
文章來源:智猩猩GenAI
內容字數:3966字
通義千問Qwen2.5-VL系列模型開源:多模態能力顯著提升
本文總結了通義千問在春節前夕開源的Qwen2.5-VL系列模型的特性和測試結果。該模型在多模態能力上取得了顯著進步,尤其在表格解析方面表現突出。
模型概述
Qwen2.5-VL系列模型包含三個尺寸:3B、7B和72B,分別適用于端側部署、速度與效果平衡以及追求最佳效果的場景。其中7B模型在多個開源榜單上排名第一,72B模型則與GPT4-o和Claude 3.5性能相當。該模型不僅提升了對話、指令跟隨、數學和代碼能力,還支持坐標、JSON等返回格式,以及更長視頻(1小時)的理解、更細粒度的時間感知、更全面的知識解析和更強的Agent能力(操作手機和電腦)。其視覺編碼器采用原生訓練的動態分辨率ViT,并引入空間和時間維度編碼,提升了對空間和時間的理解能力。
實測結果
文章作者對Qwen2.5-VL模型進行了多項測試,包括表格解析、數學能力、信息抽取、計算、理解能力以及色盲測試。在表格解析方面,Qwen2.5-VL-72B模型對簡單、中等和復雜表格均實現了完全正確的解析,表現遠超此前GPT4-o、Claude和Gemini等模型。在數學測試中,該模型正確解答了2024年高考全國甲卷(文理科)數學試題。信息抽取、計算和理解能力測試也取得了較好的結果,僅在手寫OCR識別現輕微錯誤。色盲測試則通過了一半。
Hugging Face快速使用
文章提供了在Hugging Face上使用Qwen2.5-VL-7B模型的代碼示例,展示了如何利用該模型進行圖像描述任務。
總結
作者認為Qwen2.5-VL是國內開源大模型的佼佼者,其在多模態能力上的提升令人印象深刻,尤其在表格解析方面的突破非常值得關注。文章最后表達了對后續Qwen3、QwQ和QvQ模型更新的期待。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。