智譜悄悄上線了一個免費的視覺對話 API，AI 領域要起風了

OpenAI 連續 12 天的深夜直播，直接給 AI 圈干懵了。每天一邊瘋狂，一邊感覺身體在被掏空……12 天的炮彈攻擊，搞得其他廠商都不敢有動靜了。但是，我今天發現國產「AI 卷王」智譜悄悄地在公眾號里發了篇推文——首個免費多模態 API：GLM-4V-Flash 上線智譜開放平臺納尼？！我還以為是我這兩天熬夜肝出幻覺來了。視覺對話的 API 也能搞免費？玩過 ChatBot API 的都知道，多模態/視覺類的 API 都非常的貴。就算號稱白菜價的 GPT-4o mini，調用視覺理解能力的時候，一張圖片都會消耗 5 分錢。錢包根本扛不住大規模部署/調用。視覺能力對標 GPT-4o mini 模型的 GLM-4V-Flash，智譜竟然上線即免費？智譜，我斑愿稱你為最卷。我先把測試傳送門貼出來，等不及的小伙伴直接傳送：傳送門：https://bigmodel.cn?utm_source=xixiaoyao&utm_campaign=4vflash&_channel_track_key=iOwaTIbN說明文檔：bigmodel.cn/dev/api/normal-model/glm-4v雖然從價格上來說，GLM-4V-Flash 絕對可以稱得上最卷，但還是得先看效果，所以，我認為此事必須要讓 GLM-4V-Flash 跟 GPT-4o mini 真刀的干一架！為了盡可能測試出 GLM-4V-Flash 的真實價值，我設計了十大有趣和有用的專項測試題：看圖猜成語（圖片理解 + 知識推理）世界知識儲備（知識問答）物體計數（物品識別）表情包理解（簡單語義理解）拍照解題（復雜圖片理解 + 數學）字體識別（簡單知識問答）情緒理解（人物表情分析）復雜物體理解（圖片識別 + 分類）自動駕駛場景（特定領域）物流單據 OCR 信息抽取（信息抽取）來吧，跟 GPT-4o mini 一決雌雄！看圖猜成語GLM-4V-FlashGPT-4o mini可以！第一輪 PK 全做對了。感覺搞得太簡單了，來提升一下難度！GLM-4V-FlashGPT-4o mini都不行啊。但實話說，這個成語確實挺難。我問了身邊一圈朋友，只有一個智商高達 250 的小哥哥猜出來了。世界知識儲備這一輪比拼世界知識。下面這張圖片，我相信 99% 的理科生都能一眼知道含金量。GLM-4V-FlashGPT-4o miniwok，這一局 GLM-4V-Flash 的回答驚到我了，完勝。物體計數還是上一道題的圖，但這次讓智譜和 4o mini 去計數一下圖片里有多少人。GLM-4V-FlashGPT-4o mini智譜額外發現了一個隱形人，而 4o mini 則認為圖片里有 9 個不是人。降低一下難度！數一數這張圖里面的泰迪狗吧（這道題堪稱近視眼）。GLM-4V-FlashGPT-4o mini難以置信，竟然都做對了，這把打平。表情包理解這次對雙方都加大難度，搞一個“英文梗的中文互聯網流行的表情包”——GLM-4V-FlashGPT-4o mini果然還是智譜更懂中文世界的梗。智譜完勝！拍照解題這一輪，我安排了 8 道 9 年級數學題。GLM-4V-FlashGPT-4o mini沒想到，4o mini 竟然直接拒絕回答了。而智譜則給出了前 4 道題的答案，我特意去讓 200 美金/月的 o1 pro 幫我算出了前四道題的答案——ADBA。智譜做對了一半。從得分上來說，GLM-4V-Flash 是打過 4o mini 的。但從場景上來說，類似 4o mini、GLM-4V-Flash 的輕量級模型，如果一下子面對大量的有難度的推理題目，確實很難消化掉。從這個角度來說，本場景里更適合將輕量級模型拿來做前置的 OCR 任務，再用推理能力強大的模型例如 GLM-4-Plus 去進一步解題。字體識別先來個中文字體的（智譜你可要爭氣啊）GLM-4V-FlashGPT-4o mini不錯不錯，智譜抗住了壓力，本題智譜勝！再來測試個英文的字體！實話說，這個字體我都分不出來，看看 AI 的表現。GLM-4V-FlashGPT-4o mini英文字體這題，4o mini 離答案更近！其實也可以理解，國產模型更懂中文字體，視覺訓練語料里一定少不了各種中文字體的圖片；而海外模型則恰好相反，對英文字體的訓練更到位。情緒理解來吧，這把給 4o mini 一道送分題。GLM-4V-FlashGPT-4o mini從微表情分析上來說，4o mini 你確實做的更細致，但是，你沒有發現這是你老板嗎，隔壁 GLM 都認出來了。復合物體理解單個物體、簡單物品的分類已經沒啥難度了，復合物體對 AI 的迷惑性很強，比如下面這張圖，正適合拿來作為考題。GLM-4V-FlashGPT-4o mini竟然都做對了！我直呼 nb，這兩年 AI 領域的進展實在太快了。自動駕駛場景雖然這倆模型，我覺得肯定還沒到直接在自動駕駛場景部署的程度，但我還是忍不住想看看他們有沒有學習過一些道路知識。就做一道簡單的交通信號識別吧。GLM-4V-FlashGPT-4o mini都過關了，看來都有望拿去解決一些自動駕駛場景的數據預標注問題。OCR 結構化信息抽取生活場景里各種各樣的表單太多了，準確識別表單信息是一個非常常見的需求，比如這個快遞單GLM-4V-FlashGPT-4o mini兩個模型都準確識別出來了。從以上十大場景的若干道題目的測試來看，GLM-4V-Flash 在效果上與 GPT-4o mini 完全不分伯仲，甚至在一些中文特色的場景會明顯表現更好。而且在測評的時候，我還明顯能感知到 GLM-4V-Flash 的響應速度比 GPT-4o mini 更快，低延遲對于 API 在真實業務中的落地是非常重要的，甚至常常會比一點點的效果提升重要的多。可以說，綜合考慮：成本時延效果顯然，我想在視覺對話問題上，我沒有選擇 GPT-4o mini 的理由了。還有什么比免費好用又穩定更香呢？說到這里就不得不再提一嘴。今年 8 月份，智譜免費開放了 GLM-4-Flash（一款輕量化語言模型，文本模態，128K 上下文），開啟了零成本調用大模型。時隔 4 個月，又免費開放了第一個視覺對話模型 GLM-4V-Flash，湊齊免費模型全家桶。我覺得其他大模型廠商這幾天已經感到壓力了。更要命的是，經本文實測后，這個 GLM-4V-Flash 還不是個大玩具，而是在圖像描述、圖像分類、視覺推理、視覺問答（VQA）、圖像情感分析等一系列高級圖像處理任務上都非常能打的生產力模型，并且支持 26 種語言，包括中文、英語、日語、韓語、德語等等。這也是為什么我說，AI 領域又要起風了。這事兒也是智譜的一貫作風，察覺到了視覺類模型定價居高不下的市場痛點，依仗自己的技術優勢打下來成本，讓重要技術無負擔落地，造福用戶和應用開發者。就像官方的海報圖里提到的——領先 + 普惠。前沿的技術或模型不僅要效果好，還能讓下游產業用起來，普惠大眾。從這一點出發，得給智譜加個雞腿。實話說，最近兩場 OpenAI 發布會真讓我覺得有些一言難盡。與其被 OpenAI 薅羊毛，去薅智譜的羊毛不香嗎。點擊文末閱讀原文可直接體驗哦~

閱讀原文