不止于看,更在于思。
通義千問QVQ:開源多模態(tài)推理模型,為AGI鋪路
人工智能領(lǐng)域正經(jīng)歷著前所未有的快速發(fā)展。從單模態(tài)到多模態(tài),從基礎(chǔ)對話到深度推理,AI 的能力不斷突破人類認知的邊界。尤其在2023年下半年,隨著GPT-4V、Claude-3等新一代多模態(tài)模型的涌現(xiàn),“視覺智能”成為了行業(yè)關(guān)注的焦點。然而,真正的突破并非僅僅停留在“看得見”,更在于“想得透”。
多模態(tài)推理的突破:QVQ的出現(xiàn)
目前,大多數(shù)多模態(tài)模型仍處于“看圖說話”的階段,能夠?qū)⒁曈X信息與深度推理相結(jié)合的模型少之又少。更重要的是,領(lǐng)先的多模態(tài)模型大多選擇閉源,限制了技術(shù)的進一步發(fā)展和應(yīng)用。在這個背景下,阿里云通義千問于2023年末圣誕節(jié)發(fā)布的全球首個開源多模態(tài)推理模型QVQ-72B-Preview,無疑為該領(lǐng)域注入了新的活力。 QVQ的出現(xiàn),被許多業(yè)內(nèi)人士譽為視覺推理領(lǐng)域的里程碑,甚至登上了Hacker News第二名。
QVQ的強大能力:超越簡單的“看圖說話”
QVQ在MMMU、MathVista等權(quán)威評測集上取得了令人矚目的成績,展現(xiàn)了超預(yù)期的視覺理解和推理能力。它不僅能夠識別圖片內(nèi)容,更能夠進行深度推理。例如,它可以準確識別電影片段的名稱,分辨游戲畫面中的細節(jié),甚至可以勝任復(fù)雜的數(shù)學和物理題。 更令人印象深刻的是,QVQ能夠通過圖片中的細微線索進行推理,例如根據(jù)地鐵照片中的信息推斷當前站點和列車行駛方向,并給出合理的出行建議。這展現(xiàn)了其強大的觀察力和邏輯推理能力。
QVQ的局限性和未來展望
盡管QVQ展現(xiàn)了強大的能力,但正如通義千問官方博客中所述,它仍然存在一些局限性,例如在語言混合、代碼切換和遞歸推理方面存在不足。但這并不影響其重要意義。QVQ的價值在于它展現(xiàn)了一種可能性:當圖像和語言在機器的“大腦”中不再是兩條平行線,會產(chǎn)生怎樣的火花?
開源的意義:推動AGI發(fā)展
QVQ的開源,使得更多研究者可以參與到多模態(tài)推理模型的開發(fā)和改進中,這將極大地推動該領(lǐng)域的發(fā)展。通義千問的愿景是開發(fā)一個全方位的智能模型,而QVQ正是通往AGI(通用人工智能)漫長道路上的一塊重要基石。 它并非完美,但其帶來的啟示和推動作用是不可估量的。
結(jié)語
QVQ的出現(xiàn),標志著多模態(tài)推理技術(shù)邁出了關(guān)鍵的一步。它不僅能“看”和“說”,更重要的是開始“思考”和“推理”。 這不僅是技術(shù)的進步,更是對人工智能未來發(fā)展方向的一次重要探索,預(yù)示著未來AI將擁有更強大的認知和解決問題的能力。
聯(lián)系作者
文章來源:特工宇宙
作者微信:
作者簡介:Agent Universe,專注于智能體的AI科技媒體。