推理次數\x26gt;30時,模型表現趨于穩定
原標題:多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學
文章來源:量子位
內容字數:5636字
淘天集團發布中文視覺問答基準Chinese SimpleVQA,OpenAI o1視覺能力最強
淘天集團未來生活實驗室近日發布了首個面向事實知識的中文視覺問答基準Chinese SimpleVQA,并對多個視覺大模型進行了評測。該基準包含2200個高質量問答對,涵蓋8個主要話題和56個子話題,旨在系統性地衡量視覺大模型在各個領域的視覺識別能力和知識水平。評測結果顯示,OpenAI的o1-preview模型表現最佳,但在知識擴展方面,所有模型都面臨挑戰,普遍存在“過于自信”的問題。
1. Chinese SimpleVQA:一個嚴謹的中文視覺問答基準
Chinese SimpleVQA 的構建過程十分嚴謹,包含自動化問答對生成和多輪質量控制兩個階段。首先,研究人員從收集圖文對,并通過對象識別、知識問題生成和合并問答三個步驟自動生成問答對。隨后,經過自動驗證、難度篩選和人工驗證三個步驟的嚴格篩選,最終保留了1100幅圖片和2200個問答對。數據脫敏也確保了數據的安全性和可靠性。該基準具有多跳評估、多樣性、高質量、靜態一致性和易于評估五大特點。
2. 評測結果:o1-preview表現最佳,但模型普遍“過于自信”
研究團隊對13個閉源模型和21個開源模型進行了評測。結果顯示,o1-preview在圖像主體識別和知識擴展問題上均表現最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。在注重中文能力的模型中,Qwen-VL系列表現最為突出。然而,評測也揭示了模型的幾個不足:知識擴展難于主體識別,模型規模與知識能力正相關,以及普遍存在的“幻覺”問題,即模型傾向于自信地提供錯誤信息。
3. 模型能力分析:知識深度和能力邊界
評測結果還分析了模型在不同知識領域的表現和出錯時機。結果表明,模型在現代建筑、工程技術和科學等主題上表現優異,但在其他主題上稍遜一籌。大部分模型主要出錯于知識擴展階段,而部分模型則在圖像識別階段就表現不佳。此外,模型的準確性隨推理次數增加而提高,但在超過30次嘗試后趨于穩定,這表明模型的知識能力存在邊界。
4. Chinese SimpleVQA 的意義和未來展望
Chinese SimpleVQA 的發布為中文視覺問答領域提供了一個重要的基準,有助于推動多模態大模型的研發和評估。其嚴謹的構建流程和全面的評測結果,為研究人員提供了寶貴的資源和參考,有助于更好地理解和改進視覺大模型的知識能力和可靠性。未來,該基準有望進一步完善和擴展,涵蓋更多領域和更復雜的場景,從而更好地促進多模態大模型技術的進步。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破