<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學

        AIGC動態7個月前發布 量子位
        323 0 0

        推理次數\x26gt;30時,模型表現趨于穩定

        多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學

        原標題:多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學
        文章來源:量子位
        內容字數:5636字

        淘天集團發布中文視覺問答基準Chinese SimpleVQA,OpenAI o1視覺能力最強

        淘天集團未來生活實驗室近日發布了首個面向事實知識的中文視覺問答基準Chinese SimpleVQA,并對多個視覺大模型進行了評測。該基準包含2200個高質量問答對,涵蓋8個主要話題和56個子話題,旨在系統性地衡量視覺大模型在各個領域的視覺識別能力和知識水平。評測結果顯示,OpenAI的o1-preview模型表現最佳,但在知識擴展方面,所有模型都面臨挑戰,普遍存在“過于自信”的問題。

        1. Chinese SimpleVQA:一個嚴謹的中文視覺問答基準

        Chinese SimpleVQA 的構建過程十分嚴謹,包含自動化問答對生成和多輪質量控制兩個階段。首先,研究人員從收集圖文對,并通過對象識別、知識問題生成和合并問答三個步驟自動生成問答對。隨后,經過自動驗證、難度篩選和人工驗證三個步驟的嚴格篩選,最終保留了1100幅圖片和2200個問答對。數據脫敏也確保了數據的安全性和可靠性。該基準具有多跳評估、多樣性、高質量、靜態一致性和易于評估五大特點。

        2. 評測結果:o1-preview表現最佳,但模型普遍“過于自信”

        研究團隊對13個閉源模型和21個開源模型進行了評測。結果顯示,o1-preview在圖像主體識別和知識擴展問題上均表現最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。在注重中文能力的模型中,Qwen-VL系列表現最為突出。然而,評測也揭示了模型的幾個不足:知識擴展難于主體識別,模型規模與知識能力正相關,以及普遍存在的“幻覺”問題,即模型傾向于自信地提供錯誤信息。

        3. 模型能力分析:知識深度和能力邊界

        評測結果還分析了模型在不同知識領域的表現和出錯時機。結果表明,模型在現代建筑、工程技術和科學等主題上表現優異,但在其他主題上稍遜一籌。大部分模型主要出錯于知識擴展階段,而部分模型則在圖像識別階段就表現不佳。此外,模型的準確性隨推理次數增加而提高,但在超過30次嘗試后趨于穩定,這表明模型的知識能力存在邊界。

        4. Chinese SimpleVQA 的意義和未來展望

        Chinese SimpleVQA 的發布為中文視覺問答領域提供了一個重要的基準,有助于推動多模態大模型的研發和評估。其嚴謹的構建流程和全面的評測結果,為研究人員提供了寶貴的資源和參考,有助于更好地理解和改進視覺大模型的知識能力和可靠性。未來,該基準有望進一步完善和擴展,涵蓋更多領域和更復雜的場景,從而更好地促進多模態大模型技術的進步。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产成人精品免费视频软件| 精品国产污污免费网站aⅴ| 成全在线观看免费观看大全 | 亚洲精品人成网在线播放影院| 99蜜桃在线观看免费视频网站| 99在线视频免费观看视频| 亚洲欧洲自拍拍偷午夜色| 四虎免费影院ww4164h| 亚洲人成片在线观看| 大香人蕉免费视频75| 久久精品国产亚洲av品善| 国产一级a毛一级a看免费视频 | 亚洲娇小性色xxxx| 最近的中文字幕大全免费版| 亚洲精品一品区二品区三品区| 亚洲免费福利在线视频| 成人免费视频软件网站| 美女被艹免费视频| 亚洲人成亚洲人成在线观看 | 精品国产日韩久久亚洲| 午夜老司机免费视频| 偷自拍亚洲视频在线观看99| 亚洲成人免费电影| 亚洲中文无码永久免| 在线观看永久免费| 亚洲色欲色欱wwW在线| 亚洲精品在线视频| 日韩精品人妻系列无码专区免费| 亚洲六月丁香婷婷综合| 亚洲VA综合VA国产产VA中| 久久久久久国产精品免费免费男同| 亚洲av极品无码专区在线观看 | 91在线视频免费91| 四虎永久在线精品免费一区二区 | 亚洲中文字幕无码一去台湾 | 国产免费福利体检区久久| 国产中文字幕免费| 青柠影视在线观看免费| 亚洲精品国产高清在线观看| 亚洲日韩欧洲乱码AV夜夜摸| 成年女人毛片免费观看97|