国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學

AIGC動態7個月前發布 量子位
323 0 0

推理次數\x26gt;30時,模型表現趨于穩定

多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學

原標題:多模態大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現代建筑/工程技術/科學
文章來源:量子位
內容字數:5636字

淘天集團發布中文視覺問答基準Chinese SimpleVQA,OpenAI o1視覺能力最強

淘天集團未來生活實驗室近日發布了首個面向事實知識的中文視覺問答基準Chinese SimpleVQA,并對多個視覺大模型進行了評測。該基準包含2200個高質量問答對,涵蓋8個主要話題和56個子話題,旨在系統性地衡量視覺大模型在各個領域的視覺識別能力和知識水平。評測結果顯示,OpenAI的o1-preview模型表現最佳,但在知識擴展方面,所有模型都面臨挑戰,普遍存在“過于自信”的問題。

1. Chinese SimpleVQA:一個嚴謹的中文視覺問答基準

Chinese SimpleVQA 的構建過程十分嚴謹,包含自動化問答對生成和多輪質量控制兩個階段。首先,研究人員從收集圖文對,并通過對象識別、知識問題生成和合并問答三個步驟自動生成問答對。隨后,經過自動驗證、難度篩選和人工驗證三個步驟的嚴格篩選,最終保留了1100幅圖片和2200個問答對。數據脫敏也確保了數據的安全性和可靠性。該基準具有多跳評估、多樣性、高質量、靜態一致性和易于評估五大特點。

2. 評測結果:o1-preview表現最佳,但模型普遍“過于自信”

研究團隊對13個閉源模型和21個開源模型進行了評測。結果顯示,o1-preview在圖像主體識別和知識擴展問題上均表現最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。在注重中文能力的模型中,Qwen-VL系列表現最為突出。然而,評測也揭示了模型的幾個不足:知識擴展難于主體識別,模型規模與知識能力正相關,以及普遍存在的“幻覺”問題,即模型傾向于自信地提供錯誤信息。

3. 模型能力分析:知識深度和能力邊界

評測結果還分析了模型在不同知識領域的表現和出錯時機。結果表明,模型在現代建筑、工程技術和科學等主題上表現優異,但在其他主題上稍遜一籌。大部分模型主要出錯于知識擴展階段,而部分模型則在圖像識別階段就表現不佳。此外,模型的準確性隨推理次數增加而提高,但在超過30次嘗試后趨于穩定,這表明模型的知識能力存在邊界。

4. Chinese SimpleVQA 的意義和未來展望

Chinese SimpleVQA 的發布為中文視覺問答領域提供了一個重要的基準,有助于推動多模態大模型的研發和評估。其嚴謹的構建流程和全面的評測結果,為研究人員提供了寶貴的資源和參考,有助于更好地理解和改進視覺大模型的知識能力和可靠性。未來,該基準有望進一步完善和擴展,涵蓋更多領域和更復雜的場景,從而更好地促進多模態大模型技術的進步。


聯系作者

文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        中文字幕亚洲综合久久菠萝蜜| 亚洲精品中文字幕在线观看| 91精品国产综合久久小美女| 久久久久久久久久久久电影 | 国产剧情在线观看一区二区| 色系网站成人免费| 久久色.com| 国产一区二区视频在线| 欧美一级在线免费| 午夜欧美视频在线观看 | 国产精品一区三区| 日韩欧美另类在线| 午夜精品123| 欧美一级日韩一级| 国产精品一区免费在线观看| 久久婷婷综合激情| gogo大胆日本视频一区| 综合色天天鬼久久鬼色| 欧美日韩国产一级| 国产自产v一区二区三区c| 欧美国产禁国产网站cc| 在线一区二区观看| 免费高清在线视频一区·| 国产日韩欧美在线一区| 91麻豆免费在线观看| 首页国产欧美久久| 亚洲综合一区二区三区| 国产精品国产自产拍高清av| 国产精品久99| 日韩欧美一区二区视频| 成人免费视频caoporn| 亚洲美女在线一区| 精品国产一区二区亚洲人成毛片| 91福利在线看| 亚洲一区二区三区精品在线| 日韩欧美一级二级三级久久久| 国产成人免费视频一区| 亚洲欧美日韩系列| 欧美午夜宅男影院| 久久精品99国产国产精| 日韩一区在线看| 精品少妇一区二区三区免费观看| 成人h版在线观看| 黄网站免费久久| 一区二区三区日韩在线观看| 久久女同性恋中文字幕| 欧美午夜在线观看| 久久99精品国产麻豆婷婷| 日韩欧美色综合| 成人精品视频.| 国产制服丝袜一区| 五月天婷婷综合| 亚洲在线视频免费观看| 国产精品美女视频| 国产精品欧美极品| 中文一区二区完整视频在线观看| 久久综合五月天婷婷伊人| 精品少妇一区二区三区日产乱码| 欧美一区二区网站| 欧美一级夜夜爽| 911精品产国品一二三产区| 色婷婷av一区二区三区大白胸 | 亚洲欧洲美洲综合色网| 日韩欧美资源站| 宅男噜噜噜66一区二区66| 色偷偷88欧美精品久久久| 99久久综合狠狠综合久久| 国产精品正在播放| 国产成人午夜电影网| 不卡的av电影| 不卡区在线中文字幕| 91免费观看视频| 91搞黄在线观看| 欧美一区二区三区小说| 精品福利一二区| 国产欧美日韩亚州综合| 亚洲视频中文字幕| 亚洲一区中文在线| 蜜臀久久99精品久久久画质超高清| 日本中文一区二区三区| 韩国视频一区二区| 99r国产精品| 欧美老女人第四色| 久久―日本道色综合久久| 亚洲欧洲日韩一区二区三区| 亚洲综合丝袜美腿| 久久机这里只有精品| 99视频精品在线| 欧美一区二区三区在线电影| 日本一区二区视频在线观看| 亚洲一区二区三区四区在线免费观看| 视频一区欧美精品| 成人av电影免费在线播放| 69久久夜色精品国产69蝌蚪网| 久久久久亚洲蜜桃| 亚洲国产精品视频| 国产91精品一区二区麻豆亚洲| 欧美这里有精品| 国产精品美女久久久久久久久久久 | 久久久久久一二三区| 一区二区三区在线免费| 国产一区二区三区国产| 欧美性三三影院| 国产精品久线在线观看| 久久超级碰视频| 欧美日韩中文字幕精品| 国产精品嫩草99a| 激情综合网激情| 欧美日韩一级黄| 最新不卡av在线| 国产成人激情av| 欧美大片在线观看| 午夜在线成人av| 在线看日韩精品电影| 国产精品乱码久久久久久| 紧缚奴在线一区二区三区| 7777精品伊人久久久大香线蕉最新版 | 99riav一区二区三区| 久久综合99re88久久爱| 美洲天堂一区二卡三卡四卡视频 | 成人在线综合网站| 欧美不卡一区二区三区四区| 性久久久久久久| 欧美日韩久久久久久| 亚洲精品视频在线| 99国产精品久久久久久久久久久| 国产欧美视频一区二区三区| 国产精品99久久久| 久久亚洲综合色| 国产精品一二三四五| 国产亚洲精品aa| 从欧美一区二区三区| 中文字幕亚洲综合久久菠萝蜜| 国产suv一区二区三区88区| 国产亚洲综合性久久久影院| 国产精品一级黄| 国产欧美一区二区精品性色超碰| 国产成人av影院| 中文字幕日本乱码精品影院| 91在线云播放| 亚洲午夜电影网| 欧美日韩高清影院| 午夜av电影一区| 色婷婷国产精品久久包臀| 亚洲免费看黄网站| 欧美日韩一区二区欧美激情| 日韩电影一区二区三区四区| 日韩免费在线观看| 国产成人精品亚洲午夜麻豆| 亚洲免费在线看| 91麻豆精品国产综合久久久久久| 美女一区二区三区在线观看| 久久久久免费观看| 91麻豆123| 免费的成人av| www日韩大片| 粉嫩久久99精品久久久久久夜| 国产精品进线69影院| 欧美亚洲一区三区| 激情成人午夜视频| 最近中文字幕一区二区三区| 欧美日韩一区在线观看| 国产一区免费电影| 一区二区日韩av| 久久综合久久鬼色中文字| 色综合网色综合| 男人的天堂亚洲一区| 久久久久99精品一区| 成人看片黄a免费看在线| 亚欧色一区w666天堂| 久久综合久久综合久久| 在线精品视频小说1| 高潮精品一区videoshd| 日韩影院免费视频| 亚洲欧美综合另类在线卡通| 91麻豆精品国产91久久久更新时间| 国产精品亚洲第一区在线暖暖韩国| 亚洲视频一区二区在线| 欧美大片拔萝卜| 97成人超碰视| 国产乱色国产精品免费视频| 亚洲国产中文字幕在线视频综合| 国产亚洲成aⅴ人片在线观看| 欧美老年两性高潮| 成人av网站免费观看| 日韩一区精品字幕| 亚洲综合色噜噜狠狠| 国产日韩高清在线| 精品国产乱码91久久久久久网站| 色综合网色综合| 国产在线视频一区二区三区| 婷婷夜色潮精品综合在线| 一区在线观看视频| 欧美精品一区二区三区在线播放| 欧美主播一区二区三区| 99久久精品国产麻豆演员表| 奇米影视一区二区三区小说| 夜夜嗨av一区二区三区中文字幕| 国产网站一区二区| 欧美mv日韩mv亚洲|