AIGC動態歡迎閱讀
原標題:陳丹琦團隊圖表解讀新基準:新王Claude3.5剛及格,但已是模型最強推理表現
關鍵字:模型,圖表,問題,任務,能力
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAIClaude 3.5 Sonnet的圖表推理能力,比GPT-4o高出了27.8%。
針對多模態大模型在圖表任務上的表現,陳丹琦團隊提出了新的測試基準。
新Benchmark比以往更有區分度,也讓一眾傳統測試中的高分模型暴露出了真實能力。
該數據集名為CharXiv,內容全部選自arXiv論文中的真實圖表,共計2323張。
相比此前的FigureQA等測試基準,CharXiv涵蓋的任務類型更加廣泛,而且不按套路出牌,難度大幅增加。
為了宣傳這套新Benchmark,研究團隊還寫出了一首神曲,并制作了視頻宣傳片。
這段魔性的宣傳片,讓有些網友表示已經被成功“”,腦海中充滿了(歌詞中的)“2323張圖表”。
導師陳丹琦也感到印象十分深刻,直言這是自己見過最fancy的視頻。
那么,CharXiv究竟新在哪,又難在哪呢?
來自學術論文的圖表測試集團隊指出,過去的表格測試標準太過簡單,而且不能反映模型的真實水平。
比如FigureQA、DVQA 和ChartQA的子集,只要稍作簡單修改,模型的成績就能下降超過1/3。
究其原因,作者認為
原文鏈接:陳丹琦團隊圖表解讀新基準:新王Claude3.5剛及格,但已是模型最強推理表現
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...