AIGC動態歡迎閱讀
原標題:上交舉辦“大模型奧林匹克競賽”,GPT-4o僅得39分
關鍵字:模型,基準,能力,認知,問題
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年大模型的奧林匹克競賽來了!
最近,上交構建了一個全面、極具挑戰性的奧賽級別的基準——OlympicArena,從來自62個不同奧林匹克競賽中篩選出11,163個問題,涵蓋數學、物理、化學、生物、地理、天文學和計算機科學等七個學科,細分為34個專業領域。除了8類邏輯推理任務外,還有5類視覺推理能力,分為13種答案類型(如表達式、區間)。
論文標題:OlympicArena: Benchmarking Multi-discipline
Cognitive Reasoning for Superintelligent AI
論文鏈接:https://arxiv.org/pdf/2406.12753
奧林匹克競賽,作為選拔拔尖青少年人才的競賽,其難度與挑戰性不言而喻。在奧賽中獲得優異成績的同學可以獲得保送名牌大學和參加自主招生考試的資格。
那么大模型在奧賽中的表現如何呢?
作者提供了一套全面的資源來支持AI研究,包括基準數據集、開源標注平臺、詳細的評估工具和帶有自動提交功能的排行榜:
https://github.com/GAIR-NLP/OlympicAre
原文鏈接:上交舉辦“大模型奧林匹克競賽”,GPT-4o僅得39分
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...