<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        o1 pro挑戰(zhàn)美國本科生最難數(shù)學競賽,30分鐘交卷卻被「大佬」現(xiàn)場打臉!

        AIGC動態(tài)5個月前發(fā)布 新智元
        419 0 0

        新智元報道編輯:編輯部 HYZ【新智元導讀】美國本科生最難數(shù)學競賽,o1 pro竟然只用半小時就全部做出來了?要知道,參賽學生的正常答題時長是6小時。不過網(wǎng)友們仔細看它的解題過程后發(fā)現(xiàn),錯誤率似乎高達100%,12道題沒有一道完全正確?一年一次的北美最難本科數(shù)學競賽,剛在MIT沃克堂(Walker Memorial)落幕。這場普特南數(shù)學競賽(Putnam Exam),每年匯聚了來自北美數(shù)百所高校的3500多名學生前來參賽。既有個體,也有團體,他們需要在總時長為6小時的時間內(nèi)完成作答。在這場比賽還未開始之前,來自IBM研究員曾暗示,在公開題目發(fā)布后,會有人對大模型(AlphaProof、o1、Gemini)進行題目測試。恰好,OpenAI最近發(fā)布了滿血版o1,以及最強o1 pro,不知它們在這場考試表現(xiàn)如何?相較于o1-preview,o1數(shù)學性能提升27%,o1 pro提升36%o1 Pro半小時做出全部賽題令人吃驚的是,有網(wǎng)友把此次普特南考試的考題給了OpenAI o1 pro。上下滑動查看6個小時的賽題,它居然半小時就做出來了!用時最長的一道題花了6分52秒,最短的只用了1分12秒(上下滑動查看)詳細看了答案的網(wǎng)友們表示松了一口氣:o1 pro還遠未達到普特南考試的水平。比如對于A1這道題,雖然它只用了1分鐘58秒就做了出來,總體思路也是正確的,但仍有很多錯誤。上下滑動查看A2也沒有完全解決。如果在普特南答卷上寫「……等等強烈表明我是對的」,顯然你不會得分。上下滑動查看A3的答案,是錯誤的。網(wǎng)友直接給出了正確的解題思路:可以利用鴿巢原理(抽屜原理)來證明在給定約束條件下,只存在唯一一個有效雙射函數(shù),并由此可以推導出不存在滿足題目要求的a、b、c、d值。上下滑動查看對于B1,答案在n和k的形式上是正確的,但整個證明方法完全站不住腳。上下滑動查看總之,o1 pro似乎沒有一道題是正確的。這個結(jié)果屬實有點驚人,因為其中一些問題難度沒有那么高,比一些AIME競賽題容易。當然,如果從做出題目的數(shù)量來說,o1 pro的表現(xiàn)還是可圈可點。目前來說,o1 pro做出的題目都是錯誤且不完整的。如果我們不以數(shù)學家的角度評判,可以認為它們很聰明。更多評測CodeSignal創(chuàng)始人Tigran Sloyan開啟了兩測試,讓o1 pro分別去解決普特南數(shù)學競賽A1題,以及IMO試題。顯然,在普特南數(shù)學競賽測試中,o1 pro成功做對了第一題。得分+10,就已經(jīng)超越了30%的參賽者。如下,是o1 pro的全部解題過程。而在IMO測試中,o1 pro完美解決了2006年測試集中最難的Q3題,僅僅用了6分48秒。相較之下,在2006年全球大約500名19歲以下頂尖數(shù)學天才中,只有28人能在4個半小時內(nèi)完全解出這道題。而美國對的6名成員,卻無一人做到。這是o1 pro的分析過程,雖然很簡潔,好像省略了很多證明步驟。Sloyan特別要求讓其展示第4、5步的具體證明過程,o1 pro隨后擴展出的思維過程同樣令人印象深刻。而且,他還測試其他模型(包括o1),嘗試做這道題目,卻都失敗了。沒想到,這個結(jié)果驚動了xAI科學家Hieu Pham。他表示,o1 pro的答案完全是胡說八道。如果在IMO競賽中提交這樣的解答,最多也只能給1分(滿分7分)。如果遇到寬松的評判員,最多給2分,不會再多了。他接著稱,訓練數(shù)據(jù)問題是一部分,這個答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的題目和解答就像是數(shù)學CoT的黃金訓練數(shù)據(jù)集,所以這些模型一會被反復訓練無數(shù)遍。另一位研究員Jason Li測試后驚嘆道,o1似乎已經(jīng)解決掉了一半的問題(60分/滿分120),這在普特南競賽的歷史排名中大約能沖進前2%的參賽者之列。o1挑戰(zhàn)23年賽題今年9月,o1發(fā)布不久后,AI評估平臺HoneyHive曾讓新模型去挑戰(zhàn)了23年普特南數(shù)學競賽的題目。當時,OpenAI公開的測試結(jié)果顯示,o1的數(shù)學性能大幅超越了GPT-4o,飆升43.3%實現(xiàn)了質(zhì)的飛升。在這場比賽中,o1-preview拿下了79分(滿分120)位列第9,o1-mini取得了73,排名第19。2023年普特南數(shù)學競賽問題集,如下所示:HoneyHive的評估方法是,每個模型重復運行2次,并讓GPT-4o作為標準的判斷者,以評估模型的答案,最終再由人類專家進行驗證。下面是讓GPT-4o承擔「評估者」角色的提示示例。研究人員發(fā)現(xiàn),第二次運行時,o1-preview得分從51提高到79,o1-mini從54提高到73,GPT-4o也從43提高到57。在第二輪中,所有的模型都在努力給出證明,具體來說:o1-preview完全解決了問題A1、A3、B4,部分解決了問題B2,但證明不足。o1-mini的結(jié)果,與o1-preview類似。GPT-4o僅是完全解決了A1問題。有趣的是,這些模型的結(jié)果雖然是正確的,但解決方案缺乏詳細的分步解釋,特別是對于證明類的問題。比如,o1-preview和o1-mini在問題B2上都因證據(jù)不足、不夠嚴謹失掉了一些分數(shù),盡管最終結(jié)果是正確的。他們認為,這可能是因為AI模型在表達或訪問其內(nèi)部「思維鏈」時,存在一定的局限性。不過,IBM研究員表示,能夠拿下一定的高分,當然也存在了數(shù)據(jù)泄露的可能性。比賽介紹普特南數(shù)學競賽(全稱William Lowell Putnam Mathematical Competition)專為美國和加拿大的本科生設(shè)立,每年于12月舉辦一屆,今年是第85屆年賽。每年競賽一共分為兩場考試,分別是上午A試,下午B試,各三小時。這場比賽可以追溯到1938年,最初只是各個高校數(shù)學系之間的友好較量。如今,它已經(jīng)發(fā)展成為世界上最具權(quán)威的大學數(shù)學競賽。每年12月,數(shù)百所大學數(shù)學尖子生在為期6小時數(shù)學中展現(xiàn)自己的數(shù)學才華。盡管考生需要完成試卷,但比賽同時設(shè)立了團隊的環(huán)節(jié)。普特南數(shù)學競賽不僅僅是一場知識的較量,更是一個榮譽的殿堂。排名最高的團隊的數(shù)學系可以獲得現(xiàn)金獎勵,學生成員還將被授予「普特南研究員」的稱號。與此同時,比賽還設(shè)立了「The Elizabeth Lowell Putnam Prize」獎項,專為表現(xiàn)卓越的女性數(shù)學家頒獎。去年第84屆比賽中,個體獲獎?wù)?名全部來自MIT,團體獲獎?wù)咔拔迕卜謩e來自世界高校:MIT、哈佛、杜克、斯坦福、多倫多大學。參考資料:https://x.com/DanHendrycks/status/1865858756040704335

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 热久久精品免费视频| 免费人成在线观看网站| 免费人成视频在线| 91亚洲精品自在在线观看| 99爱在线观看免费完整版| 国产aⅴ无码专区亚洲av| 另类免费视频一区二区在线观看| 国产亚洲精品免费视频播放| 一区二区三区在线免费 | 日本妇人成熟免费中文字幕| 亚洲午夜未满十八勿入| 在线观看www日本免费网站| 亚洲冬月枫中文字幕在线看| 无码人妻一区二区三区免费| 亚洲日韩精品无码AV海量| 永久免费观看的毛片的网站| 黄色三级三级免费看| 亚洲综合国产精品第一页| 两个人看的www视频免费完整版| 亚洲中文字幕久久精品无码APP| 久久亚洲精品11p| 亚洲成A人片在线观看无码3D | 免费精品99久久国产综合精品| 久久精品国产精品亚洲艾草网| 99久久国产免费-99久久国产免费 99久久国产免费中文无字幕 | 98精品全国免费观看视频| 亚洲国产成人手机在线电影bd| 成年丰满熟妇午夜免费视频 | 免费一区二区无码东京热| 亚洲久本草在线中文字幕| 99在线视频免费观看视频| 亚洲成a∨人片在无码2023| 亚洲国产综合人成综合网站| 久久成人免费播放网站| 亚洲最大av资源站无码av网址| 亚洲国产精品成人AV无码久久综合影院| a视频在线观看免费| 亚洲综合久久精品无码色欲 | 亚洲天天做日日做天天欢毛片| 最新免费jlzzjlzz在线播放| 国产无限免费观看黄网站|