豆包文科成績(jī)超了一本線，為什么理科不行？

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：豆包文科成績(jī)超了一本線，為什么理科不行？
關(guān)鍵字：豆包,模型,字節(jié)跳動(dòng),成績(jī),題目
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

金磊發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI什么？好多大模型的文科成績(jī)超一本線，還是最卷的河南省？？？
△圖源：極客公園沒(méi)錯(cuò)，最近就有這么一項(xiàng)大模型“高考大摸底”評(píng)測(cè)走紅了。
河南高考文科今年的一本線是521分，根據(jù)這項(xiàng)評(píng)測(cè)，共計(jì)四個(gè)大模型大于或等于這個(gè)分?jǐn)?shù)，其中頭兩名最值得關(guān)注：
GPT-4o：562分
字節(jié)豆包：542.5分
……
從結(jié)果中來(lái)看，GPT-4o的表現(xiàn)依舊是處于領(lǐng)先狀態(tài)，而在國(guó)產(chǎn)大模型這邊，比較亮眼的成績(jī)便屬于豆包了。
并且在語(yǔ)文和歷史等科目的成績(jī)甚至還超越了GPT-4o。
這也讓不少網(wǎng)友紛紛感慨：
AI文科成績(jī)這么好，看來(lái)在處理語(yǔ)言和邏輯上還是很有優(yōu)勢(shì)的。
不過(guò)有一說(shuō)一，畢竟國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)是如此之激烈，這份評(píng)測(cè)的排名真的靠譜嗎？發(fā)布僅數(shù)月的豆包，真具備此等實(shí)力嗎？以及這數(shù)學(xué)……又是怎么一回事兒？
先看評(píng)測(cè)榜單要回答上述的問(wèn)題，我們不妨先來(lái)查一查豆包在最新的權(quán)威評(píng)測(cè)榜單中的表現(xiàn)是否一致。
首先有請(qǐng)由智源研究院發(fā)布的FlagEval（天秤）。
它的評(píng)測(cè)方式是這樣的：
對(duì)于開(kāi)源模型， FlagEval會(huì)綜合概率選擇和生成兩種方式來(lái)評(píng)測(cè)，對(duì)于閉源模型， FlagE

原文鏈接：豆包文科成績(jī)超了一本線，為什么理科不行？