豆包文科成績(jī)超了一本線(xiàn),為什么理科不行?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:豆包文科成績(jī)超了一本線(xiàn),為什么理科不行?
關(guān)鍵字:豆包,模型,字節(jié)跳動(dòng),成績(jī),題目
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
金磊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI什么?好多大模型的文科成績(jī)超一本線(xiàn),還是最卷的河南省???
△圖源:極客公園沒(méi)錯(cuò),最近就有這么一項(xiàng)大模型“高考大摸底”評(píng)測(cè)走紅了。
河南高考文科今年的一本線(xiàn)是521分,根據(jù)這項(xiàng)評(píng)測(cè),共計(jì)四個(gè)大模型大于或等于這個(gè)分?jǐn)?shù),其中頭兩名最值得關(guān)注:
GPT-4o:562分
字節(jié)豆包:542.5分
……
從結(jié)果中來(lái)看,GPT-4o的表現(xiàn)依舊是處于領(lǐng)先狀態(tài),而在國(guó)產(chǎn)大模型這邊,比較亮眼的成績(jī)便屬于豆包了。
并且在語(yǔ)文和歷史等科目的成績(jī)甚至還超越了GPT-4o。
這也讓不少網(wǎng)友紛紛感慨:
AI文科成績(jī)這么好,看來(lái)在處理語(yǔ)言和邏輯上還是很有優(yōu)勢(shì)的。
不過(guò)有一說(shuō)一,畢竟國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)是如此之激烈,這份評(píng)測(cè)的排名真的靠譜嗎?發(fā)布僅數(shù)月的豆包,真具備此等實(shí)力嗎?以及這數(shù)學(xué)……又是怎么一回事兒?
先看評(píng)測(cè)榜單要回答上述的問(wèn)題,我們不妨先來(lái)查一查豆包在最新的權(quán)威評(píng)測(cè)榜單中的表現(xiàn)是否一致。
首先有請(qǐng)由智源研究院發(fā)布的FlagEval(天秤)。
它的評(píng)測(cè)方式是這樣的:
對(duì)于開(kāi)源模型, FlagEval會(huì)綜合概率選擇和生成兩種方式來(lái)評(píng)測(cè),對(duì)于閉源模型, FlagE
原文鏈接:豆包文科成績(jī)超了一本線(xiàn),為什么理科不行?
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破