27歲華裔天才少年對(duì)打UC伯克利,首發(fā)SEAL大模型排行榜!Claude 3 Opus數(shù)學(xué)封神
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:27歲華裔天才少年對(duì)打UC伯克利,首發(fā)SEAL大模型排行榜!Claude 3 Opus數(shù)學(xué)封神
關(guān)鍵字:模型,代碼,數(shù)據(jù),測(cè)試,提示
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部
【新智元導(dǎo)讀】一直以來,UC伯克利團(tuán)隊(duì)的LMSYS大模型排行榜,深受AI圈歡迎。如今,最有實(shí)力的全新大模型排行榜SEAL誕生,得到AI大佬的轉(zhuǎn)發(fā)。它最大的特點(diǎn)是在私有數(shù)據(jù)上,由專家嚴(yán)格評(píng)估,并隨時(shí)間不斷更新數(shù)據(jù)集和模型。前段時(shí)間,由27歲的華裔創(chuàng)始人Alexandr Wang領(lǐng)導(dǎo)的Scale AI剛剛因?yàn)槿谫Y圈了一波關(guān)注。
今天,他又在上官宣推出全新LLM排行榜——SEAL,對(duì)前沿模型開展專業(yè)評(píng)估。
SEAL排行榜主打三個(gè)特色:
– 私有數(shù)據(jù)
Scale AI的專有私有評(píng)估數(shù)據(jù)集無法控,確保了結(jié)果的公正性和無污染。
– 不斷發(fā)展
定期使用新的數(shù)據(jù)集和模型更新排行榜,營(yíng)造一個(gè)動(dòng)態(tài)的競(jìng)賽環(huán)境。
– 專家評(píng)估
評(píng)估由經(jīng)過嚴(yán)格審查的專家進(jìn)行,確保最高的質(zhì)量和可信度。
榜單地址:https://scale.com/leaderboard
這篇獲得了Jim Fan大佬的轉(zhuǎn)發(fā),他認(rèn)為SEAL是LMSys的非常好的補(bǔ)充和參照,提供公開模型的私密、安全、可信的第三方評(píng)估。
對(duì)此,Andrej Karpathy也深以為然。
代碼在代碼任務(wù)中,GPT-4 Turbo P
原文鏈接:27歲華裔天才少年對(duì)打UC伯克利,首發(fā)SEAL大模型排行榜!Claude 3 Opus數(shù)學(xué)封神
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。