最強(qiáng)的GPT-4V都考不過?基于大學(xué)考試的測(cè)試基準(zhǔn)MMMU誕生了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:最強(qiáng)的GPT-4V都考不過?基于大學(xué)考試的測(cè)試基準(zhǔn)MMMU誕生了
關(guān)鍵字:解讀,模型,基準(zhǔn),錯(cuò)誤,問題
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8986字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:Panda目前最好的大型多模態(tài)模型 GPT-4V 與大學(xué)生誰更強(qiáng)?我們還不知道,但近日一個(gè)新的基準(zhǔn)數(shù)據(jù)集 MMMU 以及基于其的基準(zhǔn)測(cè)試或許能給我們提供一點(diǎn)線索,如下排行榜所示。看起來,GPT-4V 在一些科目上已經(jīng)強(qiáng)過掛科的大學(xué)生了。當(dāng)然這個(gè)數(shù)據(jù)集的創(chuàng)造目的并不為了擊敗大學(xué)生,而是為了提供一個(gè)兼具深度與廣度的多模態(tài) AI 測(cè)試基準(zhǔn),助力人工智能系統(tǒng)的開發(fā),尤其是通用人工智能(Artificial General Intelligence,AGI)。隨著大型語言模型(LLM)快速發(fā)展,人們對(duì) AGI 這一頗具爭(zhēng)議的概念進(jìn)行了廣泛討論。簡(jiǎn)單來說,AGI 是指在大多數(shù)任務(wù)上都與人類相當(dāng)或超越人類的人工智能系統(tǒng)。由于缺乏公認(rèn)的可操作定義,人們一直都很難就 AGI 開展更加坦誠(chéng)和建設(shè)性的討論。為了解決這個(gè)問題,Morris 等人的論文《Levels of AGI: Operati…
原文鏈接:點(diǎn)此閱讀原文:最強(qiáng)的GPT-4V都考不過?基于大學(xué)考試的測(cè)試基準(zhǔn)MMMU誕生了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)