最強的GPT-4V都考不過？基于大學(xué)考試的測試基準(zhǔn)MMMU誕生了

AIGC動態(tài)2年前 (2023)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：最強的GPT-4V都考不過？基于大學(xué)考試的測試基準(zhǔn)MMMU誕生了

關(guān)鍵字：解讀,模型,基準(zhǔn),錯誤,問題

文章來源：機器之心

內(nèi)容字?jǐn)?shù)：8986字

內(nèi)容摘要：機器之心報道編輯：Panda目前最好的大型多模態(tài)模型 GPT-4V 與大學(xué)生誰更強？我們還不知道，但近日一個新的基準(zhǔn)數(shù)據(jù)集 MMMU 以及基于其的基準(zhǔn)測試或許能給我們提供一點線索，如下排行榜所示。看起來，GPT-4V 在一些科目上已經(jīng)強過掛科的大學(xué)生了。當(dāng)然這個數(shù)據(jù)集的創(chuàng)造目的并不為了擊敗大學(xué)生，而是為了提供一個兼具深度與廣度的多模態(tài) AI 測試基準(zhǔn)，助力人工智能系統(tǒng)的開發(fā)，尤其是通用人工智能（Artificial General Intelligence，AGI）。隨著大型語言模型（LLM）快速發(fā)展，人們對 AGI 這一頗具爭議的概念進行了廣泛討論。簡單來說，AGI 是指在大多數(shù)任務(wù)上都與人類相當(dāng)或超越人類的人工智能系統(tǒng)。由于缺乏公認(rèn)的可操作定義，人們一直都很難就 AGI 開展更加坦誠和建設(shè)性的討論。為了解決這個問題，Morris 等人的論文《Levels of AGI: Operati…

原文鏈接：點此閱讀原文：最強的GPT-4V都考不過？基于大學(xué)考試的測試基準(zhǔn)MMMU誕生了