GPT-4V被超越?SEED-Bench多模態(tài)大模型測評基準更新
AIGC動態(tài)歡迎閱讀
原標題:GPT-4V被超越?SEED-Bench多模態(tài)大模型測評基準更新
文章來源:大數(shù)據(jù)文摘
內(nèi)容字數(shù):4986字
內(nèi)容摘要:
大數(shù)據(jù)文摘受權轉(zhuǎn)載自將門創(chuàng)投
大語言模型(LLM)的蓬勃發(fā)展離不開健全的評測體系,而對于多模態(tài)大語言模型(MLLM)而言,一直缺乏類似MMLU、ARC等全面且客觀的評測基準。騰訊AI Lab聯(lián)手騰訊ARC Lab和港中深推出了SEED-Bench系列測評基準,有效彌補了這一缺陷,目前已成為測評MLLM的主流基準之一。
SEED-Bench評測基準在2023年7月首次發(fā)布,它包含了19K道經(jīng)過人工標注正確答案的選擇題,涵蓋了圖像和視頻的12個評估維度;并在11月發(fā)布了v2版本,擴充至24K選擇題和27個維度!?? 值得一提的是,Hugging Face CEO Clément Delangue也對在線榜單進行了點贊。?? 技術報告
SEED-Bench-1:
https://arxiv.org/abs/2307.16125
SEED-Bench-2:
https://arxiv.org/abs/2311.17092
??測評數(shù)據(jù)
SEED-Bench-1:
https://huggingface.co/datasets/AILab-CVC/SEED-Bench
SEED-Bench-2:
原文鏈接:點此閱讀原文:GPT-4V被超越?SEED-Bench多模態(tài)大模型測評基準更新
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化