AIGC動態歡迎閱讀
原標題:GPT-4V被超越?SEED-Bench多模態大模型測評基準更新
文章來源:大數據文摘
內容字數:4986字
內容摘要:
大數據文摘受權轉載自將門創投
大語言模型(LLM)的蓬勃發展離不開健全的評測體系,而對于多模態大語言模型(MLLM)而言,一直缺乏類似MMLU、ARC等全面且客觀的評測基準。騰訊AI Lab聯手騰訊ARC Lab和港中深推出了SEED-Bench系列測評基準,有效彌補了這一缺陷,目前已成為測評MLLM的主流基準之一。
SEED-Bench評測基準在2023年7月首次發布,它包含了19K道經過人工標注正確答案的選擇題,涵蓋了圖像和視頻的12個評估維度;并在11月發布了v2版本,擴充至24K選擇題和27個維度!?? 值得一提的是,Hugging Face CEO Clément Delangue也對在線榜單進行了點贊。?? 技術報告
SEED-Bench-1:
https://arxiv.org/abs/2307.16125
SEED-Bench-2:
https://arxiv.org/abs/2311.17092
??測評數據
SEED-Bench-1:
https://huggingface.co/datasets/AILab-CVC/SEED-Bench
SEED-Bench-2:
原文鏈接:點此閱讀原文:GPT-4V被超越?SEED-Bench多模態大模型測評基準更新
聯系作者
文章來源:大數據文摘
作者微信:BigDataDigest
作者簡介:普及數據思維,傳播數據文化
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...