團隊還提出了全新的人機協作測評模式
原標題:AGI-Eval團隊:AI視頻生成模型年度橫評,Sora大餅落地,但國產模型仍然領先!
文章來源:量子位
內容字數:9328字
AGI-Eval評測:Sora與國內視頻生成模型的深度對比
本文總結了AGI-Eval團隊對視頻生成模型Sora以及國內頭部模型的評測結果,重點關注其在視頻-文本一致性、視頻質量和質量等方面的表現差異。
1. 評測概述
AGI-Eval團隊利用上百條評測數據和專家級人工評測團隊,對Sora以及國內前三的視頻生成模型進行了深度評測。評測維度包括視頻-文本一致性、視頻質量(包含真實性、合理性)和質量,并對結果進行了歸一化處理。
2. 主要結論
評測得出三個主要結論:
- 與國內頭部大模型相比,Sora在視頻-文本一致性和視頻質量上略遜一籌,國內模型仍保持領先水平。
- Sora在質量維度上略優于可靈1.6,生成的視頻畫面在動態過程中的主體一致性和動態幅度更自然。
- Sora存在文本理解有誤、指令遵循不符的問題,生成的視頻內容與提示詞描述存在差異。
3. 詳細評測對比:Sora vs 國內模型
AGI-Eval團隊提供了多個示例進行對比,展現了不同模型在不同維度上的優劣。例如:
- 文本一致性:在復雜提示詞下,Sora和可靈1.6都未能完全滿足要求,例如遺漏實體或動作不符。Pixverse-V3和MiniMax-Video-01表現相對較好。
- 物品生成穩定性:Sora在果醬出現和消失方面穩定性較差,而其他模型也存在物品突兀出現或消失的問題。
- 實體畸形:Sora生成的視頻現明顯的背景畸形和人物變形,可靈1.6和MiniMax-Video-01在實體畸形方面表現相對較好。
- 鏡頭技巧:Sora在升鏡和拉鏡的運用上表現一般,可靈1.6在場景轉換上更為流暢自然。
總體來說,雖然Sora在視頻質量、創作度和風格支持方面表現更優,尤其是在動態場景下五官的呈現更為細致,但在文本理解和指令遵循方面仍有提升空間。
4. 評測方法
AGI-Eval采用人工主觀評測、模型打分和眾包評測三種方式,對模型進行多角度評估。人工評測團隊根據視頻-文本一致性、視頻質量和質量等維度對視頻進行評分,并標注錯誤標簽。
5. 評測集介紹
AGI-Eval構建了包含500條中英文對照樣本的黑盒測試集,涵蓋了多種復雜場景和能力項,并結合物理常識和百科知識,評估生成視頻的真實感和邏輯性。
6. AGI-Eval平臺
AGI-Eval平臺采用人機協作評測模式,旨在打造公正、可信、科學、全面的評測生態。平臺基于真實數據回流和能力項拆解,自建萬量級私有數據,確保評測數據的準確性和可靠性。
總而言之,AGI-Eval的評測結果為視頻生成模型的研發和應用提供了寶貴的參考,也展現了國內視頻生成模型的競爭力。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...