AGI-Eval團隊：AI視頻生成模型年度橫評，Sora大餅落地，但國產模型仍然領先！

團隊還提出了全新的人機協作測評模式

原標題：AGI-Eval團隊：AI視頻生成模型年度橫評，Sora大餅落地，但國產模型仍然領先！
文章來源：量子位
內容字數：9328字

本文總結了AGI-Eval團隊對視頻生成模型Sora以及國內頭部模型的評測結果，重點關注其在視頻-文本一致性、視頻質量和質量等方面的表現差異。

AGI-Eval團隊利用上百條評測數據和專家級人工評測團隊，對Sora以及國內前三的視頻生成模型進行了深度評測。評測維度包括視頻-文本一致性、視頻質量（包含真實性、合理性）和質量，并對結果進行了歸一化處理。

評測得出三個主要結論：

AGI-Eval團隊提供了多個示例進行對比，展現了不同模型在不同維度上的優劣。例如：

文本一致性：在復雜提示詞下，Sora和可靈1.6都未能完全滿足要求，例如遺漏實體或動作不符。Pixverse-V3和MiniMax-Video-01表現相對較好。
物品生成穩定性：Sora在果醬出現和消失方面穩定性較差，而其他模型也存在物品突兀出現或消失的問題。
實體畸形：Sora生成的視頻現明顯的背景畸形和人物變形，可靈1.6和MiniMax-Video-01在實體畸形方面表現相對較好。
鏡頭技巧：Sora在升鏡和拉鏡的運用上表現一般，可靈1.6在場景轉換上更為流暢自然。

總體來說，雖然Sora在視頻質量、創作度和風格支持方面表現更優，尤其是在動態場景下五官的呈現更為細致，但在文本理解和指令遵循方面仍有提升空間。

AGI-Eval采用人工主觀評測、模型打分和眾包評測三種方式，對模型進行多角度評估。人工評測團隊根據視頻-文本一致性、視頻質量和質量等維度對視頻進行評分，并標注錯誤標簽。

AGI-Eval構建了包含500條中英文對照樣本的黑盒測試集，涵蓋了多種復雜場景和能力項，并結合物理常識和百科知識，評估生成視頻的真實感和邏輯性。

AGI-Eval平臺采用人機協作評測模式，旨在打造公正、可信、科學、全面的評測生態。平臺基于真實數據回流和能力項拆解，自建萬量級私有數據，確保評測數據的準確性和可靠性。

總而言之，AGI-Eval的評測結果為視頻生成模型的研發和應用提供了寶貴的參考，也展現了國內視頻生成模型的競爭力。

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...