VideoPhy – UCLA 聯合谷歌推出評估視頻生成模型物理常識能力的基準測試
VideoPhy是由UCLA和谷歌研究院聯合開發的首個專注于評估視頻生成模型物理常識能力的基準測試,旨在測量生成的視頻是否遵循現實世界的物理規律。該基準包含688個描述物理交互的字幕,用于從多種文本到視頻模型的生成過程,并進行人類與自動評估。研究顯示,即使是最先進的模型,其生成的視頻也只有39.6%能夠同時符合文本提示和物理法則。VideoPhy強調了視頻生成模型在模擬物理現象方面的限制,同時推出了自動評估工具VideoCon-Physics,以支持未來模型的可靠評估。
VideoPhy是什么
VideoPhy是UCLA與谷歌研究院合作推出的創新基準測試,專門評估視頻生成模型在物理常識方面的表現。通過688個經過嚴格審核的字幕,VideoPhy能夠測試不同文本到視頻模型生成的視頻是否符合物理規律。該基準的推出意在揭示視頻生成模型在物理模擬上的不足,并通過自動評估工具VideoCon-Physics,為未來的模型評估提供支持。
主要功能
- 物理常識評估: 測試文本到視頻生成模型是否生成符合物理常識的視頻內容。
- 標準化測試集: 提供688個經過人類驗證的描述性字幕,涵蓋固體-固體、固體-流體及流體-流體之間的物理互動,用于生成視頻并進行評估。
- 綜合評估: 結合人類評估與自動評估工具VideoCon-Physics,評估視頻的語義一致性和物理常識。
- 模型性能比較: 比較不同模型在VideoPhy數據集上的表現,以確定哪些模型在遵循物理法則方面表現更佳。
- 推動模型改進: 揭示現有模型在物理模擬上的不足,促進研究者開發更符合物理常識的視頻生成模型。
技術原理
- 數據集構建: VideoPhy的數據集通過三階段流程構建,包括使用大型語言模型生成字幕候選項、人工驗證字幕質量及標注視頻生成難度。
- 視頻生成: 利用不同的文本到視頻生成模型,根據VideoPhy數據集中的字幕生成視頻。
- 人類評估: 基于亞馬遜機械土耳其(Amazon Mechanical Turk)的人工評估者對生成的視頻進行語義一致性和物理常識評分。
- 自動評估模型: 發布VideoCon-Physics,基于VIDEOCON視頻-語言模型的自動評估工具,微調后用于評估生成視頻的語義一致性和物理常識。
- 性能指標: 采用二元反饋(0或1)來評估視頻的語義一致性(Semantic Adherence, SA)和物理常識(Physical Commonsense, PC)。
項目地址
- 項目官網:videophy.github.io
- GitHub倉庫:https://github.com/Hritikbansal/videophy
- HuggingFace模型庫:
- arXiv技術論文:https://arxiv.org/pdf/2406.03520
應用場景
- 視頻生成模型開發與測試: 用于開發和測試新的文本到視頻生成模型,確保生成符合物理常識的視頻內容。
- 計算機視覺研究: 在計算機視覺領域,輔助研究和改進視頻理解算法,尤其是在涉及物理互動和動態場景理解方面。
- 教育與培訓: 可作為教育工具,幫助學生理解物理現象及視頻內容生成過程。
- 娛樂產業: 在電影、游戲和虛擬現實制作中,生成更加真實且符合物理規律的動態場景。
- 自動化內容生成: 為新聞、體育及其他媒體內容的自動化生成提供技術支持,提高內容質量與真實性。
常見問題
- VideoPhy的測試集是如何構建的? 測試集基于大型語言模型生成的字幕,通過人類驗證確保質量,并標注生成視頻的難度。
- 如何評估生成的視頻是否符合物理常識? 評估通過人工評估者和自動評估工具VideoCon-Physics結合進行,確保評估的全面性和準確性。
- VideoPhy的成果可以應用于哪些領域? 主要應用于視頻生成模型開發、計算機視覺研究、教育培訓、娛樂產業及自動化內容生成等多個領域。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...