下載次數破39萬！CMU、Meta聯合發布VQAScore文生圖優化方案：Imagen3已采用

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：下載次數破39萬！CMU、Meta聯合發布VQAScore文生圖優化方案：Imagen3已采用
關鍵字：模型,圖像,報告,提示,基準
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRST
【新智元導讀】VQAScore是一個利用視覺問答模型來評估由文本提示生成的圖像質量的新方法；GenAI-Bench是一個包含復雜文本提示的基準測試集，用于挑戰和提升現有的圖像生成模型。兩個工具可以幫助研究人員自動評估AI模型的性能，還能通過選擇最佳候選圖像來實際改善生成的圖像。近年來，生成式人工智能（AIGC）引發廣泛關注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能夠根據自然語言提示詞生成美觀且逼真的圖像和視頻，廣受用戶喜愛。然而，這些模型在處理復雜的提示詞時仍存在不足。例如，當讓Stable Diffusion或Midjourney生成「棕色的狗繞著一棵樹追黑色的狗」時，模型可能會錯誤生成兩只，或將「追逐」誤解為兩只狗在「玩耍」。有什么辦法可以自動發現這些模型的不足，并進一步提升它們呢？
為解決這一問題，CMU和Meta團隊聯合推出了全新的評估指標VQAScore及基準GenAI-Bench，用于自動評估圖像、視頻和3D生成模型在復雜提示詞下的表現。ECCV’24論文鏈接:：https://arxiv.or

原文鏈接：下載次數破39萬！CMU、Meta聯合發布VQAScore文生圖優化方案：Imagen3已采用