AIGC動態歡迎閱讀
原標題:用GPT-3.5生成數據集!北大天工等團隊圖像編輯新SOTA,可精準模擬物理世界場景
關鍵字:數據,團隊,編輯,世界,指令
文章來源:量子位
內容字數:0字
內容摘要:
楊靈 投稿量子位 | 公眾號 QbitAI高質量圖像編輯的方法有很多,但都很難準確表達出真實的物理世界。
那么,Edit the World試試。
來自北京大學、Tiamat AI、天工AI、Mila實驗室提出了EditWorld,他們引入了一種新的編輯任務,即世界指令(world-instructed)圖像編輯,它定義和分類基于各種世界場景的指令。
在一組預訓練模型,比如GPT-3.5、Video-LLava 和 SDXL的支持下,建立了一個帶有世界指令的多模態數據集。
在該數據集訓練了一個基于擴散的圖像編輯模型EditWorld,結果在其新任務的表現明顯優于現有的編輯方法,實現SOTA。
圖像編輯新SOTA現有的方法通過多種途徑實現高質量的圖像編輯,包括但不限于文本控制、拖動操作以及inpainting。其中,利用instruction進行編輯的方法由于使用方便受到廣泛的關注。
盡管現有的圖片編輯方法能夠產生高質量的結果,但它們在處理傳達物理世界中真實視覺動態的世界動態方面仍然存在困難。
如圖1所示,無論是InstructPix2pix還是MagicBrush都無法生成合理的編輯結
原文鏈接:用GPT-3.5生成數據集!北大天工等團隊圖像編輯新SOTA,可精準模擬物理世界場景
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...