ICML 2024 | 人物交互圖像，現在更懂你的提示詞了，北大推出基于語義感知的人物交互圖像生成框架

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：ICML 2024 | 人物交互圖像，現在更懂你的提示詞了，北大推出基于語義感知的人物交互圖像生成框架
關鍵字：圖像,人物,語義,質量,方法
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com該論文的第一作者和通訊作者均來自北京大學王選計算機研究所的 MIPL實驗室，第一作者為博士生徐鑄，通訊作者為博士生導師劉洋。MIPL 實驗室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會上有多項代表性成果發表，多次榮獲國內外 CV 領域重量級競賽的冠軍獎項，和國內外知名高校、科研機構廣泛開展合作。
人物交互圖像生成指生成滿足文本描述需求，內容為人與物體交互的圖像，并要求圖像盡可能真實且符合語義。近年來，文本生成圖像模型在生成真實圖像方面取得出了顯著的進展，但這些模型在生成以人物交互為主體內容的高保真圖像生成方面仍然面臨挑戰。其困難主要源于兩個方面：一是人體姿勢的復雜性和多樣性給合理的人物生成帶來挑戰；二是交互邊界區域（交互語義豐富

原文鏈接：ICML 2024 | 人物交互圖像，現在更懂你的提示詞了，北大推出基于語義感知的人物交互圖像生成框架