擴(kuò)散模型更懂復(fù)雜提示詞！Pika北大斯坦福開源新框架，利用LLM提升理解力

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：擴(kuò)散模型更懂復(fù)雜提示詞！Pika北大斯坦福開源新框架，利用LLM提升理解力
關(guān)鍵字：模型,提示,圖像,區(qū)域,能力
文章來源：量子位
內(nèi)容字?jǐn)?shù)：3469字

內(nèi)容摘要：

明敏發(fā)自凹非寺量子位 | 公眾號 QbitAIPika北大斯坦福聯(lián)手，開源最新文本-圖像生成/編輯框架！
無需額外訓(xùn)練，即可讓擴(kuò)散模型擁有更強(qiáng)提示詞理解能力。
面對超長、超復(fù)雜提示詞，準(zhǔn)確性更高、細(xì)節(jié)把控更強(qiáng)，而且生成圖片更加自然。
效果超越最強(qiáng)圖像生成模型Dall·E 3和SDXL。
比如要求圖片左右冰火兩重天，左邊有冰山、右邊有火山。
SDXL完全沒有符合提示詞要求，Dall·E 3沒有生成出來火山這一細(xì)節(jié)。
還能通過提示詞對生成圖像二次編輯。
這就是文本-圖像生成/編輯框架RPG（Recaption,Plan and Generate），已經(jīng)在網(wǎng)上引起熱議。
它由北大、斯坦福、Pika聯(lián)合開發(fā)。作者包括北大計(jì)算機(jī)學(xué)院崔斌教授、Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng等。
目前框架代碼已開源，兼容各種多模態(tài)大模型（如MiniGPT-4）和擴(kuò)散模型主干網(wǎng)絡(luò)（如ControlNet）。
利用多模態(tài)大模型做增強(qiáng)一直以來，擴(kuò)散模型在理解復(fù)雜提示詞方面都相對較弱。
一些已有改進(jìn)方法，要么最終實(shí)現(xiàn)效果不夠好，要么需要進(jìn)行額外訓(xùn)練。
因此研究團(tuán)隊(duì)利用多模態(tài)大模型的理解能力來增強(qiáng)擴(kuò)

原文鏈接：擴(kuò)散模型更懂復(fù)雜提示詞！Pika北大斯坦福開源新框架，利用LLM提升理解力