擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開(kāi)源新框架,利用LLM提升理解力
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開(kāi)源新框架,利用LLM提升理解力
關(guān)鍵字:模型,提示,圖像,區(qū)域,能力
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3469字
內(nèi)容摘要:
明敏 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIPika北大斯坦福聯(lián)手,開(kāi)源最新文本-圖像生成/編輯框架!
無(wú)需額外訓(xùn)練,即可讓擴(kuò)散模型擁有更強(qiáng)提示詞理解能力。
面對(duì)超長(zhǎng)、超復(fù)雜提示詞,準(zhǔn)確性更高、細(xì)節(jié)把控更強(qiáng),而且生成圖片更加自然。
效果超越最強(qiáng)圖像生成模型Dall·E 3和SDXL。
比如要求圖片左右冰火兩重天,左邊有冰山、右邊有火山。
SDXL完全沒(méi)有符合提示詞要求,Dall·E 3沒(méi)有生成出來(lái)火山這一細(xì)節(jié)。
還能通過(guò)提示詞對(duì)生成圖像二次編輯。
這就是文本-圖像生成/編輯框架RPG(Recaption,Plan and Generate),已經(jīng)在網(wǎng)上引起熱議。
它由北大、斯坦福、Pika聯(lián)合開(kāi)發(fā)。作者包括北大計(jì)算機(jī)學(xué)院崔斌教授、Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng等。
目前框架代碼已開(kāi)源,兼容各種多模態(tài)大模型(如MiniGPT-4)和擴(kuò)散模型主干網(wǎng)絡(luò)(如ControlNet)。
利用多模態(tài)大模型做增強(qiáng)一直以來(lái),擴(kuò)散模型在理解復(fù)雜提示詞方面都相對(duì)較弱。
一些已有改進(jìn)方法,要么最終實(shí)現(xiàn)效果不夠好,要么需要進(jìn)行額外訓(xùn)練。
因此研究團(tuán)隊(duì)利用多模態(tài)大模型的理解能力來(lái)增強(qiáng)擴(kuò)
原文鏈接:擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開(kāi)源新框架,利用LLM提升理解力
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破