
AIGC動態歡迎閱讀
原標題:擴散模型更懂復雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力
關鍵字:模型,提示,圖像,區域,能力
文章來源:量子位
內容字數:3469字
內容摘要:
明敏 發自 凹非寺量子位 | 公眾號 QbitAIPika北大斯坦福聯手,開源最新文本-圖像生成/編輯框架!
無需額外訓練,即可讓擴散模型擁有更強提示詞理解能力。
面對超長、超復雜提示詞,準確性更高、細節把控更強,而且生成圖片更加自然。
效果超越最強圖像生成模型Dall·E 3和SDXL。
比如要求圖片左右冰火兩重天,左邊有冰山、右邊有火山。
SDXL完全沒有符合提示詞要求,Dall·E 3沒有生成出來火山這一細節。
還能通過提示詞對生成圖像二次編輯。
這就是文本-圖像生成/編輯框架RPG(Recaption,Plan and Generate),已經在網上引起熱議。
它由北大、斯坦福、Pika聯合開發。作者包括北大計算機學院崔斌教授、Pika聯合創始人兼CTO Chenlin Meng等。
目前框架代碼已開源,兼容各種多模態大模型(如MiniGPT-4)和擴散模型主干網絡(如ControlNet)。
利用多模態大模型做增強一直以來,擴散模型在理解復雜提示詞方面都相對較弱。
一些已有改進方法,要么最終實現效果不夠好,要么需要進行額外訓練。
因此研究團隊利用多模態大模型的理解能力來增強擴
原文鏈接:擴散模型更懂復雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號