文生圖新SOTA!Pika北大斯坦福聯(lián)合推出RPG,多模態(tài)助力解決文生圖兩大難題
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:文生圖新SOTA!Pika北大斯坦福聯(lián)合推出RPG,多模態(tài)助力解決文生圖兩大難題
關(guān)鍵字:圖像,區(qū)域,提示,模型,文本
文章來源:新智元
內(nèi)容字?jǐn)?shù):4808字
內(nèi)容摘要:
新智元報(bào)道編輯:alan
【新智元導(dǎo)讀】近日,北大、斯坦福、以及Pika Labs發(fā)布了新的開源文生圖框架,利用多模態(tài)LLM的能力成功解決文生圖兩大難題,表現(xiàn)超越SDXL和DALL·E 3近日,北大、斯坦福、以及爆火的Pika Labs聯(lián)合發(fā)表了一項(xiàng)研究,將大模型文生圖的能力提升到了新的高度。
論文地址:https://arxiv.org/pdf/2401.11708.pdf
代碼地址:https://github.com/YangLing0818/RPG-DiffusionMaster
論文作者提出了一個(gè)全新的免訓(xùn)練文本到圖像生成/編輯框架,利用多模態(tài)大語言模型(MLLM)強(qiáng)大的思維鏈推理能力,來增強(qiáng)文本到圖像擴(kuò)散模型的組合性。
簡單來說,就是能讓文生圖模型在面對(duì)「多個(gè)屬性和關(guān)系的多個(gè)對(duì)象的復(fù)雜文本提示」時(shí)表現(xiàn)更出色。
話不多說,直接上圖:
A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively a
原文鏈接:文生圖新SOTA!Pika北大斯坦福聯(lián)合推出RPG,多模態(tài)助力解決文生圖兩大難題
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。