谷歌發(fā)布Prompt Expansion框架,讓文生圖更輕松!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:谷歌發(fā)布Prompt Expansion框架,讓文生圖更輕松!
關(guān)鍵字:圖像,提示,模型,文本,多樣性
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):7370字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 付奶茶、Python盡管文本生成圖像(Text-to-Image Generation)模型功能強(qiáng)大,但有效地利用它們依然是一項(xiàng)挑戰(zhàn),因?yàn)閭鹘y(tǒng)使用方法往往需要用戶具備特定的技能和知識(shí)。為此,谷歌推出了一種名為提示擴(kuò)展(Prompt Expansion)的創(chuàng)新框架,旨在幫助用戶更輕松地創(chuàng)造出既高質(zhì)量又多樣化的圖像。讓我們一起了解這個(gè)框架的魅力吧!
論文標(biāo)題:Prompt Expansion for Adaptive Text-to-Image Generation
論文鏈接:https://arxiv.org/pdf/2312.16720.pdf
問(wèn)題陳述文本到圖像生成模型能夠根據(jù)文本提示創(chuàng)造相應(yīng)圖像,但這通常需要精確和詳細(xì)的指引。然而,存在兩大挑戰(zhàn):
提示工程復(fù)雜:用戶需精心設(shè)計(jì)提示以生成高質(zhì)量圖像。這涉及使用專(zhuān)業(yè)術(shù)語(yǔ)(如“35mm”、“背光”等)和獨(dú)特描述(如“大膽創(chuàng)新”)。由于有效提示的不穩(wěn)定性,用戶需不斷試驗(yàn),這限制了模型的易用性和創(chuàng)造力。
圖像多樣性不足:即便用戶提示未具體指定細(xì)節(jié),生成的圖像往往缺乏變化。例如,“南瓜燈設(shè)計(jì)”的提示可能導(dǎo)致風(fēng)格和視角
原文鏈接:谷歌發(fā)布Prompt Expansion框架,讓文生圖更輕松!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI應(yīng)用開(kāi)發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。