無需參數(shù)訪問!CMU用大模型自動優(yōu)化視覺語言提示詞 | CVPR’24

AIGC動態(tài)歡迎閱讀
原標(biāo)題:無需參數(shù)訪問!CMU用大模型自動優(yōu)化視覺語言提示詞 | CVPR’24
關(guān)鍵字:提示,模型,團(tuán)隊,方法,視覺
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
林之秋 投稿量子位 | 公眾號 QbitAI視覺語言模型(如 GPT-4o、DALL-E 3)通常擁有數(shù)十億參數(shù),且模型權(quán)重不公開,使得傳統(tǒng)的白盒優(yōu)化方法(如反向傳播)難以實施。
那么,有沒有更輕松的優(yōu)化方法呢?
就在最近,卡內(nèi)基梅隆大學(xué)(CMU)的研究團(tuán)隊對于這個問題提出了一種創(chuàng)新的“黑盒優(yōu)化”策略——
通過大語言模型自動調(diào)整自然語言提示詞,使視覺語言模型在文生圖、視覺識別等多個下游任務(wù)中獲得更好的表現(xiàn)。
這一方法不僅無需觸及模型內(nèi)部參數(shù),還大幅提升了優(yōu)化的靈活性與速度,讓用戶即使沒有技術(shù)背景也能輕松提升模型性能。
該研究已被 CVPR 2024 接收。
如何做到的?大多數(shù)視覺語言模型(如 DALL-E 3、GPT-4o 等)并未公開模型權(quán)重或特征嵌入,導(dǎo)致傳統(tǒng)依賴反向傳播的優(yōu)化方式不再適用。
不過,這些模型通常向用戶開放了自然語言接口,使得通過優(yōu)化提示詞來提升模型表現(xiàn)成為可能。
然而,傳統(tǒng)的提示詞工程嚴(yán)重依賴工程師的經(jīng)驗和先驗知識。
例如,為提升 CLIP 模型的視覺識別效果,OpenAI 花費了一年時間收集了幾十種有效的提示詞模板(如 “A good photo of a [cl
原文鏈接:無需參數(shù)訪問!CMU用大模型自動優(yōu)化視覺語言提示詞 | CVPR’24
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號