看見這張圖沒有，你就照著畫：谷歌圖像生成AI掌握多模態指令

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：看見這張圖沒有，你就照著畫：谷歌圖像生成AI掌握多模態指令
關鍵字：指令,模型,圖像,任務,文本
文章來源：機器之心
內容字數：6823字

內容摘要：

機器之心報道
編輯：Panda用圖 2 的風格畫圖 1 的貓貓并給它戴上一頂帽子。谷歌新設計的一種圖像生成模型已經能做到這一點了！通過引入指令微調技術，多模態大模型可以根據文本指令描述的目標和多張參考圖像準確生成新圖像，效果堪比 PS 大神抓著你的手助你 P 圖。在使用大型語言模型（LLM）時，我們都已經見證過了指令微調的重要性。如果應用得當，通過指令微調，我們能讓 LLM 幫助我們完成各種不同的任務，讓其變成詩人、程序員、劇作家、科研助理甚至投資經理。
現在，大模型已經進入了多模態時代，指令微調是否依然有效呢？比如我們能否通過多模態指令微調控制圖像生成？不同于語言生成，圖像生成一開始就涉及到多模態。我們可否有效地讓模型掌握多模態的復雜性？
為了解決這一難題，Google DeepMind 和 Google Research 提出可將多模態指令方法用于圖像生成。該方法可將不同模態的信息交織在一起來表達圖像生成的條件（圖 1 左圖給出了幾個示例）。
具體來說，多模態指令可增強語言指令，比如用戶可讓生成模型按照指定參照圖像的風格對所生成的圖像進行渲染。如此一來，就能以對人類而言很直觀的交互

原文鏈接：看見這張圖沒有，你就照著畫：谷歌圖像生成AI掌握多模態指令