罕見!蘋果開源圖片編輯神器MGIE,要上iPhone?

AIGC動態(tài)歡迎閱讀
原標(biāo)題:罕見!蘋果開源圖片編輯神器MGIE,要上iPhone?
關(guān)鍵字:指令,編輯,視覺,模型,圖像
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6499字
內(nèi)容摘要:
機(jī)器之心報道
編輯:蛋醬、陳萍拍張照片,輸入文字指令,手機(jī)就開始自動修圖?
這一神奇功能,來自蘋果剛剛開源的圖片編輯神器「MGIE」。把背景中的人移除在桌子上添加披薩最近一段時間,AI 在圖片編輯這一應(yīng)用上取得了不小的進(jìn)展。一方面,在 LLM 的基礎(chǔ)上,多模態(tài)大模型(MLLM)可以自然地將圖像視為輸入,并提供視覺感知響應(yīng)。另一方面,基于指令的編輯技術(shù)可以不依賴于詳細(xì)描述或區(qū)域掩碼,而是允許人類下達(dá)指令,直接表達(dá)如何編輯以及編輯圖像的哪個方面。這種方法極具實(shí)用性,因為這種引導(dǎo)更符合人類的直覺。
基于上述技術(shù)的啟發(fā),蘋果提出了 MGIE(MLLM-Guided Image Editing),將 MLLM 用于解決指令引導(dǎo)不足的問題。論文標(biāo)題:Guiding Instruction-based Image Editing via Multimodal Large Language Models
論文鏈接:https://openreview.net/pdf?id=S1RKWSyZ2Y
項目主頁:https://mllm-ie.github.io/
如圖 2 所示,MGIE 由 MLLM 和擴(kuò)
原文鏈接:罕見!蘋果開源圖片編輯神器MGIE,要上iPhone?
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號