Lego-Edit – 小米開源的圖像編輯框架
核心觀點: Lego-Edit 是小米開源的一款基于多模態大語言模型的智能圖像編輯框架,它通過創新的三階段強化學習訓練策略和模型級工具包,實現了對圖像的靈活、高效、精確編輯,并具備強大的泛化能力和易于擴展的特性,適用于創意設計、內容創作、電商、教育及個人美化等廣泛場景。
Lego-Edit:智能圖像編輯新范式
Lego-Edit 是一款由小米推出的前沿開源框架,它巧妙地融合了多模態大語言模型(MLLM)的強大泛化能力與精細化的圖像編輯指令,為用戶帶來了前所未有的靈活圖像處理體驗。這款框架的核心在于其創新的模型級工具包,其中匯聚了多種經過高效訓練的模型,能夠執行豐富多樣的圖像操作,從而讓用戶能夠以自然語言指令驅動復雜的圖像編輯流程。
Lego-Edit 的核心優勢與功能亮點
Lego-Edit 的強大之處體現在其卓越的圖像編輯能力上。它不僅能夠勝任局部、全局的精細化編輯,更能處理復雜的多步驟編輯任務,滿足用戶在各種場景下的個性化需求。得益于 MLLM 的智能理解,Lego-Edit 能夠精準解析開放域的指令,即使是未曾遇到的指令,也能憑借其出色的推理能力進行有效執行。
該框架的另一大亮點是其模型級工具包,這些工具經過精心設計,能夠在有限的數據集上實現高效訓練,為 MLLM 提供了執行細粒度編輯操作的強大后盾。更令人稱道的是,Lego-Edit 支持在無需重新訓練模型的前提下,輕松集成新的編輯工具,極大地增強了其功能的可擴展性,能夠靈活應對不斷演進的圖像編輯需求。
為了實現對編輯區域的精確控制,Lego-Edit 引入了掩碼輸入機制,用戶可以通過掩碼精確劃定編輯目標,從而實現更加精準的局部修改。此外,Lego-Edit 以開源的形式提供,代碼遵循 Apache 2.0 許可,模型則采用 CC BY-NC 4.0 許可,大大降低了使用門檻,用戶只需簡單的環境配置和模型下載,便可通過 Gradio WebUI 開啟智能圖像編輯之旅。
Lego-Edit 的技術基石
Lego-Edit 的技術核心圍繞著幾個關鍵要素構建。首先是其模型級工具包,集成了多種功能各異的高效訓練模型,為圖像編輯提供了豐富的底層能力。其次,多模態大語言模型(MLLM)驅動是整個框架的靈魂,MLLM 負責理解用戶指令,并智能協調工具包中的模型來完成具體的編輯任務。
在訓練策略上,Lego-Edit 采用了三階段漸進式強化學習訓練。初始階段通過監督微調(SFT)奠定基礎,隨后在特定任務上進行強化學習(RL)以培養推理和工具使用能力,最后利用海量未標注指令進行額外的 RL 訓練,借助大規模的批評模型反饋,顯著提升了框架處理靈活指令的能力。
掩碼輸入機制的引入,使得用戶能夠精確指定編輯區域,進一步提升了編輯的靈活性和準確性。而無需重新訓練的工具整合能力,則保證了框架能夠快速適應新工具,保持高效和良好的可擴展性。
Lego-Edit 的廣闊應用前景
Lego-Edit 的智能與靈活性使其在多個領域展現出巨大的應用潛力。
創意設計領域
設計師可以利用 Lego-Edit 快速將創意轉化為視覺作品,通過簡單的指令實現復雜的圖像合成、風格轉換,極大地提升設計效率并激發更多靈感。
內容創作與編輯
無論是視頻制作、廣告設計還是社交媒體內容,Lego-Edit 都能幫助創作者高效地修改圖像素材,如調整色彩、更換背景、添加特效等,滿足多樣化的內容需求。
電商與產品展示
電商商家可以通過 Lego-Edit 對產品圖片進行優化,修復瑕疵、調整光照、甚至添加虛擬場景,從而提升產品吸引力,促進銷售。
教育與培訓
在教育領域,Lego-Edit 可作為強大的教學工具,幫助學生掌握圖像編輯技巧,培養創造力。同時,教師也能借此快速制作高質量的教學素材。
個人照片美化
普通用戶也能輕松使用 Lego-Edit 對個人照片進行美化,如去除背景、調整膚色、添加裝飾,制作出令人滿意的照片用于分享或珍藏。
虛擬現實與游戲開發
在 VR 和游戲開發中,Lego-Edit 能夠加速圖像資源的生成與修改,如角色外觀、場景元素等,提升開發效率并豐富視覺體驗。
項目資源獲取
- 項目官網:https://xiaomi-research.github.io/lego-edit/
- Github倉庫:https://github.com/xiaomi-research/lego-edit
- arXiv技術論文:https://arxiv.org/pdf/2509.12883