F-Lite

F-Lite – Freepik聯合FAL開源的文生圖模型

F-Lite

F-Lite是一款由Freepik團隊與FAL共同開發的文生圖模型，擁有10B參數，經過訓練后可用于商業用途。該模型基于Freepik內部的80M版權數據集，采用T5-XXL作為文本編碼器，并從其第17層抽取特征，注入到DiT模型中，支持256、512及1024分辨率的圖像生成。

F-Lite是什么

F-Lite是一個先進的文生圖模型，由Freepik團隊與FAL協作開發，具備10B參數，通過Freepik內部的80M版權數據集進行訓練，允許商業使用。該模型使用T5-XXL作為文本編碼器，并從第17層提取特征以注入DiT模型中。訓練過程包括256和512分辨率的預訓練，以及1024分辨率的后訓練，成本較高。此外，F-Lite還推出了一個針對豐富紋理和詳細提示優化的特殊版本F-Lite Texture。

F-Lite的主要功能

文本到圖像生成：用戶只需輸入文本描述，模型便可生成與之相符的圖像。
商用許可：模型在Freepik提供的版權安全數據集上進行訓練，生成的圖像可用于商業目的。
多分辨率支持：支持生成256、512及1024分辨率的圖像，能夠滿足不同場景的需求。
優化版本：推出F-Lite Texture版本，專門優化豐富紋理和詳細提示。

F-Lite的技術原理

擴散模型架構：基于逆向擴散過程，將隨機噪聲逐步轉換為有意義的圖像。結合文本條件的擴散模型，通過文本編碼器將文本特征注入到圖像生成過程中。
文本編碼器：使用T5-XXL作為文本編碼器，從其第17層提取特征，以更好地捕捉文本的語義信息，并通過交叉注意力機制將文本特征注入擴散模型中，確保生成圖像與文本描述高度相關。
訓練策略：
- 多分辨率預訓練：在256和512分辨率上進行預訓練，以學習圖像的基本特征。
- 高分辨率后訓練：在1024分辨率上進行后訓練，以生成更高質量的圖像。
- 強化學習訓練：基于GRPO（Gradient-based Reinforcement Policy Optimization）進行強化學習訓練，以提升生成圖像的多樣性和質量。
優化技術：引入可學習的register tokens，以更好地對齊文本和圖像特征。采用殘差連接技術，提高模型訓練的穩定性和效率，并通過μ-Parameterization技術優化擴散過程，提升生成圖像的質量。