參數減少99.5%,媲美全精度FLUX!字節(jié)跳動等發(fā)布首個1.58-bit FLUX量化模型
首個1.58-bit FLUX量化模型。
原標題:參數減少99.5%,媲美全精度FLUX!字節(jié)跳動等發(fā)布首個1.58-bit FLUX量化模型
文章來源:智猩猩GenAI
內容字數:3874字
第四屆全球自動駕駛峰會預告及1.58-bit FLUX模型技術解讀
1月14日,第四屆全球自動駕駛峰會將在北京舉辦,屆時將舉行開幕式、端到端自動駕駛創(chuàng)新論壇、城市NOA專題論壇以及自動駕駛視覺語言模型和自動駕駛世界模型兩場技術研討會。峰會演講嘉賓已全部確定,完整議程將于下周公布。歡迎申請免費票或購票!
1. 峰會概覽
本次峰會聚焦自動駕駛領域的前沿技術和發(fā)展趨勢,涵蓋了端到端自動駕駛、城市NOA以及相關的視覺語言模型和世界模型等重要議題。 峰會將邀請業(yè)內專家和學者進行深入探討,為參會者提供一個學習和交流的平臺。
2. 1.58-bit FLUX模型技術亮點
除了峰會信息,文章還重點介紹了1.58-bit FLUX模型,這是一個突破性的文本生成圖像(T2I)模型量化技術。該模型解決了現有T2I模型(如DALLE 3、Stable Diffusion 3)參數量巨大、內存需求高等問題,使其難以在資源受限的設備上部署。
2.1 解決的問題
當前T2I模型參數量巨大,導致其在移動設備等資源有限的設備上部署困難。1.58-bit FLUX旨在通過極低比特量化來解決這個問題,降低存儲和內存需求,同時提高推理效率。
2.2 技術方案
該方案采用FLUX.1-dev模型作為基礎,運用后訓練量化方法將其權重壓縮至1.58-bit(值限制為{-1,0,+1}),無需訪問圖像數據。 同時,開發(fā)了針對低比特操作優(yōu)化的定制化內核,進一步提升推理效率。 整個過程無需額外訓練數據,實現了無監(jiān)督量化。
2.3 技術優(yōu)勢
1.58-bit FLUX在存儲效率和推理效率上取得了顯著提升:模型存儲需求減少7.7倍,推理內存使用減少超過5.1倍。 令人矚目的是,在GenEval和T2I Compbench基準測試中,其生成質量與全精度FLUX基本持平,證明了該方法的有效性和實用性。
2.4 實驗結果
實驗使用了Parti-1k數據集和T2I CompBench訓練集的提示語作為校準數據集進行量化,整個過程完全不依賴圖像數據。 在GenEval和T2I CompBench驗證集上進行評估,結果表明1.58-bit FLUX與全精度FLUX的性能相當。 在低性能GPU上,推理延遲改進更為顯著。
2.5 局限性與未來展望
盡管取得了顯著成果,1.58-bit FLUX仍然存在一些局限性。例如,由于缺乏激活值量化和更高級的內核優(yōu)化,其延遲改進有限;在渲染超高分辨率細節(jié)方面,仍略遜于原始FLUX模型。研究團隊計劃在未來研究中解決這些問題,進一步提升模型性能。
3. 總結
1.58-bit FLUX模型的成功,為T2I模型在移動設備上的部署提供了新的可能性,也為自動駕駛領域視覺語言模型的輕量化發(fā)展提供了新的思路。 本次峰會將為業(yè)界人士提供一個深入探討這些前沿技術的絕佳平臺。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。