原標題:抽卡效率提升4.8倍!東北大學等開源優化版Stable-Diffusion.cpp:分辨率越高越快,生成質量更好
文章來源:新智元
內容字數:3316字
優化Sdcpp框架提升圖像生成速度
在AI生成圖像領域,北京大學等研究團隊對Stable-Diffusion.cpp(簡稱Sdcpp)框架進行了優化,通過引入Winograd算法和多項策略,顯著提升了圖像生成速度和內存效率。優化后的框架在生成速度上最高可提速4.79倍,為創作提供了更大的度。
1. Sdcpp框架概述
Sdcpp是Stable Diffusion模型的C/C++實現,旨在無外部依賴情況下在CPU和GPU上實現高效推理。該框架不僅加速了模型的運行,還顯著減少了內存占用,尤其是在計算密集型的2D卷積運算方面。
2. 主要優化策略
研究團隊采用了以下三種主要優化策略來提升性能:
(1)分步處理:將卷積操作拆解為預處理、逐元素乘法和后處理三個階段,以提高運算效率。
(2)局部優化:通過優化數據加載方式,減少緩存切換,從而提升內存使用效率。
(3)并行處理:將關聯性較小的運算分配到不同的計算線程與核心上,充分利用多線程和多核心架構,減少圖像生成延遲,尤其在M系列Mac設備上優化了核心分工。
3. 多設備支持
優化后的Sdcpp框架支持多個設備和模型,包括主流的Stable Diffusion模型與不同硬件平臺(如Mac、Android、AMD等),并擴展了LoRA和算子量化等功能,提升了用戶的靈活性。
4. 顯著的速度提升
實際測試表明,單卷積層的推理速度平均提升超過2倍,整體生成速度最高可達4.79倍。在生成高分辨率圖像(如1024×1024)時,優化后的Sdcpp在M1 Pro和M2 Max上的推理速度提升超過4.6倍。
5. 生成效果的提升
在使用SDXL-Turbo模型進行圖像生成時,優化后的Sdcpp不僅速度更快,生成的圖像質量也有顯著提升,細節更加豐富、層次更為分明。
6. 未來的研究方向
研究團隊計劃在未來繼續優化更多操作符,提升模型量化的效率,并探索在更多設備上的性能提升,以確保用戶能夠在不同平臺上生成高質量圖像。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。