超越極限：東北大學等團隊發布高效版Stable-Diffusion.cpp，抽卡效率提升4.8倍，分辨率越高生成越快！

原標題：抽卡效率提升4.8倍！東北大學等開源優化版Stable-Diffusion.cpp：分辨率越高越快，生成質量更好
文章來源：新智元
內容字數：3316字

在AI生成圖像領域，北京大學等研究團隊對Stable-Diffusion.cpp（簡稱Sdcpp）框架進行了優化，通過引入Winograd算法和多項策略，顯著提升了圖像生成速度和內存效率。優化后的框架在生成速度上最高可提速4.79倍，為創作提供了更大的度。

Sdcpp是Stable Diffusion模型的C/C++實現，旨在無外部依賴情況下在CPU和GPU上實現高效推理。該框架不僅加速了模型的運行，還顯著減少了內存占用，尤其是在計算密集型的2D卷積運算方面。

研究團隊采用了以下三種主要優化策略來提升性能：

（1）分步處理：將卷積操作拆解為預處理、逐元素乘法和后處理三個階段，以提高運算效率。

（2）局部優化：通過優化數據加載方式，減少緩存切換，從而提升內存使用效率。

（3）并行處理：將關聯性較小的運算分配到不同的計算線程與核心上，充分利用多線程和多核心架構，減少圖像生成延遲，尤其在M系列Mac設備上優化了核心分工。

優化后的Sdcpp框架支持多個設備和模型，包括主流的Stable Diffusion模型與不同硬件平臺（如Mac、Android、AMD等），并擴展了LoRA和算子量化等功能，提升了用戶的靈活性。

實際測試表明，單卷積層的推理速度平均提升超過2倍，整體生成速度最高可達4.79倍。在生成高分辨率圖像（如1024×1024）時，優化后的Sdcpp在M1 Pro和M2 Max上的推理速度提升超過4.6倍。

在使用SDXL-Turbo模型進行圖像生成時，優化后的Sdcpp不僅速度更快，生成的圖像質量也有顯著提升，細節更加豐富、層次更為分明。

研究團隊計劃在未來繼續優化更多操作符，提升模型量化的效率，并探索在更多設備上的性能提升，以確保用戶能夠在不同平臺上生成高質量圖像。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...