Chitu – 清華聯合清程極智開源的大模型推理引擎
Chitu(赤兔)是由清華大學高性能計算研究所與清程極智聯合開發的開放源代碼高性能大模型推理引擎,旨在應對大模型推理階段的高昂成本和低效能問題。該引擎具備卓越的硬件適配能力,支持多種英偉達GPU及國產芯片,成功打破了對特定硬件(如英偉達Hopper架構)的依賴。在性能方面,赤兔引擎在A800集群上部署DeepSeek-R1-671B時,相比于部分國外開源框架,GPU使用量減少50%,推理速度提升超過3倍,能夠滿足不同規模和場景的推理需求。
Chitu是什么
Chitu(赤兔)是一款高性能的大模型推理引擎,由清華大學高性能計算研究所與清程極智聯合開源。該引擎特別設計用于解決大模型在推理階段面臨的高成本與低效率問題,具備強大的硬件適應性,支持多款英偉達GPU及國產芯片,成功消除了對特定硬件的依賴。在性能方面,赤兔引擎在A800集群上部署DeepSeek-R1-671B時,較部分國外開源框架GPU使用量減少50%,推理速度提升3.15倍,支持從純CPU到大規模集群的全面部署,能夠滿足多種規模和場景的推理需求。
Chitu的主要功能
- 多種算力適配:支持從最新旗艦到舊款的多系列英偉達GPU,并為國產芯片提供優化支持,打破了對英偉達Hopper架構的依賴。
- 可擴展的全場景部署:無論是純CPU、單GPU還是大規模集群,赤兔引擎都能提供靈活的解決方案,滿足不同規模和場景的推理需求。
- 低延遲優化:針對對響應時間要求嚴格的場景,諸如金融風控,優化模型推理速度,減少延遲。
- 高吞吐量優化:在高并發場景下(如智能客服),提高單位時間內處理的請求數量。
- 顯存占用優化:降低單卡顯存的占用,使企業能夠以更少的硬件資源獲得更高的推理性能。
- 穩定運行保障:赤兔引擎可在實際生產環境中長期穩定運行,承載并發業務流量。
- 即插即用的解決方案:清程極智推出了基于赤兔的推理一體機,提供開箱即用的部署方案和專業運維服務,簡化企業AI落地的流程。
Chitu的技術原理
- 底層技術創新:赤兔引擎通過底層技術創新,實現了在非英偉達Hopper架構GPU及各類國產芯片上原生運行FP8精度模型,打破了對高端英偉達H系列GPU的依賴。
- 算子級優化:赤兔對關鍵算子(如GeMM、MoE等)進行了指令級優化,直接處理FP8數據,確保模型精度無損,同時顯著提升推理速度。在A800集群測試中,相比部分國外開源框架,赤兔引擎在GPU使用量減少50%的情況下,推理速度仍提升3.15倍。
- 全場景性能優化:赤兔引擎支持低延遲、高吞吐量和小顯存的優化,根據不同場景需求,在不同硬件配置和系統環境下提供最佳解決方案。
- 并行計算與編譯優化:赤兔引擎積累了清華大學團隊多年的并行計算和編譯優化技術,通過智能編譯加速高性能算子的開發過程,迅速實現對不同硬件架構的優化。
Chitu的項目地址
- Github倉庫:https://github.com/thu-pacman/chitu
Chitu的應用場景
- 風險識別與預警:赤兔引擎可快速處理大量交易數據,實時監測潛在風險,幫助金融機構提高風險管理的效率。
- 智能客服與客戶體驗提升:借助大模型智能知識庫,快速響應客戶需求,提升服務體驗。
- 疾病診斷輔助:赤兔引擎能迅速處理醫療數據,提高疾病診斷的速度與準確性,改善患者就醫體驗。
- 交通流量優化:赤兔引擎能夠實時處理交通數據,優化交通流量,緩解城市擁堵。
- 科研數據分析:赤兔引擎可高效處理科研數據,促進科研進程的加速。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...