蘋果與英偉達強強聯(lián)手,打造超速AI響應新紀元!
蘋果與英偉達合作提高大模型推理效率。
原標題:蘋果正在與英偉達合作,想讓 AI 的響應速度更快
文章來源:愛范兒
內容字數(shù):3184字
蘋果與英偉達合作加速大模型推理性能
近日,蘋果與英偉達宣布了一項合作,旨在提升大語言模型(LLM)的推理性能。這一合作的核心是蘋果開源的「ReDrafter」技術,旨在解決傳統(tǒng)自回歸 LLM 在推理效率和內存帶寬方面的不足。
1. ReDrafter 的核心技術
ReDrafter 通過三項關鍵技術提升推理速度:
- RNN 草稿模型: 該模型利用循環(huán)神經(jīng)網(wǎng)絡(RNN)預測可能的 tokens 序列,能夠捕捉局部時間依賴性,提高預測準確性。
- 動態(tài)樹注意力算法: 該算法優(yōu)化束搜索的候選序列,識別共享前綴,減少需要驗證的 tokens 數(shù)量,從而提高計算資源的利用效率。
- 知識蒸餾訓練: 通過將大型 LLM 的知識轉移到更小的 RNN 草稿模型,提升了推理的準確性和效率。
2. 推理速度的顯著提升
蘋果的基準測試結果顯示,集成 ReDrafter 的 TensorRT-LLM 在 NVIDIA H100 GPU 上的貪心解碼速度提高了 2.7 倍,而在 M2 Ultra Metal GPU 上也實現(xiàn)了 2.3 倍的加速。這一提升不僅降低了計算成本,還減少了用戶端的延遲。
3. 面向更廣泛的應用
ReDrafter 的技術具有較小的 GPU 資源需求,能夠在資源受限的環(huán)境中高效運行,為 LLM 在多種硬件平臺的應用提供了新的可能性。蘋果已將這一技術開源,未來其他公司也可能從中獲益。
總之,蘋果與英偉達的合作和 ReDrafter 的推出標志著大語言模型推理技術的一個重要進步,有助于推動生產(chǎn)應用程序的高效性和可用性。
聯(lián)系作者
文章來源:愛范兒
作者微信:
作者簡介:關注明日產(chǎn)品的數(shù)字潮牌
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...