在解決了“能或不能”的問題之后,推理成本是大語言模型落地后最關鍵的挑戰。
原標題:獨享 MRDIMM 有多強?至強 6 性能核處理器的內存二三事
文章來源:AI科技評論
內容字數:7595字
英特爾至強6性能核處理器:降低大模型推理成本的關鍵
本文分析了英特爾至強6性能核處理器在降低大語言模型推理成本方面的優勢,主要圍繞其內存控制器設計、NUMA架構以及對MRDIMM的支持展開。
至強6性能核處理器的內核數量和內存控制器
文章首先推測了至強6性能核處理器的內核數量約為44個/芯片,并指出其內存控制器占據的芯片面積遠超預期,這可能是由于支持MRDIMM(多路復用數據緩沖器)以及其他未知功能導致的。 英特爾在內存控制器上的投入巨大,使其在一段時間內能夠獨占MRDIMM的優勢。
至強6性能核處理器的NUMA與集群模式
至強6性能核處理器采用NUMA架構,每個計算單元芯片作為一個SNC(Sub-NUMA Clustering)域,擁有4個內存通道。SNC3模式(默認模式)適合虛擬化/容器化應用和并行化程度高的計算,而HEX模式則可以訪問更大規模內存,有利于大型數據庫和部分科學計算應用,以及配合CXL內存使用。
MRDIMM:提升內存帶寬的關鍵
文章重點介紹了MRDIMM技術,它通過多路復用數據緩沖器(MDB)和改進的寄存時鐘驅動器(MRCD)將內存帶寬翻倍。MRDIMM支持更高的板型和更大的內存容量,配合至強6900P的大插座尺寸,可以實現6TB的內存容量。雖然輕量級應用可能無法充分利用其帶寬優勢,但對于計算密集型應用,如AI訓練和推理,其性能提升顯著。
內存帶寬與大模型推理
文章指出,在低精度量化后,大語言模型推理的算力瓶頸不再突出,內存容量和帶寬成為決定并發數量和token響應速度的關鍵因素。MRDIMM可以大幅提升大語言模型推理性能,測試表明提升幅度超過30%。與上一代至強處理器相比,至強6972P在Llama 3 8B推理任務中性能提升至少2.4倍,這主要歸功于內存帶寬的顯著提升。
結語:降低推理成本的解題思路
至強6性能核處理器結合MRDIMM和CXL技術,大幅提升了內存帶寬和容量,顯著利好AI訓練、大型數據庫等應用。其在CPU推理方面的優勢,包括可獲得性、資源彈性以及成本優勢,使其成為降低大語言模型推理成本的重要方案。在“能或不能”的問題解決后,推理成本成為大模型落地的關鍵挑戰,至強6性能核處理器配MRDIMM的組合或將提供新的解題思路。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。