獨(dú)享 MRDIMM 有多強(qiáng)?至強(qiáng) 6 性能核處理器的內(nèi)存二三事
在解決了“能或不能”的問題之后,推理成本是大語(yǔ)言模型落地后最關(guān)鍵的挑戰(zhàn)。
原標(biāo)題:獨(dú)享 MRDIMM 有多強(qiáng)?至強(qiáng) 6 性能核處理器的內(nèi)存二三事
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):7595字
英特爾至強(qiáng)6性能核處理器:降低大模型推理成本的關(guān)鍵
本文分析了英特爾至強(qiáng)6性能核處理器在降低大語(yǔ)言模型推理成本方面的優(yōu)勢(shì),主要圍繞其內(nèi)存控制器設(shè)計(jì)、NUMA架構(gòu)以及對(duì)MRDIMM的支持展開。
至強(qiáng)6性能核處理器的內(nèi)核數(shù)量和內(nèi)存控制器
文章首先推測(cè)了至強(qiáng)6性能核處理器的內(nèi)核數(shù)量約為44個(gè)/芯片,并指出其內(nèi)存控制器占據(jù)的芯片面積遠(yuǎn)超預(yù)期,這可能是由于支持MRDIMM(多路復(fù)用數(shù)據(jù)緩沖器)以及其他未知功能導(dǎo)致的。 英特爾在內(nèi)存控制器上的投入巨大,使其在一段時(shí)間內(nèi)能夠獨(dú)占MRDIMM的優(yōu)勢(shì)。
至強(qiáng)6性能核處理器的NUMA與集群模式
至強(qiáng)6性能核處理器采用NUMA架構(gòu),每個(gè)計(jì)算單元芯片作為一個(gè)SNC(Sub-NUMA Clustering)域,擁有4個(gè)內(nèi)存通道。SNC3模式(默認(rèn)模式)適合虛擬化/容器化應(yīng)用和并行化程度高的計(jì)算,而HEX模式則可以訪問更大規(guī)模內(nèi)存,有利于大型數(shù)據(jù)庫(kù)和部分科學(xué)計(jì)算應(yīng)用,以及配合CXL內(nèi)存使用。
MRDIMM:提升內(nèi)存帶寬的關(guān)鍵
文章重點(diǎn)介紹了MRDIMM技術(shù),它通過(guò)多路復(fù)用數(shù)據(jù)緩沖器(MDB)和改進(jìn)的寄存時(shí)鐘驅(qū)動(dòng)器(MRCD)將內(nèi)存帶寬翻倍。MRDIMM支持更高的板型和更大的內(nèi)存容量,配合至強(qiáng)6900P的大插座尺寸,可以實(shí)現(xiàn)6TB的內(nèi)存容量。雖然輕量級(jí)應(yīng)用可能無(wú)法充分利用其帶寬優(yōu)勢(shì),但對(duì)于計(jì)算密集型應(yīng)用,如AI訓(xùn)練和推理,其性能提升顯著。
內(nèi)存帶寬與大模型推理
文章指出,在低精度量化后,大語(yǔ)言模型推理的算力瓶頸不再突出,內(nèi)存容量和帶寬成為決定并發(fā)數(shù)量和token響應(yīng)速度的關(guān)鍵因素。MRDIMM可以大幅提升大語(yǔ)言模型推理性能,測(cè)試表明提升幅度超過(guò)30%。與上一代至強(qiáng)處理器相比,至強(qiáng)6972P在Llama 3 8B推理任務(wù)中性能提升至少2.4倍,這主要?dú)w功于內(nèi)存帶寬的顯著提升。
結(jié)語(yǔ):降低推理成本的解題思路
至強(qiáng)6性能核處理器結(jié)合MRDIMM和CXL技術(shù),大幅提升了內(nèi)存帶寬和容量,顯著利好AI訓(xùn)練、大型數(shù)據(jù)庫(kù)等應(yīng)用。其在CPU推理方面的優(yōu)勢(shì),包括可獲得性、資源彈性以及成本優(yōu)勢(shì),使其成為降低大語(yǔ)言模型推理成本的重要方案。在“能或不能”的問題解決后,推理成本成為大模型落地的關(guān)鍵挑戰(zhàn),至強(qiáng)6性能核處理器配MRDIMM的組合或?qū)⑻峁┬碌慕忸}思路。
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。