英偉達(dá)(NVIDIA)數(shù)據(jù)中心用GPU是世界上采用最廣泛的加速計(jì)算解決方案,部署于較大超級(jí)計(jì)算中心和企業(yè)的數(shù)據(jù)中心。無(wú)論是希望解決深度學(xué)習(xí)(DL)和 人工智能(AI)、高性能計(jì)算(HPC)、圖形方面的業(yè)務(wù)問(wèn)題,還是在數(shù)據(jù)中心或邊緣解決虛擬化問(wèn)題,NVIDIA GPU 都能提供理想的解決方案。尤其是現(xiàn)在可以使用數(shù)量更少、功能更強(qiáng)大的服務(wù)器實(shí)現(xiàn)突破性的性能,同時(shí)更快地獲得解決并降低成本。
一、概述
我們知道,英偉達(dá)(NVIDIA)的圖形處理器(GPU,Graphic Processing Unit)在迭代時(shí),陸續(xù)采用了不同的架構(gòu),在前期幾代架構(gòu)中的處理核心均采用的是CUDA(計(jì)算統(tǒng)一設(shè)備架構(gòu))核心。從2017年發(fā)布的Volta(伏特)架構(gòu)時(shí),其處理核心開(kāi)始采用了Tensor Core(稱為張量計(jì)算核心),在后續(xù)的歷代GPU架構(gòu)更新時(shí)均采用了Tensor Core,且為Tensor Core的升級(jí)版本。下表1示出了英偉達(dá)采用Tensor Core的GPU不同架構(gòu)情況,包括其關(guān)鍵特征和相應(yīng)產(chǎn)品型號(hào)等。
表 1:英偉達(dá)Tensor Core GPU的不同架構(gòu)情況
由表可知,2017 年英偉達(dá)GPU提出的 Volta 架構(gòu),首次引入了Tensor Core ,用于執(zhí)行融合乘法加法(FMA)的方式來(lái)高效地處理計(jì)算任務(wù),標(biāo)志著第1代 Tensor Core 核心的誕生。而后Tensor Core在英偉達(dá)GPU的后續(xù)Turing、Ampere、Hopper和Blackwell架構(gòu)中均有配備,其中Blackwell架構(gòu)中的Tensor Core已演進(jìn)為第5代Tensor Core。英偉達(dá) Tensor Core 技術(shù)助力人工智能(AI)實(shí)現(xiàn)了大幅加速,將訓(xùn)練時(shí)間從數(shù)周縮短到幾小時(shí),顯著加快了推理速度。新的處理核心Tensor Core,可實(shí)現(xiàn)混合精度計(jì)算,并能根據(jù)精度的降低動(dòng)態(tài)調(diào)整算力,在保持準(zhǔn)確性的同時(shí)提高吞吐量;新一代 Tensor Core 擴(kuò)大了這種加速的應(yīng)用范圍,覆蓋到AI和高性能計(jì)算(HPC)領(lǐng)域的各種工作負(fù)載;Tensor Core 向所有工作負(fù)載提供了新功能,將一種革命性的新精度Tensor Float 32(TF32)下的 AI 訓(xùn)練速度加快 10 倍,并將 FP64 下的HPC速度加快 2.5 倍。相較于 CUDA Core,Tensor Core 能夠在每個(gè)時(shí)鐘周期內(nèi)執(zhí)行更多的運(yùn)算,特別是它可以高效地完成矩陣乘法和累加操作兩種操作,是深度學(xué)習(xí)(DL)中最頻繁和計(jì)算密集的任務(wù)之一。下述將對(duì)英偉達(dá)的采用Tensor Core核心算法的幾款GPU產(chǎn)品技術(shù)參數(shù)做一介紹,這些GPU產(chǎn)品主要部署用于數(shù)據(jù)中心場(chǎng)景。
二、Turing架構(gòu)的T4型GPU(Tensor Core 2.0)
英偉達(dá) T4 型企業(yè)級(jí) GPU 為全球最受信賴的主流服務(wù)器提供強(qiáng)大動(dòng)力,輕松融入標(biāo)準(zhǔn)數(shù)據(jù)中心架構(gòu)。其低矮的外形設(shè)計(jì),僅需 70 W功耗,由 NVIDIA Turing架構(gòu)Tensor Core驅(qū)動(dòng),為包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和虛擬桌面在內(nèi)的眾多現(xiàn)代應(yīng)用提供革命性的多精度性能加速。這款先進(jìn)的 GPU 采用節(jié)能的 70 瓦、小型 PCle 外形規(guī)格封裝(下圖2-1),專為企業(yè)數(shù)據(jù)中心和云環(huán)境實(shí)現(xiàn)最大效用而優(yōu)化。下表2-1給出了T4型 GPU的相關(guān)技術(shù)參數(shù);下表2-2給出了T4對(duì)于驅(qū)動(dòng)數(shù)據(jù)中心加速的技術(shù)說(shuō)明;下圖2-2展示了T4與CPU相比的接口性能和訓(xùn)練性能。
圖 2-1:T4 GPU的外形圖
表 2-1:T4 GPU的相關(guān)技術(shù)參數(shù)
表 2-2:T4 GPU對(duì)于驅(qū)動(dòng)數(shù)據(jù)中心加速的說(shuō)明
圖 2-2:T4 GPU與CPU相比的接口性能和訓(xùn)練性能
三、Ampere架構(gòu)的A100型GPU(Tensor Core 3.0)
英偉達(dá) A100 Tensor Core GPU 在各個(gè)規(guī)模上都能實(shí)現(xiàn)前所未有的加速,為AI、數(shù)據(jù)分析和高性能計(jì)算(HPC)應(yīng)用提供全球性能最強(qiáng)勁的彈性數(shù)據(jù)中心動(dòng)力支持。作為英偉達(dá)數(shù)據(jù)中心平臺(tái)的核心引擎,A100 比之前一代的架構(gòu) Volta性能提升了多達(dá) 20 倍。通過(guò)多實(shí)例(MIG,Multi-Instance GPU)技術(shù),A100 能夠高效地進(jìn)行擴(kuò)展或被劃分為七個(gè)獨(dú)立的 GPU 實(shí)例,為彈性數(shù)據(jù)中心提供一個(gè)統(tǒng)一的平臺(tái),使其能夠動(dòng)態(tài)適應(yīng)不斷變化的工作負(fù)載需求。
英偉達(dá) A100 Tensor Core 技術(shù)支持廣泛的數(shù)學(xué)精度,為每項(xiàng)工作負(fù)載提供一個(gè)單獨(dú)的加速器。最新一代的 A100 80GB 版本將 GPU 內(nèi)存翻倍,并推出了2TB/s 的全球最快內(nèi)存帶寬,從而加快了最大模型和最龐大數(shù)據(jù)集的解決方案時(shí)間。A100 是完整的英偉達(dá)數(shù)據(jù)中心解決方案的一部分,該解決方案涵蓋了硬件、網(wǎng)絡(luò)、軟件、庫(kù)以及來(lái)自 NVIDIA NGC 目錄的優(yōu)化的AI模型和應(yīng)用程序的構(gòu)建模塊。它代表著面向數(shù)據(jù)中心的最強(qiáng)大的端到端AI和HPC平臺(tái),使研究人員能夠交付真實(shí)世界的成果,并大規(guī)模地將解決方案部署到生產(chǎn)環(huán)境中。下表3-1給出了A100 80GB(包括PCIe和SXM4兩種形狀因子)的相關(guān)技術(shù)參數(shù);下表3-2描述了A100 GPU的幾點(diǎn)突破性創(chuàng)新;下圖3展示了A100 GPU跨工作負(fù)載的卓越性能。
表 3-1:A100 80GB GPU(包括PCIe和SXM4兩種形狀因子)的相關(guān)技術(shù)參數(shù)
表 3-2:相關(guān)A100 GPU的突破性創(chuàng)新描述
圖 3:A100 GPU跨工作負(fù)載的卓越性能展示
A100 Tensor Core GPU 是英偉達(dá)數(shù)據(jù)中心平臺(tái)的旗艦產(chǎn)品,專為深度學(xué)習(xí)、HPC和數(shù)據(jù)分析而設(shè)計(jì)。該平臺(tái)可加速超過(guò) 2000 個(gè)應(yīng)用程序,包括每一個(gè)主要的深度學(xué)習(xí)框架。A100 可以在從臺(tái)式機(jī)到服務(wù)器再到云服務(wù)等各種設(shè)備上使用,既帶來(lái)了顯著的性能提升,也提供了節(jié)省成本的機(jī)會(huì)。
四、Hopper架構(gòu)的H100和H200型GPU(Tensor Core 4.0)
1、H100 型Tensor Core GPU
H100 Tensor Core GPU 是英偉達(dá)的第9代數(shù)據(jù)中心用 GPU,旨在為大規(guī)模AI和HPC提供比上一代 A100 型GPU 高一個(gè)數(shù)量級(jí)的性能飛躍。H100 繼承了 A100 的主要設(shè)計(jì)重點(diǎn),以改善 AI 和 HPC 工作負(fù)載的強(qiáng)大擴(kuò)展,并顯著提高架構(gòu)效率。下表4-1給出了H100(包括NVL和SXM兩種形狀因子)的相關(guān)技術(shù)參數(shù);其它性能詳見(jiàn)下附件4。
表 4-1:H100( GPU包括NVL和SXM兩種形狀因子)的相關(guān)技術(shù)參數(shù)
附件 4:H100 型GPU更多性能介紹
欲具體了解H100 Tensor Core GPU詳解的請(qǐng)進(jìn)入。
2、H200 型Tensor Core GPU
H200 Tensor Core GPU同樣基于強(qiáng)大的Hopper 架構(gòu),針對(duì)更大的 AI 和 HPC 工作負(fù)載進(jìn)行了增強(qiáng)。下表4-2-1給出了H200(包括PCIe和SXM兩種形狀因子)的相關(guān)技術(shù)參數(shù),與H100相比,兩者最主要的差異表現(xiàn)在GPU內(nèi)存和GPU內(nèi)存帶寬兩個(gè)參數(shù)上。下表4-2-2展示了H200突出性能的表現(xiàn)。
表 4-2-1:H200 GPU(包括NVL和SXM兩種形狀因子)的相關(guān)技術(shù)參數(shù)
表 4-2-2:H200 GPU突出性能描述
五、Blackwell架構(gòu)的GPU(Tensor Core 5.0)
1、概述
2024年3月英偉達(dá)推出了新一代Blackwell架構(gòu)的GPU,該架構(gòu)以美國(guó)數(shù)學(xué)家和統(tǒng)計(jì)學(xué)家大衛(wèi)·布萊克威爾(David H. Blackwell)的名字來(lái)命名。Blackwell架構(gòu)的GPU引入了第5代Tensor Core(首次添加了對(duì)FP4浮點(diǎn)運(yùn)算精度的支持)、第2代Transformer引擎、第5代NVLink和 NVLink Switch等技術(shù),稱為是開(kāi)創(chuàng)了推動(dòng)生成式AI與加速計(jì)算的新時(shí)代(聲稱可以支持具有數(shù)萬(wàn)億參數(shù)的模型)。Blackwell 架構(gòu)GPU是全球最大的 GPU,專為處理數(shù)據(jù)中心規(guī)模的生成式AI工作流程而打造,其能耗效率比之前的Hopper 架構(gòu)GPU 產(chǎn)品系列高出多達(dá) 25 倍。Blackwell架構(gòu)的GPU包括新一代超級(jí)芯片 Grace Blackwell GB200 以及新一代高性能 HGX 系統(tǒng) HGX B200 和 HGX B100。下附件5是Blackwell架構(gòu)的詳細(xì)技術(shù)介紹。
附件 5:NVIDIA Blackwell架構(gòu)的詳細(xì)技術(shù)介紹
2、GB200 超級(jí)芯片
GB200 Grace Blackwell 超級(jí)芯片是由兩個(gè)高性能的 Blackwell Tensor Core GPU及一個(gè) Grace CPU 構(gòu)成,使用英偉達(dá)NVLink?-C2C 互連技術(shù),將這兩塊 GPU 提供了每秒 900 千兆字節(jié)(GB/s)的雙向帶寬,并使用NVIDIA 高帶寬接口(NV-HBI)進(jìn)行連接和統(tǒng)一,從而提供了一個(gè)完全協(xié)調(diào)一致、統(tǒng)一的 GPU。下表5-2給出了GB200 Grace Blackwell 超級(jí)芯片的技術(shù)參數(shù)。
表 5-2:GB200 Grace Blackwell 超級(jí)芯片的技術(shù)參數(shù)
3、GB200 NVL72集群
英偉達(dá) GB200 NVL72 集群采用機(jī)架級(jí)設(shè)計(jì),將 36 個(gè) GB200 超級(jí)芯片(36 個(gè) Grace CPU 和 72 個(gè) Blackwell GPU)連接在一起。GB200 Grace Blackwell 超級(jí)芯片是 NVIDIA GB200 NVL72 的關(guān)鍵組件。GB200 NVL72 是一款液冷式、機(jī)架級(jí)的 72-GPU NVLink 域,能夠作為一個(gè)巨大的 GPU 來(lái)使用,其實(shí)時(shí)萬(wàn)億參數(shù)大語(yǔ)言模型(LLM)推理速度比上一代(即HGX H100)快 30 倍。下表5-3給出了GB200 NVL72集群的系統(tǒng)技術(shù)參數(shù)。GB200 NVL72 引入了前沿技術(shù)和第二代 Transformer 引擎,從而支持 FP4 AI。這一進(jìn)步得益于新一代Tensor Core 5.0,它引入了新的微縮放格式,實(shí)現(xiàn)了高精度和更高的吞吐量。
表 5-3:GB200 NVL72集群的系統(tǒng)技術(shù)參數(shù)
4、HGX B200 和 HGX B100
英偉達(dá)的 Blackwell HGX B200 和 HGX B100 都具備同樣具有開(kāi)創(chuàng)性的革新成果,適用于生成式AI、數(shù)據(jù)分析以及HPC領(lǐng)域,并且將 HGX 擴(kuò)展至包含 Blackwell GPU 的產(chǎn)品系列中。下表5-4給出了HGX B200 和 HGX B100的系統(tǒng)技術(shù)參數(shù)。
表 5-4:HGX B200 和 HGX B100的系統(tǒng)技術(shù)參數(shù)
HGX B200:基于8核 Blackwell GPU 基板的 Blackwell x86 平臺(tái),提供 144 萬(wàn)億次浮點(diǎn)運(yùn)算AI性能。HGX B200 在 x86 擴(kuò)展平臺(tái)和基礎(chǔ)設(shè)施方面實(shí)現(xiàn)了最佳性能(比 HGX H100 高 15 倍)和總體擁有成本(比 HGX H100 高 12 倍)。每個(gè) GPU 都可配置為最高 1000 瓦特功耗。
HGX B100:基于8核 Blackwell GPU 基板的 Blackwell x86 平臺(tái),提供 112 萬(wàn)億次浮點(diǎn)運(yùn)算AI性能。HGX B100 是一款專為實(shí)現(xiàn)最快部署時(shí)間而設(shè)計(jì)的頂級(jí)加速型 x86 擴(kuò)展平臺(tái),與現(xiàn)有的 HGX H100 基礎(chǔ)設(shè)施兼容,可實(shí)現(xiàn)即插即用替換。每個(gè) GPU 的功耗最高可達(dá) 700 瓦。
欲進(jìn)一步了解人工智能(AI)系統(tǒng)介紹的請(qǐng)進(jìn)入。