英偉達(NVIDIA)數據中心用GPU是世界上采用最廣泛的加速計算解決方案,部署于較大超級計算中心和企業(yè)的數據中心。無論是希望解決深度學習(DL)和 人工智能(AI)、高性能計算(HPC)、圖形方面的業(yè)務問題,還是在數據中心或邊緣解決虛擬化問題,NVIDIA GPU 都能提供理想的解決方案。尤其是現在可以使用數量更少、功能更強大的服務器實現突破性的性能,同時更快地獲得解決并降低成本。
一、概述
我們知道,英偉達(NVIDIA)的圖形處理器(GPU,Graphic Processing Unit)在迭代時,陸續(xù)采用了不同的架構,在前期幾代架構中的處理核心均采用的是CUDA(計算統(tǒng)一設備架構)核心。從2017年發(fā)布的Volta(伏特)架構時,其處理核心開始采用了Tensor Core(稱為張量計算核心),在后續(xù)的歷代GPU架構更新時均采用了Tensor Core,且為Tensor Core的升級版本。下表1示出了英偉達采用Tensor Core的GPU不同架構情況,包括其關鍵特征和相應產品型號等。
表 1:英偉達Tensor Core GPU的不同架構情況
由表可知,2017 年英偉達GPU提出的 Volta 架構,首次引入了Tensor Core ,用于執(zhí)行融合乘法加法(FMA)的方式來高效地處理計算任務,標志著第1代 Tensor Core 核心的誕生。而后Tensor Core在英偉達GPU的后續(xù)Turing、Ampere、Hopper和Blackwell架構中均有配備,其中Blackwell架構中的Tensor Core已演進為第5代Tensor Core。英偉達 Tensor Core 技術助力人工智能(AI)實現了大幅加速,將訓練時間從數周縮短到幾小時,顯著加快了推理速度。新的處理核心Tensor Core,可實現混合精度計算,并能根據精度的降低動態(tài)調整算力,在保持準確性的同時提高吞吐量;新一代 Tensor Core 擴大了這種加速的應用范圍,覆蓋到AI和高性能計算(HPC)領域的各種工作負載;Tensor Core 向所有工作負載提供了新功能,將一種革命性的新精度Tensor Float 32(TF32)下的 AI 訓練速度加快 10 倍,并將 FP64 下的HPC速度加快 2.5 倍。相較于 CUDA Core,Tensor Core 能夠在每個時鐘周期內執(zhí)行更多的運算,特別是它可以高效地完成矩陣乘法和累加操作兩種操作,是深度學習(DL)中最頻繁和計算密集的任務之一。下述將對英偉達的采用Tensor Core核心算法的幾款GPU產品技術參數做一介紹,這些GPU產品主要部署用于數據中心場景。
二、Turing架構的T4型GPU(Tensor Core 2.0)
英偉達 T4 型企業(yè)級 GPU 為全球最受信賴的主流服務器提供強大動力,輕松融入標準數據中心架構。其低矮的外形設計,僅需 70 W功耗,由 NVIDIA Turing架構Tensor Core驅動,為包括機器學習、深度學習和虛擬桌面在內的眾多現代應用提供革命性的多精度性能加速。這款先進的 GPU 采用節(jié)能的 70 瓦、小型 PCle 外形規(guī)格封裝(下圖2-1),專為企業(yè)數據中心和云環(huán)境實現最大效用而優(yōu)化。下表2-1給出了T4型 GPU的相關技術參數;下表2-2給出了T4對于驅動數據中心加速的技術說明;下圖2-2展示了T4與CPU相比的接口性能和訓練性能。
圖 2-1:T4 GPU的外形圖
表 2-1:T4 GPU的相關技術參數
表 2-2:T4 GPU對于驅動數據中心加速的說明
圖 2-2:T4 GPU與CPU相比的接口性能和訓練性能
三、Ampere架構的A100型GPU(Tensor Core 3.0)
英偉達 A100 Tensor Core GPU 在各個規(guī)模上都能實現前所未有的加速,為AI、數據分析和高性能計算(HPC)應用提供全球性能最強勁的彈性數據中心動力支持。作為英偉達數據中心平臺的核心引擎,A100 比之前一代的架構 Volta性能提升了多達 20 倍。通過多實例(MIG,Multi-Instance GPU)技術,A100 能夠高效地進行擴展或被劃分為七個獨立的 GPU 實例,為彈性數據中心提供一個統(tǒng)一的平臺,使其能夠動態(tài)適應不斷變化的工作負載需求。
英偉達 A100 Tensor Core 技術支持廣泛的數學精度,為每項工作負載提供一個單獨的加速器。最新一代的 A100 80GB 版本將 GPU 內存翻倍,并推出了2TB/s 的全球最快內存帶寬,從而加快了最大模型和最龐大數據集的解決方案時間。A100 是完整的英偉達數據中心解決方案的一部分,該解決方案涵蓋了硬件、網絡、軟件、庫以及來自 NVIDIA NGC 目錄的優(yōu)化的AI模型和應用程序的構建模塊。它代表著面向數據中心的最強大的端到端AI和HPC平臺,使研究人員能夠交付真實世界的成果,并大規(guī)模地將解決方案部署到生產環(huán)境中。下表3-1給出了A100 80GB(包括PCIe和SXM4兩種形狀因子)的相關技術參數;下表3-2描述了A100 GPU的幾點突破性創(chuàng)新;下圖3展示了A100 GPU跨工作負載的卓越性能。
表 3-1:A100 80GB GPU(包括PCIe和SXM4兩種形狀因子)的相關技術參數
表 3-2:相關A100 GPU的突破性創(chuàng)新描述
圖 3:A100 GPU跨工作負載的卓越性能展示
A100 Tensor Core GPU 是英偉達數據中心平臺的旗艦產品,專為深度學習、HPC和數據分析而設計。該平臺可加速超過 2000 個應用程序,包括每一個主要的深度學習框架。A100 可以在從臺式機到服務器再到云服務等各種設備上使用,既帶來了顯著的性能提升,也提供了節(jié)省成本的機會。
四、Hopper架構的H100和H200型GPU(Tensor Core 4.0)
1、H100 型Tensor Core GPU
H100 Tensor Core GPU 是英偉達的第9代數據中心用 GPU,旨在為大規(guī)模AI和HPC提供比上一代 A100 型GPU 高一個數量級的性能飛躍。H100 繼承了 A100 的主要設計重點,以改善 AI 和 HPC 工作負載的強大擴展,并顯著提高架構效率。下表4-1給出了H100(包括NVL和SXM兩種形狀因子)的相關技術參數;其它性能詳見下附件4。
表 4-1:H100( GPU包括NVL和SXM兩種形狀因子)的相關技術參數
附件 4:H100 型GPU更多性能介紹
欲具體了解H100 Tensor Core GPU詳解的請進入。
2、H200 型Tensor Core GPU
H200 Tensor Core GPU同樣基于強大的Hopper 架構,針對更大的 AI 和 HPC 工作負載進行了增強。下表4-2-1給出了H200(包括PCIe和SXM兩種形狀因子)的相關技術參數,與H100相比,兩者最主要的差異表現在GPU內存和GPU內存帶寬兩個參數上。下表4-2-2展示了H200突出性能的表現。
表 4-2-1:H200 GPU(包括NVL和SXM兩種形狀因子)的相關技術參數
表 4-2-2:H200 GPU突出性能描述
五、Blackwell架構的GPU(Tensor Core 5.0)
1、概述
2024年3月英偉達推出了新一代Blackwell架構的GPU,該架構以美國數學家和統(tǒng)計學家大衛(wèi)·布萊克威爾(David H. Blackwell)的名字來命名。Blackwell架構的GPU引入了第5代Tensor Core(首次添加了對FP4浮點運算精度的支持)、第2代Transformer引擎、第5代NVLink和 NVLink Switch等技術,稱為是開創(chuàng)了推動生成式AI與加速計算的新時代(聲稱可以支持具有數萬億參數的模型)。Blackwell 架構GPU是全球最大的 GPU,專為處理數據中心規(guī)模的生成式AI工作流程而打造,其能耗效率比之前的Hopper 架構GPU 產品系列高出多達 25 倍。Blackwell架構的GPU包括新一代超級芯片 Grace Blackwell GB200 以及新一代高性能 HGX 系統(tǒng) HGX B200 和 HGX B100。下附件5是Blackwell架構的詳細技術介紹。
附件 5:NVIDIA Blackwell架構的詳細技術介紹
2、GB200 超級芯片
GB200 Grace Blackwell 超級芯片是由兩個高性能的 Blackwell Tensor Core GPU及一個 Grace CPU 構成,使用英偉達NVLink?-C2C 互連技術,將這兩塊 GPU 提供了每秒 900 千兆字節(jié)(GB/s)的雙向帶寬,并使用NVIDIA 高帶寬接口(NV-HBI)進行連接和統(tǒng)一,從而提供了一個完全協(xié)調一致、統(tǒng)一的 GPU。下表5-2給出了GB200 Grace Blackwell 超級芯片的技術參數。
表 5-2:GB200 Grace Blackwell 超級芯片的技術參數
3、GB200 NVL72集群
英偉達 GB200 NVL72 集群采用機架級設計,將 36 個 GB200 超級芯片(36 個 Grace CPU 和 72 個 Blackwell GPU)連接在一起。GB200 Grace Blackwell 超級芯片是 NVIDIA GB200 NVL72 的關鍵組件。GB200 NVL72 是一款液冷式、機架級的 72-GPU NVLink 域,能夠作為一個巨大的 GPU 來使用,其實時萬億參數大語言模型(LLM)推理速度比上一代(即HGX H100)快 30 倍。下表5-3給出了GB200 NVL72集群的系統(tǒng)技術參數。GB200 NVL72 引入了前沿技術和第二代 Transformer 引擎,從而支持 FP4 AI。這一進步得益于新一代Tensor Core 5.0,它引入了新的微縮放格式,實現了高精度和更高的吞吐量。
表 5-3:GB200 NVL72集群的系統(tǒng)技術參數
4、HGX B200 和 HGX B100
英偉達的 Blackwell HGX B200 和 HGX B100 都具備同樣具有開創(chuàng)性的革新成果,適用于生成式AI、數據分析以及HPC領域,并且將 HGX 擴展至包含 Blackwell GPU 的產品系列中。下表5-4給出了HGX B200 和 HGX B100的系統(tǒng)技術參數。
表 5-4:HGX B200 和 HGX B100的系統(tǒng)技術參數
HGX B200:基于8核 Blackwell GPU 基板的 Blackwell x86 平臺,提供 144 萬億次浮點運算AI性能。HGX B200 在 x86 擴展平臺和基礎設施方面實現了最佳性能(比 HGX H100 高 15 倍)和總體擁有成本(比 HGX H100 高 12 倍)。每個 GPU 都可配置為最高 1000 瓦特功耗。
HGX B100:基于8核 Blackwell GPU 基板的 Blackwell x86 平臺,提供 112 萬億次浮點運算AI性能。HGX B100 是一款專為實現最快部署時間而設計的頂級加速型 x86 擴展平臺,與現有的 HGX H100 基礎設施兼容,可實現即插即用替換。每個 GPU 的功耗最高可達 700 瓦。
欲進一步了解人工智能(AI)系統(tǒng)介紹的請進入。
1.81MB