技術(shù)數(shù)據(jù)篇導(dǎo)引

相關(guān)英偉達(dá)（NVIDIA）的數(shù)據(jù)中心用GPU（Tensor Core）技術(shù)參數(shù)

瀏覽：844 來(lái)源：通信人在線日期：2025-03-19

英偉達(dá)（NVIDIA）數(shù)據(jù)中心用GPU是世界上采用最廣泛的加速計(jì)算解決方案，部署于較大超級(jí)計(jì)算中心和企業(yè)的數(shù)據(jù)中心。無(wú)論是希望解決深度學(xué)習(xí)（DL）和人工智能（AI）、高性能計(jì)算（HPC）、圖形方面的業(yè)務(wù)問(wèn)題，還是在數(shù)據(jù)中心或邊緣解決虛擬化問(wèn)題，NVIDIA GPU 都能提供理想的解決方案。尤其是現(xiàn)在可以使用數(shù)量更少、功能更強(qiáng)大的服務(wù)器實(shí)現(xiàn)突破性的性能，同時(shí)更快地獲得解決并降低成本。

一、概述

我們知道，英偉達(dá)（NVIDIA）的圖形處理器（GPU，Graphic Processing Unit）在迭代時(shí)，陸續(xù)采用了不同的架構(gòu)，在前期幾代架構(gòu)中的處理核心均采用的是CUDA（計(jì)算統(tǒng)一設(shè)備架構(gòu)）核心。從2017年發(fā)布的Volta（伏特）架構(gòu)時(shí)，其處理核心開(kāi)始采用了Tensor Core（稱為張量計(jì)算核心），在后續(xù)的歷代GPU架構(gòu)更新時(shí)均采用了Tensor Core，且為Tensor Core的升級(jí)版本。下表1示出了英偉達(dá)采用Tensor Core的GPU不同架構(gòu)情況，包括其關(guān)鍵特征和相應(yīng)產(chǎn)品型號(hào)等。

表 1：英偉達(dá)Tensor Core GPU的不同架構(gòu)情況

由表可知，2017 年英偉達(dá)GPU提出的 Volta 架構(gòu)，首次引入了Tensor Core ，用于執(zhí)行融合乘法加法（FMA）的方式來(lái)高效地處理計(jì)算任務(wù)，標(biāo)志著第1代 Tensor Core 核心的誕生。而后Tensor Core在英偉達(dá)GPU的后續(xù)Turing、Ampere、Hopper和Blackwell架構(gòu)中均有配備，其中Blackwell架構(gòu)中的Tensor Core已演進(jìn)為第5代Tensor Core。英偉達(dá) Tensor Core 技術(shù)助力人工智能（AI）實(shí)現(xiàn)了大幅加速，將訓(xùn)練時(shí)間從數(shù)周縮短到幾小時(shí)，顯著加快了推理速度。新的處理核心Tensor Core，可實(shí)現(xiàn)混合精度計(jì)算，并能根據(jù)精度的降低動(dòng)態(tài)調(diào)整算力，在保持準(zhǔn)確性的同時(shí)提高吞吐量；新一代 Tensor Core 擴(kuò)大了這種加速的應(yīng)用范圍，覆蓋到AI和高性能計(jì)算（HPC）領(lǐng)域的各種工作負(fù)載；Tensor Core 向所有工作負(fù)載提供了新功能，將一種革命性的新精度Tensor Float 32（TF32）下的 AI 訓(xùn)練速度加快 10 倍，并將 FP64 下的HPC速度加快 2.5 倍。相較于 CUDA Core，Tensor Core 能夠在每個(gè)時(shí)鐘周期內(nèi)執(zhí)行更多的運(yùn)算，特別是它可以高效地完成矩陣乘法和累加操作兩種操作，是深度學(xué)習(xí)（DL）中最頻繁和計(jì)算密集的任務(wù)之一。下述將對(duì)英偉達(dá)的采用Tensor Core核心算法的幾款GPU產(chǎn)品技術(shù)參數(shù)做一介紹，這些GPU產(chǎn)品主要部署用于數(shù)據(jù)中心場(chǎng)景。

二、Turing架構(gòu)的T4型GPU（Tensor Core 2.0）

英偉達(dá) T4 型企業(yè)級(jí) GPU 為全球最受信賴的主流服務(wù)器提供強(qiáng)大動(dòng)力，輕松融入標(biāo)準(zhǔn)數(shù)據(jù)中心架構(gòu)。其低矮的外形設(shè)計(jì)，僅需 70 W功耗，由 NVIDIA Turing架構(gòu)Tensor Core驅(qū)動(dòng)，為包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和虛擬桌面在內(nèi)的眾多現(xiàn)代應(yīng)用提供革命性的多精度性能加速。這款先進(jìn)的 GPU 采用節(jié)能的 70 瓦、小型 PCle 外形規(guī)格封裝（下圖2-1），專為企業(yè)數(shù)據(jù)中心和云環(huán)境實(shí)現(xiàn)最大效用而優(yōu)化。下表2-1給出了T4型 GPU的相關(guān)技術(shù)參數(shù)；下表2-2給出了T4對(duì)于驅(qū)動(dòng)數(shù)據(jù)中心加速的技術(shù)說(shuō)明；下圖2-2展示了T4與CPU相比的接口性能和訓(xùn)練性能。

圖 2-1：T4 GPU的外形圖

表 2-1：T4 GPU的相關(guān)技術(shù)參數(shù)

表 2-2：T4 GPU對(duì)于驅(qū)動(dòng)數(shù)據(jù)中心加速的說(shuō)明

圖 2-2：T4 GPU與CPU相比的接口性能和訓(xùn)練性能

三、Ampere架構(gòu)的A100型GPU（Tensor Core 3.0）

英偉達(dá) A100 Tensor Core GPU 在各個(gè)規(guī)模上都能實(shí)現(xiàn)前所未有的加速，為AI、數(shù)據(jù)分析和高性能計(jì)算（HPC）應(yīng)用提供全球性能最強(qiáng)勁的彈性數(shù)據(jù)中心動(dòng)力支持。作為英偉達(dá)數(shù)據(jù)中心平臺(tái)的核心引擎，A100 比之前一代的架構(gòu) Volta性能提升了多達(dá) 20 倍。通過(guò)多實(shí)例（MIG，Multi-Instance GPU）技術(shù)，A100 能夠高效地進(jìn)行擴(kuò)展或被劃分為七個(gè)獨(dú)立的 GPU 實(shí)例，為彈性數(shù)據(jù)中心提供一個(gè)統(tǒng)一的平臺(tái)，使其能夠動(dòng)態(tài)適應(yīng)不斷變化的工作負(fù)載需求。

英偉達(dá) A100 Tensor Core 技術(shù)支持廣泛的數(shù)學(xué)精度，為每項(xiàng)工作負(fù)載提供一個(gè)單獨(dú)的加速器。最新一代的 A100 80GB 版本將 GPU 內(nèi)存翻倍，并推出了2TB/s 的全球最快內(nèi)存帶寬，從而加快了最大模型和最龐大數(shù)據(jù)集的解決方案時(shí)間。A100 是完整的英偉達(dá)數(shù)據(jù)中心解決方案的一部分，該解決方案涵蓋了硬件、網(wǎng)絡(luò)、軟件、庫(kù)以及來(lái)自 NVIDIA NGC 目錄的優(yōu)化的AI模型和應(yīng)用程序的構(gòu)建模塊。它代表著面向數(shù)據(jù)中心的最強(qiáng)大的端到端AI和HPC平臺(tái)，使研究人員能夠交付真實(shí)世界的成果，并大規(guī)模地將解決方案部署到生產(chǎn)環(huán)境中。下表3-1給出了A100 80GB（包括PCIe和SXM4兩種形狀因子）的相關(guān)技術(shù)參數(shù)；下表3-2描述了A100 GPU的幾點(diǎn)突破性創(chuàng)新；下圖3展示了A100 GPU跨工作負(fù)載的卓越性能。

表 3-1：A100 80GB GPU（包括PCIe和SXM4兩種形狀因子）的相關(guān)技術(shù)參數(shù)

表 3-2：相關(guān)A100 GPU的突破性創(chuàng)新描述

圖 3：A100 GPU跨工作負(fù)載的卓越性能展示

A100 Tensor Core GPU 是英偉達(dá)數(shù)據(jù)中心平臺(tái)的旗艦產(chǎn)品，專為深度學(xué)習(xí)、HPC和數(shù)據(jù)分析而設(shè)計(jì)。該平臺(tái)可加速超過(guò) 2000 個(gè)應(yīng)用程序，包括每一個(gè)主要的深度學(xué)習(xí)框架。A100 可以在從臺(tái)式機(jī)到服務(wù)器再到云服務(wù)等各種設(shè)備上使用，既帶來(lái)了顯著的性能提升，也提供了節(jié)省成本的機(jī)會(huì)。

四、Hopper架構(gòu)的H100和H200型GPU（Tensor Core 4.0）

1、H100 型Tensor Core GPU

H100 Tensor Core GPU 是英偉達(dá)的第9代數(shù)據(jù)中心用 GPU，旨在為大規(guī)模AI和HPC提供比上一代 A100 型GPU 高一個(gè)數(shù)量級(jí)的性能飛躍。H100 繼承了 A100 的主要設(shè)計(jì)重點(diǎn)，以改善 AI 和 HPC 工作負(fù)載的強(qiáng)大擴(kuò)展，并顯著提高架構(gòu)效率。下表4-1給出了H100（包括NVL和SXM兩種形狀因子）的相關(guān)技術(shù)參數(shù)；其它性能詳見(jiàn)下附件4。

表 4-1：H100（ GPU包括NVL和SXM兩種形狀因子）的相關(guān)技術(shù)參數(shù)

附件 4：H100 型GPU更多性能介紹

欲具體了解H100 Tensor Core GPU詳解的請(qǐng)進(jìn)入。

2、H200 型Tensor Core GPU

H200 Tensor Core GPU同樣基于強(qiáng)大的Hopper 架構(gòu)，針對(duì)更大的 AI 和 HPC 工作負(fù)載進(jìn)行了增強(qiáng)。下表4-2-1給出了H200（包括PCIe和SXM兩種形狀因子）的相關(guān)技術(shù)參數(shù)，與H100相比，兩者最主要的差異表現(xiàn)在GPU內(nèi)存和GPU內(nèi)存帶寬兩個(gè)參數(shù)上。下表4-2-2展示了H200突出性能的表現(xiàn)。

表 4-2-1：H200 GPU（包括NVL和SXM兩種形狀因子）的相關(guān)技術(shù)參數(shù)

表 4-2-2：H200 GPU突出性能描述

五、Blackwell架構(gòu)的GPU（Tensor Core 5.0）

1、概述

2024年3月英偉達(dá)推出了新一代Blackwell架構(gòu)的GPU，該架構(gòu)以美國(guó)數(shù)學(xué)家和統(tǒng)計(jì)學(xué)家大衛(wèi)·布萊克威爾（David H. Blackwell）的名字來(lái)命名。Blackwell架構(gòu)的GPU引入了第5代Tensor Core（首次添加了對(duì)FP4浮點(diǎn)運(yùn)算精度的支持）、第2代Transformer引擎、第5代NVLink和 NVLink Switch等技術(shù)，稱為是開(kāi)創(chuàng)了推動(dòng)生成式AI與加速計(jì)算的新時(shí)代（聲稱可以支持具有數(shù)萬(wàn)億參數(shù)的模型）。Blackwell 架構(gòu)GPU是全球最大的 GPU，專為處理數(shù)據(jù)中心規(guī)模的生成式AI工作流程而打造，其能耗效率比之前的Hopper 架構(gòu)GPU 產(chǎn)品系列高出多達(dá) 25 倍。Blackwell架構(gòu)的GPU包括新一代超級(jí)芯片 Grace Blackwell GB200 以及新一代高性能 HGX 系統(tǒng) HGX B200 和 HGX B100。下附件5是Blackwell架構(gòu)的詳細(xì)技術(shù)介紹。

附件 5：NVIDIA Blackwell架構(gòu)的詳細(xì)技術(shù)介紹

2、GB200 超級(jí)芯片

GB200 Grace Blackwell 超級(jí)芯片是由兩個(gè)高性能的 Blackwell Tensor Core GPU及一個(gè) Grace CPU 構(gòu)成，使用英偉達(dá)NVLink?-C2C 互連技術(shù)，將這兩塊 GPU 提供了每秒 900 千兆字節(jié)（GB/s）的雙向帶寬，并使用NVIDIA 高帶寬接口（NV-HBI）進(jìn)行連接和統(tǒng)一，從而提供了一個(gè)完全協(xié)調(diào)一致、統(tǒng)一的 GPU。下表5-2給出了GB200 Grace Blackwell 超級(jí)芯片的技術(shù)參數(shù)。

表 5-2：GB200 Grace Blackwell 超級(jí)芯片的技術(shù)參數(shù)

3、GB200 NVL72集群

英偉達(dá) GB200 NVL72 集群采用機(jī)架級(jí)設(shè)計(jì)，將 36 個(gè) GB200 超級(jí)芯片（36 個(gè) Grace CPU 和 72 個(gè) Blackwell GPU）連接在一起。GB200 Grace Blackwell 超級(jí)芯片是 NVIDIA GB200 NVL72 的關(guān)鍵組件。GB200 NVL72 是一款液冷式、機(jī)架級(jí)的 72-GPU NVLink 域，能夠作為一個(gè)巨大的 GPU 來(lái)使用，其實(shí)時(shí)萬(wàn)億參數(shù)大語(yǔ)言模型（LLM）推理速度比上一代（即HGX H100）快 30 倍。下表5-3給出了GB200 NVL72集群的系統(tǒng)技術(shù)參數(shù)。GB200 NVL72 引入了前沿技術(shù)和第二代 Transformer 引擎，從而支持 FP4 AI。這一進(jìn)步得益于新一代Tensor Core 5.0，它引入了新的微縮放格式，實(shí)現(xiàn)了高精度和更高的吞吐量。

表 5-3：GB200 NVL72集群的系統(tǒng)技術(shù)參數(shù)

4、HGX B200 和 HGX B100

英偉達(dá)的 Blackwell HGX B200 和 HGX B100 都具備同樣具有開(kāi)創(chuàng)性的革新成果，適用于生成式AI、數(shù)據(jù)分析以及HPC領(lǐng)域，并且將 HGX 擴(kuò)展至包含 Blackwell GPU 的產(chǎn)品系列中。下表5-4給出了HGX B200 和 HGX B100的系統(tǒng)技術(shù)參數(shù)。

表 5-4：HGX B200 和 HGX B100的系統(tǒng)技術(shù)參數(shù)

HGX B200：基于8核 Blackwell GPU 基板的 Blackwell x86 平臺(tái)，提供 144 萬(wàn)億次浮點(diǎn)運(yùn)算AI性能。HGX B200 在 x86 擴(kuò)展平臺(tái)和基礎(chǔ)設(shè)施方面實(shí)現(xiàn)了最佳性能（比 HGX H100 高 15 倍）和總體擁有成本（比 HGX H100 高 12 倍）。每個(gè) GPU 都可配置為最高 1000 瓦特功耗。

HGX B100：基于8核 Blackwell GPU 基板的 Blackwell x86 平臺(tái)，提供 112 萬(wàn)億次浮點(diǎn)運(yùn)算AI性能。HGX B100 是一款專為實(shí)現(xiàn)最快部署時(shí)間而設(shè)計(jì)的頂級(jí)加速型 x86 擴(kuò)展平臺(tái)，與現(xiàn)有的 HGX H100 基礎(chǔ)設(shè)施兼容，可實(shí)現(xiàn)即插即用替換。每個(gè) GPU 的功耗最高可達(dá) 700 瓦。

欲進(jìn)一步了解人工智能（AI）系統(tǒng)介紹的請(qǐng)進(jìn)入。

附錄

本文的所有附表與附圖2025-03-03

附件

NVIDIA H100 型GPU技術(shù)性能介紹

1.81MB

NVIDIA Blackwell架構(gòu)的技術(shù)性能介紹

1.77MB

通信系统-通信人在线

相關(guān)英偉達(dá)（NVIDIA）的數(shù)據(jù)中心用GPU（Tensor Core）技術(shù)參數(shù)