●文章摘要:
人工智能(AI)、高性能計算(HPC)以及數據分析的復雜性呈指數級增長,這要求科學家和工程師使用最先進的計算平臺。NVIDIA Hopper GPU 架構能夠以低延遲提供最高性能計算,并集成了用于數據中心規模計算的全套功能。由 NVIDIA Hopper GPU 架構驅動的 NVIDIA? H100 Tensor Core GPU 為 NVIDIA 的數據中心平臺帶來了加速計算性能的新一次巨大飛躍。H100 以安全的方式加速從小型企業工作負載到百億億次高性能計算(exascale HPC)再到萬億參數人工智能模型等各種工作負載。H100采用臺積電專為英偉達定制的 4N 工藝制造,包含 800 億個晶體管,并且具備眾多架構上的革新,是迄今為止制造出來的最先進的芯片。該技術文檔摘編自英偉達(NVIDIA)相關技術人員對Hopper架構H100 GPU技術性能的詳解。
欲更多了解英偉達(NVIDIA)相關GPU技術介紹的請進入。
●關鍵詞:
NVIDIA; H100;Tensor Core;GPU;性能詳解
●作者簡介:
Michael Andersch Michael: NVIDIA 的首席 GPU 架構師和高級架構經理。
Greg Palmer Greg:NVIDIA GPU 架構小組的杰出工程師。
Ronny Krashinsky Ronny:NVIDIA 杰出工程師,從事 GPU 架構設計工作已有 十多年。
還有:Nick Stam Nick、Vishal Mehta Vishal、Gonzalo Brito Gonzalo和Sridhar Ramaswamy Sridhar等。
●文章來源:
摘自NVIDIA網站(2022年3月)
●文章目錄:
一、緒論
二、NVIDIA H100 GPU 主要功能概述
三、NVIDIA H 100 GPU 縱深架構
3.1 概述;3.2 GH 100 GPU;3.3 具有 PCIe Gen 5 板外形的 NVIDIA H100 GPU;3.4 制造工藝
四、H 100 SM 架構
4.1 概述;4.2 H 100 SM 主要功能摘要
五、H 100 Tensor Core 架構
六、NVIDIA Hopper FP8 數據格式
七、用于加速動態編程的新 DPX 指令
八、H100 計算性能摘要
九、H 100 GPU 層次結構和異步改進
9.1 線程塊集群;9.2 分布式共享內存;9.3 異步執行;9.4 Tensor 內存加速器;9.5 異步事務屏障
十、H100 HBM 和 L2 高速緩存架構
10.1 H100 HBM3 和 HBM2e DRAM 子系統;10.2 H100 L2 緩存
十一、其它
11.1 Transformer 引擎;11.2 第四代 NVLink 和 NVLink 網絡;11.3 第三代 NVSwitch;11.4 新的 NVLink 交換系統;11.5 第 5 代PCIe
●文章內容: