3倍安培性能！英伟达发布全新Hopper架构GPU

【天极网DIY硬件频道】时隔两年，NVIDIA终于在GTC 2022公布新一代“Hopper”架构。当然了，GTC大会上发布的产品主要面向HPC高性能计算、AI人工智能，对应核心编号为“GH100”;英伟达同时还发布了基于新核心的“H100”加速计算卡、AI计算系统“DGX H100”。至于面向消费市场的RTX 40系列显卡，就需要等第三季度的发布。

与传闻采用5nm工艺不同，GH100核心采用从台积电定制的4nm工艺，使用CoWoS 2.5D晶圆级封装，单芯片集成多达800亿个晶体管。虽然官方没有公布核心数，但相关的规格已经被挖掘出来。

完整版的GH100核心内建有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组流式多处理器单元，每组流式多处理器单元有128个FP32 CUDA核心，总计18432个。核心内置576个第四代Tensor Core张量核心，匹配60MB二级缓存。

显存方面，Hopper核心支持六颗HBM3或者HBM2e，一共提供12组512-bit位宽的显存控制器，最高6144-bit的总位宽。GH100核心采用五颗HBM3显存，带来5120-bit位宽和80GB容量，总带宽高达3TB/s。此外，核心升级到PCIe 5.0通道、第四代NVLink，第四代NVLink的带宽提升至900GB/s，是PCIe 5.0的7倍，比A100多一半，整卡对外总带宽4.9TB/s。

性能方面，GH100核心的FP64/FP32达到60TFlops(每秒60万亿次)，FP16为2000TFlops(每秒2000万亿次)，TF32为1000TFlops(每秒1000万亿次)，三倍于A100;4000TFlops(每秒4000万亿次)的FP8六倍于A100。

H100计算卡采用SXM、PCIe 5.0两种形态，后者功耗高达700W，比A100多了整整300W。虽然还是8组GPC，但NVIDIA开启其中的66组TPC(每组GPC屏蔽一组TPC)，合计132组纹理处理器集群，总计16896个CUDA核心、528个Tensor核心和50MB二级缓存。

与上代DGX A100相同，DGX H100系统同样集成八颗H100芯片，搭配两颗支持PCIe 5.0(可能为英特尔Sapphire Rapids四代可扩展至器)，总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。DGX H100系统配备Connect TX-7网络互连芯片，采用台积电7nm工艺，拥有800亿个晶体管、400G GPUDirect吞吐量、400G加密加速和4.05亿/秒信息率。

性能方面，H100计算卡的AI算力32PFlops(每秒3.2亿亿次)，480TFlops(每秒480万亿次)的FP64浮点算力、每秒1.6PFlops(每秒1.6千万亿次)的FP16算力、3.2PFlops(每秒3.2千亿次)的FP8算力，分别是上代DGX A100的3倍、3倍、6倍，而且新增支持网络内计算，性能3.6TFlops。

DGX H100是最小的计算单元，为了扩展提升单元间的通讯，NVIDIA全新设计了NVLink Swtich互连系统，最多可连接32个节点、256颗H100芯片，官方将其称为“DGX POD”。在这套系统内，还有20.5TB HBM3内存，总带宽768TB/s，AI性能高达颠覆性的1EFlops(100亿亿亿次每秒)，实现百亿亿次计算。