3倍安培性能!英伟达发布全新Hopper架构GPU
- +1 你赞过了
【天极网DIY硬件频道】时隔两年,NVIDIA终于在GTC 2022公布新一代“Hopper”架构。当然了,GTC大会上发布的产品主要面向HPC高性能计算、AI人工智能,对应核心编号为“GH100”;英伟达同时还发布了基于新核心的“H100”加速计算卡、AI计算系统“DGX H100”。至于面向消费市场的RTX 40系列显卡,就需要等第三季度的发布。
与传闻采用5nm工艺不同,GH100核心采用从台积电定制的4nm工艺,使用CoWoS 2.5D晶圆级封装,单芯片集成多达800亿个晶体管。虽然官方没有公布核心数,但相关的规格已经被挖掘出来。
完整版的GH100核心内建有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组流式多处理器单元,每组流式多处理器单元有128个FP32 CUDA核心,总计18432个。核心内置576个第四代Tensor Core张量核心,匹配60MB二级缓存。
显存方面,Hopper核心支持六颗HBM3或者HBM2e,一共提供12组512-bit位宽的显存控制器,最高6144-bit的总位宽。GH100核心采用五颗HBM3显存,带来5120-bit位宽和80GB容量,总带宽高达3TB/s。此外,核心升级到PCIe 5.0通道、第四代NVLink,第四代NVLink的带宽提升至900GB/s,是PCIe 5.0的7倍,比A100多一半,整卡对外总带宽4.9TB/s。
性能方面,GH100核心的FP64/FP32达到60TFlops(每秒60万亿次),FP16为2000TFlops(每秒2000万亿次),TF32为1000TFlops(每秒1000万亿次),三倍于A100;4000TFlops(每秒4000万亿次)的FP8六倍于A100。
H100计算卡采用SXM、PCIe 5.0两种形态,后者功耗高达700W,比A100多了整整300W。虽然还是8组GPC,但NVIDIA开启其中的66组TPC(每组GPC屏蔽一组TPC),合计132组纹理处理器集群,总计16896个CUDA核心、528个Tensor核心和50MB二级缓存。
与上代DGX A100相同,DGX H100系统同样集成八颗H100芯片,搭配两颗支持PCIe 5.0(可能为英特尔Sapphire Rapids四代可扩展至器),总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。DGX H100系统配备Connect TX-7网络互连芯片,采用台积电7nm工艺,拥有800亿个晶体管、400G GPUDirect吞吐量、400G加密加速和4.05亿/秒信息率。
性能方面,H100计算卡的AI算力32PFlops(每秒3.2亿亿次),480TFlops(每秒480万亿次)的FP64浮点算力、每秒1.6PFlops(每秒1.6千万亿次)的FP16算力、3.2PFlops(每秒3.2千亿次)的FP8算力,分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。
DGX H100是最小的计算单元,为了扩展提升单元间的通讯,NVIDIA全新设计了NVLink Swtich互连系统,最多可连接32个节点、256颗H100芯片,官方将其称为“DGX POD”。在这套系统内,还有20.5TB HBM3内存,总带宽768TB/s,AI性能高达颠覆性的1EFlops(100亿亿亿次每秒),实现百亿亿次计算。
编辑点评:在时隔两年之后,NVIDIA终于推出全新一代的Hopper架构核心,首先自然是应用于HPC高性能计算、加速计算卡等专业领域。从官方公布的性能来看,Hopper架构的性能较Ampere有大幅提升,也让GeForce显卡更值得期待。
按照往年的节奏,NVIDIA将会在第三季度推出面向游戏玩家的GeForce显卡,普遍认为将命名为RTX 40系列,采用Hopper架构,GDDR6或GDDR7显存。对于普通玩家来说,没有经过“挖矿”锻炼的显卡,可能会减少不必要的风险,这也是为什么游戏玩家更关注RTX 40系列的原因。
最新资讯
热门视频
新品评测