英特尔Ponte Vecchio性能:最高为A100两倍
- +1 你赞过了
【天极网DIY硬件频道】在HotChips 34大会前夕,英特尔公布了未来几代处理器的微架构细节。作为英特尔芯片业务的另一核心,英特尔同样在HotChips上公布更多面向专业领域的Ponte Vecchio GPU细节,并详细介绍Sapphire Rapids HBM处理器和Ponte Vecchio(2-Stack)GPU平台的潜力。
英特尔首席GPU计算架构师Hong Jiang在演讲中指出,Ponte Vecchio具有三种配置,分别是Ponte Vecchio OAM、Xe Links的x4子系统和部署在Sapphire Rapids双路服务器平台。
Ponte Vecchio OAM支持4GPU和8GPU平台的all-to-all拓扑,配合英特尔零级(Level Zero)API,可为跨架构编程支持提供低层级的硬件接口。oneAPI能够提供面向其它工具和加速器设备的接口;支持精细的增益控制、以及低延迟的加速器特性;具有多线程设计;将GPU作为驱动程序的一部分而提供。
性能指标方面,2-Stack Ponte Vecchio GPU配置可提供52TFLOP的FP64/FP32算力,另有419TFLOP的TF32(XMX Float 32)、839TFLOP的BF16/FP16以及1678TFLOPs的INT8算力。
英特尔还详细说明Ponte Vecchio缓存设计,GPU上的寄存器64MB,提供419TB/s的带宽;L1缓存64MB,带宽达105TB/s;L2缓存408MB,带宽13TB/s;HBM内存池高达128GB,带宽也高达4.2 TB/s。需要注意的是,Ponte Vecchio支持L1和(或)L2缓存的软件预取;支持到L2获取指令和数据的Command Streamer预取。
英特尔表示,更大的L2缓存可为2D-FFT和DNN等工作负载带来巨大的效益,并且分享完整Ponte Vecchio GPU和80/32MB模块间的一些性能比较。
性能对比上,英特尔Ponte Vecchio与英伟达Ampere A100进行比较。在miniBUDE(一种可预测配体与目标结合能的计算工作负载)中,Ponte Vecchio GPU模拟测试结果的速度是Ampere A100的2倍。在ExaSMR核反应堆设计仿真设计中,英特尔Ponte Vecchio GPU也以1.5倍领先于英伟达竞品方案。只是英特尔对比的是两年前发布的产品,英特尔并没有直接对比已经上市的Hopper H100,所以英特尔的性能领先有些胜之不武。
英特尔还介绍了Ponte Vecchio旗舰数据中心GPU的部分关键特性,例如128个Xe内核、128个光追(RT)单元、HBM2e显存以及连接到一起的8个Xe-HPC GPU。芯片在两个独立的堆栈中提供高达408MB的L2缓存,两个独立的堆栈通过EMIB互连,各部分芯片混用Intel7和台积电N7/N5等多个工艺节点。由两块(2Tiles)组成的每个堆栈有16裸片,最大的active die尺寸为41 m㎡、Compute Tile则是650m㎡。
英特尔Ponte Vecchio芯片由47块(Tiles)组成,分别是16个Xe HPC(内/外部)、8个Rambo Cache(内部)、2个Xe Base(内部)、11个EMIB(内部)、2个Xe Link(外部)、8个HBM(外部)组成,由11个EMIB进行互连,完整封装尺寸为4843.75m㎡。
编辑点评:虽然Ponte Vecchio GPU并非针对消费市场的产品,但通过这款芯片也能明确看到英特尔小芯片战略。虽然今年的消费级产品不会采用相关的技术,但14代酷睿、下代游戏GPU或将使用Foveros 3D、EMIB封装技术,将各种工艺、不同功能的Chip封装起来,实现性能最大化和成本。
虽然英特尔Ponte Vecchio跳票多次,但他们还是透露下一代Rialto Bridge GPU,将作为Ponte Vecchio GPU的继任者,最快有望于2023年开始提供样品,只是笔者更关心下一代桌面级GPU什么时候到来。
最新资讯
热门视频
新品评测