800亿晶体管，20块GPU 今年GTC大会上黄仁勋继续大秀“AI肌肉”

时间：2022-03-23来源：佚名

今天凌晨，英伟达CEO黄仁勋带来了名为"I AM AI"的线上主题演讲，正式宣布推出采用 NVIDIA Hopper 架构的新一代加速计算平台，同时发布其首款基于 Hopper 架构的 GPU — NVIDIA H100。

即使告别了我们熟悉的厨房，但黄仁勋照样给我们端上多道"硬核大菜"。先是搭载全新Hopper架构的H100 GPU，接着是Grace超级芯片，然后依次谈到了机器人、自动汽车以及其他软件更新。

总得来看，英伟达再度将GPU的算力推向了极致，借此加强自身在AI、汽车等领域的实力。同时，英伟达已经为下一波AI浪潮以及无限幻想的元宇宙做好了准备。

800亿晶体管的"算力怪兽"

作为AI算力的保障，以及英伟达的"老本行"，全新GPU自然是GTC 2022最值得关注的新品。

首先带来的新品是H100 GPU，该芯片由800亿个晶体管构建而成，采用了专为英伟达加速计算需求而优化的TSMC 4N工艺，单个H100最大支持40TB/s的IO带宽。

用黄仁勋的话来说：20块H100 GPU就可承托全球互联网的流量。这足以看出这块芯片的恐怖算力。

H100同时还集多个首个于一身，包括首款支持PCIe 5.0的GPU，首款采用HBM3标准的GPU，以及全球首款具有机密计算功能的GPU。

相比于上一代Ampere架构的A100，H100带来了6项突破性的创新：

1、目前世界最先进的芯片。 2、搭载最新Transformer引擎，速度提升至上一代的6倍。 3、第二代安全多实例，可以同时处理不同类型的任务。 4、具备机密计算功能，此前隐私计算只能在CPU上实现，但H100成为第一个实现该功能的GPU，可以保护AI模型和正在处理的客户数据。 5、支持第4代NVlink，每个NVlink Switch网络最多可以连接多达256个H100，相较于上一代产品，带宽高出9倍。 6、Hooper架构引入了名为DPX的新指令集，可加速动态规划，算法速度有了显著提升。

在H100的帮助下，研究人员和开发者可以训练庞大的模型。比如包含3950亿个参数的混合专家模型，训练速度加速高达9倍，训练时间从几周缩短到几天。

值得一提的是，黄仁勋并没有过多介绍Hopper架构。该架构以美国计算机领域的先驱科学家Grace Hopper 的名字命名，被单独用作计算加速使用，而未来推出的RTX 40系列显卡使用的GPU将基于Ada Lovelace架构。

虽然此次公布的H100与此前的爆料略有缩水，但不妨碍其成为超算界最强引擎，这也称得上英伟达进一步扩大在AI计算领域领导力的体现。

世界上最快的AI 超级计算机

借助DFX POD架构与NVlink连接，8块H100构成了一个巨型AI系统——NVIDIA DGX H100。该系统可以满足大型语言模型、推荐系统、医疗健康研究和气候科学的大规模计算需求。

你以为这个系统已经很强大了？

基于DGX H100，英伟达推出全球运行速度最快的AI超级计算机——NVIDIA EOS。该超级电脑共配备576台DGX H100系统，共计4608块DGX H100 GPU，显存带宽高达768TB/s，有望成为全球运行速度最快的 AI 系统。而整个互联网不过只有100TB/s。

据悉，NVIDIA EOS预计将提供18.4 Exaflops的AI计算性能，这比目前运行速度最快的日本Fugaku超级计算机还快4倍。

为了将数量庞大的H100连接起来，英伟达还推出了NVlink Switch网络系统和更强的DFX superPOD架构，这样就可以连接32个结点、256个H100 GPU。你可以想象成一个"加强版"的DGX H100系统。

800亿晶体管，20块GPU 今年GTC大会上黄仁勋继续大秀“AI肌肉”

黄仁勋说："对于英伟达的OEM和云计算合作伙伴来说，EOS将成为先进AI基础设施的蓝图。"

未来，该系统可以为汽车、医疗健康、制造、通信、零售等行业提供开发大型模型所需的AI性能。

最强大的AI专属CPU

在去年GTC大会上，英伟达透露了首款数据中心专属CPU Grace，而在今年，这款面向AI基础设施和高性能计算的超级CPU正式亮相。

这次的Grace有两个版本，第一个版本叫做Grace-Hopper，是"CPU GPU结合体，使用NVlink技术连接，带宽高达900GB/s。

而名为"Grace CPU超级芯片"的版本则由两个CPU芯片封装组成，它们之间通过NVlink-C2C连接。整个超级芯片总计144个CPU内核（基于ARMv9指令集），缓存容量396MB，支持LPDDR5X ECC内存，带宽高达1TB/s。

性能方面，Grace CPU超级芯片的SPECint 2017得分为业内领先的740分，黄仁勋表示这个性能没有什么产品可与之媲美，称赞为"最强大的CPU"。

据悉，借助带有纠错码的LPDDR5x内存组成的子系统，Grace CPU 超级芯片可以实现速度与功耗的最佳平衡，带宽高达1TB/s，整体功耗仅500W。

有趣的是，这套芯片系统展示了NVlink-C2C的强大扩展性，加之英伟达早些时候发布的UCIe标准（通用小芯片互连传输通道），未来用户采用英伟达产品时，可以像搭积木一样灵活选择CPU和GPU的组合。

One More Thing

· Omniverse平台

在去年CTC大会上，黄仁勋就重点介绍了Omniverse平台。该平台为3D设计师提供了一个共享的虚拟世界，他们可以从不同的软件应用程序和不同的地理位置进行协作。

今年，英伟达专注于让个人和企业更广泛地使用Omniverse平台。新的Omniverse Cloud使创作者能够即时访问Omniverse，即使他们没有基于Nvidia RTX的系统。同时推出的Omniverse OVX则是一个旨在满足大规模仿真需求的计算系统。

·自动驾驶汽车

作为英伟达在AI领域的重要探索，汽车产品线将在未来六年内增加至超过110亿美元。

本次，英伟达推出了最新版本的Hyperion 9自动驾驶平台，这既是Nvidia DRIVE Orin平台的基本架构，也是英伟达用于自动驾驶汽车的硬件架构。据悉，该平台将有14个摄像头、9个雷达、3个激光雷达和20个超声传感器，将于2026年投入使用。

800亿晶体管，20块GPU 今年GTC大会上黄仁勋继续大秀“AI肌肉”