NVIDIA 今日(3/23)宣布,为推动下一波人工智能(AI)数据中心的发展,将推出采用 NVIDIAHopper 架构的新一代加速运算平台,效能较上一代平台呈指数级成长。这个以美国计算机科学家先驱葛丽丝·霍普(GraceHopper)命名的全新架构,将接替两年前推出的NVIDIA Ampere 架构。 NVIDIA同时宣布推出首款采用 Hopper 架构的 GPU 产品 NVIDIAH100,封装800 亿个晶体管,是全球最大且效能最强大的加速器,具突破性的功能,例如革命性的Transformer Engine 及具高度扩展性的NVLink 互连技术,可用于推动极大规模的AI 语言模型、深度推荐系统、基因组学和复杂的数字孪生等领域的发展。
NVIDIA H100 这款 GPU 封装了 800 亿个晶体管,是全球最大且效能最强大的加速器 NVIDIA创办人暨执行长黄仁勋表示:「数据中心将成为AI 工厂,用来处理海量数据并从中提炼出宝贵的智慧。NVIDIAH100 是全球AI 基础设施的引擎,让企业得以加速推动各项AI 业务的进展。」
H100 的突破性技术 NVIDIAH100 GPU 为加速大规模AI 及高效能运算树立了新标准,并带来六项突破性创新: 全球最先进的芯片:H100拥有 800 亿个晶体管,采用台积电 4 奈米 4N 制程、专为满足 NVIDIA 加速运算需求而设计,在加速 AI、高效能运算、内存带宽、互连和通讯方面具有重大进展,包括每秒近5TB 的外部连接速度。H100是首款支持 PCIe Gen5 及首款使用 HBM3 的 GPU 产品,提供每秒 3TB 的内存带宽。20 个 H100 GPU 便足以支撑全世界的网络流量,让客户得以运行先进的推荐系统和大型语言模型,实时使用各项数据进行推论。 全新Transformer Engine:Transformer已是自然语言处理的首选标准模型,是史上最重要的深度学习模型之一。相较于前一代产品,H100加速器的Transformer Engine 能够将这些网络的速度提高六倍,又不失其精度。 第二代安全多实例GPU:多实例GPU(Multi-InstanceGPU;MIG)技术可以将一个 GPU 分割成七个较小、完全隔离的实例以处理各类工作。Hopper架构在云端环境里为每个 GPU 实例提供安全的多租户配置,将 MIG 的能力较前一代扩大高达七倍。 机密运算:H100是全球首款具有机密运算能力的加速器,可以在处理AI 模型和客户数据时加以保护。对于医疗照护和金融服务等对隐私极为敏感的产业,在进行联邦学习时同样能运用机密运算,在共享的云端基础设施上也同样可行。 第四代NVIDIA NVLink:为加快最大型AI 模型的运作速度,以NVLink 搭配全新的外部NVLink 交换器,将NVLink 当成服务器以外的垂直扩展网络,相较于使用NVIDIA HDR Quantum InfiniBand 的前一代产品,能以超过九倍的带宽连接多达256 个H100 GPU。 DPX 指令:与使用 CPU 相比,全新 DPX 指令将用于众多算法(包括路线优化及基因组学)的动态规画执行速度加快高达 40 倍;而与使用前一代的 GPU 相比,速度加快了七倍。这包括为动态仓库环境中的自主机器人车队寻找最佳路线的Floyd-Warshall 算法,以及用于DNA 和蛋白质分类及折迭的序列比对Smith-Waterman 算法。
NVIDIA H100 为每个资料中心提供突破性的效能、可扩展性与安全性 H100的多项技术创新扩大了 NVIDIA 在 AI 推论和训练的领先地位,使 NVIDIA 能够利用巨大的 AI 模型做到实时和沉浸式应用。H100 让聊天机器人可以使用全球最强大的单体transformer 语言模型Megatron 530B,其传输量超过前一代产品达30 倍,同时满足实时对话式AI 所需的次秒级延迟。H100同时让研究人员和开发人员能够训练像是Mixture of Experts 这类大规模模型,包含3,950 亿个参数,能将速度提高达九倍,将训练时间从过去所需的数周减少到数日便能完成。 业界广泛采用NVIDIA H100 NVIDIAH100 可以部署在各类型的资料中心内,包括企业内部、云端、混合云和边缘。预计今年稍晚透过全球各大云端服务供货商及计算机制造商供货,也可以直接向NVIDIA 购买。
各种规格的NVIDIA H100 将直接由NVIDIA 及全球顶尖的系统制造商和云端供货商提供 NVIDIA第四代 DGX 系统 DGX H100 搭载八个 H100 GPU,可在全新 FP8 精度下提供 32petaflops 的AI 运算表现,这个规模足以满足大型语言模型、推荐系统、医疗研究及气候科学的大规模运算需求。 透过第四代NVLink 技术连接DGX H100 系统中的每个GPU,能提供每秒900GB 的连接速度,高出前一代产品1.5 倍。NVSwitch技术让八个 H100 GPU 能透过 NVLink 连接。一台外部 NVLink 交换器可以连接新一代 NVIDIA DGXSuperPOD 超级计算机中多达32 个DGX H100 节点。 Hopper已经获得各大云端服务供货商的支持,包括阿里云、AmazonWeb Services(AWS)、百度智能云、GoogleCloud、MicrosoftAzure、OracleCloud 和腾讯云,这些业者计划将提供基于H100 的实例。 全球一级系统制造商预计将推出多款搭载H100 加速器的服务器产品,包括源讯(Atos)、BOXXTechnologies、思科(Cisco)、戴尔科技(DellTechnologies)、富士通(Fujitsu)、技嘉(GIGABYTE)、新华三(H3C)、慧与科技(HewlettPackard Enterprise)、浪潮(Inspur)、联想(Lenovo)、Nettrix 与美超威(Supermicro)。 各种规格的NVIDIA H100 H100将有 SXM 和 PCIe 两种规格,以满足各种服务器的设计要求。同时也将推出一款融合加速器,将H100 GPU 搭配NVIDIA ConnectX-7 400Gb/s InfiniBand 及 Ethernet SmartNIC。 H100SXM 规格将用于HGX H100 服务器主板上,提供四路和八路配置,供企业在一台服务器和多台服务器上的应用程序扩大到多个GPU 上。搭载HGX H100 的服务器为AI 训练和推论、资料分析和高效能运算应用程序提供最佳运算表现。
NVIDIA HGX H100 服务器主板将提供四路和八路配置,供企业在一台服务器的多个系统上的应用程序扩大到多个GPU 上 H100PCIe 规格使用NVLink 来连接两个GPU,提供较PCIe 5.0 高出七倍的带宽,为在主流企业服务器上运行的应用程序提供出色效能。PCIe的规格尺寸让此产品能够轻松地被纳入现有的数据中心基础设施中。 全新的融合加速器H100 CNX 是将H100 搭配ConnectX-7 SmartNIC,为企业数据中心的多节点AI 训练以及边缘的5G 讯号处理等I/O 密集型应用程序提供突破性的效能。
融合加速器H100 CNX 将NVIDIA H100 搭配ConnectX-7 SmartNIC,为IO 密集型应用程序提供突破性的效能 采用NVIDIA Hopper 架构的GPU 还能与NVIDIA Grace CPU 搭配,后者具备超高速NVLink-C2C 互连技术,与PCIe 5.0 相比,CPU与 GPU 之间的数据传输速度提高七倍以上。这样的组合诞生出Grace Hopper 超级芯片,用于巨大规模高效能运算及AI 应用程序的整合模块。 NVIDIA 软件支持 NVIDIA提供强大的软件工具来支持 H100 GPU,开发人员与企业便能建立及加速 AI 与高效能运算各类应用程序,包括针对语音、推荐系统和超大规模推论等作业负载所推出的NVIDIA AI 软件套件重大更新。 NVIDIA同时发布了超过 60 项 CUDA-X 函式库、工具和技术更新,以加快量子运算、6G网络研究、网络安全、基因组学和药物开发等方面的进展。 供货时程 NVIDIAH100 将于第三季开始供货。
|