目前比 H200 更先进的 GPU 是英伟达推出的 Blackwell B200 GPU。
Blackwell B200 GPU 具有以下优势:
它采用台积电 4NP 工艺节点,其中一个关键改进是采用了第二代 Transformer 引擎,对每个神经元使用 4 位(20 petaflops FP4)而不是 8 位,直接将算力、带宽和模型参数规模提高了一倍。此外,还推出了由 Blackwell 组成的 DGX 超算,如 DGX GB200 系统,具有强大的计算和扩展能力。
原创新智元新智元2024-03-19 08:13北京原文地址:https://mp.weixin.qq.com/s/a6D9OgiJuUjHtBQCVgo7mg[heading3]新智元报道[content]编辑:编辑部【新智元导读】就在刚刚,老黄又来打破摩尔定律了:英伟达新核弹B200,一块能顶5个H100,30倍推理加速,能训万亿参数大模型!同时推出的AI推理微服务NIM,号称让全世界用上AI。就在刚刚结束的GTC人工智能大会上,英伟达的新一代性能巨兽Backwell诞生了!Blackwell B200 GPU,是如今世界上最强大的AI芯片,旨在「普惠万亿参数的AI」。本来,H100已经使英伟达成为价值数万亿美元的公司,赶超了谷歌和亚马逊,但现在,凭着Blackwell B200和GB200,英伟达的领先优势还要继续领先。老黄表示——「H100很好,但我们需要更大的GPU」!新的B200 GPU,从2080亿个晶体管中能提供高达20 petaflops的FP4性能。(H100仅为4 petaflops)而将两个B200与单个Grace CPU相结合的GB200,则可以为LLM推理工作负载提供30倍的性能,同时大大提高效率。比起H100,GB200的成本和能耗降低了25倍!Blackwell芯片和Hopper H100芯片的尺寸比较这种额外的处理能力,就能让AI公司训练更大、更复杂的模型,甚至可以部署一个27万亿参数的模型。更大的参数,更多的数据,未来的AI模型,无疑会解锁更多新功能,涌现出更多新的能力。现在,老黄拿在手里的,或许是100亿美元。
凭借H100成为全球市值第三大公司的英伟达,今天再次推出了性能野兽——Blackwell B200 GPU和GB200「超级芯片」。它以著名数学家David Blackwell(1919-2010)命名。他一生中对博弈论、概率论做出了重要的贡献。老黄表示,「30年来,我们一直在追求加速计算,目标是实现深度学习和AI等变革性突破。生成式AI已然成为我们这个时代的标志性技术,而Blackwell将是推动这场新工业革命的引擎」。「我们认为这是个完美的博弈概率」。全新B200 GPU拥有2080亿个晶体管,采用台积电4NP工艺节点,提供高达20 petaflops FP4的算力。与H100相比,B200的晶体管数量是其(800亿)2倍多。而单个H100最多提供4 petaflops算力,直接实现了5倍性能提升。而GB200是将2个Blackwell GPU和1个Grace CPU结合在一起,能够为LLM推理工作负载提供30倍性能,同时还可以大大提高效率。值得一提的是,与H100相比,它的成本和能耗「最多可降低25倍」。过去,训练一个1.8万亿参数的模型,需要8000个Hopper GPU和15MW的电力。如今,2000个Blackwell GPU就能完成这项工作,耗电量仅为4MW。在GPT-3(1750亿参数)大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。GB200由2个GPU、1个CPU、一个主板组成全新芯片其中一个关键改进是,采用了第二代Transformer引擎。对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将算力、带宽和模型参数规模提高了一倍。
当然,有了Blackwell超级芯片,当然还会有Blackwell组成的DGX超算。这样,公司就会大量购入这些GPU,并将它们封装在更大的设计中。GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,可实现总计720 petaflops的AI训练性能,或是1,440 petaflops(1.4 exaflops)的推理性能。它内部共有5000条独立电缆,长度近两英里。它的背面效果如下图所示。机柜中的每个机架包含两个GB200芯片,或两个NVLink交换机。一共有18个GB200芯片托盘,9个NVLink交换机托盘有。老黄现场表示,「一个GB200 NVL72机柜可以训练27万亿参数的模型」。此前传言称,GPT-4的参数规模达1.8万亿,相当于能训练近15个这样的模型。与H100相比,对于大模型推理工作负载,GB200超级芯片提供高达30倍的性能提升。那么,由8个系统组合在一起的就是DGX GB200。总共有288个Grace CPU、576个Blackwell GPU、240 TB内存和11.5 exaflop FP4计算。这一系统可以扩展到数万个GB200超级芯片,通过Quantum-X800 InfiniBand(最多144个连接)或Spectrum-X800ethernet(最多64个连接)与800Gbps网络连接在一起。配备DGX GB200系统的全新DGX SuperPod采用统一的计算架构。除了第五代NVIDIA NVLink,该架构还包括NVIDIA Bluefield-3 DPU,并将支持Quantum-X800 InfiniBand网络。