Chat with Wiki - H100 8卡机算力

Answer

H100 8 卡机算力相关信息如下：

在 GPT-3（1750 亿参数）大模型基准测试中，GB200 的性能是 H100 的 7 倍，训练速度是 H100 的 4 倍。
今年英伟达总的 H100 出货量将有 15 万张，Meta 将会投入超过 90 亿美元向英伟达采购超过 34000 张 H100 显卡，到 24 年底 Meta 的 GPU 算力将达到 60 万个 H100。
与 H100 相比，对于大模型推理工作负载，GB200 超级芯片提供高达 30 倍的性能提升。一个 GB200 NVL72 机柜可以训练 27 万亿参数的模型，此前传言称，GPT-4 的参数规模达 1.8 万亿，相当于能训练近 15 个这样的模型。由 8 个系统组合在一起的就是 DGX GB200，总共有 288 个 Grace CPU、576 个 Blackwell GPU、240 TB 内存和 11.5 exaflop FP4 计算。

Content generated by AI large model, please carefully verify (powered by aily)

References

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

在GPT-3（1750亿参数）大模型基准测试中，GB200的性能是H100的7倍，训练速度是H100的4倍。GB200由2个GPU、1个CPU、一个主板组成全新芯片其中一个关键改进是，采用了第二代Transformer引擎。对每个神经元使用4位（20 petaflops FP4）而不是8位，直接将算力、带宽和模型参数规模提高了一倍。与此同时，英伟达还推出了第五代NVLink网络技术。最新的NVLink迭代增强了数万亿参数AI模型的性能，提供了突破性的每GPU双向吞吐量，促进了无缝高速通信。这也就是第二个关键区别，只有当你连接大量这些GPU时才会出现：新一代NVLink交换机可以让576个GPU相互通信，双向带宽高达1.8TB/秒。这就要求英伟达打造一个全新的网络交换芯片，其中包含500亿个晶体管和一些自己的板载计算：拥有3.6 teraflops FP8处理能力。在此之前，由16个GPU组成的集群，有60%的时间用于相互通信，只有40%的时间用于实际计算。Blackwell GPU增加了对FP4和FP6的支持另外，Blackwell还配备了RAS引擎。

AIGC Weekly #56

Midjourney提示词：body,low angle::1 Macro,3d,glass floating flat organic forms,shapeless,close-up ribbed plastic object,depth of field,pastel,rainbow colored border,in the style of ethereal light effects,monochromatic white figures,minimalist,shimmering metallics,light tan grey olive background::2 --v 6.0 --style raw --s 50 --ar 16:9[?查看更多风格和提示词](https://catjourney.life/)上周扎克伯格在他的threads和Ins上发布了一段视频，宣布Meta将会致力于实现AGI，为了实现这一目标公司正将其两大AI研究团队FAIR和GenAI进行合并，同时将投入超过90亿美元向英伟达采购员超过34000张H100显卡，到24年底Meta的GPU算力将达到60万个H100.今年英伟达总的H100出货量将有15万张，Meta一下就要拿走1/5真的狠。对于通用人工智能究竟是什么，以及何时能实现，连扎克伯格自己也没有明确的答案。尽管如此，他依然全力以赴地研究智能的各个方面，从逻辑推理到直觉判断。Meta正在开发名为Llama 3的大语言模型，目的是提升它在代码生成和逻辑推理方面的能力。重要的是扎克伯格正在推动一种开源的通用人工智能开发方式，这也是大家这么关注他的进展和Llama3的原因。

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

当然，有了Blackwell超级芯片，当然还会有Blackwell组成的DGX超算。这样，公司就会大量购入这些GPU，并将它们封装在更大的设计中。GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中，可实现总计720 petaflops的AI训练性能，或是1,440 petaflops（1.4 exaflops）的推理性能。它内部共有5000条独立电缆，长度近两英里。它的背面效果如下图所示。机柜中的每个机架包含两个GB200芯片，或两个NVLink交换机。一共有18个GB200芯片托盘，9个NVLink交换机托盘有。老黄现场表示，「一个GB200 NVL72机柜可以训练27万亿参数的模型」。此前传言称，GPT-4的参数规模达1.8万亿，相当于能训练近15个这样的模型。与H100相比，对于大模型推理工作负载，GB200超级芯片提供高达30倍的性能提升。那么，由8个系统组合在一起的就是DGX GB200。总共有288个Grace CPU、576个Blackwell GPU、240 TB内存和11.5 exaflop FP4计算。