Chat with Wiki - GPT4现在参数量多大

Answer

GPT-4 的参数规模约为 1.8 万亿。此前传言称，一个 GB200 NVL72 机柜可以训练 27 万亿参数的模型，相当于能训练近 15 个参数规模为 1.8 万亿的 GPT-4 模型。另有网友戏称，“老黄确认 GPT-4 是 1.8 万亿参数”。

Content generated by AI large model, please carefully verify (powered by aily)

References

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

当然，有了Blackwell超级芯片，当然还会有Blackwell组成的DGX超算。这样，公司就会大量购入这些GPU，并将它们封装在更大的设计中。GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中，可实现总计720 petaflops的AI训练性能，或是1,440 petaflops（1.4 exaflops）的推理性能。它内部共有5000条独立电缆，长度近两英里。它的背面效果如下图所示。机柜中的每个机架包含两个GB200芯片，或两个NVLink交换机。一共有18个GB200芯片托盘，9个NVLink交换机托盘有。老黄现场表示，「一个GB200 NVL72机柜可以训练27万亿参数的模型」。此前传言称，GPT-4的参数规模达1.8万亿，相当于能训练近15个这样的模型。与H100相比，对于大模型推理工作负载，GB200超级芯片提供高达30倍的性能提升。那么，由8个系统组合在一起的就是DGX GB200。总共有288个Grace CPU、576个Blackwell GPU、240 TB内存和11.5 exaflop FP4计算。这一系统可以扩展到数万个GB200超级芯片，通过Quantum-X800 InfiniBand（最多144个连接）或Spectrum-X800ethernet（最多64个连接）与800Gbps网络连接在一起。配备DGX GB200系统的全新DGX SuperPod采用统一的计算架构。除了第五代NVIDIA NVLink，该架构还包括NVIDIA Bluefield-3 DPU，并将支持Quantum-X800 InfiniBand网络。

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

网友们纷纷惊叹，Blackwell再一次改变了摩尔定律。英伟达高级科学家Jim Fan表示：Blackwell，城里的新野兽。DGX Grace-Blackwell GB200：单机架计算能力超过1 Exaflop。-从这个角度来看：老黄交付给OpenAI的第一台DGX是0.17 Petaflops。- GPT-4-1.8T参数在2000张Blackwell上可在90天内完成训练。新摩尔定律诞生了。贾扬清回忆道，「我记得在Meta，当我们在一小时内（2017年）训练ImageNet时，总计算量约为1exaflop。这意味着有了新的DGX，理论上你可以在一秒钟内训练ImageNet」。还有网友表示，「这简直就是野兽，比H100强太多」。另有网友戏称，「老黄确认GPT-4是1.8万亿参数」。所以，GB200的成本是多少呢？英伟达目前并没有公布。此前据分析师估计，英伟达基于Hopper的H100芯片，每颗的成本在25,000美元到40,000美元之间，整个系统的成本高达200,000美元。而GB200的成本，只可能更高。

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

凭借H100成为全球市值第三大公司的英伟达，今天再次推出了性能野兽——Blackwell B200 GPU和GB200「超级芯片」。它以著名数学家David Blackwell（1919-2010）命名。他一生中对博弈论、概率论做出了重要的贡献。老黄表示，「30年来，我们一直在追求加速计算，目标是实现深度学习和AI等变革性突破。生成式AI已然成为我们这个时代的标志性技术，而Blackwell将是推动这场新工业革命的引擎」。「我们认为这是个完美的博弈概率」。全新B200 GPU拥有2080亿个晶体管，采用台积电4NP工艺节点，提供高达20 petaflops FP4的算力。与H100相比，B200的晶体管数量是其（800亿）2倍多。而单个H100最多提供4 petaflops算力，直接实现了5倍性能提升。而GB200是将2个Blackwell GPU和1个Grace CPU结合在一起，能够为LLM推理工作负载提供30倍性能，同时还可以大大提高效率。值得一提的是，与H100相比，它的成本和能耗「最多可降低25倍」。过去，训练一个1.8万亿参数的模型，需要8000个Hopper GPU和15MW的电力。如今，2000个Blackwell GPU就能完成这项工作，耗电量仅为4MW。在GPT-3（1750亿参数）大模型基准测试中，GB200的性能是H100的7倍，训练速度是H100的4倍。GB200由2个GPU、1个CPU、一个主板组成全新芯片其中一个关键改进是，采用了第二代Transformer引擎。对每个神经元使用4位（20 petaflops FP4）而不是8位，直接将算力、带宽和模型参数规模提高了一倍。