Chat with Wiki - gpu算力平台

Answer

以下是关于 GPU 算力平台的相关信息：

NVIDIA 推出全新 GPU 平台 Blackwell，涵盖与 Hopper 兼容的普通系统和与 Grace CPU 连接的专用系统，提供前所未有的算力，有望突破物理极限，为互联网产业注入新动力。配备第五代 NV Link 的全新 Transformer 引擎速度惊人，新型超算的高速运转离不开早期问题检测和替换机制，数据加密也至关重要。全新的 FP8 格式大幅提升计算速度，NVLink 交换芯片实现所有 GPU 同时全速通信，直接驱动铜技术的突破让系统更加经济实惠。训练一个 1.8 万亿参数的 GPT 模型，Blackwell 相比传统方法优势明显，AWS、GCP、Oracle、微软纷纷为 Blackwell 做好准备。Blackwell 惊人的推理能力是 Hopper 的 30 倍，有望成为未来生成式 AI 的核心引擎。
能耗是模型训练的关键问题，一台由 8 张 A100 GPU 组成的 DGX 服务器性能强劲但能耗惊人，运行一小时消耗约 6.5 度电，包括散热每小时约消耗 13 度电。若有 1000 台这样的服务器同时运行，每天电费达 20 万元。对于大多数 AI 创业公司，大规模购买和部署 GPU 充满风险和挑战，但云服务平台为 AI 公司提供了灵活选择。
英伟达发布统一的超算平台 DGX B200，用于 AI 模型训练、微调和推理。它包括 8 个 Blackwell GPU 和 2 个第五代 Intel Xeon 处理器，包含 FP4 精度功能，提供高达 144 petaflops 的 AI 性能、1.4TB 的 GPU 内存和 64TB/s 的内存带宽，使得万亿参数模型的实时推理速度比上一代产品提高 15 倍。目前，亚马逊、谷歌、微软已成为最新芯片超算的首批用户，亚马逊网络服务将建立一个拥有 20,000 GB200 芯片的服务器集群。

Content generated by AI large model, please carefully verify (powered by aily)

References

黄仁勋在AI界超级碗GTC2024的主旨演讲: 精华及全文（附视频）

Blackwell是NVIDIA推出的全新GPU平台,将涵盖与Hopper兼容的普通系统和与Grace CPU连接的专用系统。Blackwell提供了前所未有的算力,有望突破物理极限,为互联网产业注入新动力。在处理海量数据和复杂计算时,精确性和范围至关重要。配备第五代NV Link的全新Transformer引擎速度惊人。在多GPU环境中,信息同步与更新必不可少。新型超算的高速运转离不开早期问题检测和替换机制。同时,数据加密对价值数亿美元的AI模型和代码至关重要。高速压缩引擎可将数据高效导入导出,速度提升20倍。Nvidia必须全力保留这些功能,因为这些超算的投资和能力都十分惊人。全新的FP8格式让内存可容纳更多参数,大幅提升计算速度。生成式AI作为一种全新计算范式正在兴起。NVLink交换芯片实现所有GPU同时全速通信,仿佛成为一个巨无霸GPU。直接驱动铜技术的突破让系统更加经济实惠。训练一个1.8万亿参数的GPT模型,传统方法可能需要8000个GPU、15MW电力,历时90天。而Blackwell只需2000个GPU,功耗4MW。NVIDIA GPU有一半时间运行在云端,专注于生成Token,如Copilot、ChatGPT等。庞大的语言模型需要后台超算的支持。要在众多GPU中高效分配任务,CUDA和其丰富生态系统不可或缺。Blackwell惊人的推理能力是Hopper的30倍,有望成为未来生成式AI的核心引擎。这些AI工厂旨在产生智慧而非电力。AWS、GCP、Oracle、微软纷纷为Blackwell做好准备。

中国大模型面临的真实问题：登顶路远，坠落一瞬

另一个关键问题是能耗。接触过模型训练的人应该都知道，想练出一个好模型是超级费卡费电的，所以能耗也是一个拦路虎。假设，我们面前有一台由8张A100 GPU组成的DGX服务器。这台服务器就像是AI世界中的"超级跑车"，性能强劲，但"油耗"惊人。它的最大功率达到6.5千瓦，这意味着运行一小时就会消耗6.5度电。然而，这仅仅是开始。让我们来做一个具体的计算：假设工业用电的平均价格是每度0.63元。一台服务器（包括散热）每小时消耗约13度电。如果这台服务器24小时不间断运行，每天的电费约为200元。现在，让我们将视野扩大到一个大规模的AI研究中心或大型科技公司：如果有1,000台这样的服务器同时运行，每天的电费将达到惊人的20万元。对于大多数AI创业公司来说，大规模购买和部署GPU就像是攀登珠穆朗玛峰：看似令人向往，实际上充满风险和挑战。但在瞬息万变的AI领域，长期大规模投资可能会成为公司的致命弱点。没准下一波海浪就会把他们拍死在沙滩上。然而，就像每一个挑战都孕育着机遇，GPU资源的稀缺也催生了新的解决方案。云服务平台如阿里云、腾讯云和亚马逊AWS，这些基础设施提供商建立的"算力集市"，为AI公司提供了一个灵活的选择。在这些平台上，公司可以直接租用算力服务，而不必承担购买和维护的全部成本。然而，即使是租用模式，许多大模型公司也对大规模算力投入持谨慎态度。这种谨慎背后隐藏着两个深层次的问题，这些问题已经成为AI投资圈的"公开秘密"：

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

这种架构可以为平台中的每个GPU提供高达每秒1,800 GB的带宽。除此之外，英伟达还发布了统一的超算平台DGX B200，用于AI模型训练、微调和推理。它包括8个Blackwell GPU和2个第五代Intel Xeon处理器，包含FP4精度功能，提供高达144 petaflops的AI性能、1.4TB的GPU内存和64TB/s的内存带宽。这使得万亿参数模型的实时推理速度，比上一代产品提高了15倍。用户还可以使用DGX B200系统构建DGX SuperPOD，创建人工智能卓越中心，为运行多种不同工作的大型开发团队提供动力。目前，亚马逊、谷歌、微软已经成为最新芯片超算的首批用户。亚马逊网络服务，将建立一个拥有20,000 GB200芯片的服务器集群。