以下是关于 GPU 算力平台的相关信息:
Blackwell是NVIDIA推出的全新GPU平台,将涵盖与Hopper兼容的普通系统和与Grace CPU连接的专用系统。Blackwell提供了前所未有的算力,有望突破物理极限,为互联网产业注入新动力。在处理海量数据和复杂计算时,精确性和范围至关重要。配备第五代NV Link的全新Transformer引擎速度惊人。在多GPU环境中,信息同步与更新必不可少。新型超算的高速运转离不开早期问题检测和替换机制。同时,数据加密对价值数亿美元的AI模型和代码至关重要。高速压缩引擎可将数据高效导入导出,速度提升20倍。Nvidia必须全力保留这些功能,因为这些超算的投资和能力都十分惊人。全新的FP8格式让内存可容纳更多参数,大幅提升计算速度。生成式AI作为一种全新计算范式正在兴起。NVLink交换芯片实现所有GPU同时全速通信,仿佛成为一个巨无霸GPU。直接驱动铜技术的突破让系统更加经济实惠。训练一个1.8万亿参数的GPT模型,传统方法可能需要8000个GPU、15MW电力,历时90天。而Blackwell只需2000个GPU,功耗4MW。NVIDIA GPU有一半时间运行在云端,专注于生成Token,如Copilot、ChatGPT等。庞大的语言模型需要后台超算的支持。要在众多GPU中高效分配任务,CUDA和其丰富生态系统不可或缺。Blackwell惊人的推理能力是Hopper的30倍,有望成为未来生成式AI的核心引擎。这些AI工厂旨在产生智慧而非电力。AWS、GCP、Oracle、微软纷纷为Blackwell做好准备。
另一个关键问题是能耗。接触过模型训练的人应该都知道,想练出一个好模型是超级费卡费电的,所以能耗也是一个拦路虎。假设,我们面前有一台由8张A100 GPU组成的DGX服务器。这台服务器就像是AI世界中的"超级跑车",性能强劲,但"油耗"惊人。它的最大功率达到6.5千瓦,这意味着运行一小时就会消耗6.5度电。然而,这仅仅是开始。让我们来做一个具体的计算:假设工业用电的平均价格是每度0.63元。一台服务器(包括散热)每小时消耗约13度电。如果这台服务器24小时不间断运行,每天的电费约为200元。现在,让我们将视野扩大到一个大规模的AI研究中心或大型科技公司:如果有1,000台这样的服务器同时运行,每天的电费将达到惊人的20万元。对于大多数AI创业公司来说,大规模购买和部署GPU就像是攀登珠穆朗玛峰:看似令人向往,实际上充满风险和挑战。但在瞬息万变的AI领域,长期大规模投资可能会成为公司的致命弱点。没准下一波海浪就会把他们拍死在沙滩上。然而,就像每一个挑战都孕育着机遇,GPU资源的稀缺也催生了新的解决方案。云服务平台如阿里云、腾讯云和亚马逊AWS,这些基础设施提供商建立的"算力集市",为AI公司提供了一个灵活的选择。在这些平台上,公司可以直接租用算力服务,而不必承担购买和维护的全部成本。然而,即使是租用模式,许多大模型公司也对大规模算力投入持谨慎态度。这种谨慎背后隐藏着两个深层次的问题,这些问题已经成为AI投资圈的"公开秘密":
这种架构可以为平台中的每个GPU提供高达每秒1,800 GB的带宽。除此之外,英伟达还发布了统一的超算平台DGX B200,用于AI模型训练、微调和推理。它包括8个Blackwell GPU和2个第五代Intel Xeon处理器,包含FP4精度功能,提供高达144 petaflops的AI性能、1.4TB的GPU内存和64TB/s的内存带宽。这使得万亿参数模型的实时推理速度,比上一代产品提高了15倍。用户还可以使用DGX B200系统构建DGX SuperPOD,创建人工智能卓越中心,为运行多种不同工作的大型开发团队提供动力。目前,亚马逊、谷歌、微软已经成为最新芯片超算的首批用户。亚马逊网络服务,将建立一个拥有20,000 GB200芯片的服务器集群。