GPU(图形处理器)具有以下计算特性:
作者:小鱼干了发布时间:2023-06-30 21:58原文地址:https://mp.weixin.qq.com/s/FTYC4O58xihe6U06B_7x7w微信扫一扫关注该公众号[heading1]算力是什么?[content]算力的字面意思就是计算能力(Computing Power),是随着区块链,AI等概念被反复提及,其实没什么特别的,可以直接转化成GPU就是算力,电脑里的显卡就是GPU,那么算力=显卡可以这样粗暴的理解。哪怕你购买云服务,也是服务商买显卡“租”给你用的意思。而一张显卡除了GPU外,还有一个很重要的参数是显存。GPU:图形处理器(Graphics Processing Unit)又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。CPU:中央处理器(Central Processing Unit)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。显存:也被叫做帧缓存,它的作用是用来存储显卡芯片处理过或者即将提取的渲染数据。如同计算机的内存一样,显存是用来存储要处理的图形信息的部件。GPU的诞生源自对CPU的减负,使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。
当然,有了Blackwell超级芯片,当然还会有Blackwell组成的DGX超算。这样,公司就会大量购入这些GPU,并将它们封装在更大的设计中。GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,可实现总计720 petaflops的AI训练性能,或是1,440 petaflops(1.4 exaflops)的推理性能。它内部共有5000条独立电缆,长度近两英里。它的背面效果如下图所示。机柜中的每个机架包含两个GB200芯片,或两个NVLink交换机。一共有18个GB200芯片托盘,9个NVLink交换机托盘有。老黄现场表示,「一个GB200 NVL72机柜可以训练27万亿参数的模型」。此前传言称,GPT-4的参数规模达1.8万亿,相当于能训练近15个这样的模型。与H100相比,对于大模型推理工作负载,GB200超级芯片提供高达30倍的性能提升。那么,由8个系统组合在一起的就是DGX GB200。总共有288个Grace CPU、576个Blackwell GPU、240 TB内存和11.5 exaflop FP4计算。这一系统可以扩展到数万个GB200超级芯片,通过Quantum-X800 InfiniBand(最多144个连接)或Spectrum-X800ethernet(最多64个连接)与800Gbps网络连接在一起。配备DGX GB200系统的全新DGX SuperPod采用统一的计算架构。除了第五代NVIDIA NVLink,该架构还包括NVIDIA Bluefield-3 DPU,并将支持Quantum-X800 InfiniBand网络。
您是最早想到使用GPU的人之一,我知道Jensen(黄仁勋)很喜欢你。早在2009年,你就告诉Jensen,这可能是训练神经网络的一个非常好的想法。让我们回顾一下使用图形处理单元(GPU)训练神经网络的早期直觉。实际上,我记得在2006年,我有一位研究生,他是一位非常优秀的计算机视觉专家。我曾在一次会议上与他交谈,他建议我考虑使用图形处理卡,因为它们在矩阵乘法方面表现出色,而我所做的基本上都是矩阵乘法。我考虑了一会儿,然后我们开始研究那些配备四个GPU的Tesla系统。最初,我们只是购买了游戏用的GPU,发现它们使运算速度提高了30倍。然后我们购买了一个配备四个GPU的Tesla系统,并在此基础上进行了一次演讲,效果非常好。2009年,我在NIPS会议上发表了演讲,我告诉在场的一千名机器学习研究人员,你们都应该去购买NVIDIA的GPU,因为它们是未来,你们需要它们来进行机器学习。然后我实际上给NVIDIA发了一封邮件,说我已经告诉一千名机器学习研究人员去购买你们的主板,你们能否免费给我一个?他们并没有回复。但是,当我后来把这个故事告诉Jensen时,他免费给了我一个。这真是太好了。我认为同样有趣的是,GPU是如何随着这个领域的发展而发展的。那么,你认为我们在计算领域的下一步应该如何发展呢?在我在谷歌的最后几年里,我一直在思考如何尝试进行模拟计算。这样,我们可以使用30瓦的功率(例如大脑),而不是使用一兆瓦的功率,并且可以在模拟硬件中运行这些大型语言模型。我从未让它发挥作用,但我开始真正欣赏数字计算。