以下是常见 GPU 卡的介绍与比较:
在选择 GPU 作为 AI 基础设施时,需要考虑多个因素:
训练与推理方面:训练大型 Transformer 模型通常需要在机器集群上完成,最好是每台服务器有多个 GPU、大量 VRAM 以及服务器之间的高带宽连接。许多模型在 NVIDIA H100 上最具成本效益,但获取较难且通常需要长期合作承诺。如今,NVIDIA A100 常用于大多数模型训练。对于大型语言模型(LLM)的推理,可能需要 H100 或 A100,而较小的模型如 Stable Diffusion 则对 VRAM 需求较少,初创公司也会使用 A10、A40、A4000、A5000 和 A6000 甚至 RTX 卡。
内存要求方面:大型 LLM 的参数数量众多,无法由单张卡容纳,需要分布到多个卡中。
硬件支持方面:虽然绝大多数工作负载在 NVIDIA 上运行,但也有公司开始尝试其他供应商,如谷歌 TPU 和英特尔的 Gaudi2,但这些供应商面临的挑战是模型性能高度依赖软件优化。
延迟要求方面:对延迟不太敏感的工作负载可使用功能较弱的 GPU 以降低计算成本,而面向用户的应用程序通常需要高端 GPU 卡来提供实时用户体验。
峰值方面:生成式 AI 公司的需求经常急剧上升,在低端 GPU 上处理峰值通常更容易,若流量来自参与度或留存率较低的用户,以牺牲性能为代价使用较低成本资源也有意义。
此外,算力可以理解为计算能力,在电脑中可直接转化为 GPU,显卡就是 GPU,除了 GPU 外,显存也是重要参数。GPU 是一种专门做图像和图形相关运算工作的微处理器,其诞生是为了给 CPU 减负,生产商主要有 NVIDIA 和 ATI。
在其他条件相同的情况下,顶级GPU在几乎所有工作负载上都会表现最佳。然而,正如下表所示,最好的硬件也要昂贵得多。根据具体应用选择合适的GPU可以大大降低成本,也可能使你的商业模式从不可行变为可行。决定要往下走多远——也就是说,确定对你的应用来说最具成本效益的GPU选择——主要是一个技术决策,超出了本文的讨论范围。但我们将在下面分享一些我们认为最重要的选择标准:[heading3]训练与推理:[content]正如我们在上文第一节看到的,训练Transformer模型除了模型权重外,还需要存储8字节的数据用于训练。这意味一个内存12GB的典型高端消费级GPU几乎无法用于训练40亿参数的模型。实际上,训练大型模型是在机器集群上完成的,最好是每台服务器有多个GPU、大量VRAM以及服务器之间的高带宽连接(即使用顶级数据中心GPU构建的集群)。具体来说,许多模型在NVIDIA H100上最具成本效益,但截至今天很难找到在NVIDIA H100上运行的模型,而且通常需要一年以上的长期合作承诺。如今,更多的选择是在NVIDIA A100上运行大多数模型训练,但对于大型集群,仍需要长期承诺。[heading3]内存要求:[content]大型LLM的参数数量太多,任何卡都无法容纳。它们需要分布到多个卡中,并且需要类似于训练的设置。换句话说,即使进行LLM推理,您也可能需要H100或A100。但是较小的模型(例如Stable Diffusion)需要的VRAM要少得多。虽然A100仍然很受欢迎,但我们已经看到初创公司使用A10,A40,A4000,A5000和A6000,甚至RTX卡。
虽然我们采访过的公司的绝大多数工作负载都在NVIDIA上运行,但也有一些开始尝试其他供应商。最常见的是谷歌TPU,英特尔的Gaudi2似乎也有一些吸引力。这些供应商面临的挑战是,模型的性能往往高度依赖于这些芯片的软件优化是否可用。你可能需要执行PoC才能了解性能。[heading3]延迟要求:[content]一般来说,对延迟不太敏感的工作负载(例如,批处理数据处理或不需要交互式UI响应的应用程序)可以使用功能较弱的GPU。这可以将计算成本降低多达3-4倍(例如,在AWS上将A100与A10进行比较)。另一方面,面向用户的应用程序通常需要高端GPU卡来提供引人入胜的实时用户体验。优化模型是必要的,以使成本降低到可管理的范围。[heading3]峰值:[content]AI技术是如此新颖和令人兴奋,生成式AI公司的需求经常急剧上升,新产品一经发布,请求量每天增加10倍,或者每周持续增长50%,这种情况并不罕见。在低端GPU上处理这些峰值通常更容易,因为更多的计算节点可能随时可用。如果这种流量来自于参与度较低或留存率较低的用户,那么以牺牲性能为代价使用较低成本的资源也是有意义的。
作者:小鱼干了发布时间:2023-06-30 21:58原文地址:https://mp.weixin.qq.com/s/FTYC4O58xihe6U06B_7x7w微信扫一扫关注该公众号[heading1]算力是什么?[content]算力的字面意思就是计算能力(Computing Power),是随着区块链,AI等概念被反复提及,其实没什么特别的,可以直接转化成GPU就是算力,电脑里的显卡就是GPU,那么算力=显卡可以这样粗暴的理解。哪怕你购买云服务,也是服务商买显卡“租”给你用的意思。而一张显卡除了GPU外,还有一个很重要的参数是显存。GPU:图形处理器(Graphics Processing Unit)又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。CPU:中央处理器(Central Processing Unit)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。显存:也被叫做帧缓存,它的作用是用来存储显卡芯片处理过或者即将提取的渲染数据。如同计算机的内存一样,显存是用来存储要处理的图形信息的部件。GPU的诞生源自对CPU的减负,使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。