Chat with Wiki - 常见GPU卡介绍与比较

Answer

以下是常见 GPU 卡的介绍与比较：

在 AI 基础设施的考虑因素中，比较 GPU 时需要关注以下几个方面：

训练与推理：

训练 Transformer 模型除了模型权重外，还需要存储 8 字节的数据用于训练。内存 12GB 的典型高端消费级 GPU 几乎无法用于训练 40 亿参数的模型。
训练大型模型通常在机器集群上完成，最好是每台服务器有多个 GPU、大量 VRAM 以及服务器之间的高带宽连接。
许多模型在 NVIDIA H100 上最具成本效益，但截至目前很难找到在 NVIDIA H100 上运行的模型，且通常需要一年以上的长期合作承诺。如今，更多选择在 NVIDIA A100 上运行大多数模型训练，但对于大型集群，仍需要长期承诺。

内存要求：

大型 LLM 的参数数量太多，任何卡都无法容纳，需要分布到多个卡中。
即使进行 LLM 推理，可能也需要 H100 或 A100。但较小的模型（如 Stable Diffusion）需要的 VRAM 要少得多，初创公司也会使用 A10、A40、A4000、A5000 和 A6000，甚至 RTX 卡。

硬件支持：

虽然绝大多数工作负载都在 NVIDIA 上运行，但也有一些公司开始尝试其他供应商，如谷歌 TPU、英特尔的 Gaudi2。
这些供应商面临的挑战是，模型的性能往往高度依赖于芯片的软件优化是否可用，可能需要执行 PoC 才能了解性能。

延迟要求：

对延迟不太敏感的工作负载（如批处理数据处理或不需要交互式 UI 响应的应用程序）可以使用功能较弱的 GPU，能将计算成本降低多达 3 - 4 倍。
面向用户的应用程序通常需要高端 GPU 卡来提供引人入胜的实时用户体验，优化模型是必要的，以使成本降低到可管理的范围。

峰值：

生成式 AI 公司的需求经常急剧上升，新产品一经发布，请求量每天增加 10 倍，或者每周持续增长 50%的情况并不罕见。
在低端 GPU 上处理这些峰值通常更容易，因为更多的计算节点可能随时可用。如果这种流量来自于参与度较低或留存率较低的用户，那么以牺牲性能为代价使用较低成本的资源也是有意义的。

此外，算力可以直接转化成 GPU，电脑里的显卡就是 GPU。一张显卡除了 GPU 外，显存也是很重要的参数。GPU 的生产商主要有 NVIDIA 和 ATI。GPU 作为一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器，其诞生源自对 CPU 的减负，使显卡减少了对 CPU 的依赖，并进行部分原本 CPU 的工作。

Content generated by AI large model, please carefully verify (powered by aily)

References

惊人算力成本背后，AI混战下如何选择基础设施？

在其他条件相同的情况下，顶级GPU在几乎所有工作负载上都会表现最佳。然而，正如下表所示，最好的硬件也要昂贵得多。根据具体应用选择合适的GPU可以大大降低成本，也可能使你的商业模式从不可行变为可行。决定要往下走多远——也就是说，确定对你的应用来说最具成本效益的GPU选择——主要是一个技术决策，超出了本文的讨论范围。但我们将在下面分享一些我们认为最重要的选择标准：[heading3]训练与推理：[content]正如我们在上文第一节看到的，训练Transformer模型除了模型权重外，还需要存储8字节的数据用于训练。这意味一个内存12GB的典型高端消费级GPU几乎无法用于训练40亿参数的模型。实际上，训练大型模型是在机器集群上完成的，最好是每台服务器有多个GPU、大量VRAM以及服务器之间的高带宽连接（即使用顶级数据中心GPU构建的集群）。具体来说，许多模型在NVIDIA H100上最具成本效益，但截至今天很难找到在NVIDIA H100上运行的模型，而且通常需要一年以上的长期合作承诺。如今，更多的选择是在NVIDIA A100上运行大多数模型训练，但对于大型集群，仍需要长期承诺。[heading3]内存要求：[content]大型LLM的参数数量太多，任何卡都无法容纳。它们需要分布到多个卡中，并且需要类似于训练的设置。换句话说，即使进行LLM推理，您也可能需要H100或A100。但是较小的模型（例如Stable Diffusion）需要的VRAM要少得多。虽然A100仍然很受欢迎，但我们已经看到初创公司使用A10，A40，A4000，A5000和A6000，甚至RTX卡。

惊人算力成本背后，AI混战下如何选择基础设施？

虽然我们采访过的公司的绝大多数工作负载都在NVIDIA上运行，但也有一些开始尝试其他供应商。最常见的是谷歌TPU，英特尔的Gaudi2似乎也有一些吸引力。这些供应商面临的挑战是，模型的性能往往高度依赖于这些芯片的软件优化是否可用。你可能需要执行PoC才能了解性能。[heading3]延迟要求：[content]一般来说，对延迟不太敏感的工作负载（例如，批处理数据处理或不需要交互式UI响应的应用程序）可以使用功能较弱的GPU。这可以将计算成本降低多达3-4倍（例如，在AWS上将A100与A10进行比较）。另一方面，面向用户的应用程序通常需要高端GPU卡来提供引人入胜的实时用户体验。优化模型是必要的，以使成本降低到可管理的范围。[heading3]峰值：[content]AI技术是如此新颖和令人兴奋，生成式AI公司的需求经常急剧上升，新产品一经发布，请求量每天增加10倍，或者每周持续增长50%，这种情况并不罕见。在低端GPU上处理这些峰值通常更容易，因为更多的计算节点可能随时可用。如果这种流量来自于参与度较低或留存率较低的用户，那么以牺牲性能为代价使用较低成本的资源也是有意义的。

你看我这算力如何？（硬件篇）

作者：小鱼干了发布时间：2023-06-30 21:58原文地址：https://mp.weixin.qq.com/s/FTYC4O58xihe6U06B_7x7w微信扫一扫关注该公众号[heading1]算力是什么？[content]算力的字面意思就是计算能力（Computing Power），是随着区块链，AI等概念被反复提及，其实没什么特别的，可以直接转化成GPU就是算力，电脑里的显卡就是GPU，那么算力=显卡可以这样粗暴的理解。哪怕你购买云服务，也是服务商买显卡“租”给你用的意思。而一张显卡除了GPU外，还有一个很重要的参数是显存。GPU：图形处理器（Graphics Processing Unit）又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。CPU：中央处理器（Central Processing Unit）作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。显存：也被叫做帧缓存，它的作用是用来存储显卡芯片处理过或者即将提取的渲染数据。如同计算机的内存一样，显存是用来存储要处理的图形信息的部件。GPU的诞生源自对CPU的减负，使显卡减少了对CPU的依赖，并进行部分原本CPU的工作，尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L（几何转换和光照处理）、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。