直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

GPU如何选

回答

以下是关于如何选择 GPU 的一些指导:

在腾讯云购买 GPU 的流程

  1. 在腾讯云首页的搜索框搜索“GPU”,在搜索结果中点击「立即选购」。
  2. 选择有空余的机器,若账户没钱可能需要充钱,云平台有时会有免费活动。计费模式建议选择「按量计费」,地域尽量选择本地城市或较近城市,以减少访问延时。
  3. 配置方面,如果使用时长不长或资金充裕,可选择顶配。要记住选择的 GPU 型号和系统镜像版本,后续安装驱动会用到。系统镜像选择 Windows 的,尽量选择 2016 版本以上。系统盘容量建议大于 50GB,最好 100GB 左右。
  4. 设置好系统和镜像后,其他选项按默认即可,点击进入「设置网络和主机」。带宽计费模式选择「按流量计费」。
  5. GPU 服务器的密码需自己设置并记住,访问时需要输入。其他信息选择默认,点击「确认配置信息」,勾选阅读协议,点击「开通」并确认即可完成购买。

选择 GPU 时的考虑因素

  1. 训练与推理:训练大型模型通常在机器集群上完成,最好每台服务器有多个 GPU、大量 VRAM 以及高带宽连接。许多模型在 NVIDIA H100 上最具成本效益,但较难获取且通常需要长期合作承诺。如今更多选择在 NVIDIA A100 上运行大多数模型训练,但对于大型集群仍需长期承诺。
  2. 内存要求:大型 LLM 的参数数量多,需要分布到多个卡中。较小的模型如 Stable Diffusion 需要的 VRAM 较少,初创公司也会使用 A10、A40、A4000、A5000 和 A6000 甚至 RTX 卡。

算力相关: GPU 的强大决定了生图和训练的效率,越强大的算力在生图(推理)和训练上消耗的时间越短。显存在生图过程决定了直接推理的图片大小,在训练时受制于训练工具的要求,显存容量是门槛。选择算力时需要综合 GPU 性能和显存大小两个参考维度。由于需要使用 CUDA 加速,显卡大概率只能选择 NVIDIA 的。至于买哪个型号的显卡,取决于预算和对算力换算成时间的忍耐度。可参考相关性能测试报告:https://docs.google.com/spreadsheets/d/1Zlv4UFiciSgmJZncCujuXKHwc4BcxbjbSBg71-SdeNk/edit#gid=0

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

2. SD云端部署

类似你的电脑,只不过是在云服务器上提供给你用。[heading3]2.1在腾讯云首页,搜索框搜索“GPU”,搜索结果中,如图点击「立即选购」[heading3]2.2选择你「中意」的还有空余的机器,购买即可[content]如果账户没钱会需要充钱,不过云平台有时候会搞免费活动,类似赠送一定时长的机器体验,这个就得碰运气,然后逮着机会薅羊毛了~计费模式上建议选择「按量计费」,地域上尽量选择你本地城市或者离你较近的城市,因为你需要通过网络远程连接云端的机器,近点访问延时更少~配置上(上图黄色部分),如果使用时长不长或者资金充裕,可以选择顶配,越高的配置,训图炼丹都会更「爽」~另外,这里需要记住你选择的GPU型号,后边安装驱动要用到。(上图红色部分)系统镜像这里选择Windows的,因为后续我们要用的秋叶Web UI包是基于Windows的,这里尽量选择Windows 2016版本以上的,另外这里需要记住你选择的镜像版本,后边安装驱动要用到。系统盘容量建议选择大于50GB,最好是100 GB左右(多了价格也高~),因为算上操作系统,以及SD包,再加几个大模型,50GB就满了。系统和镜像设置好后,其他选项按默认即可,点击进入「设置网络和主机」。带宽计费模式选择「按流量计费」,这样更省钱~其他信息都无需修改,按默认配置即可;GPU服务器的密码需要自己设置并记住,访问的时候都需要输入。其他信息选择默认的即可,点击「确认配置信息」。勾选阅读协议,点击「开通」并确认后即完成GPU购买。

惊人算力成本背后,AI混战下如何选择基础设施?

在其他条件相同的情况下,顶级GPU在几乎所有工作负载上都会表现最佳。然而,正如下表所示,最好的硬件也要昂贵得多。根据具体应用选择合适的GPU可以大大降低成本,也可能使你的商业模式从不可行变为可行。决定要往下走多远——也就是说,确定对你的应用来说最具成本效益的GPU选择——主要是一个技术决策,超出了本文的讨论范围。但我们将在下面分享一些我们认为最重要的选择标准:[heading3]训练与推理:[content]正如我们在上文第一节看到的,训练Transformer模型除了模型权重外,还需要存储8字节的数据用于训练。这意味一个内存12GB的典型高端消费级GPU几乎无法用于训练40亿参数的模型。实际上,训练大型模型是在机器集群上完成的,最好是每台服务器有多个GPU、大量VRAM以及服务器之间的高带宽连接(即使用顶级数据中心GPU构建的集群)。具体来说,许多模型在NVIDIA H100上最具成本效益,但截至今天很难找到在NVIDIA H100上运行的模型,而且通常需要一年以上的长期合作承诺。如今,更多的选择是在NVIDIA A100上运行大多数模型训练,但对于大型集群,仍需要长期承诺。[heading3]内存要求:[content]大型LLM的参数数量太多,任何卡都无法容纳。它们需要分布到多个卡中,并且需要类似于训练的设置。换句话说,即使进行LLM推理,您也可能需要H100或A100。但是较小的模型(例如Stable Diffusion)需要的VRAM要少得多。虽然A100仍然很受欢迎,但我们已经看到初创公司使用A10,A40,A4000,A5000和A6000,甚至RTX卡。

你看我这算力如何?(硬件篇)

GPU的强大主要决定了生图和训练的效率,也就是越强大的算力在生图(推理)和训练上消耗的时间就越短。显存在生图过程决定了我们直接推理的图片大小(尺寸),同GPU一样,在训练的时候又受制于训练工具的要求显存的容量决定了行还是不行,是门槛。所以在选择算力的时候我们需要综合GPU性能和显存大小2个参考维度。先看windows平台的电脑需要什么样的算力。如果你拥有windows平台的个人电脑更容易加入这个party。但也并不是说别的平台就只能喝西北风,后面有讲。[heading1]只推荐Nvidia显卡[content]因为需要使用到CUDA加速,所以显卡大概率只能选择英伟NVIDIA的,AMD的可以不可以,可以,但是很慢很慢(上面对GPU和CPU的原理介绍发现也可以不用显卡用CPU跑图,就是速度极~~慢)至于买哪个型号的显卡,这个主要取决于你的预算和对算力换算成时间的忍耐度了。下面有一张表,可以按需获取。这里有一张可能不太具备时效性的表,仅作参考。各种显卡的稳定扩散性能测试报告(需要科学🕸️)https://docs.google.com/spreadsheets/d/1Zlv4UFiciSgmJZncCujuXKHwc4BcxbjbSBg71-SdeNk/edit#gid=0

其他人在问
国内有哪些gpu算力平台,支持快速搭建AI大模型预训练环境 和 微调环境
国内的 GPU 算力平台中,支持快速搭建 AI 大模型预训练环境和微调环境的有: 1. 阿里云:提供云计算资源,用户可根据需求租用算力服务。 2. 腾讯云:具备相应的算力支持,为用户提供灵活的选择。 3. 亚马逊 AWS:基础设施提供商建立的“算力集市”,可满足用户的算力需求。 在搭建环境时,通常需要考虑以下步骤: 1. 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、公共云服务商部署等,根据自身的资源、安全和性能需求进行选择。 2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础,例如可以使用开源的预训练模型如 BERT、GPT 等,也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。 5. 部署和调试模型,将训练好的模型部署到生产环境,并对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 此外,英伟达还发布了统一的超算平台 DGX B200,用于 AI 模型训练、微调和推理。它包括 8 个 Blackwell GPU 和 2 个第五代 Intel Xeon 处理器,包含 FP4 精度功能,提供高达 144 petaflops 的 AI 性能、1.4TB 的 GPU 内存和 64TB/s 的内存带宽。但模型训练能耗也是一个关键问题,例如由 8 张 A100 GPU 组成的 DGX 服务器,最大功率达到 6.5 千瓦,运行一小时就会消耗 6.5 度电,若有 1000 台这样的服务器同时运行,每天的电费将达到惊人的 20 万元。
2024-12-14
gpu算力平台
以下是关于 GPU 算力平台的相关信息: NVIDIA 推出全新 GPU 平台 Blackwell,涵盖与 Hopper 兼容的普通系统和与 Grace CPU 连接的专用系统,提供前所未有的算力,有望突破物理极限,为互联网产业注入新动力。配备第五代 NV Link 的全新 Transformer 引擎速度惊人,新型超算的高速运转离不开早期问题检测和替换机制,数据加密也至关重要。全新的 FP8 格式大幅提升计算速度,NVLink 交换芯片实现所有 GPU 同时全速通信,直接驱动铜技术的突破让系统更加经济实惠。训练一个 1.8 万亿参数的 GPT 模型,Blackwell 相比传统方法优势明显,AWS、GCP、Oracle、微软纷纷为 Blackwell 做好准备。Blackwell 惊人的推理能力是 Hopper 的 30 倍,有望成为未来生成式 AI 的核心引擎。 能耗是模型训练的关键问题,一台由 8 张 A100 GPU 组成的 DGX 服务器性能强劲但能耗惊人,运行一小时消耗约 6.5 度电,包括散热每小时约消耗 13 度电。若有 1000 台这样的服务器同时运行,每天电费达 20 万元。对于大多数 AI 创业公司,大规模购买和部署 GPU 充满风险和挑战,但云服务平台为 AI 公司提供了灵活选择。 英伟达发布统一的超算平台 DGX B200,用于 AI 模型训练、微调和推理。它包括 8 个 Blackwell GPU 和 2 个第五代 Intel Xeon 处理器,包含 FP4 精度功能,提供高达 144 petaflops 的 AI 性能、1.4TB 的 GPU 内存和 64TB/s 的内存带宽,使得万亿参数模型的实时推理速度比上一代产品提高 15 倍。目前,亚马逊、谷歌、微软已成为最新芯片超算的首批用户,亚马逊网络服务将建立一个拥有 20,000 GB200 芯片的服务器集群。
2024-12-14
AI 评估 GPU 大模型的性能指标,包括输入 token 和输出 token 能力的区分。
以下是关于 AI 评估 GPU 大模型性能指标中输入 token 和输出 token 能力区分的相关内容: 大模型是通过输入大量语料进行训练,从而获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。在大模型的训练和使用过程中: 1. 训练需要大量计算,GPU 更合适,只有具备大量 GPU 的才有资本训练大模型。 2. 大模型需要大量数据量,几千亿序列(Token)的输入基本是标配。 3. 要用合适的算法让大模型更好理解 Token 之间的关系。 4. 为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 完成上述步骤后,大模型就可以进行如翻译、问答等推导(infer)工作。 Token 是大模型语言体系中的最小单元,人类语言发送给大模型时,会先转换为其自身语言,推理生成答案后再翻译输出。不同厂商的大模型对中文的文本切分方法不同,通常 1Token 约等于 1 2 个汉字。大模型的收费计算方法以及对输入输出长度的限制,都是以 token 为单位计量的。 在评估 GPU 大模型性能时,显卡的常规指标很重要。大部分模型默认采用 FP16 的加载方式,因此显卡的性能指标主要关注 FP16 的算力和显存大小。算力影响推理速度,包括输入数据处理和持续吐出数据的速度,会体现在从提示词输入后到第一个输出的 token 的等待时间间隔,以及流式输出下每秒吐字的字数,通常每秒 10 token 以上能获得较好的用户体验。显存大小影响能否装载模型,可通过“参数大小乘 2”简化判断所需显存大小,但实际显存需求还会受其他因素影响。
2024-12-05
必须知道的最常用的名词解释比如GPU、AGI等等、列举出来按照重点排序
以下是按照重点排序的一些常用名词解释: 1. 算力:字面意思是计算能力,可简单理解为 GPU,即电脑里的显卡,购买云服务时,服务商也是购买显卡“租”给用户使用。一张显卡除了 GPU 外,显存也是重要参数。 2. GPU:图形处理器,又称显示核心、视觉处理器、显示芯片,是在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器。 3. CPU:中央处理器,作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。 4. 显存:也被叫做帧缓存,作用是存储显卡芯片处理过或者即将提取的渲染数据,如同计算机的内存,是用来存储要处理图形信息的部件。
2024-09-13
租赁gpu平台
以下是关于租赁 GPU 平台的相关信息: 部署流程: 1. 选择有空余的机器并购买。若账户没钱需充值,云平台有时会有免费活动,可碰运气薅羊毛。 2. 计费模式建议选择“按量计费”,地域尽量选择本地城市或较近城市,以减少网络远程连接的延时。 3. 配置方面,若使用时长不长或资金充裕,可选择顶配,越高配置训图炼丹越“爽”。同时需记住选择的 GPU 型号,后续安装驱动会用到。 4. 系统镜像选择 Windows 的,尽量选择 2016 版本以上,并记住镜像版本,后续安装驱动要用。 5. 系统盘容量建议大于 50GB,最好 100GB 左右,因算上操作系统、SD 包和几个大模型,50GB 可能会满。 6. 系统和镜像设置好后,其他选项按默认即可,点击进入“设置网络和主机”。 7. 带宽计费模式选择“按流量计费”更省钱,其他信息按默认配置即可。 算力相关知识: 算力的字面意思是计算能力,可直接转化为 GPU 理解,电脑里的显卡就是 GPU。一张显卡除了 GPU 外,显存也是重要参数。GPU 是一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器。CPU 是计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。显存用于存储显卡芯片处理过或即将提取的渲染数据,如同计算机的内存,是存储要处理图形信息的部件。 购买服务器推荐: 因为个人机器可能带不动大模型,可选择 Autodl 这个算力服务商。访问地址:,自行注册或登陆。
2024-08-15
autodl如何解决时常出现的,实例GPU被占用导致需要更改实例时,数据的转移复制问题,怎样提高效率
很抱歉,目前知识库中没有关于 autodl 在实例 GPU 被占用导致需要更改实例时数据转移复制问题及提高效率的相关内容。但一般来说,您可以考虑以下几种可能的解决方法: 1. 提前规划和备份:在可能出现 GPU 占用需要更改实例的情况前,提前对重要数据进行备份,以便在需要时快速恢复。 2. 优化数据存储结构:采用更高效的数据存储方式,减少数据转移复制的时间和工作量。 3. 利用数据同步工具:寻找适合的专业数据同步工具,提高数据转移的效率和准确性。 4. 监控和预警:建立有效的监控机制,及时发现 GPU 占用情况,并提前做好数据转移的准备工作。 以上建议仅供参考,您可以根据实际情况进行尝试和调整。
2024-08-15