以下是 A800、H100、A10、H800 这 4 个显卡在能力上的一些差异:
在训练与推理方面:
在内存要求方面:
需要注意的是,决定选择哪种 GPU 主要是一个技术决策,需要根据具体应用来确定最具成本效益的选择。
正如我们在上文第一节看到的,训练Transformer模型除了模型权重外,还需要存储8字节的数据用于训练。这意味一个内存12GB的典型高端消费级GPU几乎无法用于训练40亿参数的模型。实际上,训练大型模型是在机器集群上完成的,最好是每台服务器有多个GPU、大量VRAM以及服务器之间的高带宽连接(即使用顶级数据中心GPU构建的集群)。具体来说,许多模型在NVIDIA H100上最具成本效益,但截至今天很难找到在NVIDIA H100上运行的模型,而且通常需要一年以上的长期合作承诺。如今,更多的选择是在NVIDIA A100上运行大多数模型训练,但对于大型集群,仍需要长期承诺。[heading3]内存要求:[content]大型LLM的参数数量太多,任何卡都无法容纳。它们需要分布到多个卡中,并且需要类似于训练的设置。换句话说,即使进行LLM推理,您也可能需要H100或A100。但是较小的模型(例如Stable Diffusion)需要的VRAM要少得多。虽然A100仍然很受欢迎,但我们已经看到初创公司使用A10,A40,A4000,A5000和A6000,甚至RTX卡。
[title]周鸿祎免费课AI系列第二讲-企业如何拥抱AI[heading1]THINK DIFFERENT——大模型发展并非只有一条路,除了越做越大,还能越做越专[heading2]企业大模型要走“越来越专”的路那么如果我们提出这样的要求,我们就发现我们所有的问题就得到了一个很满意的解答。我只要不追求这个大模型,又会写诗,又会翻译,还又能解数学题,还能够写营销文章,还能作画。我们过去通用大模型是给我们一个幻觉,觉得我大模型就该做这么多事,对吧?但实际上我们仔细的分析到,现在如果我们对大模型的要求放低,像我就降低对自己的期望,我就没有那么大压力。所以如果做一个垂直场景的专有技能的模型,不需要千亿万亿的参数,那个参数就浪费百亿,十亿的参数就够用。最近出现的一些新的大模型大概都是在几十亿到百亿这个参数,现在大家已经流行的是说看谁能用更小,用少的参数实现那些过去千亿模型才能实现的能力。所以说的夸张点,不需要H800,不需要H100,也不需要A800,也不需要A100。最极端上单机,单卡弄张消费机显卡30903080这RTX显卡就可以用。所以从这一点来说,把大模型从原子弹的地位上,在我们企业路线把它变成了茶叶蛋,就是人人都吃得起,那自然对算力的要求降到极低。不需要投入几千万上亿资金,百万、十万就可以,中小企业都用得起注意大家模型的成本和复杂度是指数级的参数,小十倍可不意味着算力小十倍,算力和成本可能会小几百倍,所以不需要再投入几千万或者上亿的资金,百万甚至说几十万也别写十万,十万太低了,我们还要挣点钱吗?百万、几十万就可以,所以我认为中小企业都用得起,所以这是我们这大半年来实践的一个结论。不需要面面俱到的能力,不需要等GPT5,GPT3.5级别就够用,现在就可以拥抱大模型
在大多数情况下,云是AI基础设施的合适之选。对大多数创业公司和大公司,较少的前期成本、规模可伸缩性、区域可用性以及减少构建自己数据中心的干扰都极具吸引力。但也有一些例外:如果你的运营规模非常大,那么运行自己的数据中心可能会更具成本效益。具体的成本根据地理位置和设置而异,但通常每年需要超过5000万美元的基础设施支出。你需要非常特定的硬件,无法从云提供商那里获得。例如,未广泛使用的GPU类型,以及不寻常的内存、存储或网络需求。你无法找到一个符合地缘政治考虑的云。如果你确实想建立自己的数据中心,可针对自己的设置进行全面的GPU价格/性能分析(例如Tim Dettmer的分析)。除了GPU本身的成本和性能外,硬件选择还取决于功率、空间和冷却需求。例如,两张RTX 3080 Ti卡的原始计算能力与A100相当,但各自的功耗分别为700W和300W。在三年生命周期内,以0.10美元/千瓦时的市场价格计算,3,500千瓦时的功率差异将使RTX3080 Ti的成本增加近2倍(约1000美元)。尽管如此,我们预计绝大多数创业公司都会使用云计算。