AI 使用 GPU 而不是 CPU 主要有以下原因:
在这个案例中利用GPU而不是CPU到底能变得有多快很难说清楚,但是同年《Large-scale Deep Unsupervised Learning using Graphics Processors》这篇论文给出了一个数字:70倍。是的,70倍,这使得数以周记的工作可以被压缩到几天就完成,甚至是一天。之前研发了分散式代码的作者中包括高产的机器学习研究者吴恩达,他逐渐意识到利用大量训练数据与快速计算的能力在之前被赞同学习算法演变愈烈的研究员们低估了。这个想法在2010年的《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》(作者之一J.Schimidhuber正是递归LTSM网络(recurrent LTSM networks)的投资者)中也得到了大力支持,展示了MNIST数据库能够达到令人惊叹的0.35%错误率,并且除去大型神经网络、输入的多个变量、以及有效的反向传播GPU实现以外没有任何特殊的地方。这些想法已经存在了数十年,因此尽管可以说算法的改进并不那么重要,但是结果确实强烈表明大型训练数据集与快速腭化计算的蛮力方法是一个关键。Dahl与Mohamed利用GPU打破记录是一个早期且相对有限的成功,但是它足以激励人们,并且对这两人来说也为他们带来了在微软研究室实习的机会。在这里,他们可以享受到那时已经出现的计算领域内另一个趋势所带来的益处:大数据。这个词语定义宽松,在机器学习的环境下则很容易理解——大量训练数据。大量的训练数据非常重要,因为没有它神经网络仍然不能做到很好——它们有些过拟合了(完美适用于训练数据,但无法推广到新的测试数据)。这说得通——大型神经网络能够计算的复杂度需要许多数据来使它们避免学习训练集中那些不重要的方面——这也是过去研究者面对的主要难题。因此现在,大型公司的计算与数据集合能力证明了其不可替代性。这两个学生在三个月的实习期中轻易地证明了深度学习的能力,微软研究室也自此成为了深度学习语音识别研究的前沿地带。
作者:小鱼干了发布时间:2023-06-30 21:58原文地址:https://mp.weixin.qq.com/s/FTYC4O58xihe6U06B_7x7w微信扫一扫关注该公众号[heading1]算力是什么?[content]算力的字面意思就是计算能力(Computing Power),是随着区块链,AI等概念被反复提及,其实没什么特别的,可以直接转化成GPU就是算力,电脑里的显卡就是GPU,那么算力=显卡可以这样粗暴的理解。哪怕你购买云服务,也是服务商买显卡“租”给你用的意思。而一张显卡除了GPU外,还有一个很重要的参数是显存。GPU:图形处理器(Graphics Processing Unit)又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。CPU:中央处理器(Central Processing Unit)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。显存:也被叫做帧缓存,它的作用是用来存储显卡芯片处理过或者即将提取的渲染数据。如同计算机的内存一样,显存是用来存储要处理的图形信息的部件。GPU的诞生源自对CPU的减负,使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。
计算复杂度如何转化为时间?处理器内核每个周期通常可以执行1-2条指令,而由于[Dennard Scaling](https://en.wikipedia.org/wiki/Dennard_scaling)的约束,处理器时钟频率在过去15年里一直稳定在3 GHz左右。在不利用任何并行架构的情况下,执行单个GPT-3的推理操作需要大约350 TFLOPs/(3 GHz*1 FLOP)或116000秒,即32小时。这非常不切实际,我们需要专门的芯片来加速这个任务。实际上,当今所有AI模型都在使用了大量专用芯片的GPU卡上运行。例如,NVIDIA A100 GPU有512个“张量核心”,它们可以在一个周期内执行一个4×4矩阵乘法(相当于64次乘法和加法,或128 FLOPs)。AI加速卡通常被称为GPU(图形处理单元),因为这种架构最初是为桌面游戏开发的。未来,我们预计AI将增长成为一个独立的产品系列。A100的标称性能为312 TFLOPs,理论上可以将GPT-3的推理时间缩短到大约1秒。然而,这是一个过于简化的计算,原因如下:首先,对于大多数用例,瓶颈不是GPU的计算能力,而是将数据从专用的图形内存传输到张量核心的能力。其次,1750亿个权重占用了700GB的空间,无法放入任何GPU的图形内存中。需要使用分区和权重流等技术。第三,有许多优化方法(例如,使用较短的浮点表示,如FP16、FP8或稀疏矩阵)用于加速计算。总体而言,上述数字让我们对当今LLMs的总体计算成本有了直观的了解。