Chat with Wiki - 所以我可以理解为CNN是一种图像分类识别的AI算法技术吗

Answer

卷积神经网络（CNN）是一种用于图像分类识别的 AI 算法技术。

ImageNet 成为深度神经网络革命的首选数据集，其中由 Hinton 领导的 AlexNet 就是基于卷积神经网络（CNN）。自 2012 年以来，在深度学习理论和数据集的支持下，深度神经网络算法大爆发，包括卷积神经网络（CNN）等。

连接主义的全面逆袭从 2012 年开始，欣顿教授和他的学生建立的 AlexNet 就是使用反向传播算法训练的卷积神经网络（CNN），其在图像识别方面击败了当时最先进的逻辑程序。

虽然 CNN 模型取得了显著成果并解决了许多问题，但也存在一些缺陷，如不能从整幅图像和部分图像识别出姿势、纹理和变化，池化操作导致模型不具备等变、丢失很多信息，需要更多训练数据来补偿损失，更适合像素扰动极大的图像分类，对某些不同视角的图像识别能力相对较差。因此，在 2011 年，Hinton 和他的同事们提出了胶囊网络（CapsNet）作为 CNN 模型的替代。

Content generated by AI large model, please carefully verify (powered by aily)

References

机器之心的进化 / 理解 AI 驱动的软件 2.0 智能革命

该数据集对研究人员非常有用，正因为如此，它变得越来越有名，为最重要的年度DL竞赛提供了基准。仅仅七年时间，ImageNet让获胜算法对图像中的物体进行分类的准确率从72%提高到了98%，超过了人类的平均能力。ImageNet成为DL革命的首选数据集，更确切地说，是由Hinton领导的AlexNet卷积神经网络（CNN-Convolution Neural Networks）的数据集。ImageNet不仅引领了DL的革命，也为其他数据集开创了先例。自其创建以来，数十种新的数据集被引入，数据更丰富，分类更精确。神经网络大爆发在Deep Learning理论和数据集的加持下，2012年以来深度神经网络算法开始大爆发，卷积神经网络（CNN）、递归神经网络（RNN-Recurrent Neural Network）和长短期记忆网络（LSTM-Long Short-Term Memory）等等，每一种都有不同的特性。例如，递归神经网络是较高层的神经元直接连接到较低层的神经元。来自日本的计算机研究员福岛邦彦（Kunihiko Fukushima）根据人脑中视觉的运作方式，创建了一个人工神经网络模型。该架构是基于人脑中两种类型的神经元细胞，称为简单细胞和复杂细胞。它们存在于初级视觉皮层中，是大脑中处理视觉信息的部分。简单细胞负责检测局部特征，如边缘；复杂细胞汇集了简单细胞在一个区域内产生的结果。例如，一个简单细胞可能检测到一个椅子的边缘，复杂细胞汇总信息产生结果，通知下一个更高层次的简单细胞，这样逐级识别得到完整结果。配图05：深度神经网络如何识别物体（TensorFlow）

让机器理解世界 / GPT 时代人类再腾飞·译者序

采访中，欣顿教授透露，因为不愿意接受五角大楼的资助，在20世纪80年代，他辞去了卡内基梅隆大学计算机科学教授的工作，只身前往加拿大多伦多大学，继续从事神经网络的研究。欣顿教授对AI领域最大的贡献是一种叫作反向传播（[Backpropagation](https://en.wikipedia.org/wiki/Backpropagation?ref=indigox.me)）的算法，这是他与两位同事在20世纪80年代中期首次提出的，这项技术让人工的神经网络实现了“学习”，如今它几乎是所有机器学习模型的基石。简而言之，这是一种反复调整人工神经元之间连接权重的方法，直到神经网络产生能达到预期的输出。连接主义的全面逆袭从2012年开始，那年欣顿教授和他在多伦多大学的两名学生伊尔亚·苏茨克维（[Ilya Sutskever](https://en.wikipedia.org/wiki/Ilya_Sutskever?ref=indigox.me)）和亚历克斯·克里切夫斯基（[Alex Krishevsky](https://en.wikipedia.org/wiki/Alex_Krizhevsky?ref=indigox.me)）建立了一个神经网络——[AlexNet](https://en.wikipedia.org/wiki/AlexNet?ref=indigox.me)，可以分析成千上万张照片，并教会人们识别常见的物体，如花、狗和汽车。使用反向传播算法训练的卷积神经网络（[Convolution Neural Networks](https://en.wikipedia.org/wiki/Convolutional_neural_network?ref=indigox.me)，CNN）在图像识别方面击败了当时最先进的逻辑程序，几乎使以前的错误率降低了一半。从2012年到现在，深度神经网络的使用呈爆炸式增长，进展惊人。现在机器学习领域的大部分研究都集中在深度学习方面，人类第一次开启了AI的潘多拉魔盒！

学习Hinton老爷子的胶囊网络，这有一篇历史回顾与深度解读

虽然CNN模型的提出取得了显著的成果并解决了许多问题，但是它在某些方面还是存在许多缺陷。CNN最大的缺陷就是它不能从整幅图像和部分图像识别出姿势，纹理和变化。具体来说，由于CNN中的池化操作使得模型具有了空间不变性，因此模型就不具备等变(equivariant).如下图所示，CNN会把第一和第二幅图都识别为人脸，而把第三幅方向翻转的图识别为不是人脸。另外，池化操作使得特征图丢失了很多信息，它们因此需要更多训练数据来补偿这些损失。就特点上而言，CNN模型更适合那些像素扰动极大的图像分类，但是对某些不同视角的图像识别能力相对较差。图1.识别示意图。图源：https://www.spiria.com/en/blog/artificial-intelligence/deep-learning-capsule-network-revolution/因此，在2011年，Hinton和他的同事们提出了胶囊网络(CapsNet)作为CNN模型的替代。胶囊具有等变性并且输入输出都是向量形式的神经元而不是CNN模型中的标量值[1]。胶囊的这种特征表示形式可以允许它识别变化和不同视角。在胶囊网络中，每一个胶囊都由若干神经元组成，而这每个神经元的输出又代表着同一物体的不同属性。这就为识别物体提供了一个巨大的优势，即能通过识别一个物体的部分属性来识别整体。