卷积神经网络(CNN)是一种用于图像分类识别的 AI 算法技术。
ImageNet 成为深度神经网络革命的首选数据集,其中由 Hinton 领导的 AlexNet 就是基于卷积神经网络(CNN)。自 2012 年以来,在深度学习理论和数据集的支持下,深度神经网络算法大爆发,包括卷积神经网络(CNN)等。
连接主义的全面逆袭从 2012 年开始,欣顿教授和他的学生建立的 AlexNet 就是使用反向传播算法训练的卷积神经网络(CNN),其在图像识别方面击败了当时最先进的逻辑程序。
虽然 CNN 模型取得了显著成果并解决了许多问题,但也存在一些缺陷,如不能从整幅图像和部分图像识别出姿势、纹理和变化,池化操作导致模型不具备等变、丢失很多信息,需要更多训练数据来补偿损失,更适合像素扰动极大的图像分类,对某些不同视角的图像识别能力相对较差。因此,在 2011 年,Hinton 和他的同事们提出了胶囊网络(CapsNet)作为 CNN 模型的替代。
该数据集对研究人员非常有用,正因为如此,它变得越来越有名,为最重要的年度DL竞赛提供了基准。仅仅七年时间,ImageNet让获胜算法对图像中的物体进行分类的准确率从72%提高到了98%,超过了人类的平均能力。ImageNet成为DL革命的首选数据集,更确切地说,是由Hinton领导的AlexNet卷积神经网络(CNN-Convolution Neural Networks)的数据集。ImageNet不仅引领了DL的革命,也为其他数据集开创了先例。自其创建以来,数十种新的数据集被引入,数据更丰富,分类更精确。神经网络大爆发在Deep Learning理论和数据集的加持下,2012年以来深度神经网络算法开始大爆发,卷积神经网络(CNN)、递归神经网络(RNN-Recurrent Neural Network)和长短期记忆网络(LSTM-Long Short-Term Memory)等等,每一种都有不同的特性。例如,递归神经网络是较高层的神经元直接连接到较低层的神经元。来自日本的计算机研究员福岛邦彦(Kunihiko Fukushima)根据人脑中视觉的运作方式,创建了一个人工神经网络模型。该架构是基于人脑中两种类型的神经元细胞,称为简单细胞和复杂细胞。它们存在于初级视觉皮层中,是大脑中处理视觉信息的部分。简单细胞负责检测局部特征,如边缘;复杂细胞汇集了简单细胞在一个区域内产生的结果。例如,一个简单细胞可能检测到一个椅子的边缘,复杂细胞汇总信息产生结果,通知下一个更高层次的简单细胞,这样逐级识别得到完整结果。配图05:深度神经网络如何识别物体(TensorFlow)
采访中,欣顿教授透露,因为不愿意接受五角大楼的资助,在20世纪80年代,他辞去了卡内基梅隆大学计算机科学教授的工作,只身前往加拿大多伦多大学,继续从事神经网络的研究。欣顿教授对AI领域最大的贡献是一种叫作反向传播([Backpropagation](https://en.wikipedia.org/wiki/Backpropagation?ref=indigox.me))的算法,这是他与两位同事在20世纪80年代中期首次提出的,这项技术让人工的神经网络实现了“学习”,如今它几乎是所有机器学习模型的基石。简而言之,这是一种反复调整人工神经元之间连接权重的方法,直到神经网络产生能达到预期的输出。连接主义的全面逆袭从2012年开始,那年欣顿教授和他在多伦多大学的两名学生伊尔亚·苏茨克维([Ilya Sutskever](https://en.wikipedia.org/wiki/Ilya_Sutskever?ref=indigox.me))和亚历克斯·克里切夫斯基([Alex Krishevsky](https://en.wikipedia.org/wiki/Alex_Krizhevsky?ref=indigox.me))建立了一个神经网络——[AlexNet](https://en.wikipedia.org/wiki/AlexNet?ref=indigox.me),可以分析成千上万张照片,并教会人们识别常见的物体,如花、狗和汽车。使用反向传播算法训练的卷积神经网络([Convolution Neural Networks](https://en.wikipedia.org/wiki/Convolutional_neural_network?ref=indigox.me),CNN)在图像识别方面击败了当时最先进的逻辑程序,几乎使以前的错误率降低了一半。从2012年到现在,深度神经网络的使用呈爆炸式增长,进展惊人。现在机器学习领域的大部分研究都集中在深度学习方面,人类第一次开启了AI的潘多拉魔盒!
虽然CNN模型的提出取得了显著的成果并解决了许多问题,但是它在某些方面还是存在许多缺陷。CNN最大的缺陷就是它不能从整幅图像和部分图像识别出姿势,纹理和变化。具体来说,由于CNN中的池化操作使得模型具有了空间不变性,因此模型就不具备等变(equivariant).如下图所示,CNN会把第一和第二幅图都识别为人脸,而把第三幅方向翻转的图识别为不是人脸。另外,池化操作使得特征图丢失了很多信息,它们因此需要更多训练数据来补偿这些损失。就特点上而言,CNN模型更适合那些像素扰动极大的图像分类,但是对某些不同视角的图像识别能力相对较差。图1.识别示意图。图源:https://www.spiria.com/en/blog/artificial-intelligence/deep-learning-capsule-network-revolution/因此,在2011年,Hinton和他的同事们提出了胶囊网络(CapsNet)作为CNN模型的替代。胶囊具有等变性并且输入输出都是向量形式的神经元而不是CNN模型中的标量值[1]。胶囊的这种特征表示形式可以允许它识别变化和不同视角。在胶囊网络中,每一个胶囊都由若干神经元组成,而这每个神经元的输出又代表着同一物体的不同属性。这就为识别物体提供了一个巨大的优势,即能通过识别一个物体的部分属性来识别整体。