卷积神经网络,也称卷积网络(术语“神经”具有误导性),使用卷积层来过滤输入以获取有用信息。卷积层具有学习的参数,能自动调整滤波器以提取对应任务的最有用信息,例如在一般目标识别中过滤对象形状信息,在鸟类识别中提取颜色信息。通常多个卷积层用于在每一层之后过滤图像以获得越来越多的抽象信息。
卷积网络通常也使用池层,以获得有限的平移和旋转不变性,还能减少内存消耗,从而允许使用更多的卷积层。
最近的卷积网络使用初始模块,它使用 1×1 卷积核来进一步减少内存消耗,同时加快计算速度。
1998 年,Yann LeCun 和他的合作者开发了 LeNet 的手写数字识别器,后来正式命名为卷积神经网络。它在前馈网中使用反向传播,被用于读取北美地区约 10%的支票。卷积神经网络可用于从手写数字到 3D 物体的与物体识别有关的所有工作。
在 ImageNet 2012 年的 ILSVRC 竞赛中,来自多个机构的先进计算机视觉小组将已有的最好计算机视觉方法应用于包含约 120 万张高分辨率训练图像的数据集。
卷积神经网络,或优选卷积网络或卷积网络(术语“神经”具有误导性;另请参见[人工神经元](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#artificial-neuron))使用卷积[层](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#layer)(参见[卷积](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#%E5%8D%B7%E7%A7%AF)),它过滤输入以获取有用信息。这些卷积层具有学习的参数,以便自动调整这些滤波器以提取手头任务的最有用信息(参见特征学习)。例如,在一般的目标识别任务中,过滤有关对象形状的信息(对象通常具有非常不同的形状),而对于鸟类识别任务,它更适合于提取有关鸟的颜色的信息(大多数鸟的形状相似,但颜色不同);这里的颜色更能区分鸟类)。卷积网络会自动调整以找到这些任务的最佳特征。通常,多个卷积层用于在每一层之后过滤图像以获得越来越多的抽象信息(参见层次特征)。卷积网络通常也使用池层(见[联营](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#%E8%81%94%E8%90%A5)),以获得有限的平移和旋转不变性(即使对象出现在不寻常的地方也能检测到)。池化还可以减少内存消耗,从而允许使用更多的卷积层。
最近的卷积网络使用初始模块(见[开端](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#%E5%BC%80%E7%AB%AF)),它使用1×1卷积核来进一步减少内存消耗,同时加快计算速度(从而提高训练速度)。图5:一个交通标志的图像被4个5×5的卷积核过滤,生成4个特征图,这些特征图通过最大池化进行二次采样。下一层将10个5×5的卷积核应用于这些子采样图像,并再次将特征映射集中在一起。最后一层是一个完全连接的层,在这里所有生成的特征被组合并用于分类器(本质上是logistic回归)。图像由[莫里斯·皮曼](http://parse.ele.tue.nl/mpeemen)提供。附加材料:[课程:机器学习的神经网络:用神经网络识别物体](https://www.youtube.com/playlist?list=PLnnr1O8OWc6YLZzLoHzX2q5c2wWMOIUZy)。
1998年,Yann LeCun和他的合作者开发了LeNet的手写数字识别器。它在前馈网中使用反向传播,这个前馈网络不仅仅是一个识别器,它有许多隐藏层,每个层有许多复制单元的映射,汇集附近复制单元的输出,有一个即使重叠也能够同时处理几个字符的宽网,以及训练一套完整的系统的巧妙方式。后来正式命名为卷积神经网络。一个有趣的事实是:这个网络被用来读取北美地区约10%的支票。卷积神经网络可用于从手写数字到3D物体的与物体识别有关的所有工作。但是,从网下载的彩色照片中识别真实物体要比识别手写数字复杂得多。它百倍于手写数字的类别(1000:10),数百倍于手写数字的像素(256×256色:28×28灰度),是三维场景的二维图像,需要分割混乱场景,而且每个图片有多个对象。这样的情况下,相同类型的卷积神经网络会起作用吗?之后在ImageNet 2012年的ILSVRC竞赛(这个比赛被誉为计算机视觉的年度奥林匹克竞赛)中,题目是一个包含大约120万张高分辨率训练图像的数据集。测试图像不显示初始注释(没有分割或标签),算法要产生指定图像中存在什么对象的标签。来自Oxford、INRIA、XRCE等机构的先进计算机视觉小组用已有的最好计算机视觉方法应用于这个数据集。通常计算机视觉系统是复杂的多级系统,往往需要在早期阶段通过手动调参来优化。