深度学习是一个源于新方法和策略的领域,旨在克服梯度消失问题以生成深层非线性特征层次,从而能够训练具有数十层非线性层次特征的体系结构。2010 年早期的研究表明,结合 GPUs 和激活函数能提供更好的梯度流以训练深层结构,此后人们对深度学习的兴趣日益增长。
深度学习不仅与学习深度非线性层次特征有关,还与学习检测序列数据中非常长的非线性时间依赖性有关。长短时记忆循环神经网络允许网络收集过去几百个时间步的活动以做出准确预测,自 2013 年以来其使用量迅速增长,与卷积网络一起构成了深度学习的两大成功案例之一。
在分层特征学习中,提取多层非线性特征传递给分类器进行预测。由于无法从几层中学习复杂特性,需叠加深层次非线性特征,有研究表明人脑也有类似机制。虽然分层特征学习在深度学习之前就被使用,但此前的架构面临梯度消失问题,导致性能较差。
Geoffrey Hinton 一步步把“深度学习”从边缘课题变成了 Google 等网络巨头仰赖的核心技术。早在 1960 年代高中时期,Hinton 就对大脑工作原理的相关理论着迷,此后在求学期间继续探索神经网络。经过三十多年的努力,深度学习成为学术界热门课题,Hinton 和包括 Yann LeCun、Yoshua Bengio 在内的团队在互联网上大有名气,他们为 Google、Facebook 等工作,使用深度学习技术改进语音识别、图像标记等在线工具,众多网络巨头也对其着迷。在剑桥大学学习期间,Hinton 发现科学家们未真正理解大脑,神经如何学习和计算是他关心的问题。
“深度学习”一词源于新的方法和策略,这些方法和策略旨在通过克服梯度消失的问题来生成这些深层的非线性特征层次,以便我们可以训练具有数十层非线性层次特征的体系结构。在2010年早期,有研究表明,结合GPUs和[激活函数](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#activation-function)提供更好的梯度流,足以在没有重大困难的情况下训练深层结构。从这里开始,人们对深入学习的兴趣与日俱增。深度学习不仅与学习深度非线性层次特征有关,还与学习检测序列数据中非常长的非线性时间依赖性有关。虽然大多数其他处理顺序数据的算法只有最后10个时间步的内存,[长短时记忆](https://developer.nvidia.com/blog/parallelforall/deep-learning-nutshell-sequence-learning#LSTM)[循环神经网络](https://developer.nvidia.com/blog/parallelforall/deep-learning-nutshell-sequence-learning#recurrent-neural-networks)(由Sepp Hochreiter和Jürgen-Schmidhuber在1997年发明)允许网络收集过去几百个时间步的活动,从而做出准确的预测。虽然LSTM网络在过去10年中大多被忽视,但自2013年以来,LSTM网络的使用量迅速增长,与卷积网络一起构成了深度学习的两大成功案例之一。
在分层[特征学习](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#feature-learning)中,我们提取多层非线性特征并将其传递给一个分类器,该分类器将所有特征组合起来进行预测。我们感兴趣的是将这些非常深层次的非线性特征叠加起来,因为我们无法从几层中学习复杂的特性。从数学上可以看出,对于图像来说,单个图层的最佳特征是边缘和斑点,因为它们包含了我们可以从单个非线性变换中提取的大部分信息。为了生成包含更多信息的特征,我们不能直接对输入进行操作,但是我们需要再次转换我们的第一个特征(边缘和斑点),以获得包含更多信息的更复杂的特征,以区分类。有研究表明,人脑做的是完全相同的事情:在视觉皮层接收信息的第一层神经元对特定的边缘和斑点很敏感,而视觉管道下游的大脑区域则对更复杂的结构(如脸部)敏感。虽然分层特征学习在领域深度学习存在之前就被使用了,但是这些架构面临着诸如消失[梯度](https://developer.nvidia.com/blog/parallelforall/deep-learning-nutshell-history-training#stochastic-%E6%A2%AF%E5%BA%A6-descent)问题,其中梯度变得太小,无法为非常深的层提供学习信号,因此,与浅层学习算法(如支持向量机)相比,这些体系结构的性能较差。
王晨推荐早在1960年代,Geoffrey Hinton的高中时期,就有一个朋友告诉他,人脑的工作原理就像全息图一样。创建一个3D全息图,需要大量的记录入射光被物体多次反射的结果,然后将这些信息存储进一个庞大的数据库中。大脑储存信息的方式居然与全息图如此类似,大脑并非将记忆储存在一个特定的地方,而是在整个神经网络里传播。Hinton为此深深的着迷。对Hinton来说,这是他人生的关键,也是他成功的起点。“我非常兴奋,”他回忆到,“那是我第一次真正认识到大脑是如何工作的”。在高中时代谈话的鼓舞之下,Hinton在他的求学期间,在剑桥大学以及爱丁堡大学继续他的神经网络的探索。在80年代早期,他就参与了一个雄心勃勃的关于使用计算机的软硬件来模拟大脑的研究,这形成了早期的AI的一个分支,也就是我们现在所说的“深度学习”。三十多年的努力,深度学习已成为学术界炙手可热的课题。现如今,Hinton和他的深度学习小团队,包括纽约大学的Yann LeCun教授,蒙特利尔大学的Yoshua Bengio教授,在互联网上已然大有名气。作为多伦多大学的教授和研究员,Hinton也同时为Google工作,使用深度学习技术来改进语音识别,图像标记和其他在线工具。LeCun也在Facebook从事类似的工作。AI风靡全球,微软,IBM,百度和许多网络巨头都为之着迷。在剑桥大学的心理学专业的本科学习当中,Hinton发现,科学家们并没有真正理解大脑。人类大脑有数十亿个神经细胞,它们之间通过神经突触相互影响,形成极其复杂的相互联系。然而科学家们并不能解释这些具体的影响和联系。神经到底是如何进行学习以及计算的,对于Hinton,这些正是他所关心的问题。