神经网络和深度学习有着丰富的发展历史:
整个研究领域的成熟方法已经迅速被新发现超越,这句话听起来有些夸大其词,就像是说它被「海啸」袭击了一样。但是,这种灾难性的形容的确可以用来描述深度学习在过去几年中的异军突起——显著改善人们对解决人工智能最难问题方法的驾驭能力,吸引工业巨人(比如谷歌等)的大量投资,研究论文的指数式增长(以及机器学习的研究生生源上升)。在听了数节机器学习课堂,甚至在本科研究中使用它以后,我不禁好奇:这个新的「深度学习」会不会是一个幻想,抑或上世纪80年代已经研发出来的「人工智能神经网络」扩大版?让我告诉你,说来话长——这不仅仅是一个有关神经网络的故事,也不仅仅是一个有关一系列研究突破的故事,这些突破让深度学习变得比「大型神经网络」更加有趣,而是一个有关几位不放弃的研究员如何熬过黑暗数十年,直至拯救神经网络,实现深度学习梦想的故事。
[title]深度|神经网络和深度学习简史(第一部分):从感知机到BP算法[heading1]人工智能冬天的复苏文章特别谈到了Minsky在《感知机》中讨论过的问题。尽管这是过去学者的构想,但是,正是这个1986年提出的构想让人们广泛理解了应该如何训练多层神经网络解决复杂学习问题。而且神经网络也因此回来了!第二部分,我们将会看到几年后,《Learning internal representations by error propagation》探讨过的BP算法和其他一些技巧如何被用来解决一个非常重要的问题:让计算机识别人类书写。(待续)参考文献Christopher D.Manning.(2015).Computational Linguistics and Deep Learning Computational Linguistics,41(4),701–707.↩F.Rosenblatt.The perceptron,a perceiving and recognizing automaton Project Para.Cornell Aeronautical Laboratory,1957.↩W.S.McCulloch and W.Pitts.A logical calculus of the ideas immanent in nervous activity.The bulletin of mathematical biophysics,5(4):115–133,1943.↩The organization of behavior:A neuropsychological theory.D.O.Hebb.John Wiley And Sons,Inc.,New York,1949 ↩B.Widrow et al.Adaptive ”Adaline” neuron using chemical ”memistors”.Number Technical Report 1553-2.Stanford Electron.Labs.,Stanford,CA,October 1960.↩“New Navy Device Learns By Doing”,New York Times,July 8,1958.↩Perceptrons.An Introduction to Computational Geometry.MARVIN MINSKY and SEYMOUR PAPERT.M.I.T.Press,Cambridge,Mass.,1969.↩Linnainmaa,S.(1970).The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors.Master’s thesis,Univ.Helsinki.↩
[title]深度学习(2)历史和训练[heading1]历史[heading2]深度学习的简史尽管取得了这些成功,但用于神经网络研究的资金仍然很少。[在人工智能寒冬](https://developer.nvidia.com/blog/deep-learning-nutshell-history-training/#ai-winter)期间,人工智能一词近乎成为伪科学的代名词,该领域仍需一段时间才能恢复。这一时期取得了一些重要的进展,例如,Hochreiter和Schmidhuber在1997年为递归神经网络开发的长短期记忆(LSTM),但是这些进展在Cortes和Vapnik于1995年开发的支持向量机(VCM)面前相形见绌,因此大多数被人们所忽视。下一个重大转变的契机出现在静待计算机变得更快,和接下来引入的图形处理单元(GPU)。仅等待更快的计算机和GPU就可以在10年内将计算速度提高1000倍。在这期间,神经网络逐渐开始与支持向量机相竞争。与支持向量机相比,神经网络可能会慢一些,但是在相同数量的数据下可以获得更好的结果。与简单算法不同,神经网络在有更多训练数据时会持续改进。此时的主要障碍是训练大型、深层的网络,这些网络因遭受梯度消失问题,无法学习早期层的特征,因为没有学习信号到达这些层。解决这个问题的第一个方法是逐层预训练,即通过使用无监督学习以逐层方式构建模型,以便早期层中的特征已经用一些合适的特征进行初始化或“预训练”(权重)。早期层中的预训练特征只需要在监督学习期间略微调整即可获得良好的结果。第一个预训练方法是由Schmidhuber于1992年为递归神经网络开发的,另一个预训练方法是由Hinton和Salakhutdinov于2006年为前馈网络开发的。另一个解决递归神经网络中梯度消失问题的解决方案是于1997年提出的长短期记忆(LSTM)。