SVM(支持向量机)和神经网络在以下方面存在区别:
图像识别:图像识别之前常常是由特征工程组成的,只是在最后加入一点点机器学习(比如:SVM)。之后,通过使用更大的数据集(比如ImageNet)和在卷积神经网络结构空间中进行搜索,我们发现了更强大的视觉特征。最近,我们甚至不再相信自己手写的网络结构,而开始用[类似的方法](https://arxiv.org/abs/1703.01041)[搜索](https://arxiv.org/abs/1703.01041)(最优网络结构)。语音识别:以前的语音识别工作,涉及到大量的预处理工作、高斯混合模型和隐式马尔科夫模型,但是现在,几乎只需要神经网络。还有一句与之非常相关的搞笑名言,是1985年Fred Jelinek所说:“每当我开除一个语言学家,我的语音识别系统的性能就会提高一点”。语音合成:历史上,语音合成一直采用各种拼接技术,但是现在,SOTA(State Of The Art)类型的大型卷积网络(比如[WaveNet](https://deepmind.com/blog/wavenet-launches-google-assistant/))可以直接产生原始音频信号输出。机器翻译:机器翻译的实现之前常常采用基于短语的统计方法,但是神经网络正迅速占领了统治地位。我最喜欢的网络结构就与[多语言](https://arxiv.org/abs/1611.04558)[训练](https://arxiv.org/abs/1611.04558)有关:一个模型就可以把任意源语言翻译成任意目标语言,并且只需要很弱的监督(甚至是[完全的无监督](https://arxiv.org/abs/1710.11041))。
在多维特征和大量参数需要学习的情况下,矩阵是非常好的计算工具。在深度学习的情况下,参数的数量可以达到数十亿,并且不可能对每个参数都进行处理。这些参数以权重和偏差矩阵的形式存储为学习内容。模型内部使用的任何机器学习应用程序,都会使用这些权重矩阵来查找和预测。矩阵的概念极大提升了机器学习和深度学习的计算效率,让大模型得以快速计算庞大的神经网络并得到输出。[heading3]矩阵的乘法、加法、减法和转置[content]矩阵的基本属性,如乘法、加法和减法也存在于所有机器学习算法中。我们以矩阵的形式传递输入数据,将其乘以权重矩阵,最后将其添加到Bias矩阵以形成最终的预测。因此,这些数学计算的知识对于观察输入特征到最终预测输出的转换至关重要。$$Y_predicted=(Weight).Transpose*X_input+Bias$$[heading3]正交性:[content]完整的数据集可以被视为一个矩阵,其中行对应于值,列对应各种特征。要检查一个特征是否独立于所有其他特征,最简单的方法是检查矩阵的正交性。如果所有列都垂直于所有其他列,则矩阵是正交的。这些概念至关重要,并用于[主成分分析(PCA)](https://www.enjoyalgorithms.com/blog/principal-component-analysis-in-ml/)和[支持向量机(SVM)](https://www.enjoyalgorithms.com/blog/support-vector-machine-in-ml/)等流行算法中。
I’ll give one more example—of a rather different kind—from my personal experience.Back in 1987—as part of building Version 1.0 of what’s now Wolfram Language—we were trying to develop algorithms to compute hundreds of mathematical special functions over very broad ranges of arguments.In the past,people had painstakingly computed series approximations for specific cases.But our approach was to use what amounts to machine learning,burning months of computer time fitting parameters in rational approximations.Nowadays we might do something similar with neural nets rather than rational approximations.But in both cases the concept is to find a general model of the“world”one’s dealing with(here,values of special functions)—and try to learn the parameters in the model from actual data.It’s not exactly“solving science”,and it wouldn’t even allow one to“discover the unexpected”.But it’s a place where“AI-like”knowledge of general expectations about smoothness or simplicity lets one construct the analog of a scientific model.我将再举一个与我个人经历截然不同的例子。早在1987年,作为构建现在的Wolfram语言1.0版本的一部分,我们就试图开发算法来计算数百个具有广泛参数范围的数学特殊函数。过去,人们煞费苦心地计算特定情况下的级数近似值。但我们的方法是使用相当于机器学习的东西,花费数月的计算机时间来以有理近似拟合参数。如今,我们可能会用神经网络而不是有理近似来做类似的事情。但在这两种情况下,概念都是找到一个人正在处理的“世界”的通用模型(这里是特殊函数的值),并尝试从实际数据中学习模型中的参数。这并不完全是“解决科学问题”,甚至不允许人们“发现意想不到的事情”。但在这个地方,“类似人工智能”的关于流畅性或简单性的普遍期望的知识可以让人们构建科学模型的模拟。