图像识别能力可以应用在以下方面:
接近人类水平的图像识别能力;接近人类水平的语音识别能力;接近人类水平的手写体转录能力;机器翻译水平提高;文本转语音水平提高;数字助手,如Google Now或Amazon Alexa;接近人类水平的自动驾驶能力;广告定向投放水平提高;网页搜索结果优化;自然语言问答能力提高;超越人类的围棋水平。参考阅读:30 AMAZING APPLICATIONS OF DEEP LEARNING:http://www.yaronhadad.com/deep-learning-most-amazing-applications/关于深度学习的未来,我认为GUI和AutoML是深度学习不久后能够达到的。不要误会,我喜欢写代码,但是我也认为以后我们写的代码数量会减少。我们不能重复浪费那么多时间一遍一遍写同样的东西,因此我认为这两个功能(GUI和AutoML)将帮助数据科学家提高生产力,解决更多问题。参考阅读:
图像识别:图像识别之前常常是由特征工程组成的,只是在最后加入一点点机器学习(比如:SVM)。之后,通过使用更大的数据集(比如ImageNet)和在卷积神经网络结构空间中进行搜索,我们发现了更强大的视觉特征。最近,我们甚至不再相信自己手写的网络结构,而开始用[类似的方法](https://arxiv.org/abs/1703.01041)[搜索](https://arxiv.org/abs/1703.01041)(最优网络结构)。语音识别:以前的语音识别工作,涉及到大量的预处理工作、高斯混合模型和隐式马尔科夫模型,但是现在,几乎只需要神经网络。还有一句与之非常相关的搞笑名言,是1985年Fred Jelinek所说:“每当我开除一个语言学家,我的语音识别系统的性能就会提高一点”。语音合成:历史上,语音合成一直采用各种拼接技术,但是现在,SOTA(State Of The Art)类型的大型卷积网络(比如[WaveNet](https://deepmind.com/blog/wavenet-launches-google-assistant/))可以直接产生原始音频信号输出。机器翻译:机器翻译的实现之前常常采用基于短语的统计方法,但是神经网络正迅速占领了统治地位。我最喜欢的网络结构就与[多语言](https://arxiv.org/abs/1611.04558)[训练](https://arxiv.org/abs/1611.04558)有关:一个模型就可以把任意源语言翻译成任意目标语言,并且只需要很弱的监督(甚至是[完全的无监督](https://arxiv.org/abs/1710.11041))。
上面给出的例子涉及到制作一个符合数值数据的模型,这些数据基本上来自于简单的物理,几个世纪以来我们已经知道“简单的数学【注:指的是几页纸能写清楚且普遍适用的那种,这种意义下,“麦克斯韦方程组”等是简单的】适用【于建模很多物理现象】”。但对于ChatGPT,我们必须对类似于人脑所产生的人类语言文本进行建模。对于这样的事情,我们还没有任何像“简单的数学”一样的东西。那么它的模型会是什么样子呢?在谈论语言之前,让我们谈论另一项类似于人类的任务:图像识别。作为这个问题的一个简单例子,我们来考虑数字的图像(这也是一个经典的机器学习例子):我们可以做的一件事是获得每个数字的一堆示例图像:然后,为了找出我们输入的图像是否对应于特定数字,我们可以使用我们已经拥有的样本进行显式的逐像素比较。但作为人类,我们肯定做得更好,因为即使它们是手写的,并具有各种修改和扭曲,我们仍然可以识别这些数字:当我们为先前的数值数据制作模型时,我们能够使用我们得到的数值x,并为特定的a和b计算a + b x。因此,如果我们将这里每个像素的灰度值视为某些变量x_i,那么是否有某些以所有变量为输入的函数,当计算它时,会告诉我们图像是哪个数字?事实证明,可以构造这样的函数。并不奇怪的是,这个函数并不特别简单,一个典型的函数可能涉及大约五十万个数学运算。但最终结果是,如果我们将图像的像素集合输入到此函数中,我们将得到对应该图像的数字。稍后,我们将讨论如何构建这样的函数以及神经网络的思想。但现在让我们把这个函数当作一个黑匣子,我们将手写数字的图像(作为像素值的数组)输入,我们得到相应的数字: