人工智能的历史可以追溯到二十世纪中叶。
起初,符号推理流行,带来了专家系统等重要进展,但因提取知识复杂、成本高等问题,20 世纪 70 年代出现“人工智能寒冬”。
随着计算资源便宜和数据增多,神经网络方法在计算机视觉、语音理解等领域展现出色性能,过去十年“人工智能”常被视为“神经网络”的同义词。
在国际象棋对弈程序方面,早期以搜索为基础,发展出阿尔法-贝塔剪枝搜索算法,后来采用基于案例的推理,如今基于神经网络和强化学习,能从自身错误中学习,学习速度快于人类。
在创建“会说话的程序”方面,早期如 Eliza 基于简单语法规则,现代助手如 Cortana、Siri 等是混合系统,使用神经网络转换语音、识别意图,未来有望出现完整基于神经网络的模型处理对话,如 GPT 和 Turing-NLG 系列神经网络取得成功。
近期神经网络研究在 2010 年左右有巨大发展,大型公共数据集出现,如 ImageNet 催生了相关挑战赛。2012 年卷积神经网络用于图像分类使错误率大幅下降,2015 年微软研究院的 ResNet 架构达到人类水平准确率,此后神经网络在图像分类、对话语音识别、自动化机器翻译、图像描述等任务中表现成功。
在过去几年,大型语言模型如 BERT 和 GPT-3 取得巨大成功,得益于大量通用文本数据,可先预训练再针对具体任务专门化。
人工智能作为一个领域始于二十世纪中叶。最初,符号推理非常流行,也带来了一系列重要进展,例如专家系统——能够在某些有限问题的领域充当专家的计算机程序。然而,人们很快发现这种方法无法实现应用场景的大规模拓展。从专家那里提取知识,用计算机可读的形式表现出来,并保持知识库的准确性,是一项非常复杂的任务,而且因为成本太高,在很多情况下并不适用。这使得20世纪70年代出现了“人工智能寒冬”([AI Winter](https://en.wikipedia.org/wiki/AI_winter))。随着时间的推移,计算资源变得越来越便宜,可用的数据也越来越多,神经网络方法开始在计算机视觉、语音理解等领域展现出可与人类相媲美的卓越性能。在过去十年中,“人工智能”一词大多被用作“神经网络”的同义词,因为我们听到的大多数人工智能的成功案例都是基于神经网络的方法。我们可以观察一下这些方法是如何变化的,例如,在创建国际象棋计算机对弈程序时:
早期的国际象棋对弈程序是以搜索为基础的——程序尝试估计对手在给定棋步数量下可能走的棋步,并根据在几步棋内所能达到的最佳位置选择最佳棋步。这带来了[阿尔法-贝塔剪枝](https://en.wikipedia.org/wiki/Alpha%E2%80%93beta_pruning)搜索算法的发展。搜索策略在对局即将结束时效果很好,因为此时搜索空间对应的棋步可能性局限在非常小的范围内。然而在对局刚刚开始时,搜索空间非常巨大,需要考虑通过学习人类棋手之间的现有对局来改进算法。随后的实验采用了[基于案例的推理](https://en.wikipedia.org/wiki/Case-based_reasoning),即程序在知识库中寻找与当前棋局位置非常相似的案例,以此来决定自己的棋步。能够战胜人类棋手的现代对弈程序都基于神经网络和强化学习,程序通过长时间与自己的对弈,从自己的错误中学习,以此来学会下棋,这与人类学习下棋的过程非常相似。不过,计算机程序可以用更少的时间下更多的棋,因此学习速度更快。✅对人工智能玩过的其他游戏做一个小调研。同样,我们可以看到创建“会说话的程序”(可能通过图灵测试)的方法是如何变化的:早期的此类程序,如[Eliza](https://en.wikipedia.org/wiki/ELIZA),基于非常简单的语法规则,并将输入的句子重新表述为一个问题。Cortana、Siri或谷歌助手(Google Assistant)等现代助手都是混合系统,它们使用神经网络将语音转换成文本,并识别我们的意图,然后采用一些推理或明确的算法来执行所需的操作。未来,我们可以期待一个完整的基于神经网络的模型来独立处理对话。最近的GPT和Turing-NLG系列神经网络在这方面取得了巨大成功。
近期神经网络研究的巨大发展始于2010年左右,当时开始出现可用的大型公共数据集。一个名为ImageNet的大型图像集合包含了约1,400万张带注释的图像,这催生了[ImageNet大规模视觉识别挑战赛](https://image-net.org/challenges/LSVRC/)。2012年,卷积神经网络首次被用于图像分类,使得分类错误率大幅下降(从近30%降至16.4%)。2015年,微软研究院的ResNet架构达到了人类水平的准确率。从那时起,神经网络在许多任务中都表现得非常成功:|年份|实现人类水平准确率||-|-||2015|[图像分类](https://doi.org/10.1109/ICCV.2015.123)||2016|[对话语音识别](https://arxiv.org/abs/1610.05256)||2018|[自动化机器翻译](https://arxiv.org/abs/1803.05567)(从中文到英文)||2020|[图像描述](https://arxiv.org/abs/2009.13682)|在过去几年中,我们见证了大型语言模型的巨大成功,例如BERT和GPT-3。这主要归功于有大量的通用文本数据可供使用,让我们可以训练模型来捕捉文本的结构和含义,在通用文本集合上对它们进行预训练,然后针对更具体的任务对这些模型进行专门化。我们将在本课程的后半部分学习更多有关自然语言处理的知识。[heading1]🚀挑战[content]浏览一下互联网,在你看来,人工智能在哪里得到了最有效的应用。是在地图应用程序中,还是在语音转文字服务或视频游戏中?研究这些系统是如何构建的。[heading1][课后测试](https://red-field-0a6ddfd03.1.azurestaticap