围棋人机博弈有用到智能算法的功能。
早期的国际象棋对弈程序是以搜索为基础,发展出了阿尔法-贝塔剪枝搜索算法。在对局开始时,由于搜索空间巨大,采用了基于案例的推理,即从知识库中寻找相似案例来决定棋步。
现代能够战胜人类棋手的对弈程序基于神经网络和强化学习。例如,DeepMind 团队开发的新算法 Deep Q-Network(DQN)可以从经验中学习。2015 年 10 月 AlphaGo 项目首次在围棋中击败人类冠军李世石,之后的 AlphaGo Zero 用新的可以自我博弈的改进算法让人类在围棋领域难以翻盘。
AlphaGO 的价值网络和策略网络以人类高手的对弈数据以及 AI 自我博弈的数据为基础进行训练,并且与蒙特卡洛树搜索有机结合,取得了突破。
大规模神经网络的竞赛从成立于2011年的Google Brain开始,现在属于Google Research。他们推动了TensorFlow语言的开发,提出了万能模型Transformer的技术方案并在其基础上开发了BERT,我们在第四章中将详细讨论这些。DeepMind是这个时代的传奇之一,在2014年被Google以5.25亿美元收购的。它专注游戏算法,其使命是"解决智能问题",然后用这种智能来"解决其他一切问题"!DeepMind的团队开发了一种新的算法Deep Q-Network(DQN),它可以从经验中学习。2015年10月AlphaGo项目首次在围棋中击败人类冠军李世石;之后的AlphaGo Zero用新的可以自我博弈的改进算法让人类在围棋领域再也无法翻盘。
早期的国际象棋对弈程序是以搜索为基础的——程序尝试估计对手在给定棋步数量下可能走的棋步,并根据在几步棋内所能达到的最佳位置选择最佳棋步。这带来了[阿尔法-贝塔剪枝](https://en.wikipedia.org/wiki/Alpha%E2%80%93beta_pruning)搜索算法的发展。搜索策略在对局即将结束时效果很好,因为此时搜索空间对应的棋步可能性局限在非常小的范围内。然而在对局刚刚开始时,搜索空间非常巨大,需要考虑通过学习人类棋手之间的现有对局来改进算法。随后的实验采用了[基于案例的推理](https://en.wikipedia.org/wiki/Case-based_reasoning),即程序在知识库中寻找与当前棋局位置非常相似的案例,以此来决定自己的棋步。能够战胜人类棋手的现代对弈程序都基于神经网络和强化学习,程序通过长时间与自己的对弈,从自己的错误中学习,以此来学会下棋,这与人类学习下棋的过程非常相似。不过,计算机程序可以用更少的时间下更多的棋,因此学习速度更快。✅对人工智能玩过的其他游戏做一个小调研。同样,我们可以看到创建“会说话的程序”(可能通过图灵测试)的方法是如何变化的:
其中,AlphaGO这两个网络的训练过程十分类似人类的思维模式。价值网络和策略网络均以人类高手的对弈数据以及AI自我博弈的数据为基础进行训练,就像我们小时候学习围棋一样,但对于起来来说,这种更硬核的训练方式使得这两个网络在围棋对弈中达到了蒙特卡洛树搜索的水平。但DeepMind并未满足于此。他们再次进行了创新,将这两个网络与蒙特卡洛树搜索有机地结合在一起,打破了原有的局限。这种思想,使得AI在围棋领域取得了前所未有的突破。不仅提升了AI在围棋领域的实力,更为未来的科技发展打开了新的篇章。