Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

ALPHAgo 大战李世石

Answer

AlphaGo 是由 Google DeepMind 开发的计算机程序。在 2016 年,它成为首个在围棋游戏中击败人类职业棋手的程序,并以四比一的比分战胜了世界顶级围棋选手李世石。

AlphaGo 结合了多种元素,包括价值和策略神经网络。这些网络是卷积网络,将围棋棋盘视为 19×19 输入“图像”。通过使用专业人士的围棋比赛数据训练策略网络,在监督训练阶段完成后,强化学习发挥作用,AlphaGo 与自己对抗以完善棋步策略和评估获胜可能。

2016 年 3 月在首尔,AlphaGo 对战李世石具有划时代意义,这不仅是 AI 对人类的胜利,也展示了其超越简单模式模仿、真正“思考”的开端。与早期游戏 AI 系统不同,AlphaGo 在预训练时模仿人类专家决策,还会在作答前“停下来思考”,通过模拟未来棋局和评估得分选择最优应对方式,推理时间增加其表现提升并最终超过人类。

在游戏人工智能的发展中,AlphaGo 是一个典型案例,它与电子游戏和人工智能的发展密切相关。甚至最近突破性的 AI 技术 ChatGPT 也与游戏 AI 存在一定关联。

Content generated by AI large model, please carefully verify (powered by aily)

References

深度学习(4)强化学习

由Google DeepMind开发的AlphaGo在2016年成为了第一个在围棋游戏中击败人类职业棋手的计算机程序,制造了重大新闻。随后,它以四比一的比分击败了世界顶级围棋选手之一李世石。AlphaGo结合了本文前面提到的许多元素;即(1)价值和(2)策略神经网络,它们代表(1)围棋游戏中当前配置的价值函数,从而预测每步棋之间的相对值,以及(2)策略函数表明应该选择什么走棋才能赢得比赛。这些网络是[卷积网络](https://developer.nvidia.com/blog/parallelforall/deep-learning-nutshell-core-concepts/#convolutional-neural-network),它将围棋棋盘视为19×19输入“图像”(每个位置一个像素)。因为我们已经有许多围棋游戏的记录,通过使用专业人士的现有围棋比赛数据来训练策略网络是有用的。策略网络基于这些数据进行训练,以在给定游戏配置的游戏中预测围棋冠军的下一步棋。(图片来源:Linh Nguyen/Flickr)一旦完成监督[训练](https://developer.nvidia.com/blog/parallelforall/deep-learning-nutshell-history-training#training)阶段,强化学习就会发挥作用。在这里,AlphaGo与自己进行对抗,并尝试完善其选择棋步的策略(策略网络)以评估谁将获胜(价值网络)。即使只是训练策略网络,这种也比之前最著名的围棋算法(称为Pachi)要好得多,后者利用树搜索算法和启发式算法。然而,借助价值网络,深度学习方法的性能仍然可以显着提高。

生成式人工智能的行动 o1

那么,模型在停下来思考时到底在做什么呢?我们可以回到2016年3月,地点是首尔。在那里发生了深度学习历史上具有划时代意义的时刻:AlphaGo对战围棋传奇李世石。这不仅仅是一场AI对人类的胜利,也是AI开始展示超越简单模式模仿、真正“思考”的开端。与早期的游戏AI系统(如深蓝)不同,AlphaGo在预训练时不仅模仿了人类专家的决策,它还会在作答前“停下来思考”。在推理阶段,AlphaGo会模拟多个未来可能的棋局,评估它们的得分,然后选择最优的应对方式。它使用的时间越多,表现越好。如果没有推理时计算,AlphaGo无法击败顶尖的人类棋手,但随着推理时间的增加,它的表现逐步提升,最终超过了人类。将这一概念移植到LLM上的难点在于如何构建价值函数,也就是如何对模型的响应进行评分。如果是围棋,模型可以通过模拟对局直到结束来确定最佳策略。如果是编程,可以测试代码的正确性。但如果是评估一篇文章的初稿、制定旅行计划或总结文件的关键术语,该如何打分呢?这就是推理在目前技术中的难点,也是Strawberry在逻辑领域(如编程、数学、科学)表现强大,但在较为开放的领域(如写作)表现相对不足的原因。虽然Strawberry的具体实现细节仍是保密的,但核心思想是围绕模型生成的“思维链”进行强化学习。对这些思维链的审查表明,模型正在发生一些类似人类思维的突破性变化。例如,o1展现了遇到瓶颈时能够“回头反思”的能力,这是一种推理时间扩展的自然结果。它还能像人类一样通过可视化思考来解决几何问题,甚至能够以超越人类的方式解决编程难题。

游戏:游戏AI发展报告2023:历史演变、技术革新与应用前景

电子游戏的首次亮相,就与人工智能结下了不解之缘,并且在其各自漫长的发展史中一直相互纠缠,难解难分,直至当下。如今,游戏人工智能的研究已经成为了新的热点:据统计,1971年到2015年间,与电子游戏相关的人工智能研究论文数量不到1000篇,但从2015年到2022年的7年里,相关论文数量就达到1625,其中17篇成为《自然》(Nature)和《科学》(Science)的封面文章。游戏人工智能的发展史可以划分为起源时期(1940-1969)、发展时期(1970-1999)和黄金时期(2000-)。如今,电子游戏与人工智能相生相伴,相互助力已有70余年。电子游戏不仅帮助人工智能的先驱者们确立了研究的目标和任务,同时也向社会生动地展示了人工智能的强大能力。因此,每次人工智能在社会影响力上的突破,都与电子游戏有着莫大联系。其中的典型案例,就是20世纪末在国际象棋游戏上打败卡斯帕罗夫的Deep Blue,以及在2016年在围棋游戏上击败李世石的AlphaGo。甚至最近突破性的AI技术ChatGPT也与游戏AI存在一定关联:OpenAI联合创始人和首席科学家苏茨克维(Ilya Sutskever)在与英伟达的创始人兼CEO黄健生(Jensen Huang,中文名黄仁勋)对谈时指出,OpenAI之所以能够在ChatGPT中推出基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),与团队在Dota2游戏人工智能上的长期研究有关。正是因为在传统的强化学习大模型中有着丰厚积累,才能够在此基础上逐步改进,将新型的强化学习方法与GPT模型结合,创造出基于提示的GPT(InstructGPT),并进一步演变为ChatGPT。