深度学习是指一种通过新的方法和策略来克服梯度消失问题,从而生成深层非线性特征层次的学习方式。
在深度学习出现之前,分层特征学习虽已存在,但面临梯度消失等问题,导致性能较差。2010 年早期的研究表明,结合 GPU 和激活函数能提供更好的梯度流,从而能够训练深层结构,此后人们对深度学习的兴趣日益增加。
Genie 模型通过观看互联网上的大量视频进行学习,并运用深度学习技术分析学习到的内容,找出规律和联系,从而能够根据给定的提示创造出全新的虚拟世界。
在强化学习中,智能体在给定状态下执行动作,以获得最大可能的奖励。为简化问题和解决方案,通常会简化环境,使智能体只了解对决策重要的细节。整个学习过程就是探索环境和经过各种状态,尝试最大化所得到的奖励,直至达到目标状态。
虽然分层特征学习在领域深度学习存在之前就被使用了,但是这些架构面临着诸如消失[梯度](https://developer.nvidia.com/blog/parallelforall/deep-learning-nutshell-history-training#stochastic-%E6%A2%AF%E5%BA%A6-descent)问题,其中梯度变得太小,无法为非常深的层提供学习信号,因此,与浅层学习算法(如支持向量机)相比,这些体系结构的性能较差。“深度学习”一词源于新的方法和策略,这些方法和策略旨在通过克服梯度消失的问题来生成这些深层的非线性特征层次,以便我们可以训练具有数十层非线性层次特征的体系结构。在2010年早期,有研究表明,结合GPUs和[激活函数](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#activation-function)提供更好的梯度流,足以在没有重大困难的情况下训练深层结构。从这里开始,人们对深入学习的兴趣与日俱增。
首先,Genie模型有一种特别的能力,就是学习。你们知道我们怎么学会新东⻄吗?是通过看、听、读书和练习对不对?Genie模型也是这样学习的,但它学习的是通过一种叫做“观看视频”的方法。你们在看动画片或者学习视频的时候,眼睛会看到很多画面,大脑会记住这些画面和声音,然后慢慢地学会了很多知识。Genie模型也一样,它观看了互联网上成千上万的视频,通过这些视频,它学会了很多事情,比如不同的地方看起来是什么样子,比如山是高高的,水是流动的。接下来,Genie模型用一种叫做“深度学习”的技术来让自己变得更聪明。这就像是我们学习了很多词汇和知识之后,能够做更难的练习题一样。Genie模型通过分析学习到的视频内容,找出里面的规律和联系,然后它就能根据我们给它的提示,比如一段文字、一张图片或者一个小小的画,创造出一个全新的虚拟世界。这些虚拟世界很神奇,可以有高山、大海,也可以有漂亮的城市,还可以有星空下的露营地,各种你能想象到的地方,Genie模型都可以创造出来。
因此,获得最大可能奖励的智能体可以被视为在给定状态下执行了最佳操作。这里的智能体指的是抽象实体,它可以是执行任何动作的对象或主体:自动驾驶汽车、机器人、人类、客户支持聊天机器人、围棋玩家。智能体的状态是指其在抽象环境中的位置和状态;例如,虚拟现实世界中的某个位置、建筑物、国际象棋棋盘或赛车道上的位置和速度。为了简化强化学习问题和解决方案,通常会简化环境,使智能体只了解对决策重要的细节,而忽略其他部分。就像骑自行车的例子一样,强化算法只有两个反馈源可供学习:惩罚(摔倒的疼痛)和奖励(骑几米的刺激)。如果我们将惩罚视为负奖励,那么整个学习问题都将是关于探索环境和经过一个又一个的状态来尝试最大化我们的agent所得到的奖励,直到达到目标状态(自动从A驾驶到B;赢得一场国际象棋比赛,通过聊天解决客户问题):简而言之,这就是强化学习。