深度强化学习是强化学习与深度学习技术相结合的领域。
其起源于 20 世纪 90 年代,特点是通过试错学习最优行为策略,以最大化累积奖励。
技术方面,起初基于策略搜索和价值函数优化等算法,如 Q-learning 和 SARSA 是典型代表。随着深度学习兴起,深度神经网络与强化学习融合,产生了深度强化学习,如 AlphaGo 和 DQN 等就是显著成果。
深度强化学习的优势在于允许 Agent 在未知环境中自主探索和学习,无需人工明确指导,能够处理高维状态空间和连续动作空间,在游戏、机器人控制等领域有广泛应用潜力。
然而,深度强化学习也面临诸多挑战,包括漫长的训练周期、低下的采样效率以及稳定性问题,尤其在应用于复杂多变的真实世界环境时。
在实现上,如 DQN 是通过将神经网络和 Q-learning 结合,用函数而不是 Q 表来表示动作价值,利用均方误差设计 Loss Function,像 Q-learning 一样利用四元组进行训练。
强化学习(RL)领域关注的核心议题是:如何培养Agent通过与环境的互动进行自我学习,以在特定任务中累积最大的长期奖励。起初,基于RL-based Agent主要依托于策略搜索和价值函数优化等算法,Q-learning和SARSA便是其中的典型代表。随着深度学习技术的兴起,深度神经网络与强化学习的结合开辟了新的天地,这就是深度强化学习。这一突破性融合赋予了Agent从高维输入中学习复杂策略的能力,带来了诸如AlphaGo和DQN等一系列令人瞩目的成就。深度强化学习的优势在于,它允许Agent在未知的环境中自主探索和学习,无需依赖明确的人工指导。这种方法的自主性和适应性使其在游戏、机器人控制等众多领域都展现出广泛的应用潜力。然而,强化学习的道路并非一帆风顺。它面临着诸多挑战,包括漫长的训练周期、低下的采样效率以及稳定性问题,特别是在将其应用于复杂多变的真实世界环境时更是如此。时间:20世纪90年代至今特点:通过试错学习最优行为策略,以最大化累积奖励技术:Q-learning,SARSA,深度强化学习(结合DNN和RL)优点:能够处理高维状态空间和连续动作空间缺点:样本效率低,训练时间长
强化学习(RL)领域关注的核心议题是:如何培养Agent通过与环境的互动进行自我学习,以在特定任务中累积最大的长期奖励。起初,基于RL-based Agent主要依托于策略搜索和价值函数优化等算法,Q-learning和SARSA便是其中的典型代表。随着深度学习技术的兴起,深度神经网络与强化学习的结合开辟了新的天地,这就是深度强化学习。这一突破性融合赋予了Agent从高维输入中学习复杂策略的能力,带来了诸如AlphaGo和DQN等一系列令人瞩目的成就。深度强化学习的优势在于,它允许Agent在未知的环境中自主探索和学习,无需依赖明确的人工指导。这种方法的自主性和适应性使其在游戏、机器人控制等众多领域都展现出广泛的应用潜力。然而,强化学习的道路并非一帆风顺。它面临着诸多挑战,包括漫长的训练周期、低下的采样效率以及稳定性问题,特别是在将其应用于复杂多变的真实世界环境时更是如此。时间:20世纪90年代至今特点:通过试错学习最优行为策略,以最大化累积奖励技术:Q-learning,SARSA,深度强化学习(结合DNN和RL)优点:能够处理高维状态空间和连续动作空间缺点:样本效率低,训练时间长
深度强化学习DQN在上面我们讲了在Q-learning算法中我们以矩阵的方式建立了一张存储每个状态下所有动作Q值的表格。表格中的每一个动作价值Q(s,a)表示在状态下选择动作然后继续遵循某一策略预期能够得到的期望回报。然而,这种用表格存储动作价值的做法只在环境的状态和动作都是离散的,并且空间都比较小的情况下适用,如果是状态或者动作数量非常大的时候,这种做法就不适用了。值函数近似(Function Approximation)的方法就是为了解决状态空间过大,通过用函数而不是Q表来表示Q(s,a)。其中w称为权重,也就是我们在神经网络里面需要训练收敛的值,在上面的Q-learning中我们的强化学习是训练Q表,在神经网络里面训练收敛的就是w值。通过神经网络和Q-learning结合就是DQN(Deep Q-Network)了。在Q-learning中我们更新Q表是利用每步的reward和当前Q表来迭代的,那么同样我们也可以用这种方法来设计我们的Loss Function:上面的公式其实就是一个均方误差,真实值与预测值之间的差的平方,和我们上面的Q-learning时序差分(temporal difference,TD)函数其实很像。有了上面的公式之后我们就可以像Q-learning一样利用四元组来训练我们的模型了。但是在一般的有监督学习中,假设训练数据是独立同分布的,我们每次训练神经网络的时候从训练数据中随机采样一个或若干个数据来进行梯度下降,随着学习的不断进行,每一个训练数据会被使用多次。