要训练一个专属 Agent,以下是一些关键步骤和要点:
在训练过程中,还需要注意模型的上下文窗口长度有限,输入的剧集应足够短以构建多剧集历史,2 - 4 个剧集的多剧集上下文对于学习近乎最优的上下文强化学习算法是必要的,且上下文强化学习的涌现需要足够长的上下文。
但实际上,模型的上下文窗口长度有限,所以输入的剧集应该足够短,以构建多剧集历史。2-4个剧集的多剧集上下文对于学习近乎最优的上下文强化学习算法是必要的。上下文强化学习的涌现需要足够长的上下文。与三个基线相比,包括ED(专家蒸馏,使用专家轨迹而非学习历史的行为克隆)、源策略(用于生成UCB蒸馏的轨迹)、RL^2(Duan et al.2017[;](https://lilianweng.github.io/posts/2018-01-23-multi-armed-bandit/#upper-confidence-bounds)用作[上限](https://arxiv.org/abs/1611.02779),因为它需要在线RL),尽管仅使用离线RL,AD仍展示了上下文中的RL,其性能接近RL^2,并且学习速度比其他基线快得多。当以源策略的部分训练历史为条件时,AD的改进速度也比ED基线快得多。图7.在需要内存和探索的环境中AD、ED、源策略和RL^2的比较。仅分配二元奖励。源策略使用针对“黑暗”环境的[A3C](https://lilianweng.github.io/posts/2018-04-08-policy-gradient/#a3c)和针对水迷宫的[DQN](http://lilianweng.github.io/posts/2018-02-19-rl-overview/#deep-q-network)进行训练。(图片来源:[Laskin等人,2023](https://arxiv.org/abs/2210.14215))
"智能体"(Agent)在人工智能和计算机科学领域是一个非常重要的概念。它指的是一种能够感知环境并采取行动以实现特定目标的实体。智能体可以是软件程序,也可以是硬件设备。以下是对智能体的详细介绍:[heading3]智能体的定义[content]智能体是一种自主系统,它可以通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到某种目标。在LLM支持的自主Agent系统中,LLM充当Agents的大脑,并辅以几个关键组成部分:规划子目标和分解:Agents将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。反思和完善:Agents可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。记忆短期记忆:所有的上下文学习都是利用模型的短期记忆来学习。长期记忆:这为Agents提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索来实现。工具使用Agents学习调用外部API来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。
该基准测试从三个层面评估Agents的工具使用能力:Level-1:评估调用API的能力。根据API的描述,模型需要确定是否调用给定的API,正确调用它,并对API的返回做出适当的响应。Level-2:考察检索API的能力。模型需要搜索可能解决用户需求的API,并通过阅读文档学习如何使用它们。Level-3:评估计划API超越检索和调用的能力。鉴于用户请求不明确(例如安排团队会议,为旅行预订航班/酒店/餐厅),模型可能需要进行多个API调用来解决问题。