如何打造AI Agent-WayToAGI

回答

打造 AI Agent 主要分为以下步骤：

规划：
- 制定任务的关键方法。
- 总结任务目标与执行形式。
- 将任务分解为可管理的子任务，确立逻辑顺序和依赖关系。
- 设计每个子任务的执行方法。
实施：
- 在 Coze 上搭建工作流框架，设定每个节点的逻辑关系。
- 详细配置子任务节点，并验证每个子任务的可用性。
完善：
- 整体试运行 Agent，识别功能和性能的卡点。
- 通过反复测试和迭代，优化至达到预期水平。

此外，构建高质量的 AI 数字人时，在构建数字人的灵魂方面，需要注意以下工程关键点：

AI Agent：要让数字人像人一样思考就需要写一个像人一样的 Agent，工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。
驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，需要将灵魂部分的所有接口定义出来，然后躯壳部分通过 API 调用，调用方式可以是 HTTP、webSocket 等，同时要处理好包含情绪的语音表达以及躯壳的口型、表情、动作和语音的同步及匹配问题。
实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，算法一般会部署到额外的集群或者调用提供出来的 API，需要解决网络耗时和模型推理耗时导致的响应太慢的问题。
多元跨模态：不仅仅是语音交互，还可以根据实际需求添加其他感官的交互，如通过添加摄像头数据获取视觉信息并进行图像解析。
拟人化场景：正常与人交流时会有插话、转移话题等情况，需要通过工程手段丝滑处理这些情景。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

一泽Eze:万字实践教程，全面入门 Coze 工作流｜用 Coze 打造 AI 精读专家智能体，复刻 10 万粉公众号的创作生产力

在上篇文章[Prompt工程｜样例驱动的渐进式引导法：利用AI高效设计提示词，生成预期内容](https://mp.weixin.qq.com/s/3pFG_Tx7gcnnjOyqgM1P_w)中，我已经提到过Prompt工程的必备能力：通过逻辑思考，从知识经验（KnowHow）中抽象表达出关键方法与要求。这一理念同样适用在Coze中创建AI Agent。本文主要讨论工作流驱动的Agent，搭建工作流驱动的Agent，简单情况可分为3个步骤：1.规划：制定任务的关键方法总结任务目标与执行形式将任务分解为可管理的子任务，确立逻辑顺序和依赖关系设计每个子任务的执行方法2.实施：分步构建和测试Agent功能在Coze上搭建工作流框架，设定每个节点的逻辑关系详细配置子任务节点，并验证每个子任务的可用性3.完善：全面评估并优化Agent效果整体试运行Agent，识别功能和性能的卡点通过反复测试和迭代，优化至达到预期水平接下来，我们从制定关键方法与流程，梳理「结构化外文精读专家」Agent的任务目标。

一泽Eze:万字实践教程，全面入门 Coze 工作流｜用 Coze 打造 AI 精读专家智能体，复刻 10 万粉公众号的创作生产力

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.2构建数字人灵魂有了数字人躯壳，我们就需要构建数字人的灵魂，让数字人具备各种智能，比如记得你的个人信息，充当你的个人助手；在某个领域具备更专业的知识；能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点：1.AI Agent：我们要想数字人像人一样思考就需要写一个像人一样的Agent，工程实现所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战；2.驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，我们可以将灵魂部分的所有接口定义出来，然后躯壳部分通过API调用，调用方式可以是HTTP、webSocket等等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的，效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+ Face AR Sample(UE)；3.实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。4.多元跨模态：仅仅是语音交互的数字人是远远不够的，人有五感(听觉、视觉、嗅觉、触觉、味觉)，听觉只是其中一种，其他的感官可以根据实际需求来做，比如视觉我们可以通过添加摄像头数据来获取数据，再通过系列CV算法做图像解析等；5.拟人化场景：我们正常和人交流的时候不是线性对话，会有插话、转移话题等情况，这些情景如何通过工程丝滑处理。