Chat with Wiki - 有没有语音交互领域的AI Agent的好的思路

Answer

以下是关于语音交互领域的 AI Agent 的一些思路：

构建像人一样的 Agent：实现所需的记忆模块、工作流模块和各种工具调用模块，这在工程上具有一定挑战。
驱动躯壳的实现：定义灵魂部分的接口，躯壳部分通过 API 调用，如 HTTP、webSocket 等。要处理好包含情绪的语音表达以及躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对成熟但闭源。
保证实时性：由于算法部分组成庞大，几乎不能单机部署，特别是大模型部分，会涉及网络耗时和模型推理耗时，低延时是亟需解决的问题。
实现多元跨模态：不仅要有语音交互，还可根据实际需求加入其他感官，如通过添加摄像头数据获取视觉信息并进行图像解析。
处理拟人化场景：正常与人交流时会有插话、转移话题等情况，需要通过工程手段丝滑处理。

此外，像 AutoGLM 这样的产品，通过模拟人类操作来实现跨应用的控制，展现出了一定的智能理解能力，如能根据用户意图选择合适的应用场景。但仍存在语音识别偏差、操作稳定性需提升、支持平台有限等问题，未来随着多模态理解能力和操作精准度的提高，发展空间较大。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

有了数字人躯壳，我们就需要构建数字人的灵魂，让数字人具备各种智能，比如记得你的个人信息，充当你的个人助手；在某个领域具备更专业的知识；能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点：1.AI Agent：我们要想数字人像人一样思考就需要写一个像人一样的Agent，工程实现所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战；2.驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，我们可以将灵魂部分的所有接口定义出来，然后躯壳部分通过API调用，调用方式可以是HTTP、webSocket等等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的，效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+ Face AR Sample(UE)；3.实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。4.多元跨模态：仅仅是语音交互的数字人是远远不够的，人有五感(听觉、视觉、嗅觉、触觉、味觉)，听觉只是其中一种，其他的感官可以根据实际需求来做，比如视觉我们可以通过添加摄像头数据来获取数据，再通过系列CV算法做图像解析等；5.拟人化场景：我们正常和人交流的时候不是线性对话，会有插话、转移话题等情况，这些情景如何通过工程丝滑处理。

像高手一样编写 GPT：从基础到实践，学习使用 GPT 的 Action

1.复杂的数据处理、决策制定和问题解决能力2.快速的语音交互反应，高度的交互性看看另一个Agent，Agent Smith，来自《黑客帝国》的史密斯探员，能力大概有：1.抓人2.打人3.Ctrl+C,Ctrl+V,Ctrl+V,Ctrl+V,Ctrl+V,Ctrl+V,Ctrl+V,Ctrl+V,Ctrl+V,Ctrl+V……和能发射火箭能战斗的Jarvis相比——他只会出拳和开枪，所以我姑且认为他要弱一点。假如Jarvis代表了人类对未来Agent想象的一个高标准，那么他和GPT中间可能大概隔了n个Agent Smith，GPT和他们相比基本就是Baby：当然，这位Baby Agent也是有很多能力的。Lilian Weng()—— OpenAI的应用人工智能研究负责人，也是GPT-4的开发人员。她在个人博客的博文《大语言模型驱动的自动智能体（Agent）》提到了关于他们（OpenAI）构思中的Agent系统：“大型语言模型的潜力不仅仅在于创作出流畅的文本、故事、论文和程序；它还可以被视为一个强大的通用问题解决工具。”和开头提到的计算机领域的通用比，Lilian进一步具体化了Agent的能力模型：在Lilian看来，Agent的能力被具象为三大类：

【智谱AutoGLM】深度体验报告及原理分析

经过几天的深度测试，AutoGLM给我留下了深刻的印象。它让我看到了AI Agent真正落地的希望。还记得一年前，当我第一次尝试开发类似功能时，遇到的种种困境：API对接难、多模态识别差、操作不精准...这些问题让人觉得AI Agent离真正可用还很遥远。但AutoGLM用一种巧妙的方式解决了这些难题。它没有执着于传统的API集成路线，而是借助RPA的思路，通过模拟人类操作来实现跨应用的控制。这种方案虽然不完美，但确实让AI Agent从实验室走向了现实。在测试过程中，最让我惊喜的是它的场景理解能力。当我说"帮我买一杯咖啡"和"帮我买一包咖啡豆"时，它能准确地分别打开美团和淘宝。这不是简单的规则匹配能力可以实现的。它展现出了真正的智能理解能力，能够根据用户意图选择最合适的应用场景。当然，AutoGLM现在离好用还差很长的路。语音识别有时会出现偏差，复杂界面下的操作稳定性还需提升，只支持安卓也限制了不少用户。但这些都是可以通过技术迭代来解决的问题。重要的是，它已经证明了AI Agent落地是可行的。我特别欣赏智谱团队的产品思路。他们没有一上来就追求全能，而是选择了几个高频场景深耕细作。点外卖、写点评、看公众号，这些看似简单的日常操作，背后其实涉及复杂的技术难题。能把这些场景做好，已经足够证明产品的价值。展望未来，我觉得AutoGLM的发展空间还很大。随着多模态理解能力的提升，支持场景会越来越丰富；随着操作精准度的提高，用户体验会越来越自然。它的出现，或许会改变我们与手机交互的方式，就像当年第一款智能手机改变了我们的生活一样。