Chat with Wiki - 什么是AI工具，什么是AI智能体

Answer

AI 工具通常指预先编写的代码组件，能够执行特定操作，例如网页浏览、代码解释和授权认证等，使语言模型能够与外部进行交互和执行复杂操作。

AI 智能体是拥有各项能力的“打工人”，能帮助我们做特定的事情。它包含自己的知识库、工作流，还可以调用外部工具，结合大模型的自然语言理解能力完成复杂工作。例如字节的扣子，作为新一代一站式 AI Bot 开发平台，无论用户是否具备编程基础，都能在该平台上迅速构建基于 AI 模型的各类问答 Bot。在算法驱动的数字人中，AI 智能体充当数字人的大脑，可接入大语言模型，拥有记忆模块等，使其更加真实。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 智能体：企业自动化的新架构 - Menlo Ventures

工具使用或函数调用通常被视为从RAG到主动行为的第一个半步,为现代人工智能栈增加了一个新的层。这些工具，本质上是预先编写的代码组件，执行特定的操作。流行的原语如网页浏览([Browserbase](https://www.browserbase.com/)、[Tiny Fish](https://www.tinyfish.io/))、代码解释([E2B](https://e2b.dev/))和授权+认证([Anon](https://www.anon.com/))已经出现。它们使LLMs能够导航网络、与外部软件(如CRM、ERP)交互并运行自定义代码。该系统向LLM呈现可用的工具,后者然后选择一个工具,构建必要的结构化JSON输入,并触发API执行以产生最终操作。Omni的[计算AI](https://omni.co/blog/introducing-calculations-ai)功能体现了这种方法。它利用LLM直接输出适当的Excel函数到电子表格中,然后执行计算并自动生成复杂查询供用户使用。就此而言,工具的使用是强大的,但仅凭自身并不能被视为"主动性"。逻辑控制流程仍然由应用程序预先定义。我们将在即将到来的设计中探索的真正智能体人,使LLMs能够动态地编写全部或部分自己的逻辑。

我用扣子做一个简单的智能体——竖起耳朵听

原文链接：https://developer.volcengine.com/articles/7386988670428905510作者:法医[heading2]爆火的AI Agent[content]AI Agent也就是我们所说的AI智能体，那什么是AI智能体呢？简单来说就是拥有各项能力的打工人来帮我们做特定的事情。目前有不少大厂推出自己的AI智能体平台，像字节的扣子，阿里的魔搭社区等等，体验过GPT或者文心一言大模型的小伙伴应该都知道，现在基本可以用自然语言来编程了，相当于降低了编程的门槛，另外之前在使用GPT或者文心一言大模型的时候会出现胡编乱造的情况以及时效性、无法满足个性化需求等问题，如果这些不解决的话，AI很难被真正广泛应用，而AI智能体的出现正是解决这些问题的绝佳方式，AI智能体包含了自己的知识库、工作流、还可以调用外部工具，再结合大模型的自然语言理解能力，就可以完成比较复杂的工作。所以AI智能体的出现就是结合自己的业务场景，针对自己的需求，捏出自己的AI智能体来解决自己的事情。[heading2]扣子Coze[content]📢扣子官网：[https://www.coze.cn/](https://www.coze.cn/)扣子（Coze），作为字节跳动旗下的新一代一站式AI Bot开发平台，无论用户是否具备编程基础，都能在该平台上迅速构建基于AI模型的各类问答Bot。这些Bot的功能涵盖了从解决简单问答到处理复杂逻辑对话的广泛范围。当我们开发完成后，还可以将自己构建的Bot发布到各种社交平台和通讯软件上，让更广泛的用户群体能够与这些Bot进行交互聊天。[heading2]竖起耳朵听的创建[content]我们可以通过简单3步创建智能体，首先我们要起一个智能体的名称，然后写一段智能体的简单介绍，最后使用AI创建一个头像即可。

AI 数字人-定义数字世界中的你

这类数字人强调自驱动，人为干预更少，技术实现上更加复杂，一个最简单的算法驱动的数字人大致流程如下：其中三个核心算法分别是：1.ASR(Automatic Speech Recognition，语音识别)：我们希望和数字人的交互跟人一样以对话为主，所以算法驱动的第一步就是语音识别，它能将用户的音频数据转化为文字，便于数字人理解和生成回应。2.AI Agent（人工智能体）：充当数字人的大脑，可以直接接入大语言模型，强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech，文字转语音）：数字人依靠LLM生成的输出是文字，为了保持语音交互一致性，需要将文字转换为语音，由数字人。