AI 工具通常指预先编写的代码组件,能够执行特定操作,例如网页浏览、代码解释和授权认证等,使语言模型能够与外部进行交互和执行复杂操作。
AI 智能体是拥有各项能力的“打工人”,能帮助我们做特定的事情。它包含自己的知识库、工作流,还可以调用外部工具,结合大模型的自然语言理解能力完成复杂工作。例如字节的扣子,作为新一代一站式 AI Bot 开发平台,无论用户是否具备编程基础,都能在该平台上迅速构建基于 AI 模型的各类问答 Bot。在算法驱动的数字人中,AI 智能体充当数字人的大脑,可接入大语言模型,拥有记忆模块等,使其更加真实。
工具使用或函数调用通常被视为从RAG到主动行为的第一个半步,为现代人工智能栈增加了一个新的层。这些工具,本质上是预先编写的代码组件,执行特定的操作。流行的原语如网页浏览([Browserbase](https://www.browserbase.com/)、[Tiny Fish](https://www.tinyfish.io/))、代码解释([E2B](https://e2b.dev/))和授权+认证([Anon](https://www.anon.com/))已经出现。它们使LLMs能够导航网络、与外部软件(如CRM、ERP)交互并运行自定义代码。该系统向LLM呈现可用的工具,后者然后选择一个工具,构建必要的结构化JSON输入,并触发API执行以产生最终操作。Omni的[计算AI](https://omni.co/blog/introducing-calculations-ai)功能体现了这种方法。它利用LLM直接输出适当的Excel函数到电子表格中,然后执行计算并自动生成复杂查询供用户使用。就此而言,工具的使用是强大的,但仅凭自身并不能被视为"主动性"。逻辑控制流程仍然由应用程序预先定义。我们将在即将到来的设计中探索的真正智能体人,使LLMs能够动态地编写全部或部分自己的逻辑。
原文链接:https://developer.volcengine.com/articles/7386988670428905510作者:法医[heading2]爆火的AI Agent[content]AI Agent也就是我们所说的AI智能体,那什么是AI智能体呢?简单来说就是拥有各项能力的打工人来帮我们做特定的事情。目前有不少大厂推出自己的AI智能体平台,像字节的扣子,阿里的魔搭社区等等,体验过GPT或者文心一言大模型的小伙伴应该都知道,现在基本可以用自然语言来编程了,相当于降低了编程的门槛,另外之前在使用GPT或者文心一言大模型的时候会出现胡编乱造的情况以及时效性、无法满足个性化需求等问题,如果这些不解决的话,AI很难被真正广泛应用,而AI智能体的出现正是解决这些问题的绝佳方式,AI智能体包含了自己的知识库、工作流、还可以调用外部工具,再结合大模型的自然语言理解能力,就可以完成比较复杂的工作。所以AI智能体的出现就是结合自己的业务场景,针对自己的需求,捏出自己的AI智能体来解决自己的事情。[heading2]扣子Coze[content]📢扣子官网:[https://www.coze.cn/](https://www.coze.cn/)扣子(Coze),作为字节跳动旗下的新一代一站式AI Bot开发平台,无论用户是否具备编程基础,都能在该平台上迅速构建基于AI模型的各类问答Bot。这些Bot的功能涵盖了从解决简单问答到处理复杂逻辑对话的广泛范围。当我们开发完成后,还可以将自己构建的Bot发布到各种社交平台和通讯软件上,让更广泛的用户群体能够与这些Bot进行交互聊天。[heading2]竖起耳朵听的创建[content]我们可以通过简单3步创建智能体,首先我们要起一个智能体的名称,然后写一段智能体的简单介绍,最后使用AI创建一个头像即可。
这类数字人强调自驱动,人为干预更少,技术实现上更加复杂,一个最简单的算法驱动的数字人大致流程如下:其中三个核心算法分别是:1.ASR(Automatic Speech Recognition,语音识别):我们希望和数字人的交互跟人一样以对话为主,所以算法驱动的第一步就是语音识别,它能将用户的音频数据转化为文字,便于数字人理解和生成回应。2.AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech,文字转语音):数字人依靠LLM生成的输出是文字,为了保持语音交互一致性,需要将文字转换为语音,由数字人。