与知识库对话 - 国内优秀智能体案例

回答

以下是一些国内优秀智能体案例：

在车辆使用指南维度，多个大模型表现优异，达到 80 分以上，在操作指南、车辆故障诊断、维修保养等任务上具备较高交互成熟度。
在汽车场景中，部分 13 - 14B 中小模型超过云端闭源模型，展现出端侧模型满足用户需求的良好能力和巨大潜力。
在社交方向，有用户注册后先创建自己的智能体，让其与他人的智能体聊天，然后真人介入的有趣场景。
字节推出的“扣子”是用于开发下一代 AI 聊天机器人的构建平台。
国内存在如 Dify.AI 等智能体开发平台。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

2023年度中文大模型基准测评报告.pdf

部分大模型在技术和应用不同维度表现稍显不一致。车辆使用指南这一维度上，多个模型达到了80分以上的优异表现，说明在一些对用户有用的任务上（如操作指南、车辆故障诊断、维修保养）已经具备较高的交互成熟度。在智能座舱与交互这一维度上，仅有一个中文模型达到了良好表现，说明中文大模型在智能座舱与交互还有不少的进步空间。在汽车场景中，有一些13-14B中小模型也超过了云端的闭源模型，说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。专项基准：SuperCLUE-Agent中文智能体测评基准基准说明AI Agent智能体正在最大程度释放了LLM潜能，逐渐成为了通向AGI的技术共识。AI Agent是一个能够自主理解、规划决策和执行复杂任务的智能体。现有关于Agent能力的测评，主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评。国内外代表性模型SuperCLUE-Agent十大能力上的表现SuperCLUE-Agent是一个聚焦于Agent能力的多维度基准测试，包括3大核心能力、10大基础任务，可以用于评估大语言模型在核心Agent能力上的表现，包括工具使用、任务规划和长短期记忆能力。测评结果我们选取了国内外有代表性的16个闭源/开源的模型进行测评。通过测评结果发现，在Agent核心基础能力上，国内模型已经较为接近或部分超过GPT3.5水平。

XAIR：AI 智能体平台对决：腾讯元器与字节扣子的创新之路

1、什么是智能体？随着ChatGPT与AI概念的爆火，出现了很多新名词，“智能体Agent”还有bot和GPTs等，Kimi（月之暗面的大模型）的书面解释是：简单理解就是AI机器人小助手，参照移动互联网的话，类似APP应用的概念（我记得GPT刚出的时候，还有人把GPT应用称为GAP），AI大模型是一个技术，而面向用户提供服务的是产品，所以有很多公司开始关注AI应用层的产品机会。我知道的在做Agent创业的公司就有好几家：C端案例：比如社交方向，用户注册之后先捏一个自己的Agent，然后让自己的Agent和其他人的Agent聊天，两个Agent聊到一起后再真人介入，也是一个很有趣的场景；还有借Onlyfans入局打造个性化聊天的创业公司。B端案例：如果字节扣子和腾讯元器是面向普通人的低代码平台，类似APP时代的个人开发者，那还有一个机会就是帮助B端商家搭建Agent，类似APP时代专业做APP的。2、智能体开发平台我最早接触到扣子Coze，是一篇科技报道：国产GPTs商店来了。平替版GPTs商店，字节Coze扣子上线。2月1日，字节正式推出AI聊天机器人构建平台Coze的国内版“扣子”，主要用于开发下一代AI聊天机器人。后来发现国内也有很多智能体开发平台，如Dify.AI，但个人比较常用的还是扣子，所以本篇主要对比字节扣子和腾讯元器。3、为什么要关注智能体？

XAIR：AI 智能体平台对决：腾讯元器与字节扣子的创新之路