以下是一些国内优秀智能体案例:
部分大模型在技术和应用不同维度表现稍显不一致。车辆使用指南这一维度上,多个模型达到了80分以上的优异表现,说明在一些对用户有用的任务上(如操作指南、车辆故障诊断、维修保养)已经具备较高的交互成熟度。在智能座舱与交互这一维度上,仅有一个中文模型达到了良好表现,说明中文大模型在智能座舱与交互还有不少的进步空间。在汽车场景中,有一些13-14B中小模型也超过了云端的闭源模型,说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。专项基准:SuperCLUE-Agent中文智能体测评基准基准说明AI Agent智能体正在最大程度释放了LLM潜能,逐渐成为了通向AGI的技术共识。AI Agent是一个能够自主理解、规划决策和执行复杂任务的智能体。现有关于Agent能力的测评,主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评。国内外代表性模型SuperCLUE-Agent十大能力上的表现SuperCLUE-Agent是一个聚焦于Agent能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。测评结果我们选取了国内外有代表性的16个闭源/开源的模型进行测评。通过测评结果发现,在Agent核心基础能力上,国内模型已经较为接近或部分超过GPT3.5水平。
1、什么是智能体?随着ChatGPT与AI概念的爆火,出现了很多新名词,“智能体Agent”还有bot和GPTs等,Kimi(月之暗面的大模型)的书面解释是:简单理解就是AI机器人小助手,参照移动互联网的话,类似APP应用的概念(我记得GPT刚出的时候,还有人把GPT应用称为GAP),AI大模型是一个技术,而面向用户提供服务的是产品,所以有很多公司开始关注AI应用层的产品机会。我知道的在做Agent创业的公司就有好几家:C端案例:比如社交方向,用户注册之后先捏一个自己的Agent,然后让自己的Agent和其他人的Agent聊天,两个Agent聊到一起后再真人介入,也是一个很有趣的场景;还有借Onlyfans入局打造个性化聊天的创业公司。B端案例:如果字节扣子和腾讯元器是面向普通人的低代码平台,类似APP时代的个人开发者,那还有一个机会就是帮助B端商家搭建Agent,类似APP时代专业做APP的。2、智能体开发平台我最早接触到扣子Coze,是一篇科技报道:国产GPTs商店来了。平替版GPTs商店,字节Coze扣子上线。2月1日,字节正式推出AI聊天机器人构建平台Coze的国内版“扣子”,主要用于开发下一代AI聊天机器人。后来发现国内也有很多智能体开发平台,如Dify.AI,但个人比较常用的还是扣子,所以本篇主要对比字节扣子和腾讯元器。3、为什么要关注智能体?
1、什么是智能体?随着ChatGPT与AI概念的爆火,出现了很多新名词,“智能体Agent”还有bot和GPTs等,Kimi(月之暗面的大模型)的书面解释是:简单理解就是AI机器人小助手,参照移动互联网的话,类似APP应用的概念(我记得GPT刚出的时候,还有人把GPT应用称为GAP),AI大模型是一个技术,而面向用户提供服务的是产品,所以有很多公司开始关注AI应用层的产品机会。我知道的在做Agent创业的公司就有好几家:C端案例:比如社交方向,用户注册之后先捏一个自己的Agent,然后让自己的Agent和其他人的Agent聊天,两个Agent聊到一起后再真人介入,也是一个很有趣的场景;还有借Onlyfans入局打造个性化聊天的创业公司。B端案例:如果字节扣子和腾讯元器是面向普通人的低代码平台,类似APP时代的个人开发者,那还有一个机会就是帮助B端商家搭建Agent,类似APP时代专业做APP的。2、智能体开发平台我最早接触到扣子Coze,是一篇科技报道:国产GPTs商店来了。平替版GPTs商店,字节Coze扣子上线。2月1日,字节正式推出AI聊天机器人构建平台Coze的国内版“扣子”,主要用于开发下一代AI聊天机器人。后来发现国内也有很多智能体开发平台,如Dify.AI,但个人比较常用的还是扣子,所以本篇主要对比字节扣子和腾讯元器。3、为什么要关注智能体?