在 AI 领域中,Agent 是连接模型与应用的关键。端侧 Agents 是在终端设备上自主运行的智能代理程序,具备感知、决策、执行的闭环能力。
Agent 之所以重要,原因包括:端侧资源约束要求最优化使用,任务具有复杂性,生态存在多样性,双系统路线更适合端侧。
Agent 创造价值的方式体现在双重价值实现:一是资源优化,包括任务分解、按需调用;二是生态连接,比如跨应用协作、UI 理解。
其发展趋势包括:技术上从单一模型到多智能体协作;生态上从封闭应用到开放服务;交互上从指令执行到场景理解。
在技术层面,AI Agent 的发展出现了两条技术路线:一是以自主决策为核心的 LLM 控制流,二是以工作流(Workflow)编排为重点的工具集成系统。
特别值得关注的是 Anthropic 提出的 MCP(Model Context Protocol),它的本质是一个通用接口协议,试图解决让 AI 模型能够以标准化、可扩展的方式与外部世界交互的问题。
此外,还有 Agent Protocol 这种用于与 AI 代理进行通信的统一接口,它提供了一种 API 规范,任何代理开发者都可以实现该协议,设计简单且不依赖特定技术栈,有助于生态系统发展和简化集成,并提供了不同语言的 SDK 供开发者使用。
则提升效率→模态叠加本质洞见多源汇聚,融贯通达1.1.端侧模型不是"越小越好",而是"够用更好"、"好用最好"2.2.设备算力决定了最优模型规模,未来终端需求将呈多样化3.3.多模态能力是突破通用计算的关键,仍有强需求39端侧Agents在终端设备上自主运行的智能代理程序,具备感知、决策、执行的闭环能力。核心观察A:大模型发展有两种路线:单一系统(快思考)vs双系统结合(快+慢思考)B:端侧资源约束要求最优化使用C:Agent是连接模型与应用的关键逻辑链条1.1.为什么需要Agent?A+B⇒双系统路线更适合端侧•资源有限性•任务复杂性•生态多样性1.2.Agent如何创造价值?B+C⇒双重价值实现•资源优化:任务分解、按需调用•生态连接:跨应用协作、UI理解1.3.发展趋势:•技术:从单一模型到多智能体协作•生态:从封闭应用到开放服务•交互:从指令执行到场景理解本质洞见自主循环,智在边端1.1.Agent不是锦上添花,而是端侧AI的必需品2.2.Agent的作用远不止于目前,未来,平台竞争将围绕Agent能力展开
Long horizon task长期任务执行:就像一个称职的项目经理,Agent现在能够处理更复杂、跨度更长的任务。它不仅能够将大任务分解成可管理的小步骤,还能在执行过程中保持清晰的目标导向,适时调整策略。多模态理解:Agent不再局限于单一的交流方式。它能同时理解文字、图像、声音,就像人类一样通过多种感官来理解世界。这种全方位的感知能力让它能更好地理解环境和任务上下文。记忆与行动:通过先进的记忆机制,Agent能够像人类一样积累经验,从过去的交互中学习。它不仅能记住之前的对话,还能记住操作步骤和效果,这让它的行动更加精准和高效。自适应学习:最令人惊叹的是Agent的学习能力。它能够从每次交互中吸取经验,不断完善自己的策略。这种进步不是简单的数据积累,而是真正的“智慧成长”。在技术层面,AI Agent的发展出现了两条技术路线:一是以自主决策为核心的LLM控制流,二是以工作流(Workflow)编排为重点的工具集成系统。前者代表了AGI的探索方向,后者则加速了AI落地应用。特别值得关注的是Anthropic提出的MCP(Model Context Protocol),在其官网,Anthropic说2025年将是Agentic系统年。MCP的本质是一个通用接口协议,它试图解决一个根本性问题:如何让AI模型能够以一种标准化、可扩展的方式与外部世界交互。在传统方法中,每添加一个新工具或数据源,都需要重新设计接口和提示词。MCP则提供了一个统一的抽象层,将所有外部资源(工具、API、数据库等)抽象为“上下文提供者”(Context Providers),使得模型能够自然地使用各种工具和访问各类数据。用一个比喻来理解:想象一个刚来到陌生城市的人。他需要完成各种任务:找住处、办手续、买日用品。
ChatGPT和其他聊天机器人(如Bard、Claude)使LLMs进入了主流。因此,越来越多的非机器学习和自然语言处理领域的人们试图理解注意力和Transformer模型的概念。本文将回答一些问题,并试图提供有关Transformer架构的直观理解。预期读者是已经阅读过论文并对注意力机制的工作原理有基本理解的人。[heading2][运行我自己的LLM](https://nelsonslog.wordpress.com/2023[content]这篇内容总结了使用Simon Willison的llm工具在自己的计算机上安装和运行LLM的简单性。llm是一个前端驱动程序,可以用于各种LLM,并具有插件架构。通过llm,用户可以轻松安装插件、下载模型并进行关键管理。作者还提供了一些模型的输出示例,包括查询“法国的首都是什么”的结果。总的来说,Simon的llm工具非常方便实用,使得使用各种LLM变得容易。[heading2][为什么OpenAI的API对于非英语语言来说更昂贵](https://towardsdat[content]这篇文章讨论了字节对编码和Unicode编码如何影响定价差异,以及不同语言之间的标记化长度差异对OpenAI API成本的影响。研究发现,同一段文本在不同语言中的标记化长度可能相差很大,导致API成本相应增加。这个问题在研究领域中引起了关注,并提出了解决方案。[heading2][代理协议-用于与代理进行通信的单一通用接口](https://www.agentprotoco[content]这篇内容介绍了Agent Protocol(代理协议),它是一种用于与AI代理进行通信的统一接口。由于开发者们都在以自己的方式构建代理,因此不同代理之间的通信存在困难,也难以进行比较。Agent Protocol提供了一种API规范,任何代理开发者都可以实现该协议。该协议设计简单,并且不依赖于特定的技术栈,可以帮助生态系统快速发展并简化集成。同时,作者也提供了Python和JavaScript等不同语言的SDK供开发者使用。